You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
localizeflow[bot] b985ee1af0
chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)
2 weeks ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 weeks ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 weeks ago
notebook.ipynb chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 weeks ago

README.md

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം

 Sketchnote by (@sketchthedocs)
ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം - Sketchnote by @nitya

പ്രീ-ലെക്ചർ ക്വിസ്

ഇപ്പോൾ നിങ്ങൾക്ക് ഡാറ്റാ സയൻസ് ഒരു പ്രക്രിയയാണ് എന്ന് മനസ്സിലായിരിക്കാം. ഈ പ്രക്രിയ 5 ഘട്ടങ്ങളായി വിഭജിക്കാം:

  • പിടിച്ചെടുക്കൽ
  • പ്രോസസ്സിംഗ്
  • വിശകലനം
  • ആശയവിനിമയം
  • പരിപാലനം

ഈ പാഠം ലൈഫ്‌സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു.

Diagram of the data science lifecycle

ഫോട്ടോ: ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ

പിടിച്ചെടുക്കൽ

ലൈഫ്‌സൈക്കിളിന്റെ ആദ്യ ഘട്ടം വളരെ പ്രധാനമാണ്, കാരണം അടുത്ത ഘട്ടങ്ങൾ ഇതിൽ ആശ്രയിച്ചിരിക്കുന്നു. ഇത് പ്രായോഗികമായി രണ്ട് ഘട്ടങ്ങൾ ഒന്നിച്ച് ചേർന്നതാണ്: ഡാറ്റാ സമാഹരണം, ഉദ്ദേശ്യവും പരിഹരിക്കേണ്ട പ്രശ്നങ്ങളും നിർവചിക്കൽ.
പ്രോജക്ടിന്റെ ലക്ഷ്യങ്ങൾ നിർവചിക്കാൻ പ്രശ്നം അല്ലെങ്കിൽ ചോദ്യത്തെക്കുറിച്ചുള്ള കൂടുതൽ പശ്ചാത്തലം ആവശ്യമുണ്ട്. ആദ്യം, പ്രശ്നം പരിഹരിക്കേണ്ടവരെ തിരിച്ചറിയുകയും സമാഹരിക്കുകയും ചെയ്യണം. ഇവ ബിസിനസിലെ സ്റ്റേക്ക്‌ഹോൾഡർമാരോ പ്രോജക്ടിന്റെ സ്പോൺസർമാരോ ആയിരിക്കാം, അവർക്ക് ഈ പ്രോജക്ടിൽ നിന്നു ആരോ എന്തോ പ്രയോജനം ലഭിക്കുമെന്ന് തിരിച്ചറിയാൻ സഹായിക്കും, കൂടാതെ എന്ത്, എന്തുകൊണ്ട് അതു ആവശ്യമാണ് എന്നും. നന്നായി നിർവചിച്ച ലക്ഷ്യം അളക്കാവുന്നതും കണക്കാക്കാവുന്നതുമായിരിക്കണം, അംഗീകരിക്കാവുന്ന ഫലം നിർവചിക്കാൻ.

ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:

  • ഈ പ്രശ്നം മുമ്പ് സമീപിച്ചിട്ടുണ്ടോ? എന്താണ് കണ്ടെത്തിയത്?
  • പങ്കാളികളിൽ എല്ലാവർക്കും ഉദ്ദേശ്യവും ലക്ഷ്യവും മനസ്സിലായിട്ടുണ്ടോ?
  • സംശയം ഉണ്ടോ, അത് കുറയ്ക്കാൻ എങ്ങനെ?
  • നിയന്ത്രണങ്ങൾ എന്തെല്ലാം?
  • അവസാനം ഫലം എങ്ങനെ കാണപ്പെടും?
  • എത്ര വിഭവങ്ങൾ (സമയം, ആളുകൾ, കംപ്യൂട്ടേഷൻ) ലഭ്യമാണ്?

അടുത്തത് നിർവചിച്ച ലക്ഷ്യങ്ങൾ നേടാൻ ആവശ്യമായ ഡാറ്റ തിരിച്ചറിയൽ, ശേഖരണം, പിന്നീട് പരിശോധിക്കൽ. സമാഹരണ ഘട്ടത്തിൽ, ഡാറ്റാ സയന്റിസ്റ്റുകൾ ഡാറ്റയുടെ അളവും ഗുണനിലവാരവും വിലയിരുത്തണം. ഇത് ആവശ്യമായ ഫലം നേടാൻ സഹായിക്കുന്ന ഡാറ്റ സമാഹരിച്ചതാണെന്ന് സ്ഥിരീകരിക്കാൻ ഡാറ്റാ എക്സ്പ്ലോറേഷൻ ആവശ്യമാണ്.

ഡാറ്റയെക്കുറിച്ച് ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:

  • എനിക്ക് ഇതിനകം ലഭ്യമായ ഡാറ്റ എന്തെല്ലാം?
  • ഈ ഡാറ്റയുടെ ഉടമ ആരാണ്?
  • സ്വകാര്യത സംബന്ധിച്ച ആശങ്കകൾ എന്തെല്ലാം?
  • ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
  • ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണനിലവാരം അംഗീകരിക്കാവുന്നതാണോ?
  • ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റം വരുത്തണോ?

പ്രോസസ്സിംഗ്

ലൈഫ്‌സൈക്കിളിന്റെ പ്രോസസ്സിംഗ് ഘട്ടം ഡാറ്റയിൽ പാറ്റേണുകൾ കണ്ടെത്തലും മോഡലിംഗ് ചെയ്യലും ആണ്. ഈ ഘട്ടത്തിൽ ചില സാങ്കേതിക വിദ്യകൾ പാറ്റേണുകൾ കണ്ടെത്താൻ സാംഖ്യിക രീതികൾ ഉപയോഗിക്കുന്നു. സാധാരണയായി വലിയ ഡാറ്റാ സെറ്റിൽ മനുഷ്യൻക്ക് ഇത് ബുദ്ധിമുട്ടുള്ള ജോലി ആയിരിക്കും, അതിനാൽ കംപ്യൂട്ടറുകൾ പ്രക്രിയ വേഗത്തിലാക്കാൻ സഹായിക്കും. ഈ ഘട്ടത്തിലാണ് ഡാറ്റാ സയൻസ്, മെഷീൻ ലേണിംഗ് തമ്മിൽ മുട്ടിച്ചേരുന്നത്. ആദ്യ പാഠത്തിൽ പഠിച്ചതുപോലെ, മെഷീൻ ലേണിംഗ് ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾ നിർമ്മിക്കുന്ന പ്രക്രിയയാണ്. മോഡലുകൾ ഡാറ്റയിലെ വ്യത്യസ്ത വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിച്ച് ഫലങ്ങൾ പ്രവചിക്കാൻ സഹായിക്കുന്നു.

ഈ ഘട്ടത്തിൽ ഉപയോഗിക്കുന്ന സാധാരണ സാങ്കേതിക വിദ്യകൾ ML for Beginners പാഠ്യപദ്ധതിയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. അവയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ താഴെയുള്ള ലിങ്കുകൾ പിന്തുടരുക:

  • ക്ലാസിഫിക്കേഷൻ: ഡാറ്റയെ വർഗ്ഗങ്ങളായി ക്രമീകരിച്ച് കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിക്കുക.
  • ക്ലസ്റ്ററിംഗ്: സമാനമായ ഗ്രൂപ്പുകളായി ഡാറ്റ കൂട്ടിച്ചേർക്കുക.
  • റെഗ്രഷൻ: മൂല്യങ്ങൾ പ്രവചിക്കാൻ വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം കണ്ടെത്തുക.

പരിപാലനം

ലൈഫ്‌സൈക്കിൾ ഡയഗ്രാമിൽ, പരിപാലനം പിടിച്ചെടുക്കലിനും പ്രോസസ്സിംഗിനും ഇടയിൽ കാണാം. പരിപാലനം ഒരു പ്രോജക്ടിന്റെ മുഴുവൻ കാലയളവിലും ഡാറ്റ മാനേജ്മെന്റ്, സംഭരണം, സുരക്ഷ എന്നിവയുടെ തുടർച്ചയായ പ്രക്രിയയാണ്.

ഡാറ്റ സംഭരണം

ഡാറ്റ എങ്ങനെ എവിടെ സംഭരിക്കപ്പെടുന്നു എന്നത് സംഭരണ ചെലവും ഡാറ്റ എത്ര വേഗത്തിൽ ആക്‌സസ് ചെയ്യാമെന്നതും ബാധിക്കുന്നു. ഈ വിധത്തിലുള്ള തീരുമാനങ്ങൾ സാധാരണയായി ഡാറ്റാ സയന്റിസ്റ്റ് മാത്രം എടുക്കാറില്ല, പക്ഷേ ഡാറ്റ എങ്ങനെ സംഭരിച്ചിരിക്കുന്നു എന്നതിനെ അടിസ്ഥാനമാക്കി ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ അവർ തീരുമാനങ്ങൾ എടുക്കേണ്ടി വരാം.

ഇവിടെ ആധുനിക ഡാറ്റ സംഭരണ സംവിധാനങ്ങളുടെ ചില ഘടകങ്ങൾ ഉണ്ട്, ഇവ ഈ തീരുമാനങ്ങളെ ബാധിക്കാം:

ഓൺ പ്രെമൈസ് vs ഓഫ് പ്രെമൈസ് vs പബ്ലിക് അല്ലെങ്കിൽ പ്രൈവറ്റ് ക്ലൗഡ്

ഓൺ പ്രെമൈസ് എന്നത് നിങ്ങളുടെ സ്വന്തം ഉപകരണങ്ങളിൽ ഡാറ്റ ഹോസ്റ്റ് ചെയ്ത് മാനേജുചെയ്യുന്നതാണ്, ഉദാഹരണത്തിന് ഹാർഡ് ഡ്രൈവ് ഉള്ള സെർവർ. ഓഫ് പ്രെമൈസ് എന്നാൽ നിങ്ങൾക്ക് സ്വന്തമല്ലാത്ത ഉപകരണങ്ങളിൽ ആശ്രയിച്ചിരിക്കുന്നു, ഉദാഹരണത്തിന് ഡാറ്റ സെന്റർ. പബ്ലിക് ക്ലൗഡ് ഡാറ്റ എവിടെ എങ്ങനെ സംഭരിക്കപ്പെടുന്നു എന്നറിയാതെ ഡാറ്റ സംഭരിക്കാൻ ജനപ്രിയമായ ഒരു തിരഞ്ഞെടുപ്പാണ്, ഇവിടെ പബ്ലിക് എന്നത് ക്ലൗഡ് ഉപയോഗിക്കുന്ന എല്ലാവർക്കും പങ്കുവെക്കുന്ന ഏകീകൃത അടിസ്ഥാന ഘടനയെ സൂചിപ്പിക്കുന്നു. ചില സംഘടനകൾക്ക് കർശനമായ സുരക്ഷാ നയങ്ങൾ ഉണ്ട്, അവയ്ക്ക് ഡാറ്റ ഹോസ്റ്റ് ചെയ്യുന്ന ഉപകരണങ്ങളിൽ പൂർണ്ണ ആക്‌സസ് വേണം, അതിനാൽ അവർ സ്വന്തം ക്ലൗഡ് സേവനങ്ങൾ നൽകുന്ന പ്രൈവറ്റ് ക്ലൗഡിൽ ആശ്രയിക്കുന്നു. ക്ലൗഡിലെ ഡാറ്റയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ പിന്നീട് പാഠങ്ങൾ കാണുക.

കൂൾ vs ഹോട്ട് ഡാറ്റ

മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ കൂടുതൽ പരിശീലന ഡാറ്റ ആവശ്യമാകാം. മോഡലിൽ തൃപ്തിയുണ്ടെങ്കിൽ, കൂടുതൽ ഡാറ്റ മോഡലിന്റെ ലക്ഷ്യം നിറവേറ്റാൻ എത്തും. എങ്കിലും, ഡാറ്റ സംഭരിക്കുന്നതും ആക്‌സസ് ചെയ്യുന്നതും ചെലവ് കൂടും. അപൂർവമായി ഉപയോഗിക്കുന്ന ഡാറ്റ (കൂൾ ഡാറ്റ) സ്ഥിരമായി ആക്‌സസ് ചെയ്യുന്ന ഡാറ്റ (ഹോട്ട് ഡാറ്റ) മുതൽ വേർതിരിക്കുന്നത് ഹാർഡ്‌വെയർ അല്ലെങ്കിൽ സോഫ്റ്റ്‌വെയർ സേവനങ്ങളിലൂടെ ചെലവുകുറഞ്ഞ ഡാറ്റ സംഭരണ ഓപ്ഷൻ ആകാം. കൂൾ ഡാറ്റ ആക്‌സസ് ചെയ്യേണ്ടിവന്നാൽ, ഹോട്ട് ഡാറ്റയേക്കാൾ കുറച്ച് കൂടുതൽ സമയം എടുക്കാം.

ഡാറ്റ മാനേജ്മെന്റ്

ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, ഡാറ്റാ പ്രിപറേഷൻ പാഠത്തിൽ ഉൾപ്പെടുത്തിയ ചില സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് ഡാറ്റ ശുദ്ധമാക്കേണ്ടതുണ്ടെന്ന് കണ്ടെത്താം, ഇത് കൃത്യമായ മോഡലുകൾ നിർമ്മിക്കാൻ സഹായിക്കും. പുതിയ ഡാറ്റ എത്തുമ്പോൾ, ഗുണനിലവാരം നിലനിർത്താൻ സമാനമായ പ്രയോഗങ്ങൾ ആവശ്യമാകും. ചില പ്രോജക്ടുകൾ ഡാറ്റ അന്തിമ സ്ഥലത്തേക്ക് മാറ്റുന്നതിന് മുമ്പ് ശുദ്ധീകരണം, സംഗ്രഹണം, കംപ്രഷൻ എന്നിവയ്ക്ക് ഓട്ടോമേറ്റഡ് ടൂൾ ഉപയോഗിക്കും. Azure Data Factory ഇതിന്റെ ഉദാഹരണമാണ്.

ഡാറ്റ സുരക്ഷ

ഡാറ്റ സുരക്ഷയുടെ പ്രധാന ലക്ഷ്യങ്ങളിൽ ഒന്നാണ് ഡാറ്റ കൈകാര്യം ചെയ്യുന്നവർ എന്ത് ശേഖരിക്കുന്നു, ഏത് സാഹചര്യത്തിൽ ഉപയോഗിക്കുന്നു എന്നിവ നിയന്ത്രണത്തിൽ വയ്ക്കുക. ഡാറ്റ സുരക്ഷിതമാക്കുന്നത് ആക്‌സസ് അവശ്യമായവർക്കു മാത്രം പരിമിതപ്പെടുത്തുക, പ്രാദേശിക നിയമങ്ങളും നയങ്ങളും പാലിക്കുക, നൈതികതാ പാഠത്തിൽ ഉൾപ്പെടുത്തിയതുപോലെ നൈതിക മാനദണ്ഡങ്ങൾ പാലിക്കുക എന്നിവ ഉൾപ്പെടുന്നു.

സുരക്ഷയെക്കുറിച്ച് ഒരു ടീം ചെയ്യാവുന്ന ചില കാര്യങ്ങൾ:

  • എല്ലാ ഡാറ്റയും എൻക്രിപ്റ്റ് ചെയ്തിട്ടുണ്ടെന്ന് സ്ഥിരീകരിക്കുക
  • ഉപഭോക്താക്കൾക്ക് അവരുടെ ഡാറ്റ എങ്ങനെ ഉപയോഗിക്കുന്നു എന്ന വിവരം നൽകുക
  • പ്രോജക്ട് വിട്ടുപോയവരുടെ ഡാറ്റ ആക്‌സസ് നീക്കംചെയ്യുക
  • ചില പ്രോജക്ട് അംഗങ്ങൾക്കു മാത്രമേ ഡാറ്റ മാറ്റാൻ അനുവാദം നൽകൂ

🚀 ചലഞ്ച്

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ പല പതിപ്പുകൾ ഉണ്ട്, ഓരോ ഘട്ടത്തിനും വ്യത്യസ്ത പേരുകളും ഘട്ടങ്ങളുടെ എണ്ണം വ്യത്യസ്തമായിരിക്കാം, പക്ഷേ ഈ പാഠത്തിൽ പരാമർശിച്ച പ്രക്രിയകൾ എല്ലാം ഉൾക്കൊള്ളും.

ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് ലൈഫ്‌സൈക്കിൾയും ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ്യും പരിശോധിച്ച്, അവയുടെ 3 സാമ്യമുകളും വ്യത്യാസങ്ങളും പറയുക.

ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP) ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)
Team Data Science Lifecycle Data Science Process Alliance Image
ചിത്രം: Microsoft ചിത്രം: Data Science Process Alliance

പോസ്റ്റ്-ലെക്ചർ ക്വിസ്

അവലോകനം & സ്വയം പഠനം

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പ്രയോഗിക്കുന്നത് പല വേഷങ്ങളും ജോലികളും ഉൾക്കൊള്ളുന്നു, ചിലർ ഓരോ ഘട്ടത്തിന്റെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കും. ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് പ്രോജക്ടിൽ ഒരാൾക്കുണ്ടാകാവുന്ന വേഷങ്ങളും ജോലികളും വിശദീകരിക്കുന്ന ചില വിഭവങ്ങൾ നൽകുന്നു.

അസൈൻമെന്റ്

ഡാറ്റാസെറ്റ് വിലയിരുത്തൽ


അസൂയാപത്രം:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.