# ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം |![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/14-DataScience-Lifecycle.png)| |:---:| | ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | ## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/26) ഇപ്പോൾ നിങ്ങൾക്ക് ഡാറ്റാ സയൻസ് ഒരു പ്രക്രിയയാണ് എന്ന് മനസ്സിലായിരിക്കാം. ഈ പ്രക്രിയ 5 ഘട്ടങ്ങളായി വിഭജിക്കാം: - പിടിച്ചെടുക്കൽ - പ്രോസസ്സിംഗ് - വിശകലനം - ആശയവിനിമയം - പരിപാലനം ഈ പാഠം ലൈഫ്‌സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു. ![Diagram of the data science lifecycle](../../../../translated_images/ml/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg) > ഫോട്ടോ: [ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) ## പിടിച്ചെടുക്കൽ ലൈഫ്‌സൈക്കിളിന്റെ ആദ്യ ഘട്ടം വളരെ പ്രധാനമാണ്, കാരണം അടുത്ത ഘട്ടങ്ങൾ ഇതിൽ ആശ്രയിച്ചിരിക്കുന്നു. ഇത് പ്രായോഗികമായി രണ്ട് ഘട്ടങ്ങൾ ഒന്നിച്ച് ചേർന്നതാണ്: ഡാറ്റാ സമാഹരണം, ഉദ്ദേശ്യവും പരിഹരിക്കേണ്ട പ്രശ്നങ്ങളും നിർവചിക്കൽ. പ്രോജക്ടിന്റെ ലക്ഷ്യങ്ങൾ നിർവചിക്കാൻ പ്രശ്നം അല്ലെങ്കിൽ ചോദ്യത്തെക്കുറിച്ചുള്ള കൂടുതൽ പശ്ചാത്തലം ആവശ്യമുണ്ട്. ആദ്യം, പ്രശ്നം പരിഹരിക്കേണ്ടവരെ തിരിച്ചറിയുകയും സമാഹരിക്കുകയും ചെയ്യണം. ഇവ ബിസിനസിലെ സ്റ്റേക്ക്‌ഹോൾഡർമാരോ പ്രോജക്ടിന്റെ സ്പോൺസർമാരോ ആയിരിക്കാം, അവർക്ക് ഈ പ്രോജക്ടിൽ നിന്നു ആരോ എന്തോ പ്രയോജനം ലഭിക്കുമെന്ന് തിരിച്ചറിയാൻ സഹായിക്കും, കൂടാതെ എന്ത്, എന്തുകൊണ്ട് അതു ആവശ്യമാണ് എന്നും. നന്നായി നിർവചിച്ച ലക്ഷ്യം അളക്കാവുന്നതും കണക്കാക്കാവുന്നതുമായിരിക്കണം, അംഗീകരിക്കാവുന്ന ഫലം നിർവചിക്കാൻ. ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ: - ഈ പ്രശ്നം മുമ്പ് സമീപിച്ചിട്ടുണ്ടോ? എന്താണ് കണ്ടെത്തിയത്? - പങ്കാളികളിൽ എല്ലാവർക്കും ഉദ്ദേശ്യവും ലക്ഷ്യവും മനസ്സിലായിട്ടുണ്ടോ? - സംശയം ഉണ്ടോ, അത് കുറയ്ക്കാൻ എങ്ങനെ? - നിയന്ത്രണങ്ങൾ എന്തെല്ലാം? - അവസാനം ഫലം എങ്ങനെ കാണപ്പെടും? - എത്ര വിഭവങ്ങൾ (സമയം, ആളുകൾ, കംപ്യൂട്ടേഷൻ) ലഭ്യമാണ്? അടുത്തത് നിർവചിച്ച ലക്ഷ്യങ്ങൾ നേടാൻ ആവശ്യമായ ഡാറ്റ തിരിച്ചറിയൽ, ശേഖരണം, പിന്നീട് പരിശോധിക്കൽ. സമാഹരണ ഘട്ടത്തിൽ, ഡാറ്റാ സയന്റിസ്റ്റുകൾ ഡാറ്റയുടെ അളവും ഗുണനിലവാരവും വിലയിരുത്തണം. ഇത് ആവശ്യമായ ഫലം നേടാൻ സഹായിക്കുന്ന ഡാറ്റ സമാഹരിച്ചതാണെന്ന് സ്ഥിരീകരിക്കാൻ ഡാറ്റാ എക്സ്പ്ലോറേഷൻ ആവശ്യമാണ്. ഡാറ്റയെക്കുറിച്ച് ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ: - എനിക്ക് ഇതിനകം ലഭ്യമായ ഡാറ്റ എന്തെല്ലാം? - ഈ ഡാറ്റയുടെ ഉടമ ആരാണ്? - സ്വകാര്യത സംബന്ധിച്ച ആശങ്കകൾ എന്തെല്ലാം? - ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ? - ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണനിലവാരം അംഗീകരിക്കാവുന്നതാണോ? - ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റം വരുത്തണോ? ## പ്രോസസ്സിംഗ് ലൈഫ്‌സൈക്കിളിന്റെ പ്രോസസ്സിംഗ് ഘട്ടം ഡാറ്റയിൽ പാറ്റേണുകൾ കണ്ടെത്തലും മോഡലിംഗ് ചെയ്യലും ആണ്. ഈ ഘട്ടത്തിൽ ചില സാങ്കേതിക വിദ്യകൾ പാറ്റേണുകൾ കണ്ടെത്താൻ സാംഖ്യിക രീതികൾ ഉപയോഗിക്കുന്നു. സാധാരണയായി വലിയ ഡാറ്റാ സെറ്റിൽ മനുഷ്യൻക്ക് ഇത് ബുദ്ധിമുട്ടുള്ള ജോലി ആയിരിക്കും, അതിനാൽ കംപ്യൂട്ടറുകൾ പ്രക്രിയ വേഗത്തിലാക്കാൻ സഹായിക്കും. ഈ ഘട്ടത്തിലാണ് ഡാറ്റാ സയൻസ്, മെഷീൻ ലേണിംഗ് തമ്മിൽ മുട്ടിച്ചേരുന്നത്. ആദ്യ പാഠത്തിൽ പഠിച്ചതുപോലെ, മെഷീൻ ലേണിംഗ് ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾ നിർമ്മിക്കുന്ന പ്രക്രിയയാണ്. മോഡലുകൾ ഡാറ്റയിലെ വ്യത്യസ്ത വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിച്ച് ഫലങ്ങൾ പ്രവചിക്കാൻ സഹായിക്കുന്നു. ഈ ഘട്ടത്തിൽ ഉപയോഗിക്കുന്ന സാധാരണ സാങ്കേതിക വിദ്യകൾ ML for Beginners പാഠ്യപദ്ധതിയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. അവയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ താഴെയുള്ള ലിങ്കുകൾ പിന്തുടരുക: - [ക്ലാസിഫിക്കേഷൻ](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): ഡാറ്റയെ വർഗ്ഗങ്ങളായി ക്രമീകരിച്ച് കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിക്കുക. - [ക്ലസ്റ്ററിംഗ്](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): സമാനമായ ഗ്രൂപ്പുകളായി ഡാറ്റ കൂട്ടിച്ചേർക്കുക. - [റെഗ്രഷൻ](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): മൂല്യങ്ങൾ പ്രവചിക്കാൻ വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം കണ്ടെത്തുക. ## പരിപാലനം ലൈഫ്‌സൈക്കിൾ ഡയഗ്രാമിൽ, പരിപാലനം പിടിച്ചെടുക്കലിനും പ്രോസസ്സിംഗിനും ഇടയിൽ കാണാം. പരിപാലനം ഒരു പ്രോജക്ടിന്റെ മുഴുവൻ കാലയളവിലും ഡാറ്റ മാനേജ്മെന്റ്, സംഭരണം, സുരക്ഷ എന്നിവയുടെ തുടർച്ചയായ പ്രക്രിയയാണ്. ### ഡാറ്റ സംഭരണം ഡാറ്റ എങ്ങനെ എവിടെ സംഭരിക്കപ്പെടുന്നു എന്നത് സംഭരണ ചെലവും ഡാറ്റ എത്ര വേഗത്തിൽ ആക്‌സസ് ചെയ്യാമെന്നതും ബാധിക്കുന്നു. ഈ വിധത്തിലുള്ള തീരുമാനങ്ങൾ സാധാരണയായി ഡാറ്റാ സയന്റിസ്റ്റ് മാത്രം എടുക്കാറില്ല, പക്ഷേ ഡാറ്റ എങ്ങനെ സംഭരിച്ചിരിക്കുന്നു എന്നതിനെ അടിസ്ഥാനമാക്കി ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ അവർ തീരുമാനങ്ങൾ എടുക്കേണ്ടി വരാം. ഇവിടെ ആധുനിക ഡാറ്റ സംഭരണ സംവിധാനങ്ങളുടെ ചില ഘടകങ്ങൾ ഉണ്ട്, ഇവ ഈ തീരുമാനങ്ങളെ ബാധിക്കാം: **ഓൺ പ്രെമൈസ് vs ഓഫ് പ്രെമൈസ് vs പബ്ലിക് അല്ലെങ്കിൽ പ്രൈവറ്റ് ക്ലൗഡ്** ഓൺ പ്രെമൈസ് എന്നത് നിങ്ങളുടെ സ്വന്തം ഉപകരണങ്ങളിൽ ഡാറ്റ ഹോസ്റ്റ് ചെയ്ത് മാനേജുചെയ്യുന്നതാണ്, ഉദാഹരണത്തിന് ഹാർഡ് ഡ്രൈവ് ഉള്ള സെർവർ. ഓഫ് പ്രെമൈസ് എന്നാൽ നിങ്ങൾക്ക് സ്വന്തമല്ലാത്ത ഉപകരണങ്ങളിൽ ആശ്രയിച്ചിരിക്കുന്നു, ഉദാഹരണത്തിന് ഡാറ്റ സെന്റർ. പബ്ലിക് ക്ലൗഡ് ഡാറ്റ എവിടെ എങ്ങനെ സംഭരിക്കപ്പെടുന്നു എന്നറിയാതെ ഡാറ്റ സംഭരിക്കാൻ ജനപ്രിയമായ ഒരു തിരഞ്ഞെടുപ്പാണ്, ഇവിടെ പബ്ലിക് എന്നത് ക്ലൗഡ് ഉപയോഗിക്കുന്ന എല്ലാവർക്കും പങ്കുവെക്കുന്ന ഏകീകൃത അടിസ്ഥാന ഘടനയെ സൂചിപ്പിക്കുന്നു. ചില സംഘടനകൾക്ക് കർശനമായ സുരക്ഷാ നയങ്ങൾ ഉണ്ട്, അവയ്ക്ക് ഡാറ്റ ഹോസ്റ്റ് ചെയ്യുന്ന ഉപകരണങ്ങളിൽ പൂർണ്ണ ആക്‌സസ് വേണം, അതിനാൽ അവർ സ്വന്തം ക്ലൗഡ് സേവനങ്ങൾ നൽകുന്ന പ്രൈവറ്റ് ക്ലൗഡിൽ ആശ്രയിക്കുന്നു. ക്ലൗഡിലെ ഡാറ്റയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ [പിന്നീട് പാഠങ്ങൾ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud) കാണുക. **കൂൾ vs ഹോട്ട് ഡാറ്റ** മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ കൂടുതൽ പരിശീലന ഡാറ്റ ആവശ്യമാകാം. മോഡലിൽ തൃപ്തിയുണ്ടെങ്കിൽ, കൂടുതൽ ഡാറ്റ മോഡലിന്റെ ലക്ഷ്യം നിറവേറ്റാൻ എത്തും. എങ്കിലും, ഡാറ്റ സംഭരിക്കുന്നതും ആക്‌സസ് ചെയ്യുന്നതും ചെലവ് കൂടും. അപൂർവമായി ഉപയോഗിക്കുന്ന ഡാറ്റ (കൂൾ ഡാറ്റ) സ്ഥിരമായി ആക്‌സസ് ചെയ്യുന്ന ഡാറ്റ (ഹോട്ട് ഡാറ്റ) മുതൽ വേർതിരിക്കുന്നത് ഹാർഡ്‌വെയർ അല്ലെങ്കിൽ സോഫ്റ്റ്‌വെയർ സേവനങ്ങളിലൂടെ ചെലവുകുറഞ്ഞ ഡാറ്റ സംഭരണ ഓപ്ഷൻ ആകാം. കൂൾ ഡാറ്റ ആക്‌സസ് ചെയ്യേണ്ടിവന്നാൽ, ഹോട്ട് ഡാറ്റയേക്കാൾ കുറച്ച് കൂടുതൽ സമയം എടുക്കാം. ### ഡാറ്റ മാനേജ്മെന്റ് ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, [ഡാറ്റാ പ്രിപറേഷൻ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) പാഠത്തിൽ ഉൾപ്പെടുത്തിയ ചില സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് ഡാറ്റ ശുദ്ധമാക്കേണ്ടതുണ്ടെന്ന് കണ്ടെത്താം, ഇത് കൃത്യമായ മോഡലുകൾ നിർമ്മിക്കാൻ സഹായിക്കും. പുതിയ ഡാറ്റ എത്തുമ്പോൾ, ഗുണനിലവാരം നിലനിർത്താൻ സമാനമായ പ്രയോഗങ്ങൾ ആവശ്യമാകും. ചില പ്രോജക്ടുകൾ ഡാറ്റ അന്തിമ സ്ഥലത്തേക്ക് മാറ്റുന്നതിന് മുമ്പ് ശുദ്ധീകരണം, സംഗ്രഹണം, കംപ്രഷൻ എന്നിവയ്ക്ക് ഓട്ടോമേറ്റഡ് ടൂൾ ഉപയോഗിക്കും. Azure Data Factory ഇതിന്റെ ഉദാഹരണമാണ്. ### ഡാറ്റ സുരക്ഷ ഡാറ്റ സുരക്ഷയുടെ പ്രധാന ലക്ഷ്യങ്ങളിൽ ഒന്നാണ് ഡാറ്റ കൈകാര്യം ചെയ്യുന്നവർ എന്ത് ശേഖരിക്കുന്നു, ഏത് സാഹചര്യത്തിൽ ഉപയോഗിക്കുന്നു എന്നിവ നിയന്ത്രണത്തിൽ വയ്ക്കുക. ഡാറ്റ സുരക്ഷിതമാക്കുന്നത് ആക്‌സസ് അവശ്യമായവർക്കു മാത്രം പരിമിതപ്പെടുത്തുക, പ്രാദേശിക നിയമങ്ങളും നയങ്ങളും പാലിക്കുക, [നൈതികതാ പാഠത്തിൽ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics) ഉൾപ്പെടുത്തിയതുപോലെ നൈതിക മാനദണ്ഡങ്ങൾ പാലിക്കുക എന്നിവ ഉൾപ്പെടുന്നു. സുരക്ഷയെക്കുറിച്ച് ഒരു ടീം ചെയ്യാവുന്ന ചില കാര്യങ്ങൾ: - എല്ലാ ഡാറ്റയും എൻക്രിപ്റ്റ് ചെയ്തിട്ടുണ്ടെന്ന് സ്ഥിരീകരിക്കുക - ഉപഭോക്താക്കൾക്ക് അവരുടെ ഡാറ്റ എങ്ങനെ ഉപയോഗിക്കുന്നു എന്ന വിവരം നൽകുക - പ്രോജക്ട് വിട്ടുപോയവരുടെ ഡാറ്റ ആക്‌സസ് നീക്കംചെയ്യുക - ചില പ്രോജക്ട് അംഗങ്ങൾക്കു മാത്രമേ ഡാറ്റ മാറ്റാൻ അനുവാദം നൽകൂ ## 🚀 ചലഞ്ച് ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ പല പതിപ്പുകൾ ഉണ്ട്, ഓരോ ഘട്ടത്തിനും വ്യത്യസ്ത പേരുകളും ഘട്ടങ്ങളുടെ എണ്ണം വ്യത്യസ്തമായിരിക്കാം, പക്ഷേ ഈ പാഠത്തിൽ പരാമർശിച്ച പ്രക്രിയകൾ എല്ലാം ഉൾക്കൊള്ളും. [ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് ലൈഫ്‌സൈക്കിൾ](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle)യും [ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ്](https://www.datascience-pm.com/crisp-dm-2/)യും പരിശോധിച്ച്, അവയുടെ 3 സാമ്യമുകളും വ്യത്യാസങ്ങളും പറയുക. |ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP)|ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)| |--|--| |![Team Data Science Lifecycle](../../../../translated_images/ml/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ml/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) | | ചിത്രം: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ചിത്രം: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) | ## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/27) ## അവലോകനം & സ്വയം പഠനം ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പ്രയോഗിക്കുന്നത് പല വേഷങ്ങളും ജോലികളും ഉൾക്കൊള്ളുന്നു, ചിലർ ഓരോ ഘട്ടത്തിന്റെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കും. ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് പ്രോജക്ടിൽ ഒരാൾക്കുണ്ടാകാവുന്ന വേഷങ്ങളും ജോലികളും വിശദീകരിക്കുന്ന ചില വിഭവങ്ങൾ നൽകുന്നു. * [ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് വേഷങ്ങളും ജോലികളും](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks) * [ഡാറ്റാ സയൻസ് ജോലികൾ നിർവഹിക്കുക: എക്സ്പ്ലോറേഷൻ, മോഡലിംഗ്, ഡിപ്ലോയ്മെന്റ്](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks) ## അസൈൻമെന്റ് [ഡാറ്റാസെറ്റ് വിലയിരുത്തൽ](assignment.md) --- **അസൂയാപത്രം**: ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.