History

localizeflow[bot] ab59922f29 chore(i18n): sync translations with latest source changes (chunk 2/8, 641 changes)		3 months ago
..
solution	chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files)	4 months ago
README.md	chore(i18n): sync translations with latest source changes (chunk 2/8, 641 changes)	3 months ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files)	4 months ago
notebook.ipynb	chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files)	4 months ago

README.md

ഡാറ്റാ സയൻസ് നിർവചിക്കൽ


ഡാറ്റാ സയൻസ് നിർവചിക്കൽ - Sketchnote by @nitya

പ്രീ-ലെക്ചർ ക്വിസ്

ഡാറ്റ എന്താണ്?

നമ്മുടെ ദൈനംദിന ജീവിതത്തിൽ, നാം നിരന്തരം ഡാറ്റയാൽ ചുറ്റപ്പെട്ടിരിക്കുന്നു. നിങ്ങൾ ഇപ്പോൾ വായിക്കുന്ന എഴുത്ത് ഡാറ്റയാണ്. നിങ്ങളുടെ സ്മാർട്ട്ഫോണിലുള്ള സുഹൃത്തുക്കളുടെ ഫോൺ നമ്പറുകളുടെ പട്ടിക ഡാറ്റയാണ്, കൂടാതെ നിങ്ങളുടെ വാച്ചിൽ കാണിക്കുന്ന നിലവിലെ സമയവും ഡാറ്റയാണ്. മനുഷ്യരായി, നാം സ്വാഭാവികമായി ഡാറ്റ ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നു, ഉദാഹരണത്തിന് നമുക്ക് ഉള്ള പണം എണ്ണുകയോ സുഹൃത്തുക്കൾക്ക് കത്ത് എഴുതുകയോ ചെയ്യുന്നു.

എങ്കിലും, കമ്പ്യൂട്ടറുകളുടെ സൃഷ്ടിയോടെ ഡാറ്റ വളരെ പ്രധാനപ്പെട്ടതായി മാറി. കമ്പ്യൂട്ടറുകളുടെ പ്രധാന പങ്ക് കണക്കുകൂട്ടലുകൾ നടത്തുകയാണ്, പക്ഷേ അവ പ്രവർത്തിക്കാൻ ഡാറ്റ ആവശ്യമാണ്. അതിനാൽ, കമ്പ്യൂട്ടറുകൾ ഡാറ്റ എങ്ങനെ സംഭരിക്കുകയും പ്രോസസ്സ് ചെയ്യുകയും ചെയ്യുന്നതെന്ന് നമുക്ക് മനസ്സിലാക്കേണ്ടതുണ്ട്.

ഇന്റർനെറ്റിന്റെ ഉദയം കൊണ്ട്, കമ്പ്യൂട്ടറുകളുടെ ഡാറ്റ കൈകാര്യം ചെയ്യുന്ന ഉപകരണങ്ങളായ പങ്ക് വർദ്ധിച്ചു. നിങ്ങൾ ചിന്തിച്ചാൽ, നാം ഇപ്പോൾ കമ്പ്യൂട്ടറുകൾ കണക്കുകൂട്ടലുകൾക്കേക്കാൾ ഡാറ്റ പ്രോസസ്സിംഗിനും ആശയവിനിമയത്തിനും കൂടുതൽ ഉപയോഗിക്കുന്നു. നാം സുഹൃത്തുക്കൾക്ക് ഇമെയിൽ എഴുതുമ്പോഴും ഇന്റർനെറ്റിൽ വിവരങ്ങൾ തിരയുമ്പോഴും - നാം അടിസ്ഥാനപരമായി ഡാറ്റ സൃഷ്ടിക്കുകയും, സംഭരിക്കുകയും, പ്രേഷിപ്പിക്കുകയും, കൈകാര്യം ചെയ്യുകയും ചെയ്യുന്നു.

നിങ്ങൾക്ക് ഓർമ്മയുണ്ടോ, അവസാനമായി കമ്പ്യൂട്ടർ ഉപയോഗിച്ച് യഥാർത്ഥത്തിൽ എന്തെങ്കിലും കണക്കുകൂട്ടിയത്?

ഡാറ്റാ സയൻസ് എന്താണ്?

വിക്കിപീഡിയയിൽ, ഡാറ്റാ സയൻസ് എന്നത് സംഘടിതവും അസംഘടിതവുമായ ഡാറ്റയിൽ നിന്നുള്ള അറിവും洞察ങ്ങളും ശാസ്ത്രീയ രീതികൾ ഉപയോഗിച്ച് എടുക്കുകയും, ഡാറ്റയിൽ നിന്നുള്ള അറിവും പ്രായോഗിക洞察ങ്ങളും വ്യാപകമായ പ്രയോഗ മേഖലകളിൽ പ്രയോഗിക്കുകയും ചെയ്യുന്ന ശാസ്ത്രീയ മേഖലയായി നിർവചിച്ചിരിക്കുന്നു.

ഈ നിർവചനത്തിൽ ഡാറ്റാ സയൻസിന്റെ താഴെപ്പറയുന്ന പ്രധാന അംശങ്ങൾ ഉണ്ട്:

ഡാറ്റാ സയൻസിന്റെ പ്രധാന ലക്ഷ്യം ഡാറ്റയിൽ നിന്നുള്ള അറിവ് എടുക്കുക, മറ്റൊരു വാക്കിൽ - ഡാറ്റ അറിയുക, ചില മറഞ്ഞിരിക്കുന്ന ബന്ധങ്ങൾ കണ്ടെത്തുക, ഒരു മോഡൽ നിർമ്മിക്കുക.
ഡാറ്റാ സയൻസ് ശാസ്ത്രീയ രീതികൾ ഉപയോഗിക്കുന്നു, ഉദാഹരണത്തിന് സാധ്യതാ സിദ്ധാന്തവും സ്ഥിതിവിവരശാസ്ത്രവും. യഥാർത്ഥത്തിൽ, ഡാറ്റാ സയൻസ് എന്ന പദം ആദ്യമായി പരിചയപ്പെടുത്തിയപ്പോൾ, ചിലർ ഡാറ്റാ സയൻസ് സ്ഥിതിവിവരശാസ്ത്രത്തിന് പുതിയ ഒരു ആകർഷകമായ പേര് മാത്രമാണെന്ന് വാദിച്ചിരുന്നു. ഇപ്പോൾ ഈ മേഖല വളരെ വ്യാപകമാണെന്ന് വ്യക്തമാണ്.
ലഭിച്ച അറിവ് ചില പ്രായോഗിക洞察ങ്ങൾ ഉൽപ്പാദിപ്പിക്കാൻ ഉപയോഗിക്കണം, അതായത് യഥാർത്ഥ ബിസിനസ് സാഹചര്യങ്ങളിൽ പ്രയോഗിക്കാവുന്ന洞察ങ്ങൾ.
നാം സംഘടിതയും അസംഘടിതവുമായ ഡാറ്റയിൽ പ്രവർത്തിക്കാൻ കഴിയണം. കോഴ്സിന്റെ പിന്നീട് ഭാഗങ്ങളിൽ നാം ഡാറ്റയുടെ വ്യത്യസ്ത തരം വിശദീകരിക്കും.
പ്രയോഗ മേഖല ഒരു പ്രധാന ആശയമാണ്, ഡാറ്റാ സയന്റിസ്റ്റുകൾക്ക് സാധാരണയായി പ്രശ്ന മേഖലയിൽ കുറച്ച് പരിചയം വേണം, ഉദാഹരണത്തിന്: ധനകാര്യ, മെഡിസിൻ, മാർക്കറ്റിംഗ് തുടങ്ങിയവ.

ഡാറ്റാ സയൻസിന്റെ മറ്റൊരു പ്രധാന അംശം ഡാറ്റ എങ്ങനെ ശേഖരിക്കാമെന്ന്, സംഭരിക്കാമെന്ന്, കമ്പ്യൂട്ടറുകൾ ഉപയോഗിച്ച് എങ്ങനെ പ്രവർത്തിക്കാമെന്ന് പഠിക്കുന്നതാണ്. സ്ഥിതിവിവരശാസ്ത്രം ഗണിത അടിസ്ഥാനങ്ങൾ നൽകുമ്പോൾ, ഡാറ്റാ സയൻസ് ഗണിത ആശയങ്ങൾ പ്രയോഗിച്ച് ഡാറ്റയിൽ നിന്നുള്ള洞察ങ്ങൾ എടുക്കുന്നു.

ഡാറ്റാ സയൻസ് കാണാനുള്ള ഒരു മാർഗം (ജിം ഗ്രേ എന്നവനോട് ബന്ധപ്പെട്ടത്) ഡാറ്റാ സയൻസ് ഒരു വ്യത്യസ്ത ശാസ്ത്രപരമായ പാരഡൈം ആയി കാണുക എന്നതാണ്:

പരീക്ഷണാത്മക - പ്രധാനമായും നിരീക്ഷണങ്ങളും പരീക്ഷണ ഫലങ്ങളും ആശ്രയിക്കുന്നു
സിദ്ധാന്തപരമായ - നിലവിലുള്ള ശാസ്ത്രീയ അറിവിൽ നിന്നുള്ള പുതിയ ആശയങ്ങൾ ഉദയം ചെയ്യുന്നു
കമ്പ്യൂട്ടേഷണൽ - ചില കമ്പ്യൂട്ടേഷൻ പരീക്ഷണങ്ങളുടെ അടിസ്ഥാനത്തിൽ പുതിയ സിദ്ധാന്തങ്ങൾ കണ്ടെത്തുന്നു
ഡാറ്റാ-ഡ്രിവൻ - ഡാറ്റയിൽ ബന്ധങ്ങളും മാതൃകകളും കണ്ടെത്തുന്നതിൽ അടിസ്ഥാനമാക്കിയുള്ളത്

മറ്റ് ബന്ധപ്പെട്ട മേഖലകൾ

ഡാറ്റ വ്യാപകമായതിനാൽ, ഡാറ്റാ സയൻസ് തന്നെ ഒരു വ്യാപകമായ മേഖലയാണ്, പല ശാസ്ത്രശാഖകളെയും സ്പർശിക്കുന്നു.

ഡാറ്റാബേസുകൾ: ഒരു പ്രധാന പരിഗണനയാണ് ഡാറ്റ എങ്ങനെ സംഭരിക്കണം, അതായത് അതിനെ എങ്ങനെ ഘടിപ്പിക്കണം എന്നത്, അതിലൂടെ വേഗത്തിൽ പ്രോസസ്സ് ചെയ്യാൻ കഴിയും. വിവിധ തരത്തിലുള്ള ഡാറ്റാബേസുകൾ ഉണ്ട്, അവ ഘടിതവും അസംഘടിതവുമായ ഡാറ്റ സംഭരിക്കുന്നു, അവയെക്കുറിച്ച് നമ്മുടെ കോഴ്സിൽ പരിഗണിക്കും.
ബിഗ് ഡാറ്റ: പലപ്പോഴും വളരെ വലിയ അളവിലുള്ള ഡാറ്റ സംഭരിക്കുകയും പ്രോസസ്സ് ചെയ്യുകയും ചെയ്യേണ്ടതുണ്ട്, സാധാരണയായി ലളിതമായ ഘടനയുള്ളത്. ഈ ഡാറ്റ കമ്പ്യൂട്ടർ ക്ലസ്റ്ററിൽ വിതരണം ചെയ്ത് സംഭരിക്കുകയും കാര്യക്ഷമമായി പ്രോസസ്സ് ചെയ്യുന്നതിനുള്ള പ്രത്യേക സമീപനങ്ങളും ഉപകരണങ്ങളും ഉണ്ട്.
മെഷീൻ ലേണിംഗ്: ഡാറ്റ മനസ്സിലാക്കാനുള്ള ഒരു മാർഗം ഒരു മോഡൽ നിർമിക്കുക എന്നതാണ്, അത് ആഗ്രഹിക്കുന്ന ഫലം പ്രവചിക്കാൻ കഴിയും. ഡാറ്റയിൽ നിന്നുള്ള മോഡലുകൾ വികസിപ്പിക്കുന്നത് മെഷീൻ ലേണിംഗ് എന്നാണ് വിളിക്കുന്നത്. ഇതിനെക്കുറിച്ച് കൂടുതൽ അറിയാൻ ഞങ്ങളുടെ Machine Learning for Beginners പാഠ്യപദ്ധതി കാണാം.
കൃത്രിമ ബുദ്ധിമുട്ട്: മെഷീൻ ലേണിംഗിന്റെ ഒരു മേഖലയായ കൃത്രിമ ബുദ്ധിമുട്ട് (AI) ഡാറ്റയിൽ ആശ്രയിച്ചിരിക്കുന്നു, കൂടാതെ മനുഷ്യ ചിന്താ പ്രക്രിയകൾ അനുകരിക്കുന്ന ഉയർന്ന സങ്കീർണ്ണതയുള്ള മോഡലുകൾ നിർമ്മിക്കുന്നതും ഉൾപ്പെടുന്നു. AI രീതികൾ അസംഘടിത ഡാറ്റ (ഉദാഹരണത്തിന് സ്വാഭാവിക ഭാഷ) ഘടിത洞察ങ്ങളായി മാറ്റാൻ സാധിക്കുന്നു.
ദൃശ്യവൽക്കരണം: വലിയ അളവിലുള്ള ഡാറ്റ മനുഷ്യനായി മനസ്സിലാക്കാൻ ബുദ്ധിമുട്ടാണ്, പക്ഷേ ആ ഡാറ്റ ഉപയോഗിച്ച് ഉപകാരപ്രദമായ ദൃശ്യവൽക്കരണങ്ങൾ സൃഷ്ടിച്ചാൽ, നാം ഡാറ്റയെ കൂടുതൽ മനസ്സിലാക്കുകയും ചില നിഗമനങ്ങൾ വരുത്തുകയും ചെയ്യാം. അതിനാൽ, വിവരങ്ങൾ ദൃശ്യവൽക്കരിക്കുന്ന നിരവധി മാർഗങ്ങൾ അറിയുന്നത് പ്രധാനമാണ് - ഇത് ഞങ്ങളുടെ കോഴ്സിന്റെ മൂന്നാം ഭാഗംയിൽ ഉൾപ്പെടും. ബന്ധപ്പെട്ട മേഖലകൾക്ക് ഇൻഫോഗ്രാഫിക്സ്യും, പൊതുവായി മനുഷ്യ-കമ്പ്യൂട്ടർ ഇടപെടൽയും ഉൾപ്പെടുന്നു.

ഡാറ്റയുടെ തരം

നാം ഇതിനകം പറഞ്ഞതുപോലെ, ഡാറ്റ എല്ലായിടത്തും ഉണ്ട്. നമുക്ക് അത് ശരിയായ രീതിയിൽ പിടിച്ചെടുക്കേണ്ടതാണ്! സംഘടിതവും അസംഘടിതവുമായ ഡാറ്റ തമ്മിൽ വ്യത്യാസം കാണുന്നത് ഉപകാരപ്രദമാണ്. മുൻപുള്ളത് സാധാരണയായി ഒരു നന്നായി ഘടിപ്പിച്ച രൂപത്തിലാണ് പ്രതിനിധാനം ചെയ്യപ്പെടുന്നത്, സാധാരണയായി ഒരു പട്ടിക അല്ലെങ്കിൽ പല പട്ടികകളായി, പിന്നെ അസംഘടിത ഡാറ്റ ഫയലുകളുടെ ശേഖരമാണ്. ചിലപ്പോൾ നാം അർദ്ധഘടിത ഡാറ്റയെക്കുറിച്ച് സംസാരിക്കാം, അതിന് ചില ഘടനയുണ്ടെങ്കിലും അത് വളരെ വ്യത്യസ്തമായിരിക്കും.

ഘടിതം	അർദ്ധഘടിതം	അസംഘടിതം
ആളുകളുടെ ഫോൺ നമ്പറുകളുള്ള പട്ടിക	ലിങ്കുകളുള്ള വിക്കിപീഡിയ പേജുകൾ	എൻസൈക്ലോപീഡിയ ബ്രിട്ടാനിക്കയുടെ എഴുത്ത്
കഴിഞ്ഞ 20 വർഷം ഓരോ മിനിറ്റിലും ഒരു കെട്ടിടത്തിലെ എല്ലാ മുറികളിലെ താപനില	ലേഖകരും പ്രസിദ്ധീകരണ തീയതിയും സാരാംശവും ഉള്ള JSON ഫോർമാറ്റിലുള്ള ശാസ്ത്രീയ ലേഖനങ്ങളുടെ ശേഖരം	കോർപ്പറേറ്റ് ഡോക്യുമെന്റുകളുള്ള ഫയൽ ഷെയർ
കെട്ടിടത്തിലേക്ക് പ്രവേശിക്കുന്ന എല്ലാ ആളുകളുടെ പ്രായവും ലിംഗവും സംബന്ധിച്ച ഡാറ്റ	ഇന്റർനെറ്റ് പേജുകൾ	നിരീക്ഷണ ക്യാമറയിൽ നിന്നുള്ള കച്ചവട വീഡിയോ ഫീഡ്

ഡാറ്റ എവിടെ നിന്ന് ലഭിക്കും

ഡാറ്റ ലഭിക്കുന്ന നിരവധി സ്രോതസ്സുകൾ ഉണ്ട്, അവയെല്ലാം പട്ടികപ്പെടുത്തുന്നത് അസാധ്യമാണ്! എങ്കിലും, നിങ്ങൾക്ക് ഡാറ്റ ലഭിക്കാവുന്ന ചില സാധാരണ സ്ഥലങ്ങൾ പറയാം:

സംഘടിത
- ഇന്റർനെറ്റ് ഓഫ് തിങ്സ് (IoT), താപനില അല്ലെങ്കിൽ മർദ്ദം സെൻസറുകൾ പോലുള്ള വിവിധ സെൻസറുകളിൽ നിന്നുള്ള ഡാറ്റ ഉൾപ്പെടെ, വളരെ ഉപകാരപ്രദമായ ഡാറ്റ നൽകുന്നു. ഉദാഹരണത്തിന്, ഒരു ഓഫീസ് കെട്ടിടം IoT സെൻസറുകളാൽ സജ്ജമാക്കിയാൽ, ചെലവുകൾ കുറയ്ക്കാൻ താപനിലയും ലൈറ്റിംഗും സ്വയം നിയന്ത്രിക്കാം.
- സർവേകൾ ഉപഭോക്താക്കൾക്ക് വാങ്ങിയതിന് ശേഷം അല്ലെങ്കിൽ വെബ്‌സൈറ്റ് സന്ദർശിച്ചതിന് ശേഷം പൂരിപ്പിക്കാൻ പറയുന്നവ.
- പ്രവർത്തന വിശകലനം ഉദാഹരണത്തിന്, ഒരു ഉപയോക്താവ് ഒരു സൈറ്റിൽ എത്ര ആഴത്തിൽ പോകുന്നു, സൈറ്റ് വിടാനുള്ള സാധാരണ കാരണം എന്താണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കും.
അസംഘടിത
- എഴുത്തുകൾ洞察ങ്ങളുടെ സമൃദ്ധമായ സ്രോതസ്സാകാം, ഉദാഹരണത്തിന് ഒരു മൊത്തം ഭാവനാ സ്കോർ, അല്ലെങ്കിൽ പ്രധാനവാക്കുകളും സാംവേദനാത്മക അർത്ഥവും എടുക്കൽ.
- ചിത്രങ്ങൾ അല്ലെങ്കിൽ വീഡിയോ. നിരീക്ഷണ ക്യാമറയിൽ നിന്നുള്ള ഒരു വീഡിയോ റോഡിലെ ഗതാഗതം അളക്കാനും ഗതാഗത തടസ്സങ്ങളെക്കുറിച്ച് ആളുകളെ അറിയിക്കാനും ഉപയോഗിക്കാം.
- വെബ് സെർവർ ലോഗുകൾ നമ്മുടെ സൈറ്റിലെ ഏത് പേജുകൾ ഏറ്റവും അധികം സന്ദർശിക്കപ്പെടുന്നു, എത്ര സമയം ചെലവഴിക്കുന്നു എന്നിവ മനസ്സിലാക്കാൻ ഉപയോഗിക്കാം.
അർദ്ധഘടിത
- സോഷ്യൽ നെറ്റ്‌വർക്ക് ഗ്രാഫുകൾ ഉപയോക്തൃ വ്യക്തിത്വങ്ങളും വിവരങ്ങൾ പ്രചരിപ്പിക്കുന്നതിലെ സാധ്യതകളും സംബന്ധിച്ച മികച്ച ഡാറ്റ സ്രോതസ്സുകളാകാം.
- ഒരു പാർട്ടിയിൽ നിന്നുള്ള നിരവധി ഫോട്ടോകൾ ഉണ്ടെങ്കിൽ, ഒരുമിച്ച് ഫോട്ടോ എടുക്കുന്ന ആളുകളുടെ ഗ്രാഫ് നിർമ്മിച്ച് ഗ്രൂപ്പ് ഡൈനാമിക്സ് ഡാറ്റ എടുക്കാൻ ശ്രമിക്കാം.

വിവിധ ഡാറ്റ സ്രോതസ്സുകൾ അറിയുന്നതിലൂടെ, ഡാറ്റാ സയൻസ് സാങ്കേതികവിദ്യകൾ പ്രയോഗിച്ച് സ്ഥിതിഗതികൾ കൂടുതൽ മനസ്സിലാക്കാനും ബിസിനസ് പ്രക്രിയകൾ മെച്ചപ്പെടുത്താനും നിങ്ങൾക്ക് വ്യത്യസ്ത സാഹചര്യങ്ങൾ ചിന്തിക്കാം.

ഡാറ്റയുമായി നിങ്ങൾ ചെയ്യാൻ കഴിയുന്നത്

ഡാറ്റാ സയൻസിൽ, നാം ഡാറ്റയുടെ യാത്രയുടെ താഴെപ്പറയുന്ന ഘട്ടങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു:

1) ഡാറ്റ ശേഖരണം

ആദ്യ ഘട്ടം ഡാറ്റ ശേഖരിക്കുകയാണ്. പലപ്പോഴും ഇത് നേരിട്ടുള്ള പ്രക്രിയയായിരിക്കാം, ഉദാഹരണത്തിന് ഒരു വെബ് ആപ്ലിക്കേഷനിൽ നിന്നുള്ള ഡാറ്റ ഒരു ഡാറ്റാബേസിലേക്ക് വരുന്നത് പോലുള്ളത്, ചിലപ്പോൾ പ്രത്യേക സാങ്കേതിക വിദ്യകൾ ഉപയോഗിക്കേണ്ടി വരും. ഉദാഹരണത്തിന്, IoT സെൻസറുകളിൽ നിന്നുള്ള ഡാറ്റ വളരെ വലുതായിരിക്കാം, അതിനാൽ എല്ലാ ഡാറ്റയും കൂടുതൽ പ്രോസസ്സിംഗിന് മുമ്പ് ശേഖരിക്കാൻ IoT ഹബ് പോലുള്ള ബഫറിംഗ് എന്റ്പോയിന്റുകൾ ഉപയോഗിക്കുന്നത് നല്ല പ്രക്രിയയാണ്.

2) ഡാറ്റ സംഭരണം

ഡാറ്റ സംഭരിക്കുന്നത് വെല്ലുവിളിയാകാം, പ്രത്യേകിച്ച് ബിഗ് ഡാറ്റയെക്കുറിച്ചാണ് സംസാരിക്കുന്നത്. ഡാറ്റ എങ്ങനെ സംഭരിക്കണമെന്ന് തീരുമാനിക്കുമ്പോൾ, ഭാവിയിൽ നിങ്ങൾ ഡാറ്റയെ എങ്ങനെ ക്വറി ചെയ്യണമെന്ന് മുൻകൂട്ടി കരുതുന്നത് ബുദ്ധിമുട്ടില്ല. ഡാറ്റ സംഭരിക്കുന്ന ചില മാർഗങ്ങൾ:

ഒരു റിലേഷണൽ ഡാറ്റാബേസ് പട്ടികകളുടെ ശേഖരം സംഭരിക്കുന്നു, അവയെ ക്വറി ചെയ്യാൻ SQL എന്ന പ്രത്യേക ഭാഷ ഉപയോഗിക്കുന്നു. സാധാരണയായി, പട്ടികകൾ സ്കീമകൾ എന്ന വ്യത്യസ്ത ഗ്രൂപ്പുകളായി ക്രമീകരിച്ചിരിക്കുന്നു. പലപ്പോഴും ഡാറ്റയുടെ യഥാർത്ഥ രൂപം സ്കീമയ്ക്ക് അനുയോജ്യമായി മാറ്റേണ്ടി വരും.
NoSQL ഡാറ്റാബേസ്, ഉദാഹരണത്തിന് CosmosDB, ഡാറ്റയിൽ സ്കീമകൾ നിർബന്ധമാക്കുന്നില്ല, കൂടുതൽ സങ്കീർണ്ണമായ ഡാറ്റ സംഭരിക്കാൻ അനുവദിക്കുന്നു, ഉദാഹരണത്തിന്, ഹയർആർക്കിക്കൽ JSON ഡോക്യുമെന്റുകൾ അല്ലെങ്കിൽ ഗ്രാഫുകൾ. എന്നാൽ NoSQL ഡാറ്റാബേസുകൾക്ക് SQL പോലുള്ള സമ്പന്നമായ ക്വറി കഴിവുകൾ ഇല്ല, കൂടാതെ റഫറൻഷ്യൽ ഇന്റഗ്രിറ്റി നിർബന്ധമാക്കാൻ കഴിയില്ല, അതായത് പട്ടികകളിലെ ഡാറ്റ എങ്ങനെ ഘടിപ്പിക്കപ്പെട്ടിരിക്കുന്നു എന്നതും പട്ടികകളിലെ ബന്ധങ്ങൾ നിയന്ത്രിക്കുന്ന നിയമങ്ങളും.
ഡാറ്റാ ലേക്ക് സംഭരണം കച്ചവട, അസംഘടിത രൂപത്തിലുള്ള വലിയ ഡാറ്റ ശേഖരങ്ങൾക്ക് ഉപയോഗിക്കുന്നു. ഡാറ്റാ ലേക്ക് സാധാരണയായി ബിഗ് ഡാറ്റയുമായി ഉപയോഗിക്കുന്നു, എല്ലാ ഡാറ്റയും ഒരു യന്ത്രത്തിൽ ഫിറ്റ് ചെയ്യാനാകാത്തപ്പോൾ, ക്ലസ്റ്റർ സർവറുകളുടെ കൂട്ടത്തിൽ സംഭരിക്കുകയും പ്രോസസ്സ് ചെയ്യുകയും ചെയ്യേണ്ടതുണ്ട്. Parquet ബിഗ് ഡാറ്റയുമായി ചേർന്ന് ഉപയോഗിക്കുന്ന ഡാറ്റ ഫോർമാറ്റാണ്.

3) ഡാറ്റ പ്രോസസ്സിംഗ്

ഡാറ്റയുടെ യാത്രയിലെ ഏറ്റവും രസകരമായ ഭാഗമാണ് ഇത്, യഥാർത്ഥ രൂപത്തിൽ നിന്നുള്ള ഡാറ്റ ദൃശ്യവൽക്കരണത്തിനും മോഡൽ പരിശീലനത്തിനും ഉപയോഗിക്കാവുന്ന രൂപത്തിലേക്ക് മാറ്റുന്നതാണ്. എഴുത്ത് അല്ലെങ്കിൽ ചിത്രങ്ങൾ പോലുള്ള അസംഘടിത ഡാറ്റ കൈകാര്യം ചെയ്യുമ്പോൾ, ഡാറ്റയിൽ നിന്നുള്ള ഫീച്ചറുകൾ എടുക്കാൻ ചില AI സാങ്കേതിക വിദ്യകൾ ഉപയോഗിക്കേണ്ടി വരാം, അതിലൂടെ അത് ഘടിത രൂപത്തിലേക്ക് മാറ്റുന്നു.

4) ദൃശ്യവൽക്കരണം / മനുഷ്യ洞察ങ്ങൾ

ഡാറ്റ മനസ്സിലാക്കാൻ പലപ്പോഴും അതിനെ ദൃശ്യവൽക്കരിക്കേണ്ടതുണ്ട്. വിവിധ ദൃശ്യവൽക്കരണ സാങ്കേതിക വിദ്യകൾ നമ്മുടെ ഉപകരണസഞ്ചയത്തിൽ ഉണ്ടെങ്കിൽ,洞察ം കണ്ടെത്താൻ ശരിയായ കാഴ്ച കണ്ടെത്താം. പലപ്പോഴും, ഒരു ഡാറ്റാ സയന്റിസ്റ്റ് ഡാറ്റയുമായി "കളിയാക്കണം", പല തവണ ദൃശ്യവൽക്കരിച്ച് ചില ബന്ധങ്ങൾ അന്വേഷിക്കണം. കൂടാതെ, നാം സ്ഥിതിവിവരശാസ്ത്ര സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് ഒരു ഹിപോത്തസിസ് പരിശോധിക്കുകയോ ഡാറ്റയിലെ വിവിധ ഭാഗങ്ങൾ തമ്മിലുള്ള ബന്ധം തെളിയിക്കുകയോ ചെയ്യാം.

5) പ്രവചന മോഡൽ പരിശീലനം

ഡാറ്റാ സയൻസിന്റെ അന്തിമ ലക്ഷ്യം ഡാറ്റയുടെ അടിസ്ഥാനത്തിൽ തീരുമാനങ്ങൾ എടുക്കാനാകുക എന്നതാണ്, അതിനാൽ മെഷീൻ ലേണിംഗ് സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് പ്രവചന മോഡൽ നിർമ്മിക്കാൻ ആഗ്രഹിക്കാം. പിന്നീട് സമാന ഘടനകളുള്ള പുതിയ ഡാറ്റാ സെറ്റുകൾ ഉപയോഗിച്ച് പ്രവചനങ്ങൾ നടത്താൻ ഇത് ഉപയോഗിക്കാം.

തികച്ചും, യഥാർത്ഥ ഡാറ്റയെ ആശ്രയിച്ച് ചില ഘട്ടങ്ങൾ ഇല്ലാതിരിക്കാം (ഉദാഹരണത്തിന്, ഡാറ്റാബേസിൽ ഡാറ്റ ഇതിനകം ഉണ്ടെങ്കിൽ, അല്ലെങ്കിൽ മോഡൽ പരിശീലനം ആവശ്യമില്ലെങ്കിൽ), അല്ലെങ്കിൽ ചില ഘട്ടങ്ങൾ പല തവണ ആവർത്തിക്കപ്പെടാം (ഉദാഹരണത്തിന്, ഡാറ്റ പ്രോസസ്സിംഗ്).

ഡിജിറ്റലൈസേഷൻയും ഡിജിറ്റൽ ട്രാൻസ്ഫർമേഷനും

കഴിഞ്ഞ ദശകത്തിൽ, പല ബിസിനസുകളും ബിസിനസ് തീരുമാനങ്ങൾ എടുക്കുമ്പോൾ ഡാറ്റയുടെ പ്രാധാന്യം മനസ്സിലാക്കാൻ തുടങ്ങി. ബിസിനസ് പ്രക്രിയകൾ ഡിജിറ്റൽ രൂപത്തിലേക്ക് മാറ്റി ഡാറ്റ ശേഖരിക്കുകയാണ് ആദ്യഘട്ടം, ഇതാണ് ഡിജിറ്റലൈസേഷൻ എന്ന് അറിയപ്പെടുന്നത്. ഈ ഡാറ്റയിൽ ഡാറ്റാ സയൻസ് സാങ്കേതിക വിദ്യകൾ പ്രയോഗിച്ച് തീരുമാനങ്ങൾ നയിക്കുന്നത് ഡിജിറ്റൽ ട്രാൻസ്ഫർമേഷൻ എന്ന് വിളിക്കുന്നു, ഇത് ഉൽപാദനക്ഷമതയിൽ വലിയ വർദ്ധനവുകൾ (അല്ലെങ്കിൽ ബിസിനസ് പിവോട്ട്) ഉണ്ടാക്കാം.

ഒരു ഉദാഹരണം പരിഗണിക്കാം. നമുക്ക് ഒരു ഡാറ്റാ സയൻസ് കോഴ്സ് (ഇതുപോലുള്ളത്) ഓൺലൈനായി വിദ്യാർത്ഥികൾക്ക് നൽകുന്നു, അതിൽ ഡാറ്റാ സയൻസ് ഉപയോഗിച്ച് മെച്ചപ്പെടുത്താൻ ആഗ്രഹിക്കുന്നു. എങ്ങനെ ചെയ്യാം?

"എന്ത് ഡിജിറ്റലൈസ് ചെയ്യാം?" എന്ന് ചോദിച്ച് തുടങ്ങാം. ഏറ്റവും ലളിതമായ മാർഗം ഓരോ വിദ്യാർത്ഥിയും ഓരോ മോഡ്യൂളും പൂർത്തിയാക്കാൻ എത്ര സമയം എടുക്കുന്നു എന്ന് അളക്കുകയും, ഓരോ മോഡ്യൂളിന്റെ അവസാനം മൾട്ടി-ചോയ്സ് ടെസ്റ്റ് നൽകി ലഭിച്ച അറിവ് അളക്കുകയും ചെയ്യുക ആണ്. എല്ലാ വിദ്യാർത്ഥികളുടെയും പൂർത്തിയാക്കാനുള്ള സമയം ശരാശരി എടുത്ത്, ഏത് മോഡ്യൂളുകൾ വിദ്യാർത്ഥികൾക്ക് ഏറ്റവും ബുദ്ധിമുട്ടുള്ളതാണെന്ന് കണ്ടെത്തി അവ ലളിതമാക്കാൻ പ്രവർത്തിക്കാം.

നിങ്ങൾ ഈ സമീപനം അനുയോജ്യമല്ലെന്ന് വാദിക്കാം, കാരണം മോഡ്യൂളുകൾ വ്യത്യസ്ത നീളമുള്ളവയായിരിക്കാം. മോഡ്യൂളിന്റെ നീളം (അക്ഷരങ്ങളുടെ എണ്ണം) അനുസരിച്ച് സമയം വിഭജിച്ച് ആ മൂല്യങ്ങൾ താരതമ്യം ചെയ്യുന്നത് കൂടുതൽ നീതിപൂർണമായിരിക്കാം.

നാം ബഹുവികല്പ പരീക്ഷകളുടെ ഫലങ്ങൾ വിശകലനം തുടങ്ങുമ്പോൾ, വിദ്യാർത്ഥികൾക്ക് ബുദ്ധിമുട്ട് ഉണ്ടാകുന്ന ആശയങ്ങൾ കണ്ടെത്താൻ ശ്രമിക്കാം, ആ വിവരങ്ങൾ ഉള്ളടക്കം മെച്ചപ്പെടുത്താൻ ഉപയോഗിക്കാം. അതിനായി, ഓരോ ചോദ്യവും ഒരു പ്രത്യേക ആശയത്തോടോ അറിവിന്റെ ഒരു ഭാഗത്തോടോ ബന്ധിപ്പിക്കുന്ന വിധത്തിൽ പരീക്ഷകൾ രൂപകൽപ്പന ചെയ്യേണ്ടതുണ്ട്.

കൂടുതൽ സങ്കീർണ്ണമാക്കാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ഓരോ മോഡ്യൂളിനും വേണ്ടി എടുത്ത സമയം വിദ്യാർത്ഥികളുടെ പ്രായ വിഭാഗത്തോടൊപ്പം പ്ലോട്ട് ചെയ്യാം. ചില പ്രായ വിഭാഗങ്ങൾക്ക് മോഡ്യൂൾ പൂർത്തിയാക്കാൻ അനാവശ്യമായി കൂടുതൽ സമയം എടുക്കുന്നുണ്ടോ, അല്ലെങ്കിൽ വിദ്യാർത്ഥികൾ പൂർത്തിയാക്കുന്നതിന് മുമ്പ് വിട്ടുപോകുന്നുണ്ടോ എന്ന് കണ്ടെത്താം. ഇത് മോഡ്യൂളിനായി പ്രായ ശുപാർശകൾ നൽകാനും തെറ്റായ പ്രതീക്ഷകളാൽ ആളുകളുടെ അസന്തോഷം കുറയ്ക്കാനും സഹായിക്കും.

🚀 വെല്ലുവിളി

ഈ വെല്ലുവിളിയിൽ, ഡാറ്റാ സയൻസ് മേഖലയുമായി ബന്ധപ്പെട്ട ആശയങ്ങൾ വാചകങ്ങൾ പരിശോധിച്ച് കണ്ടെത്താൻ ശ്രമിക്കും. ഡാറ്റാ സയൻസിനെക്കുറിച്ചുള്ള ഒരു വിക്കിപീഡിയ ലേഖനം എടുത്ത്, ടെക്സ്റ്റ് ഡൗൺലോഡ് ചെയ്ത് പ്രോസസ് ചെയ്ത്, താഴെ കാണുന്ന പോലെ ഒരു വാക്ക് ക്ലൗഡ് നിർമ്മിക്കും:

കോഡ് വായിക്കാൻ notebook.ipynb സന്ദർശിക്കുക. നിങ്ങൾക്ക് കോഡ് പ്രവർത്തിപ്പിച്ച് എല്ലാ ഡാറ്റാ പരിവർത്തനങ്ങളും യഥാർത്ഥ സമയത്ത് എങ്ങനെ നടക്കുന്നതെന്ന് കാണാം.

Jupyter Notebook-ൽ കോഡ് എങ്ങനെ പ്രവർത്തിപ്പിക്കാമെന്ന് അറിയില്ലെങ്കിൽ, ഈ ലേഖനം കാണുക.

പോസ്റ്റ്-ലെക്ചർ ക്വിസ്

അസൈൻമെന്റുകൾ

ടാസ്‌ക് 1: മുകളിൽ നൽകിയ കോഡ് മാറ്റി Big Data ഉം Machine Learning ഉം മേഖലകളുമായി ബന്ധപ്പെട്ട ആശയങ്ങൾ കണ്ടെത്തുക
ടാസ്‌ക് 2: ഡാറ്റാ സയൻസ് സീനാരിയോകൾ ചിന്തിക്കുക

ക്രെഡിറ്റുകൾ

ഈ പാഠം ♥️ കൊണ്ട് രചിച്ചത് Dmitry Soshnikov ആണ്.

അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.