|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.md | 1 month ago | |
README.md
ഡാറ്റ നിർവചിക്കൽ
![]() |
|---|
| ഡാറ്റ നിർവചിക്കൽ - Sketchnote by @nitya |
ഡാറ്റ എന്നത് കണ്ടെത്തലുകൾ നടത്താനും വിവരസമ്പന്നമായ തീരുമാനങ്ങൾ പിന്തുണയ്ക്കാനും ഉപയോഗിക്കുന്ന വാസ്തവങ്ങൾ, വിവരങ്ങൾ, നിരീക്ഷണങ്ങൾ, അളവുകൾ എന്നിവയാണ്. ഒരു ഡാറ്റ പോയിന്റ് എന്നത് ഒരു ഡാറ്റാസെറ്റിനുള്ളിൽ ഉള്ള ഒരു ഏകക ഡാറ്റയാണ്, ഡാറ്റ പോയിന്റുകളുടെ സമാഹാരമാണ് ഡാറ്റാസെറ്റ്. ഡാറ്റാസെറ്റുകൾ വ്യത്യസ്ത ഫോർമാറ്റുകളിലും ഘടനകളിലും വരാം, സാധാരണയായി അതിന്റെ ഉറവിടം അല്ലെങ്കിൽ ഡാറ്റ എവിടെ നിന്നാണ് വന്നത് എന്നതിന്റെ അടിസ്ഥാനത്തിലാണ്. ഉദാഹരണത്തിന്, ഒരു കമ്പനിയുടെ മാസവരുമാനം ഒരു സ്പ്രെഡ്ഷീറ്റിൽ ഉണ്ടാകാം, എന്നാൽ ഒരു സ്മാർട്ട്വാച്ചിൽ നിന്നുള്ള മണിക്കൂറിൽ ഹൃദയമിടിപ്പ് ഡാറ്റ JSON ഫോർമാറ്റിൽ ഉണ്ടാകാം. ഒരു ഡാറ്റാസെറ്റിനുള്ളിൽ ഡാറ്റ സയന്റിസ്റ്റുകൾ വ്യത്യസ്ത തരത്തിലുള്ള ഡാറ്റകളുമായി പ്രവർത്തിക്കുന്നത് സാധാരണമാണ്.
ഈ പാഠം ഡാറ്റയുടെ സവിശേഷതകളും ഉറവിടങ്ങളും അടിസ്ഥാനമാക്കി ഡാറ്റ തിരിച്ചറിയാനും വർഗ്ഗീകരിക്കാനും ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.
പ്രീ-ലെക്ചർ ക്വിസ്
ഡാറ്റ എങ്ങനെ വിവരണമാണ്
റോ ഡാറ്റ
റോ ഡാറ്റ എന്നത് അതിന്റെ ഉറവിടത്തിൽ നിന്നുള്ള പ്രാഥമിക അവസ്ഥയിലുള്ള ഡാറ്റയാണ്, ഇത് വിശകലനം ചെയ്യപ്പെടുകയോ ക്രമീകരിക്കപ്പെടുകയോ ചെയ്തിട്ടില്ല. ഒരു ഡാറ്റാസെറ്റിൽ എന്ത് സംഭവിക്കുന്നു എന്ന് മനസ്സിലാക്കാൻ, അത് മനുഷ്യരും അവയെ കൂടുതൽ വിശകലനം ചെയ്യാൻ ഉപയോഗിക്കുന്ന സാങ്കേതികവിദ്യയും മനസ്സിലാക്കാൻ കഴിയുന്ന ഫോർമാറ്റിലേക്ക് ക്രമീകരിക്കേണ്ടതുണ്ട്. ഒരു ഡാറ്റാസെറ്റിന്റെ ഘടന അതെങ്ങനെ ക്രമീകരിച്ചിരിക്കുന്നു എന്ന് വിവരിക്കുന്നു, ഇത് ഘടനയുള്ള, ഘടനയില്ലാത്ത, അർദ്ധഘടനയുള്ള എന്നിങ്ങനെ വർഗ്ഗീകരിക്കാം. ഈ ഘടനാ തരം ഉറവിടത്തിന്റെ അടിസ്ഥാനത്തിൽ വ്യത്യാസപ്പെടും, പക്ഷേ ഒടുവിൽ ഈ മൂന്ന് വിഭാഗങ്ങളിൽ പെടും.
അളവുകൂട്ടിയ ഡാറ്റ
അളവുകൂട്ടിയ ഡാറ്റ എന്നത് ഒരു ഡാറ്റാസെറ്റിനുള്ളിലെ സംഖ്യാത്മക നിരീക്ഷണങ്ങളാണ്, സാധാരണയായി ഇത് വിശകലനം ചെയ്യാനും അളക്കാനും ഗണിതപരമായി ഉപയോഗിക്കാനും കഴിയും. അളവുകൂട്ടിയ ഡാറ്റയുടെ ചില ഉദാഹരണങ്ങൾ: ഒരു രാജ്യത്തിന്റെ ജനസംഖ്യ, ഒരു വ്യക്തിയുടെ ഉയരം, ഒരു കമ്പനിയുടെ ത്രൈമാസ വരുമാനം. കൂടുതൽ വിശകലനത്തോടെ, അളവുകൂട്ടിയ ഡാറ്റ ഉപയോഗിച്ച് എയർ ക്വാളിറ്റി ഇൻഡക്സ് (AQI) ന്റെ സീസണൽ ട്രെൻഡുകൾ കണ്ടെത്താനോ സാധാരണ ജോലി ദിവസത്തിലെ തിരക്കുള്ള സമയത്തിന്റെ സാധ്യത കണക്കാക്കാനോ കഴിയും.
ഗുണപരമായ ഡാറ്റ
ഗുണപരമായ ഡാറ്റ, അല്ലെങ്കിൽ വർഗ്ഗീയ ഡാറ്റ എന്നറിയപ്പെടുന്നത്, അളവുകൂട്ടിയ ഡാറ്റ പോലെയുള്ള വസ്തുനിഷ്ഠമായി അളക്കാനാകാത്ത ഡാറ്റയാണ്. സാധാരണയായി ഇത് ഉൽപ്പന്നം അല്ലെങ്കിൽ പ്രക്രിയ പോലുള്ള ഒന്നിന്റെ ഗുണനിലവാരം പിടിച്ചെടുക്കുന്ന വിവിധ സ്വഭാവത്തിലുള്ള വിഷയപരമായ ഡാറ്റയാണ്. ചിലപ്പോൾ, ഗുണപരമായ ഡാറ്റ സംഖ്യാത്മകമായിരിക്കാം, എന്നാൽ സാധാരണ ഗണിതപരമായി ഉപയോഗിക്കാറില്ല, ഉദാഹരണത്തിന് ഫോൺ നമ്പറുകൾ അല്ലെങ്കിൽ ടൈംസ്റ്റാമ്പുകൾ. ഗുണപരമായ ഡാറ്റയുടെ ചില ഉദാഹരണങ്ങൾ: വീഡിയോ കമന്റുകൾ, ഒരു കാറിന്റെ നിർമ്മാതാവ് മോഡൽ, നിങ്ങളുടെ അടുത്ത സുഹൃത്തുക്കളുടെ പ്രിയപ്പെട്ട നിറം. ഗുണപരമായ ഡാറ്റ ഉപഭോക്താക്കൾക്ക് ഏറ്റവും ഇഷ്ടപ്പെട്ട ഉൽപ്പന്നങ്ങൾ മനസ്സിലാക്കാനോ ജോലി അപേക്ഷാ റിസ്യൂമുകളിൽ ജനപ്രിയമായ കീവേഡുകൾ തിരിച്ചറിയാനോ ഉപയോഗിക്കാം.
ഘടനയുള്ള ഡാറ്റ
ഘടനയുള്ള ഡാറ്റ എന്നത് വരികളും കോളങ്ങളുമായി ക്രമീകരിച്ചിരിക്കുന്ന ഡാറ്റയാണ്, ഓരോ വരിയിലും ഒരേ സെറ്റ് കോളങ്ങൾ ഉണ്ടാകും. കോളങ്ങൾ ഒരു പ്രത്യേക തരം മൂല്യത്തെ പ്രതിനിധീകരിക്കുന്നു, ആ മൂല്യം എന്താണെന്ന് വിവരിക്കുന്ന പേരോടെ തിരിച്ചറിയപ്പെടും, വരികൾ യഥാർത്ഥ മൂല്യങ്ങൾ അടങ്ങിയിരിക്കും. കോളങ്ങളിൽ സാധാരണയായി മൂല്യങ്ങൾക്ക് പ്രത്യേക നിയമങ്ങളോ നിയന്ത്രണങ്ങളോ ഉണ്ടാകും, മൂല്യങ്ങൾ കോളത്തെ ശരിയായി പ്രതിനിധീകരിക്കുന്നുവെന്ന് ഉറപ്പാക്കാൻ. ഉദാഹരണത്തിന്, ഓരോ വരിയിലും ഫോൺ നമ്പർ ഉണ്ടായിരിക്കേണ്ട ഒരു ഉപഭോക്തൃ സ്പ്രെഡ്ഷീറ്റിനെ കണക്കാക്കുക, ഫോൺ നമ്പറുകളിൽ അക്ഷരങ്ങൾ ഉണ്ടായിരിക്കരുത്. ഫോൺ നമ്പർ കോളത്തിൽ ശൂന്യമാകരുത്, നമ്പറുകൾ മാത്രമേ അടങ്ങിയിരിക്കൂ എന്നിങ്ങനെ നിയമങ്ങൾ പ്രയോഗിക്കാം.
ഘടനയുള്ള ഡാറ്റയുടെ ഒരു ഗുണം, അത് മറ്റൊരു ഘടനയുള്ള ഡാറ്റയുമായി ബന്ധിപ്പിക്കാവുന്നതാണ്. എന്നാൽ, ഡാറ്റ ഒരു പ്രത്യേക രീതിയിൽ ക്രമീകരിക്കാൻ രൂപകൽപ്പന ചെയ്തതിനാൽ, അതിന്റെ മൊത്തം ഘടനയിൽ മാറ്റം വരുത്താൻ വലിയ ശ്രമം വേണം. ഉദാഹരണത്തിന്, ഉപഭോക്തൃ സ്പ്രെഡ്ഷീറ്റിൽ ശൂന്യമാകരുതാത്ത ഒരു ഇമെയിൽ കോളം ചേർക്കുന്നത്, നിലവിലുള്ള വരികളിൽ ഈ മൂല്യങ്ങൾ എങ്ങനെ ചേർക്കാമെന്ന് കണ്ടെത്തേണ്ടതായിരിക്കും.
ഘടനയുള്ള ഡാറ്റയുടെ ഉദാഹരണങ്ങൾ: സ്പ്രെഡ്ഷീറ്റുകൾ, റിലേഷണൽ ഡാറ്റാബേസുകൾ, ഫോൺ നമ്പറുകൾ, ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ
ഘടനയില്ലാത്ത ഡാറ്റ
ഘടനയില്ലാത്ത ഡാറ്റ സാധാരണയായി വരികളിലോ കോളങ്ങളിലോ വർഗ്ഗീകരിക്കാനാകാത്തതും ഒരു ഫോർമാറ്റോ നിയമങ്ങളോ ഇല്ലാത്തതുമാണ്. ഘടനയില്ലാത്ത ഡാറ്റയുടെ ഘടനയിൽ കുറവ് നിയന്ത്രണങ്ങൾ ഉള്ളതിനാൽ, പുതിയ വിവരങ്ങൾ ചേർക്കുന്നത് ഘടനയുള്ള ഡാറ്റാസെറ്റിനേക്കാൾ എളുപ്പമാണ്. ഒരു സെൻസർ 2 മിനിറ്റിൽ ഒരു തവണ ബാരോമെട്രിക് പ്രഷർ ഡാറ്റ ശേഖരിക്കുന്നുണ്ടെങ്കിൽ, ഇപ്പോൾ താപനില അളക്കാനും രേഖപ്പെടുത്താനും കഴിയുന്ന അപ്ഡേറ്റ് ലഭിച്ചാൽ, അത് ഘടനയില്ലാത്ത ഡാറ്റ ആണെങ്കിൽ നിലവിലുള്ള ഡാറ്റ മാറ്റേണ്ടതില്ല. എന്നാൽ, ഈ തരത്തിലുള്ള ഡാറ്റ വിശകലനം ചെയ്യുന്നതിന് കൂടുതൽ സമയം എടുക്കാം. ഉദാഹരണത്തിന്, ഒരു ശാസ്ത്രജ്ഞൻ സെൻസർ ഡാറ്റയിൽ നിന്നുള്ള കഴിഞ്ഞ മാസത്തെ ശരാശരി താപനില കണ്ടെത്താൻ ശ്രമിക്കുമ്പോൾ, ചില രേഖപ്പെടുത്തിയ ഡാറ്റയിൽ "e" എന്നത് സെൻസർ തകരാറിലായിരുന്നുവെന്ന് സൂചിപ്പിക്കാൻ ഉപയോഗിച്ചതായി കണ്ടെത്തുന്നു, അതായത് ഡാറ്റ അപൂർണ്ണമാണ്.
ഘടനയില്ലാത്ത ഡാറ്റയുടെ ഉദാഹരണങ്ങൾ: ടെക്സ്റ്റ് ഫയലുകൾ, ടെക്സ്റ്റ് സന്ദേശങ്ങൾ, വീഡിയോ ഫയലുകൾ
അർദ്ധഘടനയുള്ള ഡാറ്റ
അർദ്ധഘടനയുള്ള ഡാറ്റ ഘടനയുള്ളതും ഘടനയില്ലാത്തതുമായ ഡാറ്റയുടെ സംയോജനം പോലെയാണ്. സാധാരണയായി വരികളും കോളങ്ങളുമായുള്ള ഫോർമാറ്റിൽ ഒത്തുപോകുന്നില്ല, പക്ഷേ ഘടനയുള്ളതായും സ്ഥിരമായ ഫോർമാറ്റോ നിയമങ്ങളോ പാലിക്കുന്നതുമായ രീതിയിൽ ക്രമീകരിച്ചിരിക്കുന്നു. ഘടന ഉറവിടങ്ങൾക്കിടയിൽ വ്യത്യാസപ്പെടും, ഉദാഹരണത്തിന് നന്നായി നിർവചിച്ച ഹയർആർക്കി മുതൽ പുതിയ വിവരങ്ങൾ എളുപ്പത്തിൽ സംയോജിപ്പിക്കാൻ അനുവദിക്കുന്ന കൂടുതൽ സൗകര്യമുള്ള ഘടന വരെ. മെറ്റാഡേറ്റ എന്നത് ഡാറ്റ എങ്ങനെ ക്രമീകരിച്ചിരിക്കുന്നു എന്ന് തീരുമാനിക്കാൻ സഹായിക്കുന്ന സൂചകങ്ങളാണ്, ഡാറ്റയുടെ തരം അനുസരിച്ച് വിവിധ പേരുകൾ ഉണ്ടാകും. മെറ്റാഡേറ്റയ്ക്ക് സാധാരണ പേരുകൾ: ടാഗുകൾ, ഘടകങ്ങൾ, ഘടനകൾ, ഗുണങ്ങൾ. ഉദാഹരണത്തിന്, ഒരു സാധാരണ ഇമെയിൽ സന്ദേശത്തിന് വിഷയം, ശരീരം, സ്വീകരിക്കുന്നവരുടെ ഒരു സെറ്റ് ഉണ്ടാകും, അയച്ചത് ആരാണെന്നും എപ്പോൾ ആണെന്നും ക്രമീകരിക്കാവുന്നതാണ്.
അർദ്ധഘടനയുള്ള ഡാറ്റയുടെ ഉദാഹരണങ്ങൾ: HTML, CSV ഫയലുകൾ, ജാവാസ്ക്രിപ്റ്റ് ഒബ്ജക്റ്റ് നോട്ടേഷൻ (JSON)
ഡാറ്റയുടെ ഉറവിടങ്ങൾ
ഡാറ്റ ഉറവിടം എന്നത് ഡാറ്റ എവിടെ സൃഷ്ടിക്കപ്പെട്ടുവോ "വസിക്കുന്നിടമോ" ആ പ്രാഥമിക സ്ഥലം ആണ്, ഇത് എങ്ങനെ എപ്പോൾ ശേഖരിച്ചതിന്റെ അടിസ്ഥാനത്തിൽ വ്യത്യാസപ്പെടും. ഉപയോക്താക്കൾ സൃഷ്ടിച്ച ഡാറ്റ പ്രാഥമിക ഡാറ്റയായി അറിയപ്പെടുന്നു, പൊതുവായ ഉപയോഗത്തിനായി ശേഖരിച്ച ഡാറ്റ രണ്ടാമത്തെ ഡാറ്റയാണ്. ഉദാഹരണത്തിന്, ഒരു ഗ്രൂപ്പ് ശാസ്ത്രജ്ഞർ ഒരു മഴക്കാടിൽ നിരീക്ഷണങ്ങൾ ശേഖരിക്കുന്നത് പ്രാഥമികമായി കണക്കാക്കപ്പെടും, അവർ അത് മറ്റ് ശാസ്ത്രജ്ഞരുമായി പങ്കുവെക്കാൻ തീരുമാനിച്ചാൽ അത് ഉപയോഗിക്കുന്നവർക്കു രണ്ടാമത്തെ ഡാറ്റയായി കണക്കാക്കപ്പെടും.
ഡാറ്റാബേസുകൾ സാധാരണ ഉറവിടമാണ്, ഡാറ്റാബേസ് മാനേജ്മെന്റ് സിസ്റ്റം ഡാറ്റ ഹോസ്റ്റ് ചെയ്യാനും പരിപാലിക്കാനും ഉപയോഗിക്കുന്നു, ഉപയോക്താക്കൾ ക്വെറിയുകൾ എന്ന കമാൻഡുകൾ ഉപയോഗിച്ച് ഡാറ്റ പരിശോധിക്കുന്നു. ഫയലുകൾ ഡാറ്റ ഉറവിടങ്ങളായി ഓഡിയോ, ഇമേജ്, വീഡിയോ ഫയലുകൾ കൂടാതെ എക്സൽ പോലുള്ള സ്പ്രെഡ്ഷീറ്റുകളും ആകാം. ഇന്റർനെറ്റ് ഉറവിടങ്ങൾ ഡാറ്റ ഹോസ്റ്റ് ചെയ്യാനുള്ള സാധാരണ സ്ഥലമാണ്, ഡാറ്റാബേസുകളും ഫയലുകളും അവിടെ കാണാം. ആപ്ലിക്കേഷൻ പ്രോഗ്രാമിംഗ് ഇന്റർഫേസുകൾ (APIs) പ്രോഗ്രാമർമാർക്ക് ഡാറ്റ ഇന്റർനെറ്റിലൂടെ ബാഹ്യ ഉപയോക്താക്കളുമായി പങ്കുവെക്കാനുള്ള മാർഗങ്ങൾ സൃഷ്ടിക്കാൻ അനുവദിക്കുന്നു, വെബ് സ്ക്രാപ്പിംഗ് എന്ന പ്രക്രിയ വെബ് പേജിൽ നിന്നുള്ള ഡാറ്റ എടുക്കുന്നു. ഡാറ്റയുമായി പ്രവർത്തിക്കൽ പാഠങ്ങൾ വിവിധ ഡാറ്റ ഉറവിടങ്ങൾ എങ്ങനെ ഉപയോഗിക്കാമെന്ന് ശ്രദ്ധിക്കുന്നു.
സമാപനം
ഈ പാഠത്തിൽ നാം പഠിച്ചത്:
- ഡാറ്റ എന്താണെന്ന്
- ഡാറ്റ എങ്ങനെ വിവരണമാണ്
- ഡാറ്റ എങ്ങനെ വർഗ്ഗീകരിക്കപ്പെടുന്നു
- ഡാറ്റ എവിടെ കണ്ടെത്താം
🚀 ചലഞ്ച്
കാഗിൾ തുറന്ന ഡാറ്റാസെറ്റുകളുടെ മികച്ച ഉറവിടമാണ്. ഡാറ്റാസെറ്റ് തിരയൽ ഉപകരണം ഉപയോഗിച്ച് ചില രസകരമായ ഡാറ്റാസെറ്റുകൾ കണ്ടെത്തി ഈ മാനദണ്ഡങ്ങൾ ഉപയോഗിച്ച് 3-5 ഡാറ്റാസെറ്റുകൾ വർഗ്ഗീകരിക്കുക:
- ഡാറ്റ അളവുകൂട്ടിയതാണോ ഗുണപരമായതാണോ?
- ഡാറ്റ ഘടനയുള്ളതാണോ, ഘടനയില്ലാത്തതാണോ, അർദ്ധഘടനയുള്ളതാണോ?
പോസ്റ്റ്-ലെക്ചർ ക്വിസ്
അവലോകനം & സ്വയം പഠനം
- Classify your Data എന്ന മൈക്രോസോഫ്റ്റ് ലേൺ യൂണിറ്റ് ഘടനയുള്ള, അർദ്ധഘടനയുള്ള, ഘടനയില്ലാത്ത ഡാറ്റയുടെ വിശദമായ വിഭജനം നൽകുന്നു.
അസൈൻമെന്റ്
അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
