You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ml/1-Introduction/03-defining-data
localizeflow[bot] c945bd6341
chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files) 1 month ago

README.md

ഡാറ്റ നിർവചിക്കൽ

 Sketchnote by (@sketchthedocs)
ഡാറ്റ നിർവചിക്കൽ - Sketchnote by @nitya

ഡാറ്റ എന്നത് കണ്ടെത്തലുകൾ നടത്താനും വിവരസമ്പന്നമായ തീരുമാനങ്ങൾ പിന്തുണയ്ക്കാനും ഉപയോഗിക്കുന്ന വാസ്തവങ്ങൾ, വിവരങ്ങൾ, നിരീക്ഷണങ്ങൾ, അളവുകൾ എന്നിവയാണ്. ഒരു ഡാറ്റ പോയിന്റ് എന്നത് ഒരു ഡാറ്റാസെറ്റിനുള്ളിൽ ഉള്ള ഒരു ഏകക ഡാറ്റയാണ്, ഡാറ്റ പോയിന്റുകളുടെ സമാഹാരമാണ് ഡാറ്റാസെറ്റ്. ഡാറ്റാസെറ്റുകൾ വ്യത്യസ്ത ഫോർമാറ്റുകളിലും ഘടനകളിലും വരാം, സാധാരണയായി അതിന്റെ ഉറവിടം അല്ലെങ്കിൽ ഡാറ്റ എവിടെ നിന്നാണ് വന്നത് എന്നതിന്റെ അടിസ്ഥാനത്തിലാണ്. ഉദാഹരണത്തിന്, ഒരു കമ്പനിയുടെ മാസവരുമാനം ഒരു സ്പ്രെഡ്‌ഷീറ്റിൽ ഉണ്ടാകാം, എന്നാൽ ഒരു സ്മാർട്ട്‌വാച്ചിൽ നിന്നുള്ള മണിക്കൂറിൽ ഹൃദയമിടിപ്പ് ഡാറ്റ JSON ഫോർമാറ്റിൽ ഉണ്ടാകാം. ഒരു ഡാറ്റാസെറ്റിനുള്ളിൽ ഡാറ്റ സയന്റിസ്റ്റുകൾ വ്യത്യസ്ത തരത്തിലുള്ള ഡാറ്റകളുമായി പ്രവർത്തിക്കുന്നത് സാധാരണമാണ്.

ഈ പാഠം ഡാറ്റയുടെ സവിശേഷതകളും ഉറവിടങ്ങളും അടിസ്ഥാനമാക്കി ഡാറ്റ തിരിച്ചറിയാനും വർഗ്ഗീകരിക്കാനും ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

പ്രീ-ലെക്ചർ ക്വിസ്

ഡാറ്റ എങ്ങനെ വിവരണമാണ്

റോ ഡാറ്റ

റോ ഡാറ്റ എന്നത് അതിന്റെ ഉറവിടത്തിൽ നിന്നുള്ള പ്രാഥമിക അവസ്ഥയിലുള്ള ഡാറ്റയാണ്, ഇത് വിശകലനം ചെയ്യപ്പെടുകയോ ക്രമീകരിക്കപ്പെടുകയോ ചെയ്തിട്ടില്ല. ഒരു ഡാറ്റാസെറ്റിൽ എന്ത് സംഭവിക്കുന്നു എന്ന് മനസ്സിലാക്കാൻ, അത് മനുഷ്യരും അവയെ കൂടുതൽ വിശകലനം ചെയ്യാൻ ഉപയോഗിക്കുന്ന സാങ്കേതികവിദ്യയും മനസ്സിലാക്കാൻ കഴിയുന്ന ഫോർമാറ്റിലേക്ക് ക്രമീകരിക്കേണ്ടതുണ്ട്. ഒരു ഡാറ്റാസെറ്റിന്റെ ഘടന അതെങ്ങനെ ക്രമീകരിച്ചിരിക്കുന്നു എന്ന് വിവരിക്കുന്നു, ഇത് ഘടനയുള്ള, ഘടനയില്ലാത്ത, അർദ്ധഘടനയുള്ള എന്നിങ്ങനെ വർഗ്ഗീകരിക്കാം. ഈ ഘടനാ തരം ഉറവിടത്തിന്റെ അടിസ്ഥാനത്തിൽ വ്യത്യാസപ്പെടും, പക്ഷേ ഒടുവിൽ ഈ മൂന്ന് വിഭാഗങ്ങളിൽ പെടും.

അളവുകൂട്ടിയ ഡാറ്റ

അളവുകൂട്ടിയ ഡാറ്റ എന്നത് ഒരു ഡാറ്റാസെറ്റിനുള്ളിലെ സംഖ്യാത്മക നിരീക്ഷണങ്ങളാണ്, സാധാരണയായി ഇത് വിശകലനം ചെയ്യാനും അളക്കാനും ഗണിതപരമായി ഉപയോഗിക്കാനും കഴിയും. അളവുകൂട്ടിയ ഡാറ്റയുടെ ചില ഉദാഹരണങ്ങൾ: ഒരു രാജ്യത്തിന്റെ ജനസംഖ്യ, ഒരു വ്യക്തിയുടെ ഉയരം, ഒരു കമ്പനിയുടെ ത്രൈമാസ വരുമാനം. കൂടുതൽ വിശകലനത്തോടെ, അളവുകൂട്ടിയ ഡാറ്റ ഉപയോഗിച്ച് എയർ ക്വാളിറ്റി ഇൻഡക്സ് (AQI) ന്റെ സീസണൽ ട്രെൻഡുകൾ കണ്ടെത്താനോ സാധാരണ ജോലി ദിവസത്തിലെ തിരക്കുള്ള സമയത്തിന്റെ സാധ്യത കണക്കാക്കാനോ കഴിയും.

ഗുണപരമായ ഡാറ്റ

ഗുണപരമായ ഡാറ്റ, അല്ലെങ്കിൽ വർഗ്ഗീയ ഡാറ്റ എന്നറിയപ്പെടുന്നത്, അളവുകൂട്ടിയ ഡാറ്റ പോലെയുള്ള വസ്തുനിഷ്ഠമായി അളക്കാനാകാത്ത ഡാറ്റയാണ്. സാധാരണയായി ഇത് ഉൽപ്പന്നം അല്ലെങ്കിൽ പ്രക്രിയ പോലുള്ള ഒന്നിന്റെ ഗുണനിലവാരം പിടിച്ചെടുക്കുന്ന വിവിധ സ്വഭാവത്തിലുള്ള വിഷയപരമായ ഡാറ്റയാണ്. ചിലപ്പോൾ, ഗുണപരമായ ഡാറ്റ സംഖ്യാത്മകമായിരിക്കാം, എന്നാൽ സാധാരണ ഗണിതപരമായി ഉപയോഗിക്കാറില്ല, ഉദാഹരണത്തിന് ഫോൺ നമ്പറുകൾ അല്ലെങ്കിൽ ടൈംസ്റ്റാമ്പുകൾ. ഗുണപരമായ ഡാറ്റയുടെ ചില ഉദാഹരണങ്ങൾ: വീഡിയോ കമന്റുകൾ, ഒരു കാറിന്റെ നിർമ്മാതാവ് മോഡൽ, നിങ്ങളുടെ അടുത്ത സുഹൃത്തുക്കളുടെ പ്രിയപ്പെട്ട നിറം. ഗുണപരമായ ഡാറ്റ ഉപഭോക്താക്കൾക്ക് ഏറ്റവും ഇഷ്ടപ്പെട്ട ഉൽപ്പന്നങ്ങൾ മനസ്സിലാക്കാനോ ജോലി അപേക്ഷാ റിസ്യൂമുകളിൽ ജനപ്രിയമായ കീവേഡുകൾ തിരിച്ചറിയാനോ ഉപയോഗിക്കാം.

ഘടനയുള്ള ഡാറ്റ

ഘടനയുള്ള ഡാറ്റ എന്നത് വരികളും കോളങ്ങളുമായി ക്രമീകരിച്ചിരിക്കുന്ന ഡാറ്റയാണ്, ഓരോ വരിയിലും ഒരേ സെറ്റ് കോളങ്ങൾ ഉണ്ടാകും. കോളങ്ങൾ ഒരു പ്രത്യേക തരം മൂല്യത്തെ പ്രതിനിധീകരിക്കുന്നു, ആ മൂല്യം എന്താണെന്ന് വിവരിക്കുന്ന പേരോടെ തിരിച്ചറിയപ്പെടും, വരികൾ യഥാർത്ഥ മൂല്യങ്ങൾ അടങ്ങിയിരിക്കും. കോളങ്ങളിൽ സാധാരണയായി മൂല്യങ്ങൾക്ക് പ്രത്യേക നിയമങ്ങളോ നിയന്ത്രണങ്ങളോ ഉണ്ടാകും, മൂല്യങ്ങൾ കോളത്തെ ശരിയായി പ്രതിനിധീകരിക്കുന്നുവെന്ന് ഉറപ്പാക്കാൻ. ഉദാഹരണത്തിന്, ഓരോ വരിയിലും ഫോൺ നമ്പർ ഉണ്ടായിരിക്കേണ്ട ഒരു ഉപഭോക്തൃ സ്പ്രെഡ്‌ഷീറ്റിനെ കണക്കാക്കുക, ഫോൺ നമ്പറുകളിൽ അക്ഷരങ്ങൾ ഉണ്ടായിരിക്കരുത്. ഫോൺ നമ്പർ കോളത്തിൽ ശൂന്യമാകരുത്, നമ്പറുകൾ മാത്രമേ അടങ്ങിയിരിക്കൂ എന്നിങ്ങനെ നിയമങ്ങൾ പ്രയോഗിക്കാം.

ഘടനയുള്ള ഡാറ്റയുടെ ഒരു ഗുണം, അത് മറ്റൊരു ഘടനയുള്ള ഡാറ്റയുമായി ബന്ധിപ്പിക്കാവുന്നതാണ്. എന്നാൽ, ഡാറ്റ ഒരു പ്രത്യേക രീതിയിൽ ക്രമീകരിക്കാൻ രൂപകൽപ്പന ചെയ്തതിനാൽ, അതിന്റെ മൊത്തം ഘടനയിൽ മാറ്റം വരുത്താൻ വലിയ ശ്രമം വേണം. ഉദാഹരണത്തിന്, ഉപഭോക്തൃ സ്പ്രെഡ്‌ഷീറ്റിൽ ശൂന്യമാകരുതാത്ത ഒരു ഇമെയിൽ കോളം ചേർക്കുന്നത്, നിലവിലുള്ള വരികളിൽ ഈ മൂല്യങ്ങൾ എങ്ങനെ ചേർക്കാമെന്ന് കണ്ടെത്തേണ്ടതായിരിക്കും.

ഘടനയുള്ള ഡാറ്റയുടെ ഉദാഹരണങ്ങൾ: സ്പ്രെഡ്‌ഷീറ്റുകൾ, റിലേഷണൽ ഡാറ്റാബേസുകൾ, ഫോൺ നമ്പറുകൾ, ബാങ്ക് സ്റ്റേറ്റ്മെന്റുകൾ

ഘടനയില്ലാത്ത ഡാറ്റ

ഘടനയില്ലാത്ത ഡാറ്റ സാധാരണയായി വരികളിലോ കോളങ്ങളിലോ വർഗ്ഗീകരിക്കാനാകാത്തതും ഒരു ഫോർമാറ്റോ നിയമങ്ങളോ ഇല്ലാത്തതുമാണ്. ഘടനയില്ലാത്ത ഡാറ്റയുടെ ഘടനയിൽ കുറവ് നിയന്ത്രണങ്ങൾ ഉള്ളതിനാൽ, പുതിയ വിവരങ്ങൾ ചേർക്കുന്നത് ഘടനയുള്ള ഡാറ്റാസെറ്റിനേക്കാൾ എളുപ്പമാണ്. ഒരു സെൻസർ 2 മിനിറ്റിൽ ഒരു തവണ ബാരോമെട്രിക് പ്രഷർ ഡാറ്റ ശേഖരിക്കുന്നുണ്ടെങ്കിൽ, ഇപ്പോൾ താപനില അളക്കാനും രേഖപ്പെടുത്താനും കഴിയുന്ന അപ്ഡേറ്റ് ലഭിച്ചാൽ, അത് ഘടനയില്ലാത്ത ഡാറ്റ ആണെങ്കിൽ നിലവിലുള്ള ഡാറ്റ മാറ്റേണ്ടതില്ല. എന്നാൽ, ഈ തരത്തിലുള്ള ഡാറ്റ വിശകലനം ചെയ്യുന്നതിന് കൂടുതൽ സമയം എടുക്കാം. ഉദാഹരണത്തിന്, ഒരു ശാസ്ത്രജ്ഞൻ സെൻസർ ഡാറ്റയിൽ നിന്നുള്ള കഴിഞ്ഞ മാസത്തെ ശരാശരി താപനില കണ്ടെത്താൻ ശ്രമിക്കുമ്പോൾ, ചില രേഖപ്പെടുത്തിയ ഡാറ്റയിൽ "e" എന്നത് സെൻസർ തകരാറിലായിരുന്നുവെന്ന് സൂചിപ്പിക്കാൻ ഉപയോഗിച്ചതായി കണ്ടെത്തുന്നു, അതായത് ഡാറ്റ അപൂർണ്ണമാണ്.

ഘടനയില്ലാത്ത ഡാറ്റയുടെ ഉദാഹരണങ്ങൾ: ടെക്സ്റ്റ് ഫയലുകൾ, ടെക്സ്റ്റ് സന്ദേശങ്ങൾ, വീഡിയോ ഫയലുകൾ

അർദ്ധഘടനയുള്ള ഡാറ്റ

അർദ്ധഘടനയുള്ള ഡാറ്റ ഘടനയുള്ളതും ഘടനയില്ലാത്തതുമായ ഡാറ്റയുടെ സംയോജനം പോലെയാണ്. സാധാരണയായി വരികളും കോളങ്ങളുമായുള്ള ഫോർമാറ്റിൽ ഒത്തുപോകുന്നില്ല, പക്ഷേ ഘടനയുള്ളതായും സ്ഥിരമായ ഫോർമാറ്റോ നിയമങ്ങളോ പാലിക്കുന്നതുമായ രീതിയിൽ ക്രമീകരിച്ചിരിക്കുന്നു. ഘടന ഉറവിടങ്ങൾക്കിടയിൽ വ്യത്യാസപ്പെടും, ഉദാഹരണത്തിന് നന്നായി നിർവചിച്ച ഹയർആർക്കി മുതൽ പുതിയ വിവരങ്ങൾ എളുപ്പത്തിൽ സംയോജിപ്പിക്കാൻ അനുവദിക്കുന്ന കൂടുതൽ സൗകര്യമുള്ള ഘടന വരെ. മെറ്റാഡേറ്റ എന്നത് ഡാറ്റ എങ്ങനെ ക്രമീകരിച്ചിരിക്കുന്നു എന്ന് തീരുമാനിക്കാൻ സഹായിക്കുന്ന സൂചകങ്ങളാണ്, ഡാറ്റയുടെ തരം അനുസരിച്ച് വിവിധ പേരുകൾ ഉണ്ടാകും. മെറ്റാഡേറ്റയ്ക്ക് സാധാരണ പേരുകൾ: ടാഗുകൾ, ഘടകങ്ങൾ, ഘടനകൾ, ഗുണങ്ങൾ. ഉദാഹരണത്തിന്, ഒരു സാധാരണ ഇമെയിൽ സന്ദേശത്തിന് വിഷയം, ശരീരം, സ്വീകരിക്കുന്നവരുടെ ഒരു സെറ്റ് ഉണ്ടാകും, അയച്ചത് ആരാണെന്നും എപ്പോൾ ആണെന്നും ക്രമീകരിക്കാവുന്നതാണ്.

അർദ്ധഘടനയുള്ള ഡാറ്റയുടെ ഉദാഹരണങ്ങൾ: HTML, CSV ഫയലുകൾ, ജാവാസ്ക്രിപ്റ്റ് ഒബ്ജക്റ്റ് നോട്ടേഷൻ (JSON)

ഡാറ്റയുടെ ഉറവിടങ്ങൾ

ഡാറ്റ ഉറവിടം എന്നത് ഡാറ്റ എവിടെ സൃഷ്ടിക്കപ്പെട്ടുവോ "വസിക്കുന്നിടമോ" ആ പ്രാഥമിക സ്ഥലം ആണ്, ഇത് എങ്ങനെ എപ്പോൾ ശേഖരിച്ചതിന്റെ അടിസ്ഥാനത്തിൽ വ്യത്യാസപ്പെടും. ഉപയോക്താക്കൾ സൃഷ്ടിച്ച ഡാറ്റ പ്രാഥമിക ഡാറ്റയായി അറിയപ്പെടുന്നു, പൊതുവായ ഉപയോഗത്തിനായി ശേഖരിച്ച ഡാറ്റ രണ്ടാമത്തെ ഡാറ്റയാണ്. ഉദാഹരണത്തിന്, ഒരു ഗ്രൂപ്പ് ശാസ്ത്രജ്ഞർ ഒരു മഴക്കാടിൽ നിരീക്ഷണങ്ങൾ ശേഖരിക്കുന്നത് പ്രാഥമികമായി കണക്കാക്കപ്പെടും, അവർ അത് മറ്റ് ശാസ്ത്രജ്ഞരുമായി പങ്കുവെക്കാൻ തീരുമാനിച്ചാൽ അത് ഉപയോഗിക്കുന്നവർക്കു രണ്ടാമത്തെ ഡാറ്റയായി കണക്കാക്കപ്പെടും.

ഡാറ്റാബേസുകൾ സാധാരണ ഉറവിടമാണ്, ഡാറ്റാബേസ് മാനേജ്മെന്റ് സിസ്റ്റം ഡാറ്റ ഹോസ്റ്റ് ചെയ്യാനും പരിപാലിക്കാനും ഉപയോഗിക്കുന്നു, ഉപയോക്താക്കൾ ക്വെറിയുകൾ എന്ന കമാൻഡുകൾ ഉപയോഗിച്ച് ഡാറ്റ പരിശോധിക്കുന്നു. ഫയലുകൾ ഡാറ്റ ഉറവിടങ്ങളായി ഓഡിയോ, ഇമേജ്, വീഡിയോ ഫയലുകൾ കൂടാതെ എക്സൽ പോലുള്ള സ്പ്രെഡ്‌ഷീറ്റുകളും ആകാം. ഇന്റർനെറ്റ് ഉറവിടങ്ങൾ ഡാറ്റ ഹോസ്റ്റ് ചെയ്യാനുള്ള സാധാരണ സ്ഥലമാണ്, ഡാറ്റാബേസുകളും ഫയലുകളും അവിടെ കാണാം. ആപ്ലിക്കേഷൻ പ്രോഗ്രാമിംഗ് ഇന്റർഫേസുകൾ (APIs) പ്രോഗ്രാമർമാർക്ക് ഡാറ്റ ഇന്റർനെറ്റിലൂടെ ബാഹ്യ ഉപയോക്താക്കളുമായി പങ്കുവെക്കാനുള്ള മാർഗങ്ങൾ സൃഷ്ടിക്കാൻ അനുവദിക്കുന്നു, വെബ് സ്ക്രാപ്പിംഗ് എന്ന പ്രക്രിയ വെബ് പേജിൽ നിന്നുള്ള ഡാറ്റ എടുക്കുന്നു. ഡാറ്റയുമായി പ്രവർത്തിക്കൽ പാഠങ്ങൾ വിവിധ ഡാറ്റ ഉറവിടങ്ങൾ എങ്ങനെ ഉപയോഗിക്കാമെന്ന് ശ്രദ്ധിക്കുന്നു.

സമാപനം

ഈ പാഠത്തിൽ നാം പഠിച്ചത്:

  • ഡാറ്റ എന്താണെന്ന്
  • ഡാറ്റ എങ്ങനെ വിവരണമാണ്
  • ഡാറ്റ എങ്ങനെ വർഗ്ഗീകരിക്കപ്പെടുന്നു
  • ഡാറ്റ എവിടെ കണ്ടെത്താം

🚀 ചലഞ്ച്

കാഗിൾ തുറന്ന ഡാറ്റാസെറ്റുകളുടെ മികച്ച ഉറവിടമാണ്. ഡാറ്റാസെറ്റ് തിരയൽ ഉപകരണം ഉപയോഗിച്ച് ചില രസകരമായ ഡാറ്റാസെറ്റുകൾ കണ്ടെത്തി ഈ മാനദണ്ഡങ്ങൾ ഉപയോഗിച്ച് 3-5 ഡാറ്റാസെറ്റുകൾ വർഗ്ഗീകരിക്കുക:

  • ഡാറ്റ അളവുകൂട്ടിയതാണോ ഗുണപരമായതാണോ?
  • ഡാറ്റ ഘടനയുള്ളതാണോ, ഘടനയില്ലാത്തതാണോ, അർദ്ധഘടനയുള്ളതാണോ?

പോസ്റ്റ്-ലെക്ചർ ക്വിസ്

അവലോകനം & സ്വയം പഠനം

  • Classify your Data എന്ന മൈക്രോസോഫ്റ്റ് ലേൺ യൂണിറ്റ് ഘടനയുള്ള, അർദ്ധഘടനയുള്ള, ഘടനയില്ലാത്ത ഡാറ്റയുടെ വിശദമായ വിഭജനം നൽകുന്നു.

അസൈൻമെന്റ്

Classifying Datasets


അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.