|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.md | 1 month ago | |
README.md
డేటా నిర్వచనం
![]() |
|---|
| డేటా నిర్వచనం - Sketchnote by @nitya |
డేటా అనేది నిజాలు, సమాచారం, పరిశీలనలు మరియు కొలతలు, ఇవి ఆవిష్కరణలు చేయడానికి మరియు సమాచారంతో కూడిన నిర్ణయాలను మద్దతు ఇవ్వడానికి ఉపయోగిస్తారు. ఒక డేటా పాయింట్ అనేది ఒక డేటాసెట్లోని ఒకే ఒక డేటా యూనిట్, ఇది డేటా పాయింట్ల సేకరణ. డేటాసెట్లు వివిధ ఫార్మాట్లు మరియు నిర్మాణాలలో ఉండవచ్చు, మరియు సాధారణంగా దాని మూలం లేదా డేటా ఎక్కడినుంచి వచ్చింది అనే ఆధారంగా ఉంటాయి. ఉదాహరణకు, ఒక కంపెనీ యొక్క నెలవారీ ఆదాయం స్ప్రెడ్షీట్లో ఉండవచ్చు కానీ స్మార్ట్వాచ్ నుండి గంటల వారీ గుండె రేటు డేటా JSON ఫార్మాట్లో ఉండవచ్చు. డేటా శాస్త్రవేత్తలు సాధారణంగా ఒక డేటాసెట్లోని వివిధ రకాల డేటాతో పని చేస్తారు.
ఈ పాఠం డేటాను దాని లక్షణాలు మరియు మూలాల ద్వారా గుర్తించడం మరియు వర్గీకరించడంపై కేంద్రీకృతమైంది.
పూర్వ-లెక్చర్ క్విజ్
డేటా ఎలా వివరించబడుతుంది
రా డేటా
రా డేటా అనేది దాని మూలం నుండి ప్రారంభ స్థితిలో వచ్చిన డేటా, ఇది విశ్లేషించబడలేదు లేదా సక్రమంగా ఏర్పాటు చేయబడలేదు. ఒక డేటాసెట్లో ఏమి జరుగుతుందో అర్థం చేసుకోవడానికి, అది మానవులు మరియు వారు ఉపయోగించే సాంకేతికతకు అర్థమయ్యే ఫార్మాట్లో సక్రమంగా ఏర్పాటు చేయబడాలి. ఒక డేటాసెట్ నిర్మాణం దాని ఏర్పాటు ఎలా ఉందో వివరిస్తుంది మరియు ఇది నిర్మిత, నిర్మిత కాని మరియు అర్ధ-నిర్మితంగా వర్గీకరించబడవచ్చు. ఈ నిర్మాణ రకాలు మూలం ఆధారంగా మారవచ్చు కానీ చివరికి ఈ మూడు వర్గాలలో సరిపోతాయి.
పరిమాణాత్మక డేటా
పరిమాణాత్మక డేటా అనేది డేటాసెట్లోని సంఖ్యాత్మక పరిశీలనలు మరియు సాధారణంగా విశ్లేషించబడవచ్చు, కొలవబడవచ్చు మరియు గణితంగా ఉపయోగించబడవచ్చు. పరిమాణాత్మక డేటా కొన్ని ఉదాహరణలు: ఒక దేశ జనాభా, ఒక వ్యక్తి ఎత్తు లేదా ఒక కంపెనీ త్రైమాసిక ఆదాయం. కొంత అదనపు విశ్లేషణతో, పరిమాణాత్మక డేటా వాయు నాణ్యత సూచిక (AQI) యొక్క సీజనల్ ట్రెండ్లను కనుగొనడానికి లేదా సాధారణ పని దినంలో రష్ అవర్ ట్రాఫిక్ సంభావ్యతను అంచనా వేయడానికి ఉపయోగించవచ్చు.
గుణాత్మక డేటా
గుణాత్మక డేటా, లేదా వర్గీకృత డేటా, అనేది పరిమాణాత్మక డేటా పరిశీలనల లాగా ఆబ్జెక్టివ్గా కొలవలేని డేటా. ఇది సాధారణంగా వివిధ రకాల సబ్జెక్టివ్ డేటా, ఇది ఏదైనా వస్తువు లేదా ప్రక్రియ యొక్క నాణ్యతను పట్టుకుంటుంది. కొన్నిసార్లు, గుణాత్మక డేటా సంఖ్యాత్మకంగా ఉండవచ్చు కానీ సాధారణంగా గణితంగా ఉపయోగించబడదు, ఉదాహరణకు ఫోన్ నంబర్లు లేదా టైమ్స్టాంప్లు. గుణాత్మక డేటా కొన్ని ఉదాహరణలు: వీడియో వ్యాఖ్యలు, కారు తయారీ మరియు మోడల్ లేదా మీ అత్యంత సన్నిహిత మిత్రుల ఇష్టమైన రంగు. గుణాత్మక డేటా వినియోగదారులు ఏ ఉత్పత్తులను ఎక్కువగా ఇష్టపడతారో అర్థం చేసుకోవడానికి లేదా ఉద్యోగ దరఖాస్తు రిజ్యూమ్లలో ప్రాచుర్యం పొందిన కీవర్డ్లను గుర్తించడానికి ఉపయోగించవచ్చు.
నిర్మిత డేటా
నిర్మిత డేటా అనేది వరుసలు మరియు కాలమ్స్లో ఏర్పాటు చేయబడిన డేటా, ప్రతి వరుసకు అదే కాలమ్ల సెట్ ఉంటుంది. కాలమ్స్ ఒక నిర్దిష్ట రకం విలువను సూచిస్తాయి మరియు ఆ విలువ ఏమిటో వివరిస్తూ ఒక పేరుతో గుర్తించబడతాయి, వరుసలు వాస్తవ విలువలను కలిగి ఉంటాయి. కాలమ్లకు విలువలపై నిర్దిష్ట నియమాలు లేదా పరిమితులు ఉండవచ్చు, విలువలు కాలమ్ను సరిగ్గా ప్రతిబింబించడానికి. ఉదాహరణకు, ఒక కస్టమర్ల స్ప్రెడ్షీట్లో ప్రతి వరుసకు ఫోన్ నంబర్ ఉండాలి మరియు ఫోన్ నంబర్లు ఎప్పుడూ అక్షరాలు కలిగి ఉండకూడదు. ఫోన్ నంబర్ కాలమ్పై నియమాలు ఉండవచ్చు, అది ఎప్పుడూ ఖాళీగా ఉండకూడదని మరియు కేవలం సంఖ్యలు మాత్రమే ఉండాలని.
నిర్మిత డేటా లాభం ఏమిటంటే, ఇది ఇతర నిర్మిత డేటాతో సంబంధం కలిగి ఉండే విధంగా ఏర్పాటు చేయబడవచ్చు. అయితే, డేటా ఒక నిర్దిష్ట విధంగా ఏర్పాటు చేయబడినందున, దాని మొత్తం నిర్మాణంలో మార్పులు చేయడం చాలా కష్టంగా ఉంటుంది. ఉదాహరణకు, ఖాళీగా ఉండకూడని ఇమెయిల్ కాలమ్ను కస్టమర్ స్ప్రెడ్షీట్లో జోడించడం అంటే, ఈ విలువలను ఇప్పటికే ఉన్న కస్టమర్ వరుసలకు ఎలా జోడించాలో మీరు ఆలోచించాలి.
నిర్మిత డేటా ఉదాహరణలు: స్ప్రెడ్షీట్లు, రిలేషనల్ డేటాబేసులు, ఫోన్ నంబర్లు, బ్యాంక్ స్టేట్మెంట్లు
నిర్మిత కాని డేటా
నిర్మిత కాని డేటా సాధారణంగా వరుసలు లేదా కాలమ్లుగా వర్గీకరించలేం మరియు దానికి అనుసరించాల్సిన ఫార్మాట్ లేదా నియమాలు ఉండవు. నిర్మిత కాని డేటాకు నిర్మిత డేటాతో పోలిస్తే తక్కువ పరిమితులు ఉండటంతో కొత్త సమాచారాన్ని జోడించడం సులభం. ఉదాహరణకు, ప్రతి 2 నిమిషాలకు బారోమెట్రిక్ ప్రెషర్ను కొలిచే సెన్సార్ ఇప్పుడు ఉష్ణోగ్రతను కొలవడానికి మరియు రికార్డ్ చేయడానికి అప్డేట్ పొందినట్లయితే, అది నిర్మిత కాని డేటా అయితే ఇప్పటికే ఉన్న డేటాను మార్చాల్సిన అవసరం లేదు. అయితే, ఈ రకమైన డేటాను విశ్లేషించడం లేదా పరిశీలించడం ఎక్కువ సమయం తీసుకోవచ్చు. ఉదాహరణకు, ఒక శాస్త్రవేత్త గత నెల సగటు ఉష్ణోగ్రతను కనుగొనాలనుకుంటే, సెన్సార్ కొన్ని రికార్డ్ చేసిన డేటాలో "e" అనే అక్షరాన్ని నమోదు చేసి అది సెన్సార్ బిగ్గరగా పనిచేయలేదని సూచిస్తే, డేటా అసంపూర్ణంగా ఉంటుంది.
నిర్మిత కాని డేటా ఉదాహరణలు: టెక్స్ట్ ఫైళ్లు, టెక్స్ట్ సందేశాలు, వీడియో ఫైళ్లు
అర్ధ-నిర్మిత డేటా
అర్ధ-నిర్మిత డేటాకు నిర్మిత మరియు నిర్మిత కాని డేటా లక్షణాలు కలవు. ఇది సాధారణంగా వరుసలు మరియు కాలమ్ల ఫార్మాట్కు అనుగుణంగా ఉండదు కానీ నిర్మితంగా పరిగణించదగిన విధంగా ఏర్పాటు చేయబడుతుంది మరియు ఒక స్థిరమైన ఫార్మాట్ లేదా నియమాలను అనుసరించవచ్చు. నిర్మాణం మూలాల మధ్య మారవచ్చు, ఉదాహరణకు బాగా నిర్వచించబడిన హైరార్కీ నుండి కొత్త సమాచారాన్ని సులభంగా సమ్మిళితం చేయడానికి అనువైన మరింత సౌకర్యవంతమైనది వరకు. మెటాడేటా అనేది డేటా ఎలా ఏర్పాటు చేయబడిందో మరియు నిల్వ చేయబడిందో నిర్ణయించడంలో సహాయపడే సూచికలు మరియు డేటా రకంపై ఆధారపడి వివిధ పేర్లతో ఉంటాయి. సాధారణ మెటాడేటా పేర్లు: ట్యాగ్లు, ఎలిమెంట్లు, ఎంటిటీలను మరియు లక్షణాలు. ఉదాహరణకు, ఒక సాధారణ ఇమెయిల్ సందేశానికి ఒక విషయం, శరీరం మరియు రిసిపియెంట్ల సెట్ ఉంటుంది మరియు ఎవరు లేదా ఎప్పుడు పంపారో ఆధారంగా ఏర్పాటు చేయబడవచ్చు.
అర్ధ-నిర్మిత డేటా ఉదాహరణలు: HTML, CSV ఫైళ్లు, జావాస్క్రిప్ట్ ఆబ్జెక్ట్ నోటేషన్ (JSON)
డేటా మూలాలు
డేటా మూలం అనేది డేటా ఉత్పత్తి అయిన ప్రాథమిక స్థలం లేదా అది "ఉండే" ప్రదేశం, మరియు అది ఎప్పుడు మరియు ఎలా సేకరించబడిందో ఆధారంగా మారుతుంది. దాని వినియోగదారులచే ఉత్పత్తి చేయబడిన డేటాను ప్రాథమిక డేటా అంటారు, మరియు సాధారణ ఉపయోగం కోసం సేకరించిన మూలం నుండి వచ్చిన డేటాను ద్వితీయ డేటా అంటారు. ఉదాహరణకు, ఒక వనవిల్లు లో పరిశీలనలు సేకరించే శాస్త్రవేత్తల సమూహం ప్రాథమికంగా పరిగణించబడుతుంది, మరియు వారు ఇతర శాస్త్రవేత్తలతో పంచుకుంటే, అది ఆ వినియోగదారులకు ద్వితీయంగా పరిగణించబడుతుంది.
డేటాబేసులు సాధారణ మూలాలు మరియు డేటాను హోస్ట్ చేయడానికి మరియు నిర్వహించడానికి డేటాబేస్ మేనేజ్మెంట్ సిస్టమ్పై ఆధారపడి ఉంటాయి, వినియోగదారులు క్వెరీలు అనే ఆదేశాలను ఉపయోగించి డేటాను అన్వేషిస్తారు. ఫైళ్లు డేటా మూలాలుగా ఆడియో, చిత్రం, వీడియో ఫైళ్లు మరియు ఎక్సెల్ వంటి స్ప్రెడ్షీట్లు ఉండవచ్చు. ఇంటర్నెట్ మూలాలు డేటాను హోస్ట్ చేయడానికి సాధారణ ప్రదేశం, ఇక్కడ డేటాబేసులు మరియు ఫైళ్లు రెండూ ఉండవచ్చు. అప్లికేషన్ ప్రోగ్రామింగ్ ఇంటర్ఫేసులు (APIs) ప్రోగ్రామర్లకు ఇంటర్నెట్ ద్వారా బాహ్య వినియోగదారులతో డేటాను పంచుకునే మార్గాలను సృష్టించడానికి అనుమతిస్తాయి, మరియు వెబ్ స్క్రాపింగ్ ప్రక్రియ వెబ్ పేజీ నుండి డేటాను తీసుకుంటుంది. డేటాతో పని చేయడం పాఠాలు వివిధ డేటా మూలాలను ఎలా ఉపయోగించాలో కేంద్రీకృతమై ఉన్నాయి.
ముగింపు
ఈ పాఠంలో మనం నేర్చుకున్నాం:
- డేటా అంటే ఏమిటి
- డేటా ఎలా వివరించబడుతుంది
- డేటా ఎలా వర్గీకరించబడుతుంది మరియు వర్గాలుగా విభజించబడుతుంది
- డేటా ఎక్కడ కనుగొనవచ్చు
🚀 సవాలు
Kaggle అనేది ఓపెన్ డేటాసెట్లకు అద్భుతమైన మూలం. డేటాసెట్ శోధన సాధనం ఉపయోగించి కొన్ని ఆసక్తికరమైన డేటాసెట్లను కనుగొని ఈ ప్రమాణాలతో 3-5 డేటాసెట్లను వర్గీకరించండి:
- డేటా పరిమాణాత్మకమా లేదా గుణాత్మకమా?
- డేటా నిర్మితమా, నిర్మిత కాని, లేదా అర్ధ-నిర్మితమా?
పోస్ట్-లెక్చర్ క్విజ్
సమీక్ష & స్వీయ అధ్యయనం
- ఈ Microsoft Learn యూనిట్, మీ డేటాను వర్గీకరించండి అనే శీర్షికతో, నిర్మిత, అర్ధ-నిర్మిత మరియు నిర్మిత కాని డేటా యొక్క వివరమైన విభజనను కలిగి ఉంది.
అసైన్మెంట్
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
