You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/te/1-Introduction/03-defining-data
localizeflow[bot] b985ee1af0
chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 1 month ago

README.md

డేటా నిర్వచనం

 Sketchnote by (@sketchthedocs)
డేటా నిర్వచనం - Sketchnote by @nitya

డేటా అనేది నిజాలు, సమాచారం, పరిశీలనలు మరియు కొలతలు, ఇవి ఆవిష్కరణలు చేయడానికి మరియు సమాచారంతో కూడిన నిర్ణయాలను మద్దతు ఇవ్వడానికి ఉపయోగిస్తారు. ఒక డేటా పాయింట్ అనేది ఒక డేటాసెట్‌లోని ఒకే ఒక డేటా యూనిట్, ఇది డేటా పాయింట్ల సేకరణ. డేటాసెట్లు వివిధ ఫార్మాట్లు మరియు నిర్మాణాలలో ఉండవచ్చు, మరియు సాధారణంగా దాని మూలం లేదా డేటా ఎక్కడినుంచి వచ్చింది అనే ఆధారంగా ఉంటాయి. ఉదాహరణకు, ఒక కంపెనీ యొక్క నెలవారీ ఆదాయం స్ప్రెడ్షీట్‌లో ఉండవచ్చు కానీ స్మార్ట్‌వాచ్ నుండి గంటల వారీ గుండె రేటు డేటా JSON ఫార్మాట్‌లో ఉండవచ్చు. డేటా శాస్త్రవేత్తలు సాధారణంగా ఒక డేటాసెట్‌లోని వివిధ రకాల డేటాతో పని చేస్తారు.

ఈ పాఠం డేటాను దాని లక్షణాలు మరియు మూలాల ద్వారా గుర్తించడం మరియు వర్గీకరించడంపై కేంద్రీకృతమైంది.

పూర్వ-లెక్చర్ క్విజ్

డేటా ఎలా వివరించబడుతుంది

రా డేటా

రా డేటా అనేది దాని మూలం నుండి ప్రారంభ స్థితిలో వచ్చిన డేటా, ఇది విశ్లేషించబడలేదు లేదా సక్రమంగా ఏర్పాటు చేయబడలేదు. ఒక డేటాసెట్‌లో ఏమి జరుగుతుందో అర్థం చేసుకోవడానికి, అది మానవులు మరియు వారు ఉపయోగించే సాంకేతికతకు అర్థమయ్యే ఫార్మాట్‌లో సక్రమంగా ఏర్పాటు చేయబడాలి. ఒక డేటాసెట్ నిర్మాణం దాని ఏర్పాటు ఎలా ఉందో వివరిస్తుంది మరియు ఇది నిర్మిత, నిర్మిత కాని మరియు అర్ధ-నిర్మితంగా వర్గీకరించబడవచ్చు. ఈ నిర్మాణ రకాలు మూలం ఆధారంగా మారవచ్చు కానీ చివరికి ఈ మూడు వర్గాలలో సరిపోతాయి.

పరిమాణాత్మక డేటా

పరిమాణాత్మక డేటా అనేది డేటాసెట్‌లోని సంఖ్యాత్మక పరిశీలనలు మరియు సాధారణంగా విశ్లేషించబడవచ్చు, కొలవబడవచ్చు మరియు గణితంగా ఉపయోగించబడవచ్చు. పరిమాణాత్మక డేటా కొన్ని ఉదాహరణలు: ఒక దేశ జనాభా, ఒక వ్యక్తి ఎత్తు లేదా ఒక కంపెనీ త్రైమాసిక ఆదాయం. కొంత అదనపు విశ్లేషణతో, పరిమాణాత్మక డేటా వాయు నాణ్యత సూచిక (AQI) యొక్క సీజనల్ ట్రెండ్లను కనుగొనడానికి లేదా సాధారణ పని దినంలో రష్ అవర్ ట్రాఫిక్ సంభావ్యతను అంచనా వేయడానికి ఉపయోగించవచ్చు.

గుణాత్మక డేటా

గుణాత్మక డేటా, లేదా వర్గీకృత డేటా, అనేది పరిమాణాత్మక డేటా పరిశీలనల లాగా ఆబ్జెక్టివ్‌గా కొలవలేని డేటా. ఇది సాధారణంగా వివిధ రకాల సబ్జెక్టివ్ డేటా, ఇది ఏదైనా వస్తువు లేదా ప్రక్రియ యొక్క నాణ్యతను పట్టుకుంటుంది. కొన్నిసార్లు, గుణాత్మక డేటా సంఖ్యాత్మకంగా ఉండవచ్చు కానీ సాధారణంగా గణితంగా ఉపయోగించబడదు, ఉదాహరణకు ఫోన్ నంబర్లు లేదా టైమ్‌స్టాంప్లు. గుణాత్మక డేటా కొన్ని ఉదాహరణలు: వీడియో వ్యాఖ్యలు, కారు తయారీ మరియు మోడల్ లేదా మీ అత్యంత సన్నిహిత మిత్రుల ఇష్టమైన రంగు. గుణాత్మక డేటా వినియోగదారులు ఏ ఉత్పత్తులను ఎక్కువగా ఇష్టపడతారో అర్థం చేసుకోవడానికి లేదా ఉద్యోగ దరఖాస్తు రిజ్యూమ్‌లలో ప్రాచుర్యం పొందిన కీవర్డ్లను గుర్తించడానికి ఉపయోగించవచ్చు.

నిర్మిత డేటా

నిర్మిత డేటా అనేది వరుసలు మరియు కాలమ్స్‌లో ఏర్పాటు చేయబడిన డేటా, ప్రతి వరుసకు అదే కాలమ్‌ల సెట్ ఉంటుంది. కాలమ్స్ ఒక నిర్దిష్ట రకం విలువను సూచిస్తాయి మరియు ఆ విలువ ఏమిటో వివరిస్తూ ఒక పేరుతో గుర్తించబడతాయి, వరుసలు వాస్తవ విలువలను కలిగి ఉంటాయి. కాలమ్‌లకు విలువలపై నిర్దిష్ట నియమాలు లేదా పరిమితులు ఉండవచ్చు, విలువలు కాలమ్‌ను సరిగ్గా ప్రతిబింబించడానికి. ఉదాహరణకు, ఒక కస్టమర్‌ల స్ప్రెడ్షీట్‌లో ప్రతి వరుసకు ఫోన్ నంబర్ ఉండాలి మరియు ఫోన్ నంబర్లు ఎప్పుడూ అక్షరాలు కలిగి ఉండకూడదు. ఫోన్ నంబర్ కాలమ్‌పై నియమాలు ఉండవచ్చు, అది ఎప్పుడూ ఖాళీగా ఉండకూడదని మరియు కేవలం సంఖ్యలు మాత్రమే ఉండాలని.

నిర్మిత డేటా లాభం ఏమిటంటే, ఇది ఇతర నిర్మిత డేటాతో సంబంధం కలిగి ఉండే విధంగా ఏర్పాటు చేయబడవచ్చు. అయితే, డేటా ఒక నిర్దిష్ట విధంగా ఏర్పాటు చేయబడినందున, దాని మొత్తం నిర్మాణంలో మార్పులు చేయడం చాలా కష్టంగా ఉంటుంది. ఉదాహరణకు, ఖాళీగా ఉండకూడని ఇమెయిల్ కాలమ్‌ను కస్టమర్ స్ప్రెడ్షీట్‌లో జోడించడం అంటే, ఈ విలువలను ఇప్పటికే ఉన్న కస్టమర్ వరుసలకు ఎలా జోడించాలో మీరు ఆలోచించాలి.

నిర్మిత డేటా ఉదాహరణలు: స్ప్రెడ్షీట్లు, రిలేషనల్ డేటాబేసులు, ఫోన్ నంబర్లు, బ్యాంక్ స్టేట్మెంట్లు

నిర్మిత కాని డేటా

నిర్మిత కాని డేటా సాధారణంగా వరుసలు లేదా కాలమ్‌లుగా వర్గీకరించలేం మరియు దానికి అనుసరించాల్సిన ఫార్మాట్ లేదా నియమాలు ఉండవు. నిర్మిత కాని డేటాకు నిర్మిత డేటాతో పోలిస్తే తక్కువ పరిమితులు ఉండటంతో కొత్త సమాచారాన్ని జోడించడం సులభం. ఉదాహరణకు, ప్రతి 2 నిమిషాలకు బారోమెట్రిక్ ప్రెషర్‌ను కొలిచే సెన్సార్ ఇప్పుడు ఉష్ణోగ్రతను కొలవడానికి మరియు రికార్డ్ చేయడానికి అప్‌డేట్ పొందినట్లయితే, అది నిర్మిత కాని డేటా అయితే ఇప్పటికే ఉన్న డేటాను మార్చాల్సిన అవసరం లేదు. అయితే, ఈ రకమైన డేటాను విశ్లేషించడం లేదా పరిశీలించడం ఎక్కువ సమయం తీసుకోవచ్చు. ఉదాహరణకు, ఒక శాస్త్రవేత్త గత నెల సగటు ఉష్ణోగ్రతను కనుగొనాలనుకుంటే, సెన్సార్ కొన్ని రికార్డ్ చేసిన డేటాలో "e" అనే అక్షరాన్ని నమోదు చేసి అది సెన్సార్ బిగ్గరగా పనిచేయలేదని సూచిస్తే, డేటా అసంపూర్ణంగా ఉంటుంది.

నిర్మిత కాని డేటా ఉదాహరణలు: టెక్స్ట్ ఫైళ్లు, టెక్స్ట్ సందేశాలు, వీడియో ఫైళ్లు

అర్ధ-నిర్మిత డేటా

అర్ధ-నిర్మిత డేటాకు నిర్మిత మరియు నిర్మిత కాని డేటా లక్షణాలు కలవు. ఇది సాధారణంగా వరుసలు మరియు కాలమ్‌ల ఫార్మాట్‌కు అనుగుణంగా ఉండదు కానీ నిర్మితంగా పరిగణించదగిన విధంగా ఏర్పాటు చేయబడుతుంది మరియు ఒక స్థిరమైన ఫార్మాట్ లేదా నియమాలను అనుసరించవచ్చు. నిర్మాణం మూలాల మధ్య మారవచ్చు, ఉదాహరణకు బాగా నిర్వచించబడిన హైరార్కీ నుండి కొత్త సమాచారాన్ని సులభంగా సమ్మిళితం చేయడానికి అనువైన మరింత సౌకర్యవంతమైనది వరకు. మెటాడేటా అనేది డేటా ఎలా ఏర్పాటు చేయబడిందో మరియు నిల్వ చేయబడిందో నిర్ణయించడంలో సహాయపడే సూచికలు మరియు డేటా రకంపై ఆధారపడి వివిధ పేర్లతో ఉంటాయి. సాధారణ మెటాడేటా పేర్లు: ట్యాగ్లు, ఎలిమెంట్లు, ఎంటిటీలను మరియు లక్షణాలు. ఉదాహరణకు, ఒక సాధారణ ఇమెయిల్ సందేశానికి ఒక విషయం, శరీరం మరియు రిసిపియెంట్ల సెట్ ఉంటుంది మరియు ఎవరు లేదా ఎప్పుడు పంపారో ఆధారంగా ఏర్పాటు చేయబడవచ్చు.

అర్ధ-నిర్మిత డేటా ఉదాహరణలు: HTML, CSV ఫైళ్లు, జావాస్క్రిప్ట్ ఆబ్జెక్ట్ నోటేషన్ (JSON)

డేటా మూలాలు

డేటా మూలం అనేది డేటా ఉత్పత్తి అయిన ప్రాథమిక స్థలం లేదా అది "ఉండే" ప్రదేశం, మరియు అది ఎప్పుడు మరియు ఎలా సేకరించబడిందో ఆధారంగా మారుతుంది. దాని వినియోగదారులచే ఉత్పత్తి చేయబడిన డేటాను ప్రాథమిక డేటా అంటారు, మరియు సాధారణ ఉపయోగం కోసం సేకరించిన మూలం నుండి వచ్చిన డేటాను ద్వితీయ డేటా అంటారు. ఉదాహరణకు, ఒక వనవిల్లు లో పరిశీలనలు సేకరించే శాస్త్రవేత్తల సమూహం ప్రాథమికంగా పరిగణించబడుతుంది, మరియు వారు ఇతర శాస్త్రవేత్తలతో పంచుకుంటే, అది ఆ వినియోగదారులకు ద్వితీయంగా పరిగణించబడుతుంది.

డేటాబేసులు సాధారణ మూలాలు మరియు డేటాను హోస్ట్ చేయడానికి మరియు నిర్వహించడానికి డేటాబేస్ మేనేజ్‌మెంట్ సిస్టమ్‌పై ఆధారపడి ఉంటాయి, వినియోగదారులు క్వెరీలు అనే ఆదేశాలను ఉపయోగించి డేటాను అన్వేషిస్తారు. ఫైళ్లు డేటా మూలాలుగా ఆడియో, చిత్రం, వీడియో ఫైళ్లు మరియు ఎక్సెల్ వంటి స్ప్రెడ్షీట్లు ఉండవచ్చు. ఇంటర్నెట్ మూలాలు డేటాను హోస్ట్ చేయడానికి సాధారణ ప్రదేశం, ఇక్కడ డేటాబేసులు మరియు ఫైళ్లు రెండూ ఉండవచ్చు. అప్లికేషన్ ప్రోగ్రామింగ్ ఇంటర్‌ఫేసులు (APIs) ప్రోగ్రామర్లకు ఇంటర్నెట్ ద్వారా బాహ్య వినియోగదారులతో డేటాను పంచుకునే మార్గాలను సృష్టించడానికి అనుమతిస్తాయి, మరియు వెబ్ స్క్రాపింగ్ ప్రక్రియ వెబ్ పేజీ నుండి డేటాను తీసుకుంటుంది. డేటాతో పని చేయడం పాఠాలు వివిధ డేటా మూలాలను ఎలా ఉపయోగించాలో కేంద్రీకృతమై ఉన్నాయి.

ముగింపు

ఈ పాఠంలో మనం నేర్చుకున్నాం:

  • డేటా అంటే ఏమిటి
  • డేటా ఎలా వివరించబడుతుంది
  • డేటా ఎలా వర్గీకరించబడుతుంది మరియు వర్గాలుగా విభజించబడుతుంది
  • డేటా ఎక్కడ కనుగొనవచ్చు

🚀 సవాలు

Kaggle అనేది ఓపెన్ డేటాసెట్లకు అద్భుతమైన మూలం. డేటాసెట్ శోధన సాధనం ఉపయోగించి కొన్ని ఆసక్తికరమైన డేటాసెట్లను కనుగొని ఈ ప్రమాణాలతో 3-5 డేటాసెట్లను వర్గీకరించండి:

  • డేటా పరిమాణాత్మకమా లేదా గుణాత్మకమా?
  • డేటా నిర్మితమా, నిర్మిత కాని, లేదా అర్ధ-నిర్మితమా?

పోస్ట్-లెక్చర్ క్విజ్

సమీక్ష & స్వీయ అధ్యయనం

  • ఈ Microsoft Learn యూనిట్, మీ డేటాను వర్గీకరించండి అనే శీర్షికతో, నిర్మిత, అర్ధ-నిర్మిత మరియు నిర్మిత కాని డేటా యొక్క వివరమైన విభజనను కలిగి ఉంది.

అసైన్‌మెంట్

డేటాసెట్ల వర్గీకరణ


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.