chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)

pull/720/head
localizeflow[bot] 5 days ago
parent c945bd6341
commit b985ee1af0

@ -0,0 +1,181 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a33c5d4b4156a2b41788d8720b6f724c",
"translation_date": "2025-12-19T16:24:50+00:00",
"source_file": "3-Data-Visualization/R/12-visualization-relationships/README.md",
"language_code": "ml"
}
-->
# ബന്ധങ്ങൾ ദൃശ്യവൽക്കരിക്കൽ: തേൻ 🍯 സംബന്ധിച്ച എല്ലാം
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/12-Visualizing-Relationships.png)|
|:---:|
|ബന്ധങ്ങൾ ദൃശ്യവൽക്കരിക്കൽ - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
നമ്മുടെ ഗവേഷണത്തിന്റെ പ്രകൃതി കേന്ദ്രീകൃതമായ ഭാഗം തുടർന്നുകൊണ്ട്, [United States Department of Agriculture](https://www.nass.usda.gov/About_NASS/index.php) നിന്നുള്ള ഡാറ്റാസെറ്റിൽ നിന്നുള്ള വിവിധ തരത്തിലുള്ള തേനുകളുടെ ബന്ധങ്ങൾ കാണിക്കുന്ന രസകരമായ ദൃശ്യവൽക്കരണങ്ങൾ കണ്ടെത്താം.
ഏകദേശം 600 ഇനങ്ങളുള്ള ഈ ഡാറ്റാസെറ്റ് പല യു.എസ്. സംസ്ഥാനങ്ങളിലെ തേൻ ഉത്പാദനം പ്രദർശിപ്പിക്കുന്നു. ഉദാഹരണത്തിന്, ഓരോ സംസ്ഥാനത്തെയും ഓരോ വർഷത്തെയും കോളനികളുടെ എണ്ണം, ഓരോ കോളനിക്കുള്ള ഉത്പാദനം, മൊത്തം ഉത്പാദനം, സ്റ്റോക്കുകൾ, പൗണ്ട് പ്രതി വില, ഉത്പാദന മൂല്യം എന്നിവ കാണാം.
ഒരു സംസ്ഥാനത്തിന്റെ ഓരോ വർഷവും ഉത്പാദനവും, ഉദാഹരണത്തിന്, ആ സംസ്ഥാനത്തെ തേൻ വിലയുമായി ഉള്ള ബന്ധം ദൃശ്യവൽക്കരിക്കുന്നത് രസകരമായിരിക്കും. അല്ലെങ്കിൽ, സംസ്ഥാനങ്ങളുടെ കോളനി പ്രതി തേൻ ഉത്പാദനത്തിന്റെ ബന്ധം ദൃശ്യവൽക്കരിക്കാം. 2006-ൽ ആദ്യമായി കണ്ട 'CCD' അല്ലെങ്കിൽ 'Colony Collapse Disorder' (http://npic.orst.edu/envir/ccd.html) ഉൾപ്പെടുന്ന ഈ വർഷപരിധി പഠിക്കാൻ ഒരു പ്രാധാന്യമുള്ള ഡാറ്റാസെറ്റാണ്. 🐝
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22)
ഈ പാഠത്തിൽ, നിങ്ങൾ മുമ്പ് ഉപയോഗിച്ചിട്ടുള്ള ggplot2 ഉപയോഗിച്ച് വ്യത്യസ്ത വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധങ്ങൾ ദൃശ്യവൽക്കരിക്കാൻ കഴിയും. പ്രത്യേകിച്ച്, ggplot2-യുടെ `geom_point`യും `qplot` ഫംഗ്ഷനുകളും ഉപയോഗിച്ച് സ്‌കാറ്റർ പ്ലോട്ടുകളും ലൈൻ പ്ലോട്ടുകളും എളുപ്പത്തിൽ '[സാങ്കേതിക ബന്ധങ്ങൾ](https://ggplot2.tidyverse.org/)' കാണിക്കാൻ കഴിയും, ഇത് ഡാറ്റാ സയന്റിസ്റ്റിന് വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കാൻ സഹായിക്കുന്നു.
## സ്‌കാറ്റർപ്ലോട്ടുകൾ
തേൻ വില വർഷം തോറും ഓരോ സംസ്ഥാനത്തും എങ്ങനെ മാറിയെന്ന് കാണിക്കാൻ സ്‌കാറ്റർപ്ലോട്ട് ഉപയോഗിക്കുക. ggplot2, `ggplot`യും `geom_point`ഉം ഉപയോഗിച്ച് സംസ്ഥാന ഡാറ്റ ഗ്രൂപ്പുചെയ്ത് കാറ്റഗോറിയും സംഖ്യാത്മക ഡാറ്റയും കാണിക്കുന്ന ഡാറ്റ പോയിന്റുകൾ പ്രദർശിപ്പിക്കുന്നു.
ഡാറ്റയും Seaborn-ഉം ഇറക്കുമതി ചെയ്യുന്നതിൽ നിന്ന് തുടങ്ങാം:
```r
honey=read.csv('../../data/honey.csv')
head(honey)
```
തേൻ ഡാറ്റയിൽ വർഷവും പൗണ്ട് പ്രതി വിലയും ഉൾപ്പെടെ പല രസകരമായ കോളങ്ങളുണ്ട്. യു.എസ്. സംസ്ഥാനങ്ങൾ അനുസരിച്ച് ഗ്രൂപ്പുചെയ്ത് ഈ ഡാറ്റ പരിശോധിക്കാം:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 |
| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 |
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
| FL | 230000 | 98 |22540000 | 4508000 | 0.64 | 14426000 | 1998 |
തേൻ പൗണ്ട് പ്രതി വിലയും അതിന്റെ യു.എസ്. സംസ്ഥാന ഉത്ഭവവും തമ്മിലുള്ള ബന്ധം കാണിക്കുന്ന ഒരു അടിസ്ഥാന സ്‌കാറ്റർപ്ലോട്ട് സൃഷ്ടിക്കുക. എല്ലാ സംസ്ഥാനങ്ങളും കാണാൻ `y` അക്ഷം ഉയരം നൽകുക:
```r
library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.ml.png)
ഇപ്പോൾ, വർഷം തോറും വില എങ്ങനെ മാറിയെന്ന് കാണിക്കാൻ തേൻ നിറത്തിലുള്ള കളർ സ്കീം ഉപയോഗിച്ച് സമാന ഡാറ്റ കാണിക്കുക. വർഷം തോറും മാറ്റം കാണിക്കാൻ 'scale_color_gradientn' പാരാമീറ്റർ ചേർക്കാം:
> ✅ [scale_color_gradientn](https://www.rdocumentation.org/packages/ggplot2/versions/0.9.1/topics/scale_colour_gradientn) കുറിച്ച് കൂടുതൽ പഠിക്കൂ - മനോഹരമായ റെയിൻബോ കളർ സ്കീം പരീക്ഷിക്കൂ!
```r
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.ml.png)
ഈ കളർ സ്കീം മാറ്റത്തോടെ, പൗണ്ട് പ്രതി തേൻ വില വർഷം തോറും ശക്തമായി ഉയരുന്നുവെന്ന് വ്യക്തമായി കാണാം. ഡാറ്റയിൽ ഒരു സാമ്പിൾ സെറ്റ് പരിശോധിച്ചാൽ (ഉദാഹരണത്തിന്, അരിസോണ), വില വർഷം തോറും ഉയരുന്ന ഒരു പാറ്റേൺ കാണാം, കുറച്ച് ഒഴിവുകൾ കൂടെ:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 |
| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 |
| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 |
| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 |
| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 |
| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 |
| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 |
| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 |
| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 |
| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 |
| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 |
| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 |
| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 |
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
ഈ പുരോഗതി കാണിക്കാൻ കളറിന് പകരം വലിപ്പം ഉപയോഗിക്കാം. കളർബ്ലൈൻഡ് ഉപയോക്താക്കൾക്ക് ഇത് നല്ല ഓപ്ഷൻ ആകാം. ഡോട്ട് വലിപ്പം വർദ്ധിപ്പിച്ച് വില വർദ്ധനവ് കാണിക്കുന്ന വിധം നിങ്ങളുടെ ദൃശ്യവൽക്കരണം തിരുത്തുക:
```r
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(aes(size = year),colour = "blue") +
scale_size_continuous(range = c(0.25, 3))
```
ഡോട്ടുകളുടെ വലിപ്പം ക്രമാനുസൃതമായി വർദ്ധിക്കുന്നതായി കാണാം.
![scatterplot 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.ml.png)
ഇത് സപ്ലൈ-ഡിമാൻഡ് സാദ്ധ്യതയുള്ള ഒരു ലളിതമായ കേസ് ആണോ? കാലാവസ്ഥ മാറ്റം, കോളനി തകർച്ച തുടങ്ങിയ ഘടകങ്ങൾ കാരണം, വർഷം തോറും വാങ്ങാനുളള തേൻ കുറയുന്നുണ്ടോ, അതുകൊണ്ട് വില ഉയരുന്നുണ്ടോ?
ഈ ഡാറ്റാസെറ്റിലെ ചില വേരിയബിളുകൾ തമ്മിലുള്ള സഹബന്ധം കണ്ടെത്താൻ, ചില ലൈൻ ചാർട്ടുകൾ പരിശോധിക്കാം.
## ലൈൻ ചാർട്ടുകൾ
ചോദ്യം: തേൻ പൗണ്ട് പ്രതി വില വർഷം തോറും വ്യക്തമായി ഉയരുന്നുണ്ടോ? ഇത് കണ്ടെത്താൻ ഏറ്റവും എളുപ്പം ഒരു സിംപിൾ ലൈൻ ചാർട്ട് സൃഷ്ടിക്കുക:
```r
qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab = "priceperlb")
```
ഉത്തരം: ചില ഒഴിവുകൾ കൂടെ, 2003-ൽ ചില വ്യത്യാസങ്ങൾ കാണാം:
![line chart 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.ml.png)
ചോദ്യം: 2003-ൽ തേൻ സപ്ലൈയിൽ ഒരു പീക്ക് കാണാമോ? മൊത്തം ഉത്പാദനം വർഷം തോറും നോക്കിയാൽ?
```python
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.ml.png)
ഉത്തരം: അത്രയുമല്ല. മൊത്തം ഉത്പാദനം ആ വർഷം വർദ്ധിച്ചിട്ടുണ്ടെന്ന് തോന്നുന്നു, എങ്കിലും സാധാരണയായി ഈ വർഷങ്ങളിൽ തേൻ ഉത്പാദനം കുറയുകയാണ്.
ചോദ്യം: അപ്പോൾ 2003-ൽ തേൻ വിലയിൽ ഉണ്ടായ പീക്ക് എന്തുകൊണ്ടാണ്?
ഇത് കണ്ടെത്താൻ, ഫേസറ്റ് ഗ്രിഡ് പരിശോധിക്കാം.
## ഫേസറ്റ് ഗ്രിഡുകൾ
ഫേസറ്റ് ഗ്രിഡുകൾ നിങ്ങളുടെ ഡാറ്റാസെറ്റിന്റെ ഒരു ഫേസറ്റ് (ഇവിടെ 'year' തിരഞ്ഞെടുക്കാം, വളരെ ഫേസറ്റുകൾ ഉണ്ടാകാതിരിക്കാൻ) എടുത്ത്, ഓരോ ഫേസറ്റിനും x, y കോർഡിനേറ്റുകൾ ഉപയോഗിച്ച് പ്ലോട്ടുകൾ സൃഷ്ടിക്കുന്നു, എളുപ്പത്തിൽ താരതമ്യം ചെയ്യാൻ. 2003 ഈ താരതമ്യത്തിൽ വ്യത്യസ്തമാണോ?
[ggplot2-യുടെ ഡോക്യുമെന്റേഷൻ](https://ggplot2.tidyverse.org/reference/facet_wrap.html) പ്രകാരം `facet_wrap` ഉപയോഗിച്ച് ഫേസറ്റ് ഗ്രിഡ് സൃഷ്ടിക്കുക.
```r
ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
geom_line() + facet_wrap(vars(year))
```
ഈ ദൃശ്യവൽക്കരണത്തിൽ, കോളനി പ്രതി ഉത്പാദനവും കോളനികളുടെ എണ്ണവും വർഷം തോറും, 3 കോളങ്ങൾ വച്ച് വച്ച് താരതമ്യം ചെയ്യാം:
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.ml.png)
ഈ ഡാറ്റാസെറ്റിൽ, കോളനികളുടെ എണ്ണം, അവയുടെ ഉത്പാദനം വർഷം തോറും, സംസ്ഥാനങ്ങൾ അനുസരിച്ച് പ്രത്യേകമായ ഒന്നും കാണാനില്ല. ഈ രണ്ട് വേരിയബിളുകൾ തമ്മിൽ സഹബന്ധം കണ്ടെത്താൻ മറ്റൊരു മാർഗ്ഗമുണ്ടോ?
## ഡ്യുവൽ-ലൈൻ പ്ലോട്ടുകൾ
R-ന്റെ `par`യും `plot`ഉം ഉപയോഗിച്ച് രണ്ട് ലൈൻ പ്ലോട്ടുകൾ ഒരുമിച്ച് സൂപ്പറിംപോസ് ചെയ്ത് മൾട്ടി-ലൈൻ പ്ലോട്ട് പരീക്ഷിക്കുക. x അക്ഷത്തിൽ വർഷം, y അക്ഷത്തിൽ രണ്ട് അക്ഷങ്ങൾ പ്രദർശിപ്പിക്കുക. കോളനി പ്രതി ഉത്പാദനവും കോളനികളുടെ എണ്ണവും സൂപ്പറിംപോസ് ചെയ്ത് കാണിക്കുക:
```r
par(mar = c(5, 4, 4, 4) + 0.3)
plot(honey$year, honey$numcol, pch = 16, col = 2,type="l")
par(new = TRUE)
plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axes = FALSE, xlab = "", ylab = "",type="l")
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.ml.png)
2003-ൽ പ്രത്യേകമായി ഒന്നും കാണാനില്ലെങ്കിലും, ഈ പാഠം ഒരു സന്തോഷകരമായ നോട്ടിൽ അവസാനിപ്പിക്കാൻ സഹായിക്കുന്നു: മൊത്തം കോളനികളുടെ എണ്ണം കുറയുന്നുണ്ടെങ്കിലും, അവയുടെ എണ്ണം സ്ഥിരതയുള്ളതും, കോളനി പ്രതി ഉത്പാദനം കുറയുന്നുണ്ടെങ്കിലും.
പോകൂ, തേൻതട്ടികൾ, പോകൂ!
🐝❤️
## 🚀 ചലഞ്ച്
ഈ പാഠത്തിൽ, സ്‌കാറ്റർപ്ലോട്ടുകളും ലൈൻ ഗ്രിഡുകളും, ഫേസറ്റ് ഗ്രിഡുകളും ഉൾപ്പെടെ മറ്റു ഉപയോഗങ്ങൾ കുറച്ച് പഠിച്ചു. മറ്റൊരു ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച് ഫേസറ്റ് ഗ്രിഡ് സൃഷ്ടിക്കാൻ ശ്രമിക്കുക, മുൻപുള്ള പാഠങ്ങളിൽ ഉപയോഗിച്ച ഡാറ്റാസെറ്റ് ആയിരിക്കാം. എത്ര സമയം എടുക്കുന്നു, എത്ര ഗ്രിഡുകൾ വരയ്ക്കേണ്ടിവരുന്നു എന്നതിൽ ശ്രദ്ധിക്കുക.
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23)
## അവലോകനം & സ്വയം പഠനം
ലൈൻ പ്ലോട്ടുകൾ ലളിതമായതോ സങ്കീർണ്ണമായതോ ആകാം. [ggplot2 ഡോക്യുമെന്റേഷൻ](https://ggplot2.tidyverse.org/reference/geom_path.html#:~:text=geom_line()%20connects%20them%20in,which%20cases%20are%20connected%20together) വായിച്ച് വിവിധ രീതികൾ പഠിക്കൂ. ഈ പാഠത്തിൽ നിർമ്മിച്ച ലൈൻ ചാർട്ടുകൾ മറ്റ് രീതികളാൽ മെച്ചപ്പെടുത്താൻ ശ്രമിക്കൂ.
## അസൈൻമെന്റ്
[തേൻതട്ടിയിൽ ഡൈവ് ചെയ്യുക](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,185 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "b4039f1c76548d144a0aee0bf28304ec",
"translation_date": "2025-12-19T16:38:09+00:00",
"source_file": "3-Data-Visualization/R/13-meaningful-vizualizations/README.md",
"language_code": "ml"
}
-->
# അർത്ഥവത്തായ ദൃശ്യവത്കരണങ്ങൾ നിർമ്മിക്കൽ
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/13-MeaningfulViz.png)|
|:---:|
| അർത്ഥവത്തായ ദൃശ്യവത്കരണങ്ങൾ - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
> "നിങ്ങൾ ഡാറ്റയെ മതിയായ സമയം പീഡിപ്പിച്ചാൽ, അത് എന്തിനും സമ്മതിക്കും" -- [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase)
ഒരു ഡാറ്റ സയന്റിസ്റ്റിന്റെ അടിസ്ഥാന കഴിവുകളിൽ ഒന്നാണ് നിങ്ങൾക്കുണ്ടാകാവുന്ന ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ സഹായിക്കുന്ന അർത്ഥവത്തായ ഡാറ്റാ ദൃശ്യവത്കരണം സൃഷ്ടിക്കാൻ കഴിയുക. നിങ്ങളുടെ ഡാറ്റ ദൃശ്യവത്കരിക്കുന്നതിന് മുമ്പ്, അത് മുൻപത്തെ പാഠങ്ങളിൽ ചെയ്തതുപോലെ ശുദ്ധീകരിക്കുകയും തയ്യാറാക്കുകയും ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കണം. അതിനുശേഷം, ഡാറ്റ എങ്ങനെ മികച്ച രീതിയിൽ അവതരിപ്പിക്കാമെന്ന് തീരുമാനിക്കാം.
ഈ പാഠത്തിൽ, നിങ്ങൾ അവലോകനം ചെയ്യും:
1. ശരിയായ ചാർട്ട് തരം എങ്ങനെ തിരഞ്ഞെടുക്കാം
2. വഞ്ചനാപരമായ ചാർട്ടിംഗ് ഒഴിവാക്കാൻ എങ്ങനെ
3. നിറവുമായി എങ്ങനെ പ്രവർത്തിക്കാം
4. വായനാസൗകര്യത്തിനായി നിങ്ങളുടെ ചാർട്ടുകൾ എങ്ങനെ സ്റ്റൈൽ ചെയ്യാം
5. അനിമേറ്റഡ് അല്ലെങ്കിൽ 3D ചാർട്ടിംഗ് പരിഹാരങ്ങൾ എങ്ങനെ നിർമ്മിക്കാം
6. സൃഷ്ടിപരമായ ഒരു ദൃശ്യവത്കരണം എങ്ങനെ നിർമ്മിക്കാം
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/24)
## ശരിയായ ചാർട്ട് തരം തിരഞ്ഞെടുക്കുക
മുൻപത്തെ പാഠങ്ങളിൽ, Matplotlib, Seaborn എന്നിവ ഉപയോഗിച്ച് വിവിധ തരം രസകരമായ ഡാറ്റാ ദൃശ്യവത്കരണങ്ങൾ നിർമ്മിക്കാൻ നിങ്ങൾ പരീക്ഷിച്ചു. സാധാരണയായി, നിങ്ങൾ ചോദിക്കുന്ന ചോദ്യത്തിന് അനുയോജ്യമായ [ശരിയായ ചാർട്ട് തരം](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) ഈ പട്ടിക ഉപയോഗിച്ച് തിരഞ്ഞെടുക്കാം:
| നിങ്ങൾ ചെയ്യേണ്ടത്: | നിങ്ങൾ ഉപയോഗിക്കേണ്ടത്: |
| -------------------------- | ------------------------------- |
| സമയാനുസൃത ഡാറ്റ ട്രെൻഡുകൾ കാണിക്കുക | ലൈൻ |
| വിഭാഗങ്ങൾ താരതമ്യം ചെയ്യുക | ബാർ, പൈ |
| മൊത്തം താരതമ്യം ചെയ്യുക | പൈ, സ്റ്റാക്ക് ബാർ |
| ബന്ധങ്ങൾ കാണിക്കുക | സ്കാറ്റർ, ലൈൻ, ഫേസറ്റ്, ഡ്യുവൽ ലൈൻ |
| വിതരണങ്ങൾ കാണിക്കുക | സ്കാറ്റർ, ഹിസ്റ്റോഗ്രാം, ബോക്സ് |
| അനുപാതങ്ങൾ കാണിക്കുക | പൈ, ഡോണട്ട്, വാഫിൾ |
> ✅ നിങ്ങളുടെ ഡാറ്റയുടെ ഘടന അനുസരിച്ച്, ഒരു നൽകിയ ചാർട്ട് പിന്തുണയ്ക്കാൻ അത് ടെക്സ്റ്റിൽ നിന്ന് സംഖ്യാത്മകത്തിലേക്ക് മാറ്റേണ്ടിവരാം.
## വഞ്ചന ഒഴിവാക്കുക
ഒരു ഡാറ്റ സയന്റിസ്റ്റ് ശരിയായ ഡാറ്റയ്ക്ക് ശരിയായ ചാർട്ട് തിരഞ്ഞെടുക്കാൻ ശ്രദ്ധിച്ചാലും, ഡാറ്റയെ തന്നെ തകർക്കുന്ന വിധത്തിൽ ഒരു കാര്യം തെളിയിക്കാൻ ഡാറ്റ പ്രദർശിപ്പിക്കുന്ന നിരവധി മാർഗ്ഗങ്ങൾ ഉണ്ട്. വഞ്ചനാപരമായ ചാർട്ടുകളും ഇൻഫോഗ്രാഫിക്സും നിരവധി ഉദാഹരണങ്ങളുണ്ട്!
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.ml.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 വഞ്ചനാപരമായ ചാർട്ടുകൾക്കുറിച്ചുള്ള കോൺഫറൻസ് ടോക്കിനായി മുകളിൽ ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്യുക
ഈ ചാർട്ട് X അക്ഷം മറിച്ച് സത്യം മറിച്ച് കാണിക്കുന്നു, തീയതി അടിസ്ഥാനമാക്കി:
![bad chart 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.ml.png)
[ഈ ചാർട്ട്](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) കൂടുതൽ വഞ്ചനാപരമാണ്, കാരണം കണ്ണ് വലത്തേക്ക് ആകർഷിക്കപ്പെടുന്നു, കാലക്രമത്തിൽ COVID കേസുകൾ വിവിധ കൗണ്ടികളിൽ കുറയുകയാണെന്ന് നിഗമനം ചെയ്യാൻ. എന്നാൽ, തീയതികൾ സൂക്ഷ്മമായി നോക്കിയാൽ, അവ വഞ്ചനാപരമായ താഴ്ന്ന ട്രെൻഡ് നൽകാൻ പുനഃക്രമീകരിച്ചിട്ടുള്ളതായി കാണാം.
![bad chart 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.ml.jpg)
ഈ പ്രശസ്ത ഉദാഹരണം നിറവും മറിച്ച Y അക്ഷവും ഉപയോഗിച്ച് വഞ്ചന ചെയ്യുന്നു: തോക്കു-സഹായക നിയമം പാസായതിന് ശേഷം തോക്ക് മരണങ്ങൾ ഉയർന്നതായി നിഗമനം ചെയ്യേണ്ടതിനു പകരം, കണ്ണ് മറിച്ച് സത്യം തെറ്റായി കാണുന്നു:
![bad chart 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.ml.jpg)
ഈ വിചിത്രമായ ചാർട്ട് അനുപാതം എങ്ങനെ മാനിപ്പുലേറ്റ് ചെയ്യാമെന്ന് ഹാസ്യകരമായി കാണിക്കുന്നു:
![bad chart 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.ml.jpg)
തുല്യമായവയെ താരതമ്യം ചെയ്യുന്നത് മറ്റൊരു സംശയാസ്പദമായ തന്ത്രമാണ്. 'സ്പ്യൂറിയസ് കോറിലേഷൻസ്' എന്ന വിഷയത്തെക്കുറിച്ച് മുഴുവൻ വെബ്‌സൈറ്റ് [wonderful web site](https://tylervigen.com/spurious-correlations) ഉണ്ട്, മെയ്ൻയിലെ വിവാഹമോചന നിരക്കും മാർഗറിൻ ഉപഭോഗവും തമ്മിലുള്ള 'തथ്യങ്ങൾ' correlated ആയി പ്രദർശിപ്പിക്കുന്നു. Reddit ഗ്രൂപ്പ് ഡാറ്റയുടെ [അസൗന്ദര്യ ഉപയോഗങ്ങൾ](https://www.reddit.com/r/dataisugly/top/?t=all) ശേഖരിക്കുന്നു.
വഞ്ചനാപരമായ ചാർട്ടുകൾ കണ്ണിനെ എളുപ്പത്തിൽ എങ്ങനെ വഞ്ചിക്കാമെന്ന് മനസ്സിലാക്കുന്നത് പ്രധാനമാണ്. ഡാറ്റ സയന്റിസ്റ്റിന്റെ ഉദ്ദേശ്യം നല്ലതായാലും, പൈ ചാർട്ട് പോലുള്ള തെറ്റായ തരം തിരഞ്ഞെടുക്കുന്നത്, അതിൽ വളരെ അധികം വിഭാഗങ്ങൾ കാണിക്കുന്നത്, വഞ്ചനാപരമായിരിക്കാം.
## നിറം
മുകളിൽ 'ഫ്ലോറിഡ ഗൺ വയലൻസ്' ചാർട്ടിൽ നിങ്ങൾ കണ്ടതുപോലെ, നിറം ചാർട്ടുകൾക്ക് അധിക അർത്ഥം നൽകാൻ സഹായിക്കുന്നു, പ്രത്യേകിച്ച് ggplot2, RColorBrewer പോലുള്ള ലൈബ്രറികൾ ഉപയോഗിക്കാതെ നിർമ്മിച്ച ചാർട്ടുകളിൽ. നിങ്ങൾ കൈകൊണ്ട് ഒരു ചാർട്ട് നിർമ്മിക്കുമ്പോൾ, [നിറ സിദ്ധാന്തം](https://colormatters.com/color-and-design/basic-color-theory) കുറച്ച് പഠിക്കുക.
> ✅ ചാർട്ടുകൾ രൂപകൽപ്പന ചെയ്യുമ്പോൾ, ആക്സസിബിലിറ്റി ഒരു പ്രധാന ഘടകമാണെന്ന് ശ്രദ്ധിക്കുക. നിങ്ങളുടെ ചില ഉപയോക്താക്കൾക്ക് നിറം കാണാനാകാതെ പോകാം - നിങ്ങളുടെ ചാർട്ട് ദൃശ്യ വൈകല്യമുള്ള ഉപയോക്താക്കൾക്ക് നന്നായി കാണുന്നുണ്ടോ?
നിങ്ങളുടെ ചാർട്ടിനായി നിറങ്ങൾ തിരഞ്ഞെടുക്കുമ്പോൾ ശ്രദ്ധിക്കുക, കാരണം നിറം നിങ്ങൾ ഉദ്ദേശിക്കുന്നതിൽ വ്യത്യസ്തമായ അർത്ഥം നൽകാം. മുകളിൽ 'ഉയരം' ചാർട്ടിലെ 'പിങ്ക് ലേഡീസ്' ഒരു വ്യക്തമായ 'സ്ത്രീലിംഗ' അർത്ഥം നൽകുന്നു, ഇത് ചാർട്ടിന്റെ വിചിത്രതയിൽ കൂടി കൂട്ടിച്ചേർക്കുന്നു.
[നിറത്തിന്റെ അർത്ഥം](https://colormatters.com/color-symbolism/the-meanings-of-colors) ലോകത്തിന്റെ വിവിധ ഭാഗങ്ങളിൽ വ്യത്യസ്തമായിരിക്കാം, കൂടാതെ അവയുടെ ഷേഡിന്റെ അടിസ്ഥാനത്തിൽ അർത്ഥം മാറാം. പൊതുവെ, നിറങ്ങളുടെ അർത്ഥങ്ങൾ ഉൾപ്പെടുന്നു:
| നിറം | അർത്ഥം |
| ------ | -------------------- |
| ചുവപ്പ് | ശക്തി |
| നീലം | വിശ്വാസം, വിശ്വസ്തത |
| മഞ്ഞ | സന്തോഷം, ജാഗ്രത |
| പച്ച | പരിസ്ഥിതി, ഭാഗ്യം, ഇർഷ്യ |
| പർപ്പിൾ | സന്തോഷം |
| ഓറഞ്ച് | ഉജ്ജ്വലത |
നിങ്ങൾക്ക് കസ്റ്റം നിറങ്ങളുള്ള ഒരു ചാർട്ട് നിർമ്മിക്കേണ്ടതുണ്ടെങ്കിൽ, നിങ്ങളുടെ ചാർട്ടുകൾ ആക്സസിബിൾ ആണെന്ന് ഉറപ്പാക്കുക, കൂടാതെ നിങ്ങൾ തിരഞ്ഞെടുക്കുന്ന നിറം നിങ്ങൾ നൽകാൻ ശ്രമിക്കുന്ന അർത്ഥത്തോട് പൊരുത്തപ്പെടുന്നു.
## വായനാസൗകര്യത്തിനായി നിങ്ങളുടെ ചാർട്ടുകൾ സ്റ്റൈൽ ചെയ്യുക
ചാർട്ടുകൾ വായിക്കാൻ കഴിയാത്ത പക്ഷം അർത്ഥവത്തായിരിക്കില്ല! നിങ്ങളുടെ ഡാറ്റയ്ക്ക് അനുസരിച്ച് ചാർട്ടിന്റെ വീതി, ഉയരം എന്നിവ സ്റ്റൈൽ ചെയ്യാൻ ഒരു നിമിഷം ചെലവഴിക്കുക. ഒരു വേരിയബിൾ (ഉദാ: എല്ലാ 50 സംസ്ഥാനങ്ങളും) പ്രദർശിപ്പിക്കേണ്ടതുണ്ടെങ്കിൽ, സാധ്യമായെങ്കിൽ Y അക്ഷത്തിൽ ലംബമായി കാണിക്കുക, അതിനാൽ കൂറ്റൻ ഹോരിസോണ്ടൽ സ്ക്രോൾ ചെയ്യേണ്ടി വരാതിരിക്കും.
നിങ്ങളുടെ അക്ഷങ്ങൾ ലേബൽ ചെയ്യുക, ആവശ്യമെങ്കിൽ ലെജൻഡ് നൽകുക, ഡാറ്റയുടെ മികച്ച മനസ്സിലാക്കലിനായി ടൂൾടിപ്പുകൾ നൽകുക.
നിങ്ങളുടെ ഡാറ്റ ടെക്സ്റ്റ് ആണെങ്കിൽ, X അക്ഷ上的 വാചകം വായനാസൗകര്യത്തിനായി കോണിൽ കാണിക്കാം. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D പ്ലോട്ടിംഗ് നൽകുന്നു, നിങ്ങളുടെ ഡാറ്റ അത് പിന്തുണച്ചാൽ. അതുപയോഗിച്ച് സങ്കീർണ്ണമായ ഡാറ്റാ ദൃശ്യവത്കരണങ്ങൾ നിർമ്മിക്കാം.
![3d plots](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.ml.png)
## അനിമേഷൻ, 3D ചാർട്ട് പ്രദർശനം
ഇന്നത്തെ മികച്ച ഡാറ്റാ ദൃശ്യവത്കരണങ്ങളിൽ ചിലത് അനിമേറ്റഡ് ആണ്. Shirley Wu D3 ഉപയോഗിച്ച് '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' പോലുള്ള അത്ഭുതകരമായവ ഉണ്ടാക്കി, ഓരോ പൂവും ഒരു സിനിമയുടെ ദൃശ്യവത്കരണമാണ്. Guardian-നായി മറ്റൊരു ഉദാഹരണം 'bussed out' ആണ്, Greensock, D3 എന്നിവയുമായി സംയോജിപ്പിച്ച ഇന്ററാക്ടീവ് അനുഭവം, സ്ക്രോൾടെല്ലിംഗ് ലേഖന ഫോർമാറ്റിൽ NYC എങ്ങനെ നഗരത്തിലെ ഹോമ്ലെസ്സ് പ്രശ്നം ബസ്സിലൂടെ പുറത്തേക്ക് കൊണ്ടുപോകുന്നു എന്ന് കാണിക്കുന്നു.
![busing](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.ml.png)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
ഈ പാഠം ഈ ശക്തമായ ദൃശ്യവത്കരണ ലൈബ്രറികൾ പഠിപ്പിക്കാൻ മതിയാകാത്തതിനാൽ, Vue.js ആപ്പിൽ D3 ഉപയോഗിച്ച് "Dangerous Liaisons" എന്ന പുസ്തകത്തിന്റെ അനിമേറ്റഡ് സോഷ്യൽ നെറ്റ്‌വർക്ക് ദൃശ്യവത്കരണം പ്രദർശിപ്പിക്കാൻ ശ്രമിക്കുക.
> "Les Liaisons Dangereuses" ഒരു കത്ത് നോവലാണ്, അഥവാ കത്തുകളുടെ ഒരു പരമ്പരയായി അവതരിപ്പിച്ച നോവൽ. 1782-ൽ Choderlos de Laclos എഴുതിയ ഇത് ഫ്രഞ്ച് അരിപ്പ്രതിഷ്ഠിതരുടെ രണ്ട് മുഖ്യ കഥാപാത്രങ്ങളായ Vicomte de Valmont, Marquise de Merteuil എന്നിവരുടെ ക്രൂരവും നൈതികമായി തകർന്ന സാമൂഹിക തന്ത്രങ്ങളുടെ കഥ പറയുന്നു. ഇരുവരും അവസാനം മരണപ്പെടുന്നു, പക്ഷേ വലിയ സാമൂഹിക നാശം സൃഷ്ടിച്ചുകൊണ്ട്. നോവൽ അവരുടെ വൃത്തങ്ങളിൽ വിവിധ ആളുകൾക്ക് എഴുതിയ കത്തുകളുടെ പരമ്പരയായി തുറക്കുന്നു, പ്രതികാരം ചെയ്യാനോ പ്രശ്നങ്ങൾ സൃഷ്ടിക്കാനോ. ഈ കത്തുകളുടെ ദൃശ്യവത്കരണം സൃഷ്ടിച്ച് കഥയിലെ പ്രധാന കഥാപാത്രങ്ങളെ ദൃശ്യമായി കണ്ടെത്തുക.
നിങ്ങൾ ഒരു വെബ് ആപ്പ് പൂർത്തിയാക്കും, ഇത് ഈ സോഷ്യൽ നെറ്റ്‌വർക്ക് അനിമേറ്റഡ് ദൃശ്യവത്കരണം പ്രദർശിപ്പിക്കും. ഇത് Vue.js, D3 ഉപയോഗിച്ച് [നെറ്റ്‌വർക്ക് ദൃശ്യവത്കരണം](https://github.com/emiliorizzo/vue-d3-network) സൃഷ്ടിക്കാൻ നിർമ്മിച്ച ഒരു ലൈബ്രറി ഉപയോഗിക്കുന്നു. ആപ്പ് പ്രവർത്തിക്കുമ്പോൾ, സ്ക്രീനിൽ നോഡുകൾ നീക്കി ഡാറ്റ മാറ്റാം.
![liaisons](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.ml.png)
## പ്രോജക്ട്: D3.js ഉപയോഗിച്ച് ഒരു നെറ്റ്‌വർക്ക് കാണിക്കുന്ന ചാർട്ട് നിർമ്മിക്കുക
> ഈ പാഠം ഫോൾഡറിൽ `solution` ഫോൾഡർ ഉൾപ്പെടുന്നു, അവിടെ പൂർത്തിയായ പ്രോജക്ട് നിങ്ങളുടെ റഫറൻസിനായി ലഭ്യമാണ്.
1. സ്റ്റാർട്ടർ ഫോൾഡറിന്റെ റൂട്ടിലുള്ള README.md ഫയലിലെ നിർദ്ദേശങ്ങൾ പിന്തുടരുക. നിങ്ങളുടെ മെഷീനിൽ NPM, Node.js പ്രവർത്തിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക, തുടർന്ന് പ്രോജക്ടിന്റെ ഡിപ്പൻഡൻസികൾ ഇൻസ്റ്റാൾ ചെയ്യുക.
2. `starter/src` ഫോൾഡർ തുറക്കുക. അവിടെ ഒരു `assets` ഫോൾഡർ കാണും, അതിൽ നോവലിലെ എല്ലാ കത്തുകളും നമ്പർ ചെയ്തും 'to' 'from' അനോട്ടേഷനോടും ഉള്ള .json ഫയൽ കാണാം.
3. `components/Nodes.vue`-ൽ കോഡ് പൂർത്തിയാക്കുക, ദൃശ്യവത്കരണം സജ്ജമാക്കാൻ. `createLinks()` എന്ന മെത്തഡ് കണ്ടെത്തി താഴെ കൊടുത്ത നസ്റ്റഡ് ലൂപ്പ് ചേർക്കുക.
.json ഒബ്ജക്റ്റിൽ 'to' 'from' ഡാറ്റ പിടിച്ച് `links` ഒബ്ജക്റ്റ് നിർമ്മിക്കുക, ദൃശ്യവത്കരണ ലൈബ്രറി അത് ഉപയോഗിക്കാനായി:
```javascript
//അക്ഷരങ്ങളിലൂടെ ലൂപ്പ് ചെയ്യുക
let f = 0;
let t = 0;
for (var i = 0; i < letters.length; i++) {
for (var j = 0; j < characters.length; j++) {
if (characters[j] == letters[i].from) {
f = j;
}
if (characters[j] == letters[i].to) {
t = j;
}
}
this.links.push({ sid: f, tid: t });
}
```
ടെർമിനലിൽ നിന്ന് നിങ്ങളുടെ ആപ്പ് ഓടിക്കുക (npm run serve) ദൃശ്യവത്കരണം ആസ്വദിക്കുക!
## 🚀 ചലഞ്ച്
ഇന്റർനെറ്റിൽ വഞ്ചനാപരമായ ദൃശ്യവത്കരണങ്ങൾ കണ്ടെത്താൻ ഒരു യാത്ര നടത്തുക. എഴുത്തുകാരൻ ഉപയോക്താവിനെ എങ്ങനെ വഞ്ചിക്കുന്നു, അത് ഉദ്ദേശിച്ചിട്ടുള്ളതാണോ? ദൃശ്യവത്കരണങ്ങൾ ശരിയാക്കാൻ ശ്രമിക്കുക, അവ എങ്ങനെ കാണിക്കേണ്ടതാണെന്ന് കാണിക്കാൻ.
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/25)
## അവലോകനം & സ്വയം പഠനം
വഞ്ചനാപരമായ ഡാറ്റാ ദൃശ്യവത്കരണത്തെക്കുറിച്ച് വായിക്കാനുള്ള ചില ലേഖനങ്ങൾ:
https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
ചരിത്ര ആസ്തികളും വസ്തുക്കളും സംബന്ധിച്ച രസകരമായ ദൃശ്യവത്കരണങ്ങൾ കാണുക:
https://handbook.pubpub.org/
അനിമേഷൻ നിങ്ങളുടെ ദൃശ്യവത്കരണങ്ങൾ എങ്ങനെ മെച്ചപ്പെടുത്താമെന്ന് ഈ ലേഖനം കാണുക:
https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
## അസൈൻമെന്റ്
[നിങ്ങളുടെ സ്വന്തം കസ്റ്റം ദൃശ്യവത്കരണം നിർമ്മിക്കുക](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,45 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1441550a0d789796b2821e04f7f4cc94",
"translation_date": "2025-12-19T13:35:23+00:00",
"source_file": "3-Data-Visualization/README.md",
"language_code": "ml"
}
-->
# ദൃശ്യവത്കരണങ്ങൾ
![a bee on a lavender flower](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.ml.jpg)
> ഫോട്ടോ <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ജെന്ന ലി</a> യുടെ <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a> നിന്നാണ്
ഡാറ്റാ സയന്റിസ്റ്റിന്റെ ഏറ്റവും പ്രധാനപ്പെട്ട ജോലികളിലൊന്നാണ് ഡാറ്റ ദൃശ്യവത്കരിക്കൽ. ചിത്രങ്ങൾ 1000 വാക്കുകൾക്ക് തുല്യമാണ്, ഒരു ദൃശ്യവത്കരണം നിങ്ങളുടെ ഡാറ്റയിലെ സ്പൈക്കുകൾ, ഔട്ട്‌ലൈയേഴ്സ്, ഗ്രൂപ്പിംഗുകൾ, പ്രവണതകൾ തുടങ്ങിയ വിവിധ രസകരമായ ഭാഗങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കും, ഇത് നിങ്ങളുടെ ഡാറ്റ പറയാൻ ശ്രമിക്കുന്ന കഥ മനസ്സിലാക്കാൻ സഹായിക്കും.
ഈ അഞ്ചു പാഠങ്ങളിൽ, നിങ്ങൾ പ്രകൃതിയിൽ നിന്നുള്ള ഡാറ്റ പരിശോധിച്ച് വിവിധ സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് രസകരവും മനോഹരവുമായ ദൃശ്യവത്കരണങ്ങൾ സൃഷ്ടിക്കും.
| വിഷയം നമ്പർ | വിഷയം | ലിങ്കുചെയ്ത പാഠം | രചയിതാവ് |
| :-----------: | :--: | :-----------: | :----: |
| 1. | അളവുകൾ ദൃശ്യവത്കരിക്കൽ | <ul> <li> [Python](09-visualization-quantities/README.md)</li> <li>[R](../../../3-Data-Visualization/R/09-visualization-quantities) </li> </ul>|<ul> <li> [ജെൻ ലൂപ്പർ](https://twitter.com/jenlooper)</li><li> [വിദുഷി ഗുപ്ത](https://github.com/Vidushi-Gupta)</li> <li>[ജസ്‌ലീൻ സോന്ധി](https://github.com/jasleen101010)</li></ul> |
| 2. | വിതരണ ദൃശ്യവത്കരിക്കൽ | <ul> <li> [Python](10-visualization-distributions/README.md)</li> <li>[R](../../../3-Data-Visualization/R/10-visualization-distributions) </li> </ul>|<ul> <li> [ജെൻ ലൂപ്പർ](https://twitter.com/jenlooper)</li><li> [വിദുഷി ഗുപ്ത](https://github.com/Vidushi-Gupta)</li> <li>[ജസ്‌ലീൻ സോന്ധി](https://github.com/jasleen101010)</li></ul> |
| 3. | അനുപാതങ്ങൾ ദൃശ്യവത്കരിക്കൽ | <ul> <li> [Python](11-visualization-proportions/README.md)</li> <li>[R](../../../3-Data-Visualization) </li> </ul>|<ul> <li> [ജെൻ ലൂപ്പർ](https://twitter.com/jenlooper)</li><li> [വിദുഷി ഗുപ്ത](https://github.com/Vidushi-Gupta)</li> <li>[ജസ്‌ലീൻ സോന്ധി](https://github.com/jasleen101010)</li></ul> |
| 4. | ബന്ധങ്ങൾ ദൃശ്യവത്കരിക്കൽ | <ul> <li> [Python](12-visualization-relationships/README.md)</li> <li>[R](../../../3-Data-Visualization) </li> </ul>|<ul> <li> [ജെൻ ലൂപ്പർ](https://twitter.com/jenlooper)</li><li> [വിദുഷി ഗുപ്ത](https://github.com/Vidushi-Gupta)</li> <li>[ജസ്‌ലീൻ സോന്ധി](https://github.com/jasleen101010)</li></ul> |
| 5. | അർത്ഥപൂർണമായ ദൃശ്യവത്കരണങ്ങൾ സൃഷ്ടിക്കൽ | <ul> <li> [Python](13-meaningful-visualizations/README.md)</li> <li>[R](../../../3-Data-Visualization) </li> </ul>|<ul> <li> [ജെൻ ലൂപ്പർ](https://twitter.com/jenlooper)</li><li> [വിദുഷി ഗുപ്ത](https://github.com/Vidushi-Gupta)</li> <li>[ജസ്‌ലീൻ സോന്ധി](https://github.com/jasleen101010)</li></ul> |
### ക്രെഡിറ്റുകൾ
ഈ ദൃശ്യവത്കരണ പാഠങ്ങൾ 🌸 [ജെൻ ലൂപ്പർ](https://twitter.com/jenlooper), [ജസ്‌ലീൻ സോന്ധി](https://github.com/jasleen101010) , [വിദുഷി ഗുപ്ത](https://github.com/Vidushi-Gupta) എന്നിവരാൽ എഴുതപ്പെട്ടതാണ്.
🍯 US ഹണി പ്രൊഡക്ഷൻ ഡാറ്റ ജെസിക്ക ലിയുടെ [Kaggle](https://www.kaggle.com/jessicali9530/honey-production) പ്രോജക്ടിൽ നിന്നാണ് ലഭിച്ചത്. [ഡാറ്റ](https://usda.library.cornell.edu/concern/publications/rn301137d) യുണൈറ്റഡ് സ്റ്റേറ്റ്സ് ഡിപ്പാർട്ട്മെന്റ് ഓഫ് അഗ്രിക്കൾച്ചർ [United States Department of Agriculture](https://www.nass.usda.gov/About_NASS/index.php) യിൽ നിന്നാണ് ലഭിച്ചത്.
🍄 കൂൺമഷ്‌റൂം ഡാറ്റയും [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset) യിൽ നിന്നാണ്, ഹാറ്ററാസ് ഡൺടൺ തിരുത്തിയതാണ്. ഈ ഡാറ്റാസെറ്റിൽ അഗാരിക്കസ്, ലെപിയോട്ട കുടുംബത്തിലെ 23 സ്പീഷീസുകളിലെ ഗില്ലഡ് കൂൺമഷ്‌റൂമുകളുടെ സങ്കൽപ്പിത സാമ്പിളുകളുടെ വിവരണങ്ങൾ ഉൾപ്പെടുന്നു. കൂൺമഷ്‌റൂം ദി ഓഡുബോൺ സൊസൈറ്റി ഫീൽഡ് ഗൈഡ് ടു നോർത്ത് അമേരിക്കൻ മഷ്‌റൂമ്സ് (1981) ൽ നിന്നാണ് വരച്ചത്. ഈ ഡാറ്റാസെറ്റ് 1987-ൽ UCI ML 27-ന് ദാനം ചെയ്തതാണ്.
🦆 മിന്നസോട്ട ബേർഡ്‌സ് ഡാറ്റ [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) യിൽ നിന്നാണ്, ഹന്നാ കോളിൻസ് [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) യിൽ നിന്നുള്ള ഡാറ്റ സ്ക്രാപ്പ് ചെയ്തതാണ്.
ഈ എല്ലാ ഡാറ്റാസെറ്റുകളും [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/) ലൈസൻസിൽ ലഭ്യമാണ്.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,121 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "07e12a25d20b8f191e3cb651c27fdb2b",
"translation_date": "2025-12-19T15:27:04+00:00",
"source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
"language_code": "ml"
}
-->
# ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|:---:|
| ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/26)
ഇപ്പോൾ നിങ്ങൾക്ക് ഡാറ്റാ സയൻസ് ഒരു പ്രക്രിയയാണ് എന്ന് മനസ്സിലായിരിക്കാം. ഈ പ്രക്രിയ 5 ഘട്ടങ്ങളായി വിഭജിക്കാം:
- പിടിച്ചെടുക്കൽ
- പ്രോസസ്സിംഗ്
- വിശകലനം
- ആശയവിനിമയം
- പരിപാലനം
ഈ പാഠം ലൈഫ്‌സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു.
![Diagram of the data science lifecycle](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.ml.jpg)
> ഫോട്ടോ: [ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## പിടിച്ചെടുക്കൽ
ലൈഫ്‌സൈക്കിളിന്റെ ആദ്യ ഘട്ടം വളരെ പ്രധാനമാണ്, കാരണം അടുത്ത ഘട്ടങ്ങൾ ഇതിൽ ആശ്രയിച്ചിരിക്കുന്നു. ഇത് പ്രായോഗികമായി രണ്ട് ഘട്ടങ്ങൾ ഒന്നിച്ച് ചേർന്നതാണ്: ഡാറ്റാ സമാഹരണം, ഉദ്ദേശ്യവും പരിഹരിക്കേണ്ട പ്രശ്നങ്ങളും നിർവചിക്കൽ.
പ്രോജക്ടിന്റെ ലക്ഷ്യങ്ങൾ നിർവചിക്കാൻ പ്രശ്നം അല്ലെങ്കിൽ ചോദ്യത്തെക്കുറിച്ചുള്ള കൂടുതൽ പശ്ചാത്തലം ആവശ്യമുണ്ട്. ആദ്യം, പ്രശ്നം പരിഹരിക്കേണ്ടവരെ തിരിച്ചറിയുകയും സമാഹരിക്കുകയും ചെയ്യണം. ഇവ ബിസിനസിലെ സ്റ്റേക്ക്‌ഹോൾഡർമാരോ പ്രോജക്ടിന്റെ സ്പോൺസർമാരോ ആയിരിക്കാം, അവർക്ക് ഈ പ്രോജക്ടിൽ നിന്നു ആരോ എന്തോ പ്രയോജനം ലഭിക്കുമെന്ന് തിരിച്ചറിയാൻ സഹായിക്കും, കൂടാതെ എന്ത്, എന്തുകൊണ്ട് അതു ആവശ്യമാണ് എന്നും. നന്നായി നിർവചിച്ച ലക്ഷ്യം അളക്കാവുന്നതും കണക്കാക്കാവുന്നതുമായിരിക്കണം, അംഗീകരിക്കാവുന്ന ഫലം നിർവചിക്കാൻ.
ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:
- ഈ പ്രശ്നം മുമ്പ് സമീപിച്ചിട്ടുണ്ടോ? എന്താണ് കണ്ടെത്തിയത്?
- പങ്കാളികളിൽ എല്ലാവർക്കും ഉദ്ദേശ്യവും ലക്ഷ്യവും മനസ്സിലായിട്ടുണ്ടോ?
- സംശയം ഉണ്ടോ, അത് കുറയ്ക്കാൻ എങ്ങനെ?
- നിയന്ത്രണങ്ങൾ എന്തെല്ലാം?
- അവസാനം ഫലം എങ്ങനെ കാണപ്പെടും?
- എത്ര വിഭവങ്ങൾ (സമയം, ആളുകൾ, കംപ്യൂട്ടേഷൻ) ലഭ്യമാണ്?
അടുത്തത് നിർവചിച്ച ലക്ഷ്യങ്ങൾ നേടാൻ ആവശ്യമായ ഡാറ്റ തിരിച്ചറിയൽ, ശേഖരണം, പിന്നീട് പരിശോധിക്കൽ. സമാഹരണ ഘട്ടത്തിൽ, ഡാറ്റാ സയന്റിസ്റ്റുകൾ ഡാറ്റയുടെ അളവും ഗുണനിലവാരവും വിലയിരുത്തണം. ഇത് ആവശ്യമായ ഫലം നേടാൻ സഹായിക്കുന്ന ഡാറ്റ സമാഹരിച്ചതാണെന്ന് സ്ഥിരീകരിക്കാൻ ഡാറ്റാ എക്സ്പ്ലോറേഷൻ ആവശ്യമാണ്.
ഡാറ്റയെക്കുറിച്ച് ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:
- എനിക്ക് ഇതിനകം ലഭ്യമായ ഡാറ്റ എന്തെല്ലാം?
- ഈ ഡാറ്റയുടെ ഉടമ ആരാണ്?
- സ്വകാര്യത സംബന്ധിച്ച ആശങ്കകൾ എന്തെല്ലാം?
- ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
- ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണനിലവാരം അംഗീകരിക്കാവുന്നതാണോ?
- ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റം വരുത്തണോ?
## പ്രോസസ്സിംഗ്
ലൈഫ്‌സൈക്കിളിന്റെ പ്രോസസ്സിംഗ് ഘട്ടം ഡാറ്റയിൽ പാറ്റേണുകൾ കണ്ടെത്തലും മോഡലിംഗ് ചെയ്യലും ആണ്. ഈ ഘട്ടത്തിൽ ചില സാങ്കേതിക വിദ്യകൾ പാറ്റേണുകൾ കണ്ടെത്താൻ സാംഖ്യിക രീതികൾ ഉപയോഗിക്കുന്നു. സാധാരണയായി വലിയ ഡാറ്റാ സെറ്റിൽ മനുഷ്യൻക്ക് ഇത് ബുദ്ധിമുട്ടുള്ള ജോലി ആയിരിക്കും, അതിനാൽ കംപ്യൂട്ടറുകൾ പ്രക്രിയ വേഗത്തിലാക്കാൻ സഹായിക്കും. ഈ ഘട്ടത്തിലാണ് ഡാറ്റാ സയൻസ്, മെഷീൻ ലേണിംഗ് തമ്മിൽ മുട്ടിച്ചേരുന്നത്. ആദ്യ പാഠത്തിൽ പഠിച്ചതുപോലെ, മെഷീൻ ലേണിംഗ് ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾ നിർമ്മിക്കുന്ന പ്രക്രിയയാണ്. മോഡലുകൾ ഡാറ്റയിലെ വ്യത്യസ്ത വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിച്ച് ഫലങ്ങൾ പ്രവചിക്കാൻ സഹായിക്കുന്നു.
ഈ ഘട്ടത്തിൽ ഉപയോഗിക്കുന്ന സാധാരണ സാങ്കേതിക വിദ്യകൾ ML for Beginners പാഠ്യപദ്ധതിയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. അവയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ താഴെയുള്ള ലിങ്കുകൾ പിന്തുടരുക:
- [ക്ലാസിഫിക്കേഷൻ](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): ഡാറ്റയെ വർഗ്ഗങ്ങളായി ക്രമീകരിച്ച് കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിക്കുക.
- [ക്ലസ്റ്ററിംഗ്](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): സമാനമായ ഗ്രൂപ്പുകളായി ഡാറ്റ കൂട്ടിച്ചേർക്കുക.
- [റെഗ്രഷൻ](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): മൂല്യങ്ങൾ പ്രവചിക്കാൻ വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം കണ്ടെത്തുക.
## പരിപാലനം
ലൈഫ്‌സൈക്കിൾ ഡയഗ്രാമിൽ, പരിപാലനം പിടിച്ചെടുക്കലിനും പ്രോസസ്സിംഗിനും ഇടയിൽ കാണാം. പരിപാലനം ഒരു പ്രോജക്ടിന്റെ മുഴുവൻ കാലയളവിലും ഡാറ്റ മാനേജ്മെന്റ്, സംഭരണം, സുരക്ഷ എന്നിവയുടെ തുടർച്ചയായ പ്രക്രിയയാണ്.
### ഡാറ്റ സംഭരണം
ഡാറ്റ എങ്ങനെ എവിടെ സംഭരിക്കപ്പെടുന്നു എന്നത് സംഭരണ ചെലവും ഡാറ്റ എത്ര വേഗത്തിൽ ആക്‌സസ് ചെയ്യാമെന്നതും ബാധിക്കുന്നു. ഈ വിധത്തിലുള്ള തീരുമാനങ്ങൾ സാധാരണയായി ഡാറ്റാ സയന്റിസ്റ്റ് മാത്രം എടുക്കാറില്ല, പക്ഷേ ഡാറ്റ എങ്ങനെ സംഭരിച്ചിരിക്കുന്നു എന്നതിനെ അടിസ്ഥാനമാക്കി ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ അവർ തീരുമാനങ്ങൾ എടുക്കേണ്ടി വരാം.
ഇവിടെ ആധുനിക ഡാറ്റ സംഭരണ സംവിധാനങ്ങളുടെ ചില ഘടകങ്ങൾ ഉണ്ട്, ഇവ ഈ തീരുമാനങ്ങളെ ബാധിക്കാം:
**ഓൺ പ്രെമൈസ് vs ഓഫ് പ്രെമൈസ് vs പബ്ലിക് അല്ലെങ്കിൽ പ്രൈവറ്റ് ക്ലൗഡ്**
ഓൺ പ്രെമൈസ് എന്നത് നിങ്ങളുടെ സ്വന്തം ഉപകരണങ്ങളിൽ ഡാറ്റ ഹോസ്റ്റ് ചെയ്ത് മാനേജുചെയ്യുന്നതാണ്, ഉദാഹരണത്തിന് ഹാർഡ് ഡ്രൈവ് ഉള്ള സെർവർ. ഓഫ് പ്രെമൈസ് എന്നാൽ നിങ്ങൾക്ക് സ്വന്തമല്ലാത്ത ഉപകരണങ്ങളിൽ ആശ്രയിച്ചിരിക്കുന്നു, ഉദാഹരണത്തിന് ഡാറ്റ സെന്റർ. പബ്ലിക് ക്ലൗഡ് ഡാറ്റ എവിടെ എങ്ങനെ സംഭരിക്കപ്പെടുന്നു എന്നറിയാതെ ഡാറ്റ സംഭരിക്കാൻ ജനപ്രിയമായ ഒരു തിരഞ്ഞെടുപ്പാണ്, ഇവിടെ പബ്ലിക് എന്നത് ക്ലൗഡ് ഉപയോഗിക്കുന്ന എല്ലാവർക്കും പങ്കുവെക്കുന്ന ഏകീകൃത അടിസ്ഥാന ഘടനയെ സൂചിപ്പിക്കുന്നു. ചില സംഘടനകൾക്ക് കർശനമായ സുരക്ഷാ നയങ്ങൾ ഉണ്ട്, അവയ്ക്ക് ഡാറ്റ ഹോസ്റ്റ് ചെയ്യുന്ന ഉപകരണങ്ങളിൽ പൂർണ്ണ ആക്‌സസ് വേണം, അതിനാൽ അവർ സ്വന്തം ക്ലൗഡ് സേവനങ്ങൾ നൽകുന്ന പ്രൈവറ്റ് ക്ലൗഡിൽ ആശ്രയിക്കുന്നു. ക്ലൗഡിലെ ഡാറ്റയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ [പിന്നീട് പാഠങ്ങൾ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud) കാണുക.
**കൂൾ vs ഹോട്ട് ഡാറ്റ**
മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ കൂടുതൽ പരിശീലന ഡാറ്റ ആവശ്യമാകാം. മോഡലിൽ തൃപ്തിയുണ്ടെങ്കിൽ, കൂടുതൽ ഡാറ്റ മോഡലിന്റെ ലക്ഷ്യം നിറവേറ്റാൻ എത്തും. എങ്കിലും, ഡാറ്റ സംഭരിക്കുന്നതും ആക്‌സസ് ചെയ്യുന്നതും ചെലവ് കൂടും. അപൂർവമായി ഉപയോഗിക്കുന്ന ഡാറ്റ (കൂൾ ഡാറ്റ) സ്ഥിരമായി ആക്‌സസ് ചെയ്യുന്ന ഡാറ്റ (ഹോട്ട് ഡാറ്റ) മുതൽ വേർതിരിക്കുന്നത് ഹാർഡ്‌വെയർ അല്ലെങ്കിൽ സോഫ്റ്റ്‌വെയർ സേവനങ്ങളിലൂടെ ചെലവുകുറഞ്ഞ ഡാറ്റ സംഭരണ ഓപ്ഷൻ ആകാം. കൂൾ ഡാറ്റ ആക്‌സസ് ചെയ്യേണ്ടിവന്നാൽ, ഹോട്ട് ഡാറ്റയേക്കാൾ കുറച്ച് കൂടുതൽ സമയം എടുക്കാം.
### ഡാറ്റ മാനേജ്മെന്റ്
ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, [ഡാറ്റാ പ്രിപറേഷൻ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) പാഠത്തിൽ ഉൾപ്പെടുത്തിയ ചില സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് ഡാറ്റ ശുദ്ധമാക്കേണ്ടതുണ്ടെന്ന് കണ്ടെത്താം, ഇത് കൃത്യമായ മോഡലുകൾ നിർമ്മിക്കാൻ സഹായിക്കും. പുതിയ ഡാറ്റ എത്തുമ്പോൾ, ഗുണനിലവാരം നിലനിർത്താൻ സമാനമായ പ്രയോഗങ്ങൾ ആവശ്യമാകും. ചില പ്രോജക്ടുകൾ ഡാറ്റ അന്തിമ സ്ഥലത്തേക്ക് മാറ്റുന്നതിന് മുമ്പ് ശുദ്ധീകരണം, സംഗ്രഹണം, കംപ്രഷൻ എന്നിവയ്ക്ക് ഓട്ടോമേറ്റഡ് ടൂൾ ഉപയോഗിക്കും. Azure Data Factory ഇതിന്റെ ഉദാഹരണമാണ്.
### ഡാറ്റ സുരക്ഷ
ഡാറ്റ സുരക്ഷയുടെ പ്രധാന ലക്ഷ്യങ്ങളിൽ ഒന്നാണ് ഡാറ്റ കൈകാര്യം ചെയ്യുന്നവർ എന്ത് ശേഖരിക്കുന്നു, ഏത് സാഹചര്യത്തിൽ ഉപയോഗിക്കുന്നു എന്നിവ നിയന്ത്രണത്തിൽ വയ്ക്കുക. ഡാറ്റ സുരക്ഷിതമാക്കുന്നത് ആക്‌സസ് അവശ്യമായവർക്കു മാത്രം പരിമിതപ്പെടുത്തുക, പ്രാദേശിക നിയമങ്ങളും നയങ്ങളും പാലിക്കുക, [നൈതികതാ പാഠത്തിൽ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics) ഉൾപ്പെടുത്തിയതുപോലെ നൈതിക മാനദണ്ഡങ്ങൾ പാലിക്കുക എന്നിവ ഉൾപ്പെടുന്നു.
സുരക്ഷയെക്കുറിച്ച് ഒരു ടീം ചെയ്യാവുന്ന ചില കാര്യങ്ങൾ:
- എല്ലാ ഡാറ്റയും എൻക്രിപ്റ്റ് ചെയ്തിട്ടുണ്ടെന്ന് സ്ഥിരീകരിക്കുക
- ഉപഭോക്താക്കൾക്ക് അവരുടെ ഡാറ്റ എങ്ങനെ ഉപയോഗിക്കുന്നു എന്ന വിവരം നൽകുക
- പ്രോജക്ട് വിട്ടുപോയവരുടെ ഡാറ്റ ആക്‌സസ് നീക്കംചെയ്യുക
- ചില പ്രോജക്ട് അംഗങ്ങൾക്കു മാത്രമേ ഡാറ്റ മാറ്റാൻ അനുവാദം നൽകൂ
## 🚀 ചലഞ്ച്
ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ പല പതിപ്പുകൾ ഉണ്ട്, ഓരോ ഘട്ടത്തിനും വ്യത്യസ്ത പേരുകളും ഘട്ടങ്ങളുടെ എണ്ണം വ്യത്യസ്തമായിരിക്കാം, പക്ഷേ ഈ പാഠത്തിൽ പരാമർശിച്ച പ്രക്രിയകൾ എല്ലാം ഉൾക്കൊള്ളും.
[ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് ലൈഫ്‌സൈക്കിൾ](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle)യും [ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ്](https://www.datascience-pm.com/crisp-dm-2/)യും പരിശോധിച്ച്, അവയുടെ 3 സാമ്യമുകളും വ്യത്യാസങ്ങളും പറയുക.
|ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP)|ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.ml.png) | ![Data Science Process Alliance Image](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.ml.png) |
| ചിത്രം: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ചിത്രം: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/27)
## അവലോകനം & സ്വയം പഠനം
ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പ്രയോഗിക്കുന്നത് പല വേഷങ്ങളും ജോലികളും ഉൾക്കൊള്ളുന്നു, ചിലർ ഓരോ ഘട്ടത്തിന്റെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കും. ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് പ്രോജക്ടിൽ ഒരാൾക്കുണ്ടാകാവുന്ന വേഷങ്ങളും ജോലികളും വിശദീകരിക്കുന്ന ചില വിഭവങ്ങൾ നൽകുന്നു.
* [ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് വേഷങ്ങളും ജോലികളും](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
* [ഡാറ്റാ സയൻസ് ജോലികൾ നിർവഹിക്കുക: എക്സ്പ്ലോറേഷൻ, മോഡലിംഗ്, ഡിപ്ലോയ്മെന്റ്](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
## അസൈൻമെന്റ്
[ഡാറ്റാസെറ്റ് വിലയിരുത്തൽ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,38 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "564445c39ad29a491abcb9356fc4d47d",
"translation_date": "2025-12-19T15:28:43+00:00",
"source_file": "4-Data-Science-Lifecycle/14-Introduction/assignment.md",
"language_code": "ml"
}
-->
# ഒരു ഡാറ്റാസെറ്റ് വിലയിരുത്തൽ
നിങ്ങളുടെ ടീമിന് ഒരു ക്ലയന്റ് ന്യൂയോർക്ക് സിറ്റിയിലെ ടാക്സി ഉപഭോക്താവിന്റെ സീസണൽ ചെലവഴിക്കൽ ശീലങ്ങൾ അന്വേഷിക്കുന്നതിന് സഹായം തേടിയിട്ടുണ്ട്.
അവർ അറിയാൻ ആഗ്രഹിക്കുന്നത്: **ന്യൂയോർക്ക് സിറ്റിയിലെ മഞ്ഞ ടാക്സി യാത്രക്കാർ ശീതകാലത്തോ വേനൽക്കാലത്തോ ഡ്രൈവർമാർക്ക് കൂടുതൽ ടിപ്പ് നൽകുന്നുണ്ടോ?**
ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ [Capturing](Readme.md#Capturing) ഘട്ടത്തിലാണ് നിങ്ങളുടെ ടീം, നിങ്ങൾ ഡാറ്റാസെറ്റ് കൈകാര്യം ചെയ്യുന്നതിന് ഉത്തരവാദിയാണ്. പരിശോധിക്കാൻ നിങ്ങൾക്ക് ഒരു നോട്ട്‌ബുക്ക് കൂടാതെ [ഡാറ്റ](../../../../data/taxi.csv) നൽകിയിട്ടുണ്ട്.
ഈ ഡയറക്ടറിയിൽ [നോട്ട്‌ബുക്ക്](notebook.ipynb) ഉണ്ട്, ഇത് പൈത്തൺ ഉപയോഗിച്ച് [NYC Taxi & Limousine Commission](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets) നിന്നുള്ള മഞ്ഞ ടാക്സി യാത്രാ ഡാറ്റ ലോഡ് ചെയ്യുന്നു. ടാക്സി ഡാറ്റ ഫയൽ ടെക്സ്റ്റ് എഡിറ്റർ അല്ലെങ്കിൽ എക്സൽ പോലുള്ള സ്പ്രെഡ്‌ഷീറ്റ് സോഫ്റ്റ്‌വെയർ ഉപയോഗിച്ച് തുറക്കാനും കഴിയും.
## നിർദ്ദേശങ്ങൾ
- ഈ ഡാറ്റാസെറ്റിലുള്ള ഡാറ്റ ഈ ചോദ്യം ഉത്തരം നൽകാൻ സഹായിക്കുന്നുണ്ടോ എന്ന് വിലയിരുത്തുക.
- [NYC Open Data കാറ്റലോഗ്](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93) പരിശോധിക്കുക. ക്ലയന്റിന്റെ ചോദ്യം ഉത്തരം നൽകുന്നതിൽ സഹായകമായ മറ്റൊരു ഡാറ്റാസെറ്റ് കണ്ടെത്തുക.
- പ്രശ്നത്തെ കൂടുതൽ വ്യക്തമായി മനസിലാക്കാനും വിശദീകരിക്കാനും ക്ലയന്റിനോട് ചോദിക്കേണ്ട 3 ചോദ്യങ്ങൾ എഴുതുക.
ഡാറ്റയെക്കുറിച്ചുള്ള കൂടുതൽ വിവരങ്ങൾക്ക് [ഡാറ്റാസെറ്റിന്റെ നിഘണ്ടു](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf)യും [ഉപയോക്തൃ ഗൈഡ്](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)യും കാണുക.
## റൂബ്രിക്
Exemplary | Adequate | Needs Improvement
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,140 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ശീതകാലത്തും വേനൽക്കാലത്തും NYC ടാക്സി ഡാറ്റ\r\n",
"\r\n",
"നൽകിയിരിക്കുന്ന കോളങ്ങളേക്കുറിച്ച് കൂടുതൽ അറിയാൻ [ഡാറ്റ ഡിക്ഷണറി](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) കാണുക.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"#Install the pandas library\r\n",
"!pip install pandas"
],
"outputs": [],
"metadata": {
"scrolled": true
}
},
{
"cell_type": "code",
"execution_count": 7,
"source": [
"import pandas as pd\r\n",
"\r\n",
"path = '../../data/taxi.csv'\r\n",
"\r\n",
"#Load the csv file into a dataframe\r\n",
"df = pd.read_csv(path)\r\n",
"\r\n",
"#Print the dataframe\r\n",
"print(df)\r\n"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" VendorID tpep_pickup_datetime tpep_dropoff_datetime passenger_count \\\n",
"0 2.0 2019-07-15 16:27:53 2019-07-15 16:44:21 3.0 \n",
"1 2.0 2019-07-17 20:26:35 2019-07-17 20:40:09 6.0 \n",
"2 2.0 2019-07-06 16:01:08 2019-07-06 16:10:25 1.0 \n",
"3 1.0 2019-07-18 22:32:23 2019-07-18 22:35:08 1.0 \n",
"4 2.0 2019-07-19 14:54:29 2019-07-19 15:19:08 1.0 \n",
".. ... ... ... ... \n",
"195 2.0 2019-01-18 08:42:15 2019-01-18 08:56:57 1.0 \n",
"196 1.0 2019-01-19 04:34:45 2019-01-19 04:43:44 1.0 \n",
"197 2.0 2019-01-05 10:37:39 2019-01-05 10:42:03 1.0 \n",
"198 2.0 2019-01-23 10:36:29 2019-01-23 10:44:34 2.0 \n",
"199 2.0 2019-01-30 06:55:58 2019-01-30 07:07:02 5.0 \n",
"\n",
" trip_distance RatecodeID store_and_fwd_flag PULocationID DOLocationID \\\n",
"0 2.02 1.0 N 186 233 \n",
"1 1.59 1.0 N 141 161 \n",
"2 1.69 1.0 N 246 249 \n",
"3 0.90 1.0 N 229 141 \n",
"4 4.79 1.0 N 237 107 \n",
".. ... ... ... ... ... \n",
"195 1.18 1.0 N 43 237 \n",
"196 2.30 1.0 N 148 234 \n",
"197 0.83 1.0 N 237 263 \n",
"198 1.12 1.0 N 144 113 \n",
"199 2.41 1.0 N 209 107 \n",
"\n",
" payment_type fare_amount extra mta_tax tip_amount tolls_amount \\\n",
"0 1.0 12.0 1.0 0.5 4.08 0.0 \n",
"1 2.0 10.0 0.5 0.5 0.00 0.0 \n",
"2 2.0 8.5 0.0 0.5 0.00 0.0 \n",
"3 1.0 4.5 3.0 0.5 1.65 0.0 \n",
"4 1.0 19.5 0.0 0.5 5.70 0.0 \n",
".. ... ... ... ... ... ... \n",
"195 1.0 10.0 0.0 0.5 2.16 0.0 \n",
"196 1.0 9.5 0.5 0.5 2.15 0.0 \n",
"197 1.0 5.0 0.0 0.5 1.16 0.0 \n",
"198 2.0 7.0 0.0 0.5 0.00 0.0 \n",
"199 1.0 10.5 0.0 0.5 1.00 0.0 \n",
"\n",
" improvement_surcharge total_amount congestion_surcharge \n",
"0 0.3 20.38 2.5 \n",
"1 0.3 13.80 2.5 \n",
"2 0.3 11.80 2.5 \n",
"3 0.3 9.95 2.5 \n",
"4 0.3 28.50 2.5 \n",
".. ... ... ... \n",
"195 0.3 12.96 0.0 \n",
"196 0.3 12.95 0.0 \n",
"197 0.3 6.96 0.0 \n",
"198 0.3 7.80 0.0 \n",
"199 0.3 12.30 0.0 \n",
"\n",
"[200 rows x 18 columns]\n"
]
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**അസൂയാ**: \nഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"kernelspec": {
"name": "python3",
"display_name": "Python 3.9.7 64-bit ('venv': venv)"
},
"language_info": {
"mimetype": "text/x-python",
"name": "python",
"pygments_lexer": "ipython3",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"version": "3.9.7",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"name": "04-nyc-taxi-join-weather-in-pandas",
"notebookId": 1709144033725344,
"interpreter": {
"hash": "6b9b57232c4b57163d057191678da2030059e733b8becc68f245de5a75abe84e"
},
"coopTranslator": {
"original_hash": "3bd4c20c4e8f3158f483f0f1cc543bb1",
"translation_date": "2025-12-19T17:11:50+00:00",
"source_file": "4-Data-Science-Lifecycle/14-Introduction/notebook.ipynb",
"language_code": "ml"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,60 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "661dad02c3ac239644d34c1eb51e76f8",
"translation_date": "2025-12-19T15:24:36+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
"language_code": "ml"
}
-->
# ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: വിശകലനം
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)|
|:---:|
| ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: വിശകലനം - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/28)
ഡാറ്റ ലൈഫ്‌സൈക്കിളിലെ വിശകലനം, നിർദ്ദേശിച്ച ചോദ്യങ്ങൾക്ക് ഡാറ്റ ഉത്തരം നൽകാമോ എന്നതും ഒരു പ്രത്യേക പ്രശ്നം പരിഹരിക്കാമോ എന്നതും സ്ഥിരീകരിക്കുന്നു. ഈ ഘട്ടം, ഒരു മോഡൽ ഈ ചോദ്യങ്ങളും പ്രശ്നങ്ങളും ശരിയായി പരിഹരിക്കുന്നുണ്ടോ എന്ന് സ്ഥിരീകരിക്കുന്നതിലും കേന്ദ്രീകരിക്കാം. ഈ പാഠം എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് അല്ലെങ്കിൽ EDA-യെക്കുറിച്ചാണ്, ഇത് ഡാറ്റയിലെ ഫീച്ചറുകളും ബന്ധങ്ങളും നിർവചിക്കുന്ന സാങ്കേതിക വിദ്യകളാണ്, കൂടാതെ മോഡലിംഗിനായി ഡാറ്റ തയ്യാറാക്കാൻ ഉപയോഗിക്കാം.
Python-ഉം Pandas ലൈബ്രറിയും ഉപയോഗിച്ച് ഇത് എങ്ങനെ പ്രയോഗിക്കാമെന്ന് കാണിക്കാൻ [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) നിന്നുള്ള ഒരു ഉദാഹരണ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കും. ഈ ഡാറ്റാസെറ്റിൽ ഇമെയിലുകളിൽ കാണപ്പെടുന്ന ചില സാധാരണ വാക്കുകളുടെ എണ്ണം ഉൾക്കൊള്ളുന്നു, ഈ ഇമെയിലുകളുടെ ഉറവിടങ്ങൾ അനാമികമാണ്. ഈ ഡയറക്ടറിയിലുള്ള [നോട്ട്ബുക്ക്](notebook.ipynb) ഉപയോഗിച്ച് പിന്തുടരുക.
## എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ്
ലൈഫ്‌സൈക്കിളിന്റെ ക്യാപ്ചർ ഘട്ടം ഡാറ്റ സമ്പാദിക്കുകയും പ്രശ്നങ്ങളും ചോദ്യങ്ങളും കൈകാര്യം ചെയ്യുകയും ചെയ്യുന്ന ഘട്ടമാണ്, പക്ഷേ ഡാറ്റ അവസാന ഫലത്തെ പിന്തുണയ്ക്കുമെന്ന് എങ്ങനെ അറിയാം?
ഡാറ്റ സയന്റിസ്റ്റ് ഡാറ്റ സമ്പാദിക്കുമ്പോൾ താഴെപ്പറയുന്ന ചോദ്യങ്ങൾ ചോദിക്കാമെന്ന് ഓർക്കുക:
- ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
- ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണമേന്മ സ്വീകരിക്കാവുന്നതാണോ?
- ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റുകയോ പുനർനിർവചിക്കുകയോ ചെയ്യണോ?
എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് ആ ഡാറ്റയെ അറിയാനുള്ള പ്രക്രിയയാണ്, ഇത് ഈ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാനും ഡാറ്റാസെറ്റുമായി പ്രവർത്തിക്കുമ്പോഴുള്ള വെല്ലുവിളികൾ തിരിച്ചറിയാനും സഹായിക്കുന്നു. ഇതു നേടാൻ ഉപയോഗിക്കുന്ന ചില സാങ്കേതിക വിദ്യകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാം.
## ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ, Pandas
ഈ പ്രശ്നം പരിഹരിക്കാൻ എത്രമാത്രം ഡാറ്റ വേണ്ടെന്ന് എങ്ങനെ വിലയിരുത്താം? ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകളുടെ സാങ്കേതിക വിദ്യകൾ വഴി നമ്മുടെ ഡാറ്റാസെറ്റിനെക്കുറിച്ചുള്ള പൊതുവായ വിവരങ്ങൾ സംഗ്രഹിക്കുകയും ശേഖരിക്കുകയും ചെയ്യാം. ഡാറ്റ പ്രൊഫൈലിംഗ് നമ്മെ ലഭ്യമായതെന്താണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ എത്രമാത്രം ലഭ്യമാണ് എന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു.
മുമ്പത്തെ ചില പാഠങ്ങളിൽ, Pandas ഉപയോഗിച്ച് [`describe()` ഫംഗ്ഷൻ]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) ഉപയോഗിച്ച് ചില വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ നൽകിയിട്ടുണ്ട്. ഇത് എണ്ണവും പരമാവധി, കുറഞ്ഞ മൂല്യങ്ങളും, ശരാശരി, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ, ക്വാണ്ടൈലുകൾ എന്നിവ നൽകുന്നു. `describe()` പോലുള്ള വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ ഉപയോഗിച്ച് നിങ്ങൾക്ക് എത്രമാത്രം ഡാറ്റയുണ്ട് എന്നും കൂടുതൽ ആവശ്യമുണ്ടോ എന്നും വിലയിരുത്താൻ കഴിയും.
## സാമ്പിളിംഗ്, ക്വറി ചെയ്യൽ
വലിയ ഡാറ്റാസെറ്റിലെ എല്ലാം പരിശോധിക്കുന്നത് വളരെ സമയം കഴിക്കുന്നതും സാധാരണയായി കമ്പ്യൂട്ടറിന് വിട്ടുകൊടുക്കുന്ന ജോലിയുമാണ്. എന്നാൽ സാമ്പിളിംഗ് ഡാറ്റയെ മനസ്സിലാക്കാൻ സഹായിക്കുന്ന ഉപകരണം ആണ്, ഇത് ഡാറ്റാസെറ്റിൽ എന്തുണ്ട് എന്നും അത് എന്താണ് പ്രതിനിധാനം ചെയ്യുന്നത് എന്നും നമുക്ക് മികച്ച ബോധം നൽകുന്നു. സാമ്പിള് ഉപയോഗിച്ച്, നിങ്ങൾക്ക് പ്രൊബബിലിറ്റി, സ്ഥിതിവിവരക്കണക്കുകൾ പ്രയോഗിച്ച് ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ വരുത്താം. എത്രമാത്രം ഡാറ്റ സാമ്പിൾ ചെയ്യണം എന്നതിന് നിർദ്ദിഷ്ട നിയമമില്ലെങ്കിലും, കൂടുതൽ ഡാറ്റ സാമ്പിൾ ചെയ്താൽ, ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ കൂടുതൽ കൃത്യമായിരിക്കും.
Pandas-ൽ [`sample()` ഫംഗ്ഷൻ](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) ഉണ്ട്, ഇതിൽ നിങ്ങൾക്ക് എത്ര റാൻഡം സാമ്പിളുകൾ വേണമെന്നു പാരാമീറ്ററായി നൽകാം.
ഡാറ്റയുടെ പൊതുവായ ചോദ്യങ്ങൾക്കും സിദ്ധാന്തങ്ങൾക്കും ഉത്തരം കണ്ടെത്താൻ ജനറൽ ക്വറി ചെയ്യലും സഹായിക്കുന്നു. സാമ്പിളിംഗിനോട് വ്യത്യസ്തമായി, ക്വറികൾ നിങ്ങൾക്ക് ഡാറ്റയിലെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാനും നിയന്ത്രണം നൽകുന്നു.
Pandas ലൈബ്രറിയിലെ [`query()` ഫംഗ്ഷൻ](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) കോളങ്ങൾ തിരഞ്ഞെടുക്കാനും തിരഞ്ഞെടുത്ത വരികളിലൂടെ ഡാറ്റയെക്കുറിച്ചുള്ള ലളിതമായ ഉത്തരം ലഭിക്കാനും സഹായിക്കുന്നു.
## ദൃശ്യവൽക്കരണങ്ങളിലൂടെ അന്വേഷിക്കൽ
ഡാറ്റ പൂർണ്ണമായി ശുദ്ധീകരിക്കപ്പെടുകയും വിശകലനം ചെയ്യപ്പെടുകയും ചെയ്യുന്നത് വരെ കാത്തിരിക്കേണ്ടതില്ല. അന്വേഷിക്കുമ്പോൾ ദൃശ്യവൽക്കരണങ്ങൾ ഉണ്ടാകുന്നത് പാറ്റേണുകൾ, ബന്ധങ്ങൾ, പ്രശ്നങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കുന്നു. കൂടാതെ, ദൃശ്യവൽക്കരണങ്ങൾ ഡാറ്റ കൈകാര്യം ചെയ്യാത്തവരുമായി ആശയവിനിമയം നടത്താനുള്ള മാർഗ്ഗവും, ക്യാപ്ചർ ഘട്ടത്തിൽ പരിഗണിക്കപ്പെടാത്ത അധിക ചോദ്യങ്ങൾ പങ്കുവെക്കാനും വ്യക്തത നൽകാനും അവസരവുമാണ്. ദൃശ്യവൽക്കരണങ്ങളെക്കുറിച്ചുള്ള കൂടുതൽ അറിയാൻ [Visualizations വിഭാഗം](../../../../../../../../../3-Data-Visualization) കാണുക.
## അസംഘടിതത്വങ്ങൾ തിരിച്ചറിയാൻ അന്വേഷിക്കൽ
ഈ പാഠത്തിലെ എല്ലാ വിഷയങ്ങളും നഷ്ടപ്പെട്ട അല്ലെങ്കിൽ അസംഘടിത മൂല്യങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കും, Pandas ചില ഫംഗ്ഷനുകൾ ഇതിന് നൽകുന്നു. [isna() അല്ലെങ്കിൽ isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പരിശോധിക്കാൻ ഉപയോഗിക്കാം. നിങ്ങളുടെ ഡാറ്റയിൽ ഈ മൂല്യങ്ങൾ എന്തുകൊണ്ട് അങ്ങനെ വന്നുവെന്ന് അന്വേഷിക്കുന്നത് വളരെ പ്രധാനമാണ്. ഇത് [അവ പരിഹരിക്കാൻ സ്വീകരിക്കേണ്ട നടപടികൾ](/2-Working-With-Data/08-data-preparation/notebook.ipynb) തീരുമാനിക്കാൻ സഹായിക്കും.
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/29)
## അസൈൻമെന്റ്
[ഉത്തരം അന്വേഷിക്കൽ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,154 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ശീതകാലത്തും വേനലിലും NYC ടാക്സി ഡാറ്റ\r\n",
"\r\n",
"നൽകിയിരിക്കുന്ന കോളങ്ങളേക്കുറിച്ച് കൂടുതൽ അറിയാൻ [ഡാറ്റാ നിഘണ്ടു](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) കാണുക.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"#Install the pandas library\r\n",
"!pip install pandas"
],
"outputs": [],
"metadata": {
"scrolled": true
}
},
{
"cell_type": "code",
"execution_count": 7,
"source": [
"import pandas as pd\r\n",
"\r\n",
"path = '../../data/taxi.csv'\r\n",
"\r\n",
"#Load the csv file into a dataframe\r\n",
"df = pd.read_csv(path)\r\n",
"\r\n",
"#Print the dataframe\r\n",
"print(df)\r\n"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" VendorID tpep_pickup_datetime tpep_dropoff_datetime passenger_count \\\n",
"0 2.0 2019-07-15 16:27:53 2019-07-15 16:44:21 3.0 \n",
"1 2.0 2019-07-17 20:26:35 2019-07-17 20:40:09 6.0 \n",
"2 2.0 2019-07-06 16:01:08 2019-07-06 16:10:25 1.0 \n",
"3 1.0 2019-07-18 22:32:23 2019-07-18 22:35:08 1.0 \n",
"4 2.0 2019-07-19 14:54:29 2019-07-19 15:19:08 1.0 \n",
".. ... ... ... ... \n",
"195 2.0 2019-01-18 08:42:15 2019-01-18 08:56:57 1.0 \n",
"196 1.0 2019-01-19 04:34:45 2019-01-19 04:43:44 1.0 \n",
"197 2.0 2019-01-05 10:37:39 2019-01-05 10:42:03 1.0 \n",
"198 2.0 2019-01-23 10:36:29 2019-01-23 10:44:34 2.0 \n",
"199 2.0 2019-01-30 06:55:58 2019-01-30 07:07:02 5.0 \n",
"\n",
" trip_distance RatecodeID store_and_fwd_flag PULocationID DOLocationID \\\n",
"0 2.02 1.0 N 186 233 \n",
"1 1.59 1.0 N 141 161 \n",
"2 1.69 1.0 N 246 249 \n",
"3 0.90 1.0 N 229 141 \n",
"4 4.79 1.0 N 237 107 \n",
".. ... ... ... ... ... \n",
"195 1.18 1.0 N 43 237 \n",
"196 2.30 1.0 N 148 234 \n",
"197 0.83 1.0 N 237 263 \n",
"198 1.12 1.0 N 144 113 \n",
"199 2.41 1.0 N 209 107 \n",
"\n",
" payment_type fare_amount extra mta_tax tip_amount tolls_amount \\\n",
"0 1.0 12.0 1.0 0.5 4.08 0.0 \n",
"1 2.0 10.0 0.5 0.5 0.00 0.0 \n",
"2 2.0 8.5 0.0 0.5 0.00 0.0 \n",
"3 1.0 4.5 3.0 0.5 1.65 0.0 \n",
"4 1.0 19.5 0.0 0.5 5.70 0.0 \n",
".. ... ... ... ... ... ... \n",
"195 1.0 10.0 0.0 0.5 2.16 0.0 \n",
"196 1.0 9.5 0.5 0.5 2.15 0.0 \n",
"197 1.0 5.0 0.0 0.5 1.16 0.0 \n",
"198 2.0 7.0 0.0 0.5 0.00 0.0 \n",
"199 1.0 10.5 0.0 0.5 1.00 0.0 \n",
"\n",
" improvement_surcharge total_amount congestion_surcharge \n",
"0 0.3 20.38 2.5 \n",
"1 0.3 13.80 2.5 \n",
"2 0.3 11.80 2.5 \n",
"3 0.3 9.95 2.5 \n",
"4 0.3 28.50 2.5 \n",
".. ... ... ... \n",
"195 0.3 12.96 0.0 \n",
"196 0.3 12.95 0.0 \n",
"197 0.3 6.96 0.0 \n",
"198 0.3 7.80 0.0 \n",
"199 0.3 12.30 0.0 \n",
"\n",
"[200 rows x 18 columns]\n"
]
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"# നിങ്ങളുടെ സ്വന്തം എക്സ്പ്ലോറട്ടറി ഡാറ്റാ അനാലിസിസ് ചെയ്യാൻ താഴെയുള്ള സെല്ലുകൾ ഉപയോഗിക്കുക\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**അസൂയാ**: \nഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"kernelspec": {
"name": "python3",
"display_name": "Python 3.9.7 64-bit ('venv': venv)"
},
"language_info": {
"mimetype": "text/x-python",
"name": "python",
"pygments_lexer": "ipython3",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"version": "3.9.7",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"name": "04-nyc-taxi-join-weather-in-pandas",
"notebookId": 1709144033725344,
"interpreter": {
"hash": "6b9b57232c4b57163d057191678da2030059e733b8becc68f245de5a75abe84e"
},
"coopTranslator": {
"original_hash": "7bca1c1abc1e55842817b62e44e1a963",
"translation_date": "2025-12-19T17:11:31+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/assignment.ipynb",
"language_code": "ml"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,38 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "fcc7547171f4530f159676dd73ed772e",
"translation_date": "2025-12-19T15:26:03+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/assignment.md",
"language_code": "ml"
}
-->
# ഉത്തരം അന്വേഷിക്കൽ
ഇത് മുൻപത്തെ പാഠത്തിന്റെ [അസൈൻമെന്റ്](../14-Introduction/assignment.md) തുടർച്ചയാണ്, അവിടെ നാം ഡാറ്റാ സെറ്റിനെ കുറിച്ച് സംക്ഷിപ്തമായി നോക്കിയിരുന്നു. ഇപ്പോൾ നാം ഡാറ്റയെ കൂടുതൽ ആഴത്തിൽ പരിശോധിക്കാനാണ് പോകുന്നത്.
വീണ്ടും, ക്ലയന്റ് അറിയാൻ ആഗ്രഹിക്കുന്ന ചോദ്യം: **ന്യൂയോർക്ക് സിറ്റിയിലെ മഞ്ഞ ടാക്സി യാത്രക്കാരൻമാർ ശീതകാലത്തോ വേനൽക്കാലത്തോ ഡ്രൈവർമാർക്ക് കൂടുതൽ ടിപ്പ് നൽകുന്നുണ്ടോ?**
നിങ്ങളുടെ ടീം ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ [വിശകലനം](README.md) ഘട്ടത്തിലാണ്, ഇവിടെ നിങ്ങൾക്ക് ഡാറ്റാസെറ്റിൽ എക്സ്പ്ലോറട്ടറി ഡാറ്റാ അനാലിസിസ് നടത്തേണ്ടതാണ്. 2019 ജനുവരി, ജൂലൈ മാസങ്ങളിൽ നിന്നുള്ള 200 ടാക്സി ഇടപാടുകൾ അടങ്ങിയ ഒരു നോട്ട്‌ബുക്ക്, ഡാറ്റാസെറ്റ് എന്നിവ നിങ്ങൾക്ക് നൽകിയിട്ടുണ്ട്.
## നിർദ്ദേശങ്ങൾ
ഈ ഡയറക്ടറിയിൽ [നോട്ട്‌ബുക്ക്](assignment.ipynb) ഉം [ടാക്സി & ലിമോസിൻ കമ്മീഷൻ](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets) നിന്നുള്ള ഡാറ്റയും ഉണ്ട്. ഡാറ്റയെക്കുറിച്ച് കൂടുതൽ വിവരങ്ങൾക്ക് [ഡാറ്റാസെറ്റിന്റെ നിഘണ്ടു](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) ഉം [ഉപയോക്തൃ ഗൈഡ്](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf) ഉം കാണുക.
ഈ പാഠത്തിലെ ചില സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് നോട്ട്‌ബുക്കിൽ നിങ്ങളുടെ സ്വന്തം EDA നടത്തുക (ആവശ്യമായാൽ സെല്ലുകൾ ചേർക്കാം) കൂടാതെ താഴെക്കാണുന്ന ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുക:
- ടിപ്പ് തുകയെ ബാധിക്കാവുന്ന മറ്റ് ഡാറ്റാ സ്വാധീനങ്ങൾ എന്തെല്ലാം ഉണ്ടാകാം?
- ക്ലയന്റിന്റെ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ ഏത് കോളങ്ങൾ ആവശ്യമില്ലാതിരിക്കാം?
- ഇതുവരെ നൽകിയ ഡാറ്റ അടിസ്ഥാനമാക്കി, സീസണൽ ടിപ്പിംഗ് പെരുമാറ്റത്തിന് ഏതെങ്കിലും തെളിവുകൾ ഡാറ്റ നൽകുന്നുണ്ടോ?
## റൂബ്രിക്
Exemplary | Adequate | Needs Improvement
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,193 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ഡാറ്റ വിശകലനം \n",
"[പാഠം](README.md)യിൽ പരാമർശിച്ച പാൻഡാസ് ഫംഗ്ഷനുകളുടെ ഉദാഹരണങ്ങൾ.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 1,
"source": [
"import pandas as pd\r\n",
"import glob\r\n",
"\r\n",
"#Loading the dataset\r\n",
"path = '../../data/emails.csv'\r\n",
"email_df = pd.read_csv(path)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 2,
"source": [
"# Using Describe on the email dataset\r\n",
"print(email_df.describe())"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" the to ect and for of \\\n",
"count 406.000000 406.000000 406.000000 406.000000 406.000000 406.000000 \n",
"mean 7.022167 6.519704 4.948276 3.059113 3.502463 2.662562 \n",
"std 10.945522 9.801907 9.293820 6.267806 4.901372 5.443939 \n",
"min 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 \n",
"25% 1.000000 1.000000 1.000000 0.000000 1.000000 0.000000 \n",
"50% 3.000000 3.000000 2.000000 1.000000 2.000000 1.000000 \n",
"75% 9.000000 7.750000 4.000000 3.000000 4.750000 3.000000 \n",
"max 99.000000 88.000000 79.000000 69.000000 39.000000 57.000000 \n",
"\n",
" a you in on is this \\\n",
"count 406.000000 406.000000 406.000000 406.000000 406.000000 406.000000 \n",
"mean 57.017241 2.394089 10.817734 11.591133 5.901478 1.485222 \n",
"std 78.868243 4.067015 19.050972 16.407175 8.793103 2.912473 \n",
"min 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 \n",
"25% 15.000000 0.000000 1.250000 3.000000 1.000000 0.000000 \n",
"50% 29.000000 1.000000 5.000000 6.000000 3.000000 0.000000 \n",
"75% 61.000000 3.000000 12.000000 13.000000 7.000000 2.000000 \n",
"max 843.000000 31.000000 223.000000 125.000000 61.000000 24.000000 \n",
"\n",
" i be that will \n",
"count 406.000000 406.000000 406.000000 406.000000 \n",
"mean 47.155172 2.950739 1.034483 0.955665 \n",
"std 71.043009 4.297865 1.904846 2.042271 \n",
"min 0.000000 0.000000 0.000000 0.000000 \n",
"25% 11.000000 1.000000 0.000000 0.000000 \n",
"50% 24.000000 1.000000 0.000000 0.000000 \n",
"75% 50.750000 3.000000 1.000000 1.000000 \n",
"max 754.000000 40.000000 14.000000 24.000000 \n"
]
}
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 5,
"source": [
"# Sampling 10 emails\r\n",
"print(email_df.sample(10))"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Email No. the to ect and for of a you in on is this i \\\n",
"150 Email 151 0 1 2 0 3 0 15 0 0 5 0 0 7 \n",
"380 Email 5147 0 3 2 0 0 0 7 0 1 1 0 0 3 \n",
"19 Email 20 3 4 11 0 4 2 32 1 1 3 9 5 25 \n",
"300 Email 301 2 1 1 0 1 1 15 2 2 3 2 0 8 \n",
"307 Email 308 0 0 1 0 0 0 1 0 1 0 0 0 2 \n",
"167 Email 168 2 2 2 1 5 1 24 2 5 6 4 0 30 \n",
"320 Email 321 10 12 4 6 8 6 187 5 26 28 23 2 171 \n",
"61 Email 62 0 1 1 0 4 1 15 4 4 3 3 0 19 \n",
"26 Email 27 5 4 1 1 4 4 51 0 8 6 6 2 44 \n",
"73 Email 74 0 0 1 0 0 0 7 0 4 3 0 0 6 \n",
"\n",
" be that will \n",
"150 1 0 0 \n",
"380 0 0 0 \n",
"19 3 0 1 \n",
"300 0 0 0 \n",
"307 0 0 0 \n",
"167 2 0 0 \n",
"320 5 1 1 \n",
"61 2 0 0 \n",
"26 6 0 0 \n",
"73 0 0 0 \n"
]
}
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 14,
"source": [
"# Returns rows where there are more occurrences of \"to\" than \"the\"\r\n",
"print(email_df.query('the < to'))"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Email No. the to ect and for of a you in on is this i \\\n",
"1 Email 2 8 13 24 6 6 2 102 1 18 21 13 0 61 \n",
"3 Email 4 0 5 22 0 5 1 51 2 1 5 9 2 16 \n",
"5 Email 6 4 5 1 4 2 3 45 1 16 12 8 1 52 \n",
"7 Email 8 0 2 2 3 1 2 21 6 2 6 2 0 28 \n",
"13 Email 14 4 5 7 1 5 1 37 1 8 8 6 1 43 \n",
".. ... ... .. ... ... ... .. ... ... .. .. .. ... .. \n",
"390 Email 5157 4 13 1 0 3 1 48 2 8 26 9 1 45 \n",
"393 Email 5160 2 13 1 0 2 1 38 2 7 24 6 1 34 \n",
"396 Email 5163 2 3 1 2 1 2 32 0 7 3 2 0 26 \n",
"404 Email 5171 2 7 1 0 2 1 28 2 8 11 7 1 39 \n",
"405 Email 5172 22 24 5 1 6 5 148 8 23 13 5 4 99 \n",
"\n",
" be that will \n",
"1 4 2 0 \n",
"3 2 0 0 \n",
"5 2 0 0 \n",
"7 1 0 1 \n",
"13 1 0 1 \n",
".. .. ... ... \n",
"390 1 0 0 \n",
"393 1 0 0 \n",
"396 3 0 0 \n",
"404 1 0 0 \n",
"405 6 4 1 \n",
"\n",
"[169 rows x 17 columns]\n"
]
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**അസൂയാ**: \nഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.9.7",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.9.7 64-bit ('venv': venv)"
},
"interpreter": {
"hash": "6b9b57232c4b57163d057191678da2030059e733b8becc68f245de5a75abe84e"
},
"coopTranslator": {
"original_hash": "9d102c8c3cdbc8ea4e92fc32593462c6",
"translation_date": "2025-12-19T17:11:08+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb",
"language_code": "ml"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,224 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "215a3254ba5a222a57c5bb0192cea8e3",
"translation_date": "2025-12-19T15:19:45+00:00",
"source_file": "4-Data-Science-Lifecycle/16-communication/README.md",
"language_code": "ml"
}
-->
# ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: കമ്മ്യൂണിക്കേഷൻ
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/16-Communicating.png)|
|:---:|
| ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: കമ്മ്യൂണിക്കേഷൻ - _സ്കെച്ച്നോട്ട് [@nitya](https://twitter.com/nitya) എന്നവരാൽ_ |
## [പ്രി-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/30)
മുകളിൽ നൽകിയ പ്രി-ലെക്ചർ ക്വിസിലൂടെ വരാനിരിക്കുന്നതിന്റെ നിങ്ങളുടെ അറിവ് പരീക്ഷിക്കൂ!
# പരിചയം
### കമ്മ്യൂണിക്കേഷൻ എന്താണ്?
കമ്മ്യൂണിക്കേഷൻ എന്താണെന്ന് നിർവചിക്കുന്നതിലൂടെ ഈ പാഠം ആരംഭിക്കാം. **കമ്മ്യൂണിക്കേഷൻ എന്നത് വിവരങ്ങൾ കൈമാറുകയോ കൈമാറ്റം നടത്തുകയോ ചെയ്യുന്നതാണ്.** വിവരങ്ങൾ ആശയങ്ങൾ, ചിന്തകൾ, അനുഭവങ്ങൾ, സന്ദേശങ്ങൾ, രഹസ്യ സൂചനകൾ, ഡാറ്റ എന്നിവയാകാം ഒരു **_സെൻഡർ_** (വിവരം അയക്കുന്നവൻ) ഒരു **_റിസീവർ_** (വിവരം സ്വീകരിക്കുന്നവൻ) മനസിലാക്കാൻ ആഗ്രഹിക്കുന്ന ഏതെങ്കിലും വസ്തു. ഈ പാഠത്തിൽ, സെൻഡർമാരെ കമ്മ്യൂണിക്കേറ്റർമാരായി, റിസീവർമാരെ പ്രേക്ഷകരായി പരാമർശിക്കും.
### ഡാറ്റ കമ്മ്യൂണിക്കേഷൻ & കഥ പറയൽ
കമ്മ്യൂണിക്കേഷൻ ചെയ്യുമ്പോൾ ലക്ഷ്യം വിവരങ്ങൾ കൈമാറുകയോ കൈമാറ്റം നടത്തുകയോ ചെയ്യുന്നതാണെന്ന് നമുക്ക് മനസ്സിലായിട്ടുണ്ട്. എന്നാൽ ഡാറ്റ കമ്മ്യൂണിക്കേഷൻ ചെയ്യുമ്പോൾ, നിങ്ങളുടെ പ്രേക്ഷകർക്കു സംഖ്യകൾ മാത്രം കൈമാറുക എന്നത് ലക്ഷ്യമാകരുത്. നിങ്ങളുടെ ഡാറ്റയിൽ നിന്നുള്ള ഒരു കഥ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുക എന്നതാണ് ലക്ഷ്യം - ഫലപ്രദമായ ഡാറ്റ കമ്മ്യൂണിക്കേഷൻയും കഥ പറയലും കൈകോർത്ത് നടക്കുന്നു. നിങ്ങൾ പറയുന്ന കഥ പ്രേക്ഷകർക്ക് ഒരു സംഖ്യ നൽകുന്നതേക്കാൾ കൂടുതൽ ഓർമ്മയിൽ നിൽക്കും. ഈ പാഠത്തിൽ പിന്നീട്, ഡാറ്റ കൂടുതൽ ഫലപ്രദമായി കമ്മ്യൂണിക്കേറ്റ് ചെയ്യാൻ കഥ പറയൽ ഉപയോഗിക്കുന്ന ചില മാർഗങ്ങൾ പരിശോധിക്കും.
### കമ്മ്യൂണിക്കേഷന്റെ തരം
ഈ പാഠത്തിൽ രണ്ട് വ്യത്യസ്ത തരത്തിലുള്ള കമ്മ്യൂണിക്കേഷൻ ചർച്ച ചെയ്യും, ഒന്ന്-വേ കമ്മ്യൂണിക്കേഷൻ, രണ്ട്-വേ കമ്മ്യൂണിക്കേഷൻ.
**ഒന്ന്-വേ കമ്മ്യൂണിക്കേഷൻ** സെൻഡർ ഒരു റിസീവറിലേക്ക് വിവരങ്ങൾ അയയ്ക്കുമ്പോൾ, പ്രതികരണമോ ഫീഡ്ബാക്കോ ഇല്ലാതെ നടക്കുന്നു. നാം ദിവസേന ഒന്ന്-വേ കമ്മ്യൂണിക്കേഷന്റെ ഉദാഹരണങ്ങൾ കാണുന്നു ബൾക്ക്/മാസ് ഇമെയിലുകളിൽ, വാർത്തകൾ ഏറ്റവും പുതിയ കഥകൾ നൽകുമ്പോൾ, അല്ലെങ്കിൽ ഒരു ടെലിവിഷൻ പരസ്യം അവരുടെ ഉൽപ്പന്നം എങ്ങനെ മികച്ചതാണെന്ന് അറിയിക്കുമ്പോൾ. ഈ എല്ലാ സാഹചര്യങ്ങളിലും, സെൻഡർ വിവരങ്ങൾ കൈമാറാൻ മാത്രമാണ് ശ്രമിക്കുന്നത്.
**രണ്ട്-വേ കമ്മ്യൂണിക്കേഷൻ** എല്ലാ പങ്കാളികളും സെൻഡറും റിസീവറും ആയി പ്രവർത്തിക്കുമ്പോൾ നടക്കുന്നു. ഒരു സെൻഡർ ഒരു റിസീവറിലേക്ക് കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുന്നു, റിസീവർ ഫീഡ്ബാക്ക് അല്ലെങ്കിൽ പ്രതികരണം നൽകുന്നു. രണ്ട്-വേ കമ്മ്യൂണിക്കേഷൻ സാധാരണയായി നമ്മൾ കമ്മ്യൂണിക്കേഷൻ എന്ന് പറയുമ്പോൾ മനസ്സിലാക്കുന്നത് ആണ്. സാധാരണയായി ആളുകൾ ഒരു സംഭാഷണത്തിൽ ഏർപ്പെടുന്നുവെന്ന് കരുതുന്നു - നേരിൽ, ഫോൺ കോൾ, സോഷ്യൽ മീഡിയ, അല്ലെങ്കിൽ ടെക്സ്റ്റ് സന്ദേശം വഴി.
ഡാറ്റ കമ്മ്യൂണിക്കേഷൻ ചെയ്യുമ്പോൾ, ചിലപ്പോൾ നിങ്ങൾ ഒന്ന്-വേ കമ്മ്യൂണിക്കേഷൻ ഉപയോഗിക്കും (ഉദാഹരണത്തിന്, ഒരു സമ്മേളനത്തിൽ പ്രദർശിപ്പിക്കുമ്പോൾ, അല്ലെങ്കിൽ വലിയ കൂട്ടത്തിൽ നേരിട്ട് ചോദ്യങ്ങൾ ചോദിക്കപ്പെടാത്തപ്പോൾ) കൂടാതെ ചിലപ്പോൾ രണ്ട്-വേ കമ്മ്യൂണിക്കേഷൻ ഉപയോഗിക്കും (ഉദാഹരണത്തിന്, ചില സ്റ്റേക്ക്‌ഹോൾഡർമാരെ ബൈ-ഇൻക്ക് പ്രേരിപ്പിക്കാൻ, അല്ലെങ്കിൽ ഒരു ടീമംഗത്തെ പുതിയ ഒന്നൊരുക്കാൻ സമയം, ശ്രമം ചെലവഴിക്കണമെന്ന് മനസ്സിലാക്കാൻ).
# ഫലപ്രദമായ കമ്മ്യൂണിക്കേഷൻ
### കമ്മ്യൂണിക്കേറ്ററായി നിങ്ങളുടെ ഉത്തരവാദിത്വങ്ങൾ
കമ്മ്യൂണിക്കേഷൻ ചെയ്യുമ്പോൾ, നിങ്ങളുടെ റിസീവർ(മാർ) നിങ്ങൾ ആഗ്രഹിക്കുന്ന വിവരങ്ങൾ സ്വീകരിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക നിങ്ങളുടെ ജോലി ആണ്. ഡാറ്റ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുമ്പോൾ, നിങ്ങൾക്ക് റിസീവർമാരെ സംഖ്യകൾ മാത്രം സ്വീകരിക്കാൻ ആഗ്രഹമില്ല, ഡാറ്റയിൽ നിന്നുള്ള ഒരു കഥ അവർക്ക് മനസ്സിലാകണം. നല്ല ഡാറ്റ കമ്മ്യൂണിക്കേറ്റർ നല്ല കഥ പറയുന്നവനാണ്.
ഡാറ്റയോടെ കഥ എങ്ങനെ പറയാം? അനന്തമായ മാർഗങ്ങൾ ഉണ്ട് എന്നാൽ താഴെ 6 മാർഗങ്ങൾ ഈ പാഠത്തിൽ ചർച്ച ചെയ്യും.
1. നിങ്ങളുടെ പ്രേക്ഷകരെ, നിങ്ങളുടെ മീഡിയം, & നിങ്ങളുടെ കമ്മ്യൂണിക്കേഷൻ രീതി മനസ്സിലാക്കുക
2. അവസാനത്തെ മനസ്സിലാക്കി തുടങ്ങുക
3. ഒരു യഥാർത്ഥ കഥപോലെ സമീപിക്കുക
4. അർത്ഥമുള്ള വാക്കുകളും വാചകങ്ങളും ഉപയോഗിക്കുക
5. ഭാവന ഉപയോഗിക്കുക
ഈ ഓരോ തന്ത്രങ്ങളും താഴെ കൂടുതൽ വിശദമായി വിശദീകരിച്ചിരിക്കുന്നു.
### 1. നിങ്ങളുടെ പ്രേക്ഷകരെ, നിങ്ങളുടെ ചാനൽ & നിങ്ങളുടെ കമ്മ്യൂണിക്കേഷൻ രീതി മനസ്സിലാക്കുക
നിങ്ങൾ കുടുംബാംഗങ്ങളുമായി സംസാരിക്കുന്ന വിധം നിങ്ങളുടെ സുഹൃത്തുക്കളുമായി സംസാരിക്കുന്ന വിധത്തിൽ നിന്ന് വ്യത്യസ്തമായിരിക്കാം. നിങ്ങൾ സംസാരിക്കുന്ന ആളുകൾക്ക് മനസ്സിലാകാൻ സാധ്യതയുള്ള വ്യത്യസ്ത വാക്കുകളും വാചകങ്ങളും നിങ്ങൾ ഉപയോഗിക്കാം. ഡാറ്റ കമ്മ്യൂണിക്കേഷൻ ചെയ്യുമ്പോഴും അതേ സമീപനം സ്വീകരിക്കണം. നിങ്ങൾ ആരെ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുകയാണ് എന്ന് ചിന്തിക്കുക. അവരുടെ ലക്ഷ്യങ്ങളും നിങ്ങൾ വിശദീകരിക്കുന്ന സാഹചര്യവും പരിഗണിക്കുക.
നിങ്ങളുടെ പ്രേക്ഷകരുടെ ഭൂരിഭാഗം ഒരു വിഭാഗത്തിൽ ഉൾപ്പെടുത്താൻ സാധിക്കും. _ഹാർവാർഡ് ബിസിനസ് റിവ്യൂ_ ലേഖനമായ “[How to Tell a Story with Data](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/)” ൽ, ഡെൽ എക്സിക്യൂട്ടീവ് സ്ട്രാറ്റജിസ്റ്റ് ജിം സ്റ്റിക്കിലീഥർ അഞ്ച് പ്രേക്ഷക വിഭാഗങ്ങൾ തിരിച്ചറിഞ്ഞിട്ടുണ്ട്.
- **നോവിസ്**: വിഷയം ആദ്യമായി പരിചയപ്പെടുന്നു, എന്നാൽ അതി ലളിതീകരണം വേണ്ട
- **ജനറലിസ്റ്റ്**: വിഷയം അറിയുന്നു, എന്നാൽ ഒരു അവലോകനവും പ്രധാന വിഷയങ്ങളും അന്വേഷിക്കുന്നു
- **മാനേജീരിയൽ**: സങ്കീർണ്ണതകളും പരസ്പരബന്ധങ്ങളും ഉൾപ്പെടെയുള്ള ആഴത്തിലുള്ള, പ്രായോഗിക മനസ്സിലാക്കൽ, വിശദാംശങ്ങൾ ലഭ്യമാക്കുന്നു
- **എക്സ്പർട്ട്**: കൂടുതൽ അന്വേഷണവും കണ്ടെത്തലും, കുറവ് കഥ പറയലും, കൂടുതൽ വിശദാംശങ്ങളോടെ
- **എക്സിക്യൂട്ടീവ്**: ഭാരമുള്ള സാധ്യതകളുടെ പ്രാധാന്യവും നിഗമനങ്ങളും മാത്രം മനസ്സിലാക്കാൻ സമയം ഉണ്ട്
ഈ വിഭാഗങ്ങൾ നിങ്ങളുടെ പ്രേക്ഷകർക്ക് ഡാറ്റ അവതരിപ്പിക്കുന്ന രീതിയെ സ്വാധീനിക്കും.
നിങ്ങളുടെ പ്രേക്ഷകന്റെ വിഭാഗം ചിന്തിക്കുന്നതിനു പുറമേ, നിങ്ങൾ ഉപയോഗിക്കുന്ന ചാനലും പരിഗണിക്കണം. മെമ്മോ അല്ലെങ്കിൽ ഇമെയിൽ എഴുതുമ്പോൾ നിങ്ങളുടെ സമീപനം മീറ്റിംഗ് നടത്തുമ്പോൾ അല്ലെങ്കിൽ സമ്മേളനത്തിൽ പ്രദർശിപ്പിക്കുമ്പോൾ നിന്ന് അല്പം വ്യത്യസ്തമായിരിക്കണം.
നിങ്ങളുടെ പ്രേക്ഷകരെ മനസ്സിലാക്കുന്നതിന് പുറമേ, നിങ്ങൾ അവരുമായി എങ്ങനെ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുമെന്ന് (ഒന്ന്-വേ അല്ലെങ്കിൽ രണ്ട്-വേ) അറിയുക അത്യന്താപേക്ഷിതമാണ്.
നിങ്ങൾ ഭൂരിഭാഗം നോവിസ് പ്രേക്ഷകരുമായി ഒന്ന്-വേ കമ്മ്യൂണിക്കേഷൻ ഉപയോഗിച്ച് സംസാരിക്കുകയാണെങ്കിൽ, ആദ്യം പ്രേക്ഷകരെ വിദ്യാഭ്യാസം നൽകുകയും ശരിയായ പശ്ചാത്തലം നൽകുകയും വേണം. തുടർന്ന് നിങ്ങളുടെ ഡാറ്റ അവതരിപ്പിച്ച്, ഡാറ്റയുടെ അർത്ഥവും പ്രാധാന്യവും വിശദീകരിക്കണം. ഈ സാഹചര്യത്തിൽ, വ്യക്തത ഉറപ്പാക്കുന്നതിൽ നിങ്ങൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കണം, കാരണം പ്രേക്ഷകർ നേരിട്ട് ചോദ്യങ്ങൾ ചോദിക്കാൻ സാധിക്കില്ല.
നിങ്ങൾ ഭൂരിഭാഗം മാനേജീരിയൽ പ്രേക്ഷകരുമായി രണ്ട്-വേ കമ്മ്യൂണിക്കേഷൻ ഉപയോഗിച്ച് സംസാരിക്കുകയാണെങ്കിൽ, പ്രേക്ഷകരെ വിദ്യാഭ്യാസം നൽകേണ്ടതില്ല, അല്ലെങ്കിൽ കൂടുതൽ പശ്ചാത്തലം നൽകേണ്ടതില്ല. നിങ്ങൾ ശേഖരിച്ച ഡാറ്റയും അതിന്റെ പ്രാധാന്യവും നേരിട്ട് ചർച്ച ചെയ്യാൻ കഴിയും. എന്നാൽ ഈ സാഹചര്യത്തിൽ, സമയ നിയന്ത്രണവും പ്രദർശന നിയന്ത്രണവും പ്രധാനമാണ്. രണ്ട്-വേ കമ്മ്യൂണിക്കേഷൻ ഉപയോഗിക്കുമ്പോൾ (പ്രത്യേകിച്ച് മാനേജീരിയൽ പ്രേക്ഷകർക്ക്, "സങ്കീർണ്ണതകളും പരസ്പരബന്ധങ്ങളും ഉൾപ്പെടെയുള്ള പ്രായോഗിക മനസ്സിലാക്കൽ" ആവശ്യമായപ്പോൾ), ചോദ്യങ്ങൾ ഉയർന്ന് സംഭാഷണം നിങ്ങൾ പറയാൻ ശ്രമിക്കുന്ന കഥയുമായി ബന്ധപ്പെട്ടില്ലാത്ത ദിശയിലേക്ക് പോകാൻ സാധ്യതയുണ്ട്. അപ്പോൾ നിങ്ങൾ നടപടി സ്വീകരിച്ച് സംഭാഷണം നിങ്ങളുടെ കഥയിലേക്ക് തിരിച്ചു കൊണ്ടുവരാം.
### 2. അവസാനത്തെ മനസ്സിലാക്കി തുടങ്ങുക
അവസാനത്തെ മനസ്സിലാക്കി തുടങ്ങുക എന്നത്, പ്രേക്ഷകർക്ക് നൽകേണ്ട പ്രധാന സന്ദേശങ്ങൾ നിങ്ങൾ അറിയാതെ കമ്മ്യൂണിക്കേഷൻ ആരംഭിക്കരുത് എന്നർത്ഥമാണ്. നിങ്ങൾക്ക് പ്രേക്ഷകർക്ക് നൽകേണ്ടത് എന്താണെന്ന് മുൻകൂട്ടി ചിന്തിക്കുന്നത്, നിങ്ങൾ പറയാൻ പോകുന്ന കഥയെ രൂപപ്പെടുത്താൻ സഹായിക്കും. അവസാനത്തെ മനസ്സിലാക്കി തുടങ്ങുക ഒന്ന്-വേയും രണ്ട്-വേയും കമ്മ്യൂണിക്കേഷനുകൾക്കും അനുയോജ്യമാണ്.
എങ്ങനെ അവസാനത്തെ മനസ്സിലാക്കി തുടങ്ങാം? ഡാറ്റ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുന്നതിന് മുമ്പ്, നിങ്ങളുടെ പ്രധാന സന്ദേശങ്ങൾ എഴുതുക. തുടർന്ന്, ഡാറ്റയോടെ പറയാൻ പോകുന്ന കഥ തയ്യാറാക്കുമ്പോൾ, "ഇത് ഞാൻ പറയുന്ന കഥയുമായി എങ്ങനെ ചേർക്കുന്നു?" എന്ന് സ്വയം ചോദിക്കുക.
ശ്രദ്ധിക്കുക അവസാനത്തെ മനസ്സിലാക്കി തുടങ്ങുന്നത് ഉത്തമമാണ്, എന്നാൽ നിങ്ങൾക്ക് നിങ്ങളുടെ ലക്ഷ്യ സന്ദേശങ്ങളെ പിന്തുണയ്ക്കുന്ന ഡാറ്റ മാത്രം കമ്മ്യൂണിക്കേറ്റ് ചെയ്യരുത്. ഇത് ചെറി-പിക്കിംഗ് (Cherry-Picking) എന്ന് വിളിക്കുന്നു, ഒരു കമ്മ്യൂണിക്കേറ്റർ തന്റെ വാദം പിന്തുണയ്ക്കുന്ന ഡാറ്റ മാത്രം കമ്മ്യൂണിക്കേറ്റ് ചെയ്ത് മറ്റ് ഡാറ്റകൾ അവഗണിക്കുമ്പോൾ സംഭവിക്കുന്നു.
നിങ്ങൾ ശേഖരിച്ച എല്ലാ ഡാറ്റയും നിങ്ങളുടെ ലക്ഷ്യ സന്ദേശങ്ങളെ പിന്തുണച്ചാൽ നല്ലതാണ്. എന്നാൽ നിങ്ങളുടെ ലക്ഷ്യ സന്ദേശങ്ങളെ പിന്തുണയ്ക്കാത്ത ഡാറ്റയോ, അതിന്റെ വിരുദ്ധമായ വാദം പിന്തുണയ്ക്കുന്ന ഡാറ്റയോ ഉണ്ടെങ്കിൽ, അത് കൂടി കമ്മ്യൂണിക്കേറ്റ് ചെയ്യണം. അപ്പോൾ, പ്രേക്ഷകർക്കു നേരിട്ട് പറഞ്ഞ്, എല്ലാ ഡാറ്റയും നിങ്ങളുടെ കഥയെ പിന്തുണയ്ക്കുന്നില്ലെങ്കിലും നിങ്ങൾ ആ കഥയോട് എങ്ങനെ നിഷ്‌ഠയുള്ളവനാണ് എന്ന് അറിയിക്കണം.
### 3. യഥാർത്ഥ കഥപോലെ സമീപിക്കുക
പരമ്പരാഗത കഥ 5 ഘട്ടങ്ങളിൽ നടക്കുന്നു. ഇവയെ എക്സ്പോസിഷൻ, റൈസിംഗ് ആക്ഷൻ, ക്ലൈമാക്സ്, ഫോളിംഗ് ആക്ഷൻ, ഡിനൗൺസ്മെന്റ് എന്ന് വിളിക്കാം. അല്ലെങ്കിൽ എളുപ്പത്തിൽ ഓർക്കാൻ കോൺടെക്സ്റ്റ്, കോൺഫ്ലിക്റ്റ്, ക്ലൈമാക്സ്, ക്ലോഷർ, കോൺക്ലൂഷൻ. ഡാറ്റയും കഥയും കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുമ്പോൾ സമാനമായ സമീപനം സ്വീകരിക്കാം.
കോൺടെക്സ്റ്റിൽ തുടങ്ങാം, സീൻ സജ്ജമാക്കാം, പ്രേക്ഷകർ എല്ലാവരും ഒരേ പേജിൽ ഉണ്ടെന്ന് ഉറപ്പാക്കാം. തുടർന്ന് കോൺഫ്ലിക്റ്റ് അവതരിപ്പിക്കുക. ഈ ഡാറ്റ ശേഖരിക്കേണ്ടത് എന്തുകൊണ്ടാണ്? നിങ്ങൾ പരിഹരിക്കാനാഗ്രഹിച്ച പ്രശ്നങ്ങൾ എന്തൊക്കെയാണ്? അതിനുശേഷം ക്ലൈമാക്സ്. ഡാറ്റ എന്താണ്? ഡാറ്റയുടെ അർത്ഥം എന്ത്? ഡാറ്റ നമ്മെ ഏത് പരിഹാരങ്ങൾ ആവശ്യപ്പെടുന്നു? തുടർന്ന് ക്ലോഷർ, പ്രശ്നവും നിർദ്ദേശിച്ച പരിഹാരവും വീണ്ടും പറയാം. അവസാനം കോൺക്ലൂഷൻ, പ്രധാന സന്ദേശങ്ങളും ടീം സ്വീകരിക്കേണ്ട അടുത്ത ചുവടുകളും സംഗ്രഹിക്കാം.
### 4. അർത്ഥമുള്ള വാക്കുകളും വാചകങ്ങളും ഉപയോഗിക്കുക
നിങ്ങളും ഞാൻ ഒരു ഉൽപ്പന്നത്തിൽ ചേർന്ന് ജോലി ചെയ്യുകയാണെങ്കിൽ, ഞാൻ നിങ്ങൾക്ക് "നമ്മുടെ ഉപയോക്താക്കൾ പ്ലാറ്റ്ഫോമിൽ ഓൺബോർഡ് ചെയ്യാൻ വളരെ സമയം എടുക്കുന്നു" എന്ന് പറഞ്ഞാൽ, "വളരെ സമയം" എത്രയെന്ന് നിങ്ങൾ എത്രമാത്രം കണക്കാക്കും? ഒരു മണിക്കൂർ? ഒരു ആഴ്ച? അറിയാൻ ബുദ്ധിമുട്ടാണ്. ഞാൻ അത് മുഴുവൻ പ്രേക്ഷകർക്കു പറഞ്ഞാൽ? പ്രേക്ഷകർക്ക് ഓരോരുത്തർക്കും വ്യത്യസ്തമായ ധാരണ ഉണ്ടാകാം.
പകരം, ഞാൻ പറഞ്ഞാൽ "നമ്മുടെ ഉപയോക്താക്കൾ ശരാശരി 3 മിനിറ്റ് കൊണ്ട് സൈൻ അപ്പ് ചെയ്ത് ഓൺബോർഡ് ചെയ്യുന്നു."
അത് കൂടുതൽ വ്യക്തമാണ്. ഡാറ്റ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുമ്പോൾ, എല്ലാവരും നിങ്ങളുടെ പോലെ ചിന്തിക്കുന്നുവെന്ന് കരുതുന്നത് എളുപ്പമാണ്. എന്നാൽ അത് എല്ലായ്പ്പോഴും ശരിയല്ല. നിങ്ങളുടെ ഡാറ്റയും അതിന്റെ അർത്ഥവും വ്യക്തമായി അവതരിപ്പിക്കുന്നത് നിങ്ങളുടെ ഉത്തരവാദിത്വമാണ്. ഡാറ്റയോ കഥയോ വ്യക്തമായില്ലെങ്കിൽ, പ്രേക്ഷകർക്ക് പിന്തുടരാൻ ബുദ്ധിമുട്ടും, പ്രധാന സന്ദേശങ്ങൾ മനസ്സിലാക്കാൻ കുറവാകും.
നിങ്ങൾ അർത്ഥമുള്ള വാക്കുകളും വാചകങ്ങളും ഉപയോഗിച്ചാൽ ഡാറ്റ കൂടുതൽ വ്യക്തമായി കമ്മ്യൂണിക്കേറ്റ് ചെയ്യാം, അനിശ്ചിതമായ വാക്കുകൾക്കുപകരം. താഴെ ചില ഉദാഹരണങ്ങൾ.
- ഞങ്ങൾക്ക് *പ്രഭാഷണീയമായ* ഒരു വർഷം ഉണ്ടായി!
- ഒരാൾക്ക് പ്രഭാഷണീയമായ വർഷം 2%-3% വരുമാന വർദ്ധനവായി തോന്നാം, മറ്റൊരാൾക്ക് 50%-60% വർദ്ധനവായി തോന്നാം.
- നമ്മുടെ ഉപയോക്താക്കളുടെ വിജയ നിരക്കുകൾ *പ്രഭാഷണീയമായി* വർദ്ധിച്ചു.
- എത്ര വലിയ വർദ്ധനവാണ് പ്രഭാഷണീയമായ വർദ്ധനവ്?
- ഈ പ്രവർത്തനം *പ്രധാനമായ* ശ്രമം ആവശ്യപ്പെടും.
- എത്ര ശ്രമമാണ് പ്രധാനമായത്?
അനിശ്ചിതമായ വാക്കുകൾ കൂടുതൽ ഡാറ്റയിലേക്ക് പരിചയപ്പെടുത്തലായി അല്ലെങ്കിൽ നിങ്ങൾ പറഞ്ഞ കഥയുടെ സംഗ്രഹമായി ഉപയോഗിക്കാം. എന്നാൽ നിങ്ങളുടെ പ്രദർശനത്തിന്റെ എല്ലാ ഭാഗവും പ്രേക്ഷകർക്കു വ്യക്തമായിരിക്കണമെന്ന് ഉറപ്പാക്കുക.
### 5. ഭാവന ഉപയോഗിക്കുക
ഭാവന കഥ പറയലിൽ പ്രധാനമാണ്. ഡാറ്റയോടെ കഥ പറയുമ്പോൾ ഇത് കൂടുതൽ പ്രധാനമാണ്. ഡാറ്റ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുമ്പോൾ, നിങ്ങൾ പ്രേക്ഷകർക്ക് നൽകാൻ ആഗ്രഹിക്കുന്ന സന്ദേശങ്ങളിലാണ് എല്ലാം കേന്ദ്രീകരിക്കുന്നത്. പ്രേക്ഷകർക്കു ഒരു ഭാവന ഉണർത്തുമ്പോൾ അവർക്ക് സഹാനുഭൂതി ഉണ്ടാകാൻ സഹായിക്കുന്നു, കൂടാതെ അവർക്ക് പ്രവർത്തിക്കാൻ പ്രേരണ നൽകുന്നു. ഭാവന പ്രേക്ഷകർക്ക് നിങ്ങളുടെ സന്ദേശം ഓർമ്മിക്കാൻ സാധ്യത വർദ്ധിപ്പിക്കുന്നു.
നിങ്ങൾക്ക് ഇത് ടിവി പരസ്യങ്ങളിൽ മുമ്പ് കണ്ടിട്ടുണ്ടാകാം. ചില പരസ്യങ്ങൾ വളരെ ഗൗരവമുള്ളവയാണ്, ദു:ഖകരമായ ഭാവന ഉപയോഗിച്ച് പ്രേക്ഷകരുമായി ബന്ധപ്പെടുകയും അവർ അവതരിപ്പിക്കുന്ന ഡാറ്റയെ കൂടുതൽ ശ്രദ്ധേയമാക്കുകയും ചെയ്യുന്നു. അല്ലെങ്കിൽ ചില പരസ്യങ്ങൾ വളരെ സന്തോഷകരവും ഉല്ലാസകരവുമാണ്, അവയുടെ ഡാറ്റയെ സന്തോഷകരമായ അനുഭവവുമായി ബന്ധിപ്പിക്കാൻ പ്രേരിപ്പിക്കുന്നു.
ഡാറ്റ കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുമ്പോൾ ഭാവന എങ്ങനെ ഉപയോഗിക്കാം? താഴെ ചില മാർഗങ്ങൾ.
- സാക്ഷ്യങ്ങളും വ്യക്തിഗത കഥകളും ഉപയോഗിക്കുക
- ഡാറ്റ ശേഖരിക്കുമ്പോൾ, ക്വാണ്ടിറ്റേറ്റീവ് (അളക്കാവുന്ന) ഡാറ്റയും ക്വാളിറ്റേറ്റീവ് (ഗുണപരമായ) ഡാറ്റയും ശേഖരിക്കാൻ ശ്രമിക്കുക, കമ്മ്യൂണിക്കേഷൻ ചെയ്യുമ്പോൾ ഇരുവരും സംയോജിപ്പിക്കുക. നിങ്ങളുടെ ഡാറ്റ പ്രധാനമായും ക്വാണ്ടിറ്റേറ്റീവ് ആണെങ്കിൽ, വ്യക്തികളുടെ അനുഭവങ്ങൾ അറിയാൻ കഥകൾ തേടുക.
- ചിത്രങ്ങൾ ഉപയോഗിക്കുക
- ചിത്രങ്ങൾ പ്രേക്ഷകർക്ക് ഒരു സാഹചര്യത്തിൽ തങ്ങളെ കാണാൻ സഹായിക്കുന്നു. ചിത്രങ്ങൾ ഉപയോഗിക്കുമ്പോൾ, നിങ്ങൾക്ക് പ്രേക്ഷകരെ നിങ്ങളുടെ ഡാറ്റയെക്കുറിച്ചുള്ള അനുഭവം ഉണ്ടാകാൻ പ്രേരിപ്പിക്കാം.
- നിറം ഉപയോഗിക്കുക
- വ്യത്യസ്ത നിറങ്ങൾ വ്യത്യസ്ത ഭാവനകൾ ഉണർത്തുന്നു. ജനപ്രിയ നിറങ്ങളും അവ ഉണർത്തുന്ന ഭാവനകളും താഴെ കൊടുത്തിരിക്കുന്നു. ശ്രദ്ധിക്കുക, നിറങ്ങൾക്ക് വ്യത്യസ്ത സംസ്കാരങ്ങളിൽ വ്യത്യസ്ത അർത്ഥങ്ങൾ ഉണ്ടാകാം.
- നീല നിറം സാധാരണയായി സമാധാനവും വിശ്വാസവും ഉണർത്തുന്നു
- പച്ച നിറം സാധാരണയായി പ്രകൃതിയുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു
- ചുവപ്പ് സാധാരണയായി ആവേശവും ഉത്സാഹവും ഉണർത്തുന്നു
- മഞ്ഞ നിറം സാധാരണയായി പ്രതീക്ഷയും സന്തോഷവും ഉണർത്തുന്നു
# കമ്മ്യൂണിക്കേഷൻ കേസ് സ്റ്റഡി
എമേഴ്സൺ ഒരു മൊബൈൽ ആപ്പിന്റെ പ്രോഡക്ട് മാനേജരാണ്. എമേഴ്സൺ ശ്രദ്ധിച്ചിട്ടുണ്ട്, വാരാന്ത്യങ്ങളിൽ ഉപഭോക്താക്കൾ 42% കൂടുതൽ പരാതികളും ബഗ് റിപ്പോർട്ടുകളും സമർപ്പിക്കുന്നു. 48 മണിക്കൂറിനുള്ളിൽ മറുപടി ലഭിക്കാത്ത പരാതികൾ സമർപ്പിക്കുന്ന ഉപഭോക്താക്കൾ ആപ്പ് സ്റ്റോറിൽ 1 അല്ലെങ്കിൽ 2 റേറ്റിംഗ് നൽകാനുള്ള സാധ്യത 32% കൂടുതലാണ്.
ഗവേഷണം നടത്തിയ ശേഷം, എമേഴ്സണിന് പ്രശ്നം പരിഹരിക്കാൻ ചില പരിഹാരങ്ങൾ ഉണ്ട്. എമേഴ്സൺ 3 കമ്പനി ലീഡുകളുമായി 30 മിനിറ്റ് മീറ്റിംഗ് ക്രമീകരിച്ച് ഡാറ്റയും നിർദ്ദേശിച്ച പരിഹാരങ്ങളും കമ്മ്യൂണിക്കേറ്റ് ചെയ്യുന്നു.
ഈ മീറ്റിംഗിൽ, എമേഴ്സണിന്റെ ലക്ഷ്യം കമ്പനി ലീഡുകൾക്ക് താഴെ പറയുന്ന 2 പരിഹാരങ്ങൾ ആപ്പ് റേറ്റിംഗ് മെച്ചപ്പെടുത്താൻ സഹായിക്കുമെന്ന് മനസ്സിലാക്കുക ആണ്, ഇത് ഉയർന്ന വരുമാനമായി മാറും.
**പരിഹാരം 1.** വാരാന്ത്യങ്ങളിൽ ജോലി ചെയ്യാൻ കസ്റ്റമർ സർവീസ് പ്രതിനിധികളെ നിയമിക്കുക
**പരിഹാരം 2.** കസ്റ്റമർ സർവീസ് ടിക്കറ്റ് സിസ്റ്റം വാങ്ങുക, ഇതിലൂടെ കസ്റ്റമർ സർവീസ് പ്രതിനിധികൾ ഏറ്റവും പഴക്കമുള്ള പരാതികൾ എളുപ്പത്തിൽ തിരിച്ചറിയാൻ കഴിയും അതിനാൽ ഏറ്റവും ഉടൻ പരിഹരിക്കേണ്ടത് അറിയാം.
മീറ്റിംഗിൽ, എമേഴ്സൺ 5 മിനിറ്റ് ചിലവിട്ട് ആപ്പ് സ്റ്റോറിൽ കുറഞ്ഞ റേറ്റിംഗ് ഉണ്ടാകുന്നത് എന്തുകൊണ്ട് ദോഷകരമാണെന്ന് വിശദീകരിക്കുന്നു, 10 മിനിറ്റ് ഗവേഷണ പ്രക്രിയയും ട്രെൻഡുകൾ എങ്ങനെ തിരിച്ചറിഞ്ഞുവെന്നും പറയുന്നു, 10 മിനിറ്റ് ചില പുതിയ ഉപഭോക്തൃ പരാതികൾ പരിശോധിക്കുന്നു, അവസാന 5 മിനിറ്റ് 2 പരിഹാരങ്ങൾ സംക്ഷിപ്തമായി അവതരിപ്പിക്കുന്നു.
എമേഴ്സൺ ഈ യോഗത്തിൽ ആശയവിനിമയം നടത്താൻ ഇത് ഫലപ്രദമായ മാർഗമായിരുന്നോ?
യോഗത്തിനിടെ, ഒരു കമ്പനി ലീഡ് എമേഴ്സൺ പരിശോധിച്ച 10 മിനിറ്റ് ഉപഭോക്തൃ പരാതികളിൽ മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിച്ചു. യോഗത്തിന് ശേഷം, ഈ പരാതികൾ മാത്രമാണ് ആ ടീം ലീഡ് ഓർമ്മിച്ചിരുന്നത്. മറ്റൊരു കമ്പനി ലീഡ് പ്രധാനമായും എമേഴ്സൺ ഗവേഷണ പ്രക്രിയ വിവരിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചു. മൂന്നാമത്തെ കമ്പനി ലീഡ് എമേഴ്സൺ നിർദ്ദേശിച്ച പരിഹാരങ്ങൾ ഓർമ്മിച്ചെങ്കിലും ആ പരിഹാരങ്ങൾ എങ്ങനെ നടപ്പിലാക്കാമെന്ന് ഉറപ്പില്ലായിരുന്നു.
മുകളിൽ നൽകിയ സാഹചര്യത്തിൽ, എമേഴ്സൺ ടീം ലീഡുകൾക്ക് നൽകാൻ ആഗ്രഹിച്ച സന്ദേശത്തിനും അവർ യോഗത്തിൽ നിന്ന് എടുത്തു കൊണ്ടുപോയതും തമ്മിൽ വലിയ വ്യത്യാസമുണ്ടെന്ന് കാണാം. താഴെ എമേഴ്സൺ പരിഗണിക്കാവുന്ന മറ്റൊരു സമീപനം കൊടുത്തിരിക്കുന്നു.
എമേഴ്സൺ ഈ സമീപനം എങ്ങനെ മെച്ചപ്പെടുത്താം?
Context, Conflict, Climax, Closure, Conclusion
**Context** - എമേഴ്സൺ ആദ്യ 5 മിനിറ്റ് മുഴുവൻ സാഹചര്യവും പരിചയപ്പെടുത്തുകയും, ടീം ലീഡുകൾക്ക് പ്രശ്നങ്ങൾ കമ്പനിക്ക് നിർണായകമായ മെട്രിക്‌സുകളെ (ഉദാഹരണത്തിന് വരുമാനം) എങ്ങനെ ബാധിക്കുന്നുവെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുകയും ചെയ്യാം.
ഇത് ഇങ്ങനെ അവതരിപ്പിക്കാം: "ഇപ്പോൾ, നമ്മുടെ ആപ്പിന്റെ റേറ്റിംഗ് ആപ്പ് സ്റ്റോറിൽ 2.5 ആണ്. ആപ്പ് സ്റ്റോറിലെ റേറ്റിംഗുകൾ ആപ്പ് സ്റ്റോർ ഓപ്റ്റിമൈസേഷനിൽ നിർണായകമാണ്, ഇത് എത്ര ഉപയോക്താക്കൾക്ക് നമ്മുടെ ആപ്പ് തിരയുമ്പോൾ കാണപ്പെടുന്നു എന്നതും, ഭാവി ഉപയോക്താക്കൾക്ക് ആപ്പ് എങ്ങനെ കാണപ്പെടുന്നു എന്നതും ബാധിക്കുന്നു. കൂടാതെ, ഉപയോക്താക്കളുടെ എണ്ണം നേരിട്ട് വരുമാനത്തോട് ബന്ധപ്പെട്ടു കിടക്കുന്നു."
**Conflict** - തുടർന്ന് എമേഴ്സൺ അടുത്ത 5 മിനിറ്റ് വരെ പ്രശ്നത്തെക്കുറിച്ച് സംസാരിക്കാം.
ഇത് ഇങ്ങനെ പറയാം: "ഉപയോക്താക്കൾ വാരാന്ത്യങ്ങളിൽ 42% കൂടുതൽ പരാതികളും ബഗ് റിപ്പോർട്ടുകളും സമർപ്പിക്കുന്നു. 48 മണിക്കൂർ കഴിഞ്ഞ് മറുപടി ലഭിക്കാത്ത പരാതികൾ സമർപ്പിക്കുന്ന ഉപഭോക്താക്കൾ ആപ്പ് സ്റ്റോറിൽ 2-ൽ മുകളിൽ റേറ്റിംഗ് നൽകാനുള്ള സാധ്യത 32% കുറവാണ്. ആപ്പ് സ്റ്റോറിലെ റേറ്റിംഗ് 4 ആക്കുന്നത് 20-30% വരെ ദൃശ്യത വർദ്ധിപ്പിക്കും, ഇത് വരുമാനം 10% വർദ്ധിപ്പിക്കുമെന്ന് ഞാൻ പ്രവചിക്കുന്നു." ഈ സംഖ്യകൾ ന്യായീകരിക്കാൻ എമേഴ്സൺ തയ്യാറായിരിക്കണം.
**Climax** - അടിസ്ഥാനമിടൽ കഴിഞ്ഞ്, എമേഴ്സൺ 5 മിനിറ്റ് വരെ ക്ലൈമാക്സിലേക്ക് പോകാം.
എമേഴ്സൺ നിർദ്ദേശിച്ച പരിഹാരങ്ങൾ അവതരിപ്പിക്കുകയും, ആ പരിഹാരങ്ങൾ പ്രശ്നങ്ങൾ എങ്ങനെ പരിഹരിക്കും, നിലവിലുള്ള പ്രവൃത്തിപദ്ധതികളിൽ എങ്ങനെ നടപ്പിലാക്കാം, ചെലവ് എത്ര, ROI എന്താണെന്ന് വിശദീകരിക്കുകയും, നടപ്പിലാക്കിയാൽ എങ്ങനെ കാണപ്പെടും എന്നതിന്റെ സ്ക്രീൻഷോട്ടുകളും വയർഫ്രെയിമുകളും കാണിക്കുകയും ചെയ്യാം. 48 മണിക്കൂർ കഴിഞ്ഞ് പരാതികൾ പരിഹരിച്ച ഉപയോക്താക്കളുടെ സാക്ഷ്യപത്രങ്ങളും, നിലവിലെ ടിക്കറ്റ് സിസ്റ്റത്തെക്കുറിച്ച് അഭിപ്രായം പറയുന്ന ഒരു നിലവിലെ കസ്റ്റമർ സർവീസ് പ്രതിനിധിയുടെ സാക്ഷ്യപത്രവും പങ്കുവെക്കാം.
**Closure** - ഇപ്പോൾ എമേഴ്സൺ 5 മിനിറ്റ് ചിലവഴിച്ച് കമ്പനി നേരിടുന്ന പ്രശ്നങ്ങൾ വീണ്ടും പറയുകയും, നിർദ്ദേശിച്ച പരിഹാരങ്ങൾ വീണ്ടും പരിശോധിക്കുകയും, ആ പരിഹാരങ്ങൾ ശരിയായതാണെന്ന് അവലോകനം ചെയ്യുകയും ചെയ്യാം.
**Conclusion** - ഇത് കുറച്ച് പങ്കാളികളുള്ള യോഗമാണെന്നും, രണ്ട് ദിശയിലുള്ള ആശയവിനിമയം നടക്കുമെന്നും കണക്കിലെടുത്ത്, എമേഴ്സൺ 10 മിനിറ്റ് ചോദ്യങ്ങൾക്ക് മാറ്റി വയ്ക്കാൻ പദ്ധതിയിടാം, യോഗം അവസാനിക്കുന്നതിന് മുമ്പ് ടീം ലീഡുകൾക്ക് എന്തെങ്കിലും സംശയങ്ങൾ ഉണ്ടെങ്കിൽ അവ വ്യക്തമാക്കാൻ.
എമേഴ്സൺ സമീപനം #2 സ്വീകരിച്ചാൽ, ടീം ലീഡുകൾക്ക് എമേഴ്സൺ ഉദ്ദേശിച്ച സന്ദേശം പരാതികളും ബഗുകളും കൈകാര്യം ചെയ്യുന്നതിൽ മെച്ചപ്പെടുത്തലുകൾ ആവശ്യമാണെന്നും, ആ മെച്ചപ്പെടുത്തലുകൾക്കായി രണ്ട് പരിഹാരങ്ങൾ നടപ്പിലാക്കാവുന്നതുമാണ് യോഗത്തിൽ നിന്ന് വ്യക്തമായി ലഭിക്കാനുള്ള സാധ്യത കൂടുതലാണ്. ഈ സമീപനം എമേഴ്സൺ അറിയിക്കാൻ ആഗ്രഹിക്കുന്ന ഡാറ്റയും കഥയും ഫലപ്രദമായി ആശയവിനിമയം നടത്താൻ സഹായിക്കും.
# Conclusion
### പ്രധാനപ്പെട്ട കാര്യങ്ങളുടെ സംഗ്രഹം
- ആശയവിനിമയം എന്നത് വിവരങ്ങൾ കൈമാറുകയോ കൈമാറ്റം ചെയ്യുകയോ ചെയ്യുന്നതാണ്.
- ഡാറ്റ ആശയവിനിമയം ചെയ്യുമ്പോൾ, നിങ്ങളുടെ ലക്ഷ്യം വെറും സംഖ്യകൾ പ്രേക്ഷകരിലേക്ക് കൈമാറുക മാത്രമല്ല. നിങ്ങളുടെ ഡാറ്റയിൽ നിന്നുള്ള ഒരു കഥ ആശയവിനിമയം ചെയ്യുകയാണ് ലക്ഷ്യം.
- ആശയവിനിമയത്തിന് രണ്ട് തരം ഉണ്ട്: ഒറ്റദിശ ആശയവിനിമയം (പ്രതികരണമില്ലാതെ വിവരങ്ങൾ കൈമാറൽ)യും രണ്ട് ദിശ ആശയവിനിമയം (വിവരങ്ങൾ മുന്നിലും പിന്നിലും കൈമാറൽ)യും.
- ഡാറ്റയുമായി കഥ പറയാൻ ഉപയോഗിക്കാവുന്ന നിരവധി തന്ത്രങ്ങൾ ഉണ്ട്, നാം പരിശോധിച്ച 5 തന്ത്രങ്ങൾ:
- നിങ്ങളുടെ പ്രേക്ഷകരെയും, മാധ്യമത്തെയും, ആശയവിനിമയ രീതിയെയും മനസ്സിലാക്കുക
- അവസാനം മനസ്സിൽ വെച്ച് തുടങ്ങുക
- യഥാർത്ഥ കഥപോലെ സമീപിക്കുക
- അർത്ഥപൂർണമായ വാക്കുകളും വാചകങ്ങളും ഉപയോഗിക്കുക
- വികാരങ്ങൾ ഉപയോഗിക്കുക
### സ്വയം പഠനത്തിന് ശുപാർശ ചെയ്ത വിഭവങ്ങൾ
[The Five C's of Storytelling - Articulate Persuasion](http://articulatepersuasion.com/the-five-cs-of-storytelling/)
[1.4 Your Responsibilities as a Communicator Business Communication for Success (umn.edu)](https://open.lib.umn.edu/businesscommunication/chapter/1-4-your-responsibilities-as-a-communicator/)
[How to Tell a Story with Data (hbr.org)](https://hbr.org/2013/04/how-to-tell-a-story-with-data)
[Two-Way Communication: 4 Tips for a More Engaged Workplace (yourthoughtpartner.com)](https://www.yourthoughtpartner.com/blog/bid/59576/4-steps-to-increase-employee-engagement-through-two-way-communication)
[6 succinct steps to great data storytelling - BarnRaisers, LLC (barnraisersllc.com)](https://barnraisersllc.com/2021/05/02/6-succinct-steps-to-great-data-storytelling/)
[How to Tell a Story With Data | Lucidchart Blog](https://www.lucidchart.com/blog/how-to-tell-a-story-with-data)
[6 Cs of Effective Storytelling on Social Media | Cooler Insights](https://coolerinsights.com/2018/06/effective-storytelling-social-media/)
[The Importance of Emotions In Presentations | Ethos3 - A Presentation Training and Design Agency](https://ethos3.com/2015/02/the-importance-of-emotions-in-presentations/)
[Data storytelling: linking emotions and rational decisions (toucantoco.com)](https://www.toucantoco.com/en/blog/data-storytelling-dataviz)
[Emotional Advertising: How Brands Use Feelings to Get People to Buy (hubspot.com)](https://blog.hubspot.com/marketing/emotions-in-advertising-examples)
[Choosing Colors for Your Presentation Slides | Think Outside The Slide](https://www.thinkoutsidetheslide.com/choosing-colors-for-your-presentation-slides/)
[How To Present Data [10 Expert Tips] | ObservePoint](https://resources.observepoint.com/blog/10-tips-for-presenting-data)
[Microsoft Word - Persuasive Instructions.doc (tpsnva.org)](https://www.tpsnva.org/teach/lq/016/persinstr.pdf)
[The Power of Story for Your Data (thinkhdi.com)](https://www.thinkhdi.com/library/supportworld/2019/power-story-your-data.aspx)
[Common Mistakes in Data Presentation (perceptualedge.com)](https://www.perceptualedge.com/articles/ie/data_presentation.pdf)
[Infographic: Here are 15 Common Data Fallacies to Avoid (visualcapitalist.com)](https://www.visualcapitalist.com/here-are-15-common-data-fallacies-to-avoid/)
[Cherry Picking: When People Ignore Evidence that They Dislike Effectiviology](https://effectiviology.com/cherry-picking/#How_to_avoid_cherry_picking)
[Tell Stories with Data: Communication in Data Science | by Sonali Verghese | Towards Data Science](https://towardsdatascience.com/tell-stories-with-data-communication-in-data-science-5266f7671d7)
[1. Communicating Data - Communicating Data with Tableau [Book] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html)
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/31)
മുകളിൽ നൽകിയ പോസ്റ്റ്-ലെക്ചർ ക്വിസ് ഉപയോഗിച്ച് നിങ്ങൾ പഠിച്ച കാര്യങ്ങൾ അവലോകനം ചെയ്യുക!
## Assignment
[Market Research](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,28 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "8980d7efd101c82d6d6ffc3458214120",
"translation_date": "2025-12-19T15:22:59+00:00",
"source_file": "4-Data-Science-Lifecycle/16-communication/assignment.md",
"language_code": "ml"
}
-->
# ഒരു കഥ പറയുക
## നിർദ്ദേശങ്ങൾ
ഡാറ്റാ സയൻസ് മുഴുവനും കഥ പറയലിനെക്കുറിച്ചാണ്. ഏതെങ്കിലും ഒരു ഡാറ്റാസെറ്റ് തിരഞ്ഞെടുക്കുക, അതിനെക്കുറിച്ച് നിങ്ങൾ പറയാൻ കഴിയുന്ന ഒരു ചെറിയ പ്രബന്ധം എഴുതുക. നിങ്ങളുടെ ഡാറ്റാസെറ്റ് എന്ത് വെളിപ്പെടുത്തുമെന്ന് നിങ്ങൾ പ്രതീക്ഷിക്കുന്നു? അതിന്റെ വെളിപ്പെടുത്തലുകൾ പ്രശ്നകരമാകുകയാണെങ്കിൽ നിങ്ങൾ എന്ത് ചെയ്യും? നിങ്ങളുടെ ഡാറ്റ അതിന്റെ രഹസ്യങ്ങൾ എളുപ്പത്തിൽ തുറക്കാൻ കഴിയുന്നില്ലെങ്കിൽ എന്ത് ചെയ്യും? നിങ്ങളുടെ ഡാറ്റാസെറ്റ് അവതരിപ്പിക്കാവുന്ന സാഹചര്യങ്ങളെക്കുറിച്ച് ചിന്തിച്ച് അവയെ എഴുതുക.
## റൂബ്രിക്
ഉദാഹരണമായി | മതിയായത് | മെച്ചപ്പെടുത്തേണ്ടത്
--- | --- | -- |
ഡാറ്റാസെറ്റ് വിശദീകരിച്ചും, രേഖപ്പെടുത്തിയും, ക്രെഡിറ്റ് നൽകിയും, അതിനെക്കുറിച്ചുള്ള സുസ്ഥിരമായ ഒരു കഥ വിശദമായ ഉദാഹരണങ്ങളോടെ .doc ഫോർമാറ്റിൽ ഒരു പേജ് പ്രബന്ധം അവതരിപ്പിക്കുന്നു.| കുറച്ച് കുറവുള്ള രൂപത്തിൽ ഒരു ചെറിയ പ്രബന്ധം അവതരിപ്പിക്കുന്നു | മുകളിൽ പറയപ്പെട്ട വിശദാംശങ്ങളിൽ ഒന്നിൽ പ്രബന്ധം കുറവാണെന്ന് കണ്ടെത്തുന്നു.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "dd173fd30fc039a7a299898920680723",
"translation_date": "2025-12-19T13:24:32+00:00",
"source_file": "4-Data-Science-Lifecycle/README.md",
"language_code": "ml"
}
-->
# ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ
![communication](../../../translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.ml.jpg)
> ഫോട്ടോ <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ഹെഡ്‌വേ</a> യുടെ <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a>
ഈ പാഠങ്ങളിൽ, ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ ചില ഭാഗങ്ങൾ, ഡാറ്റ ചുറ്റിപ്പറ്റിയുള്ള വിശകലനവും ആശയവിനിമയവും ഉൾപ്പെടെ, നിങ്ങൾ അന്വേഷിക്കും.
### വിഷയങ്ങൾ
1. [പരിചയം](14-Introduction/README.md)
2. [വിശകലനം](15-analyzing/README.md)
3. [ആശയവിനിമയം](16-communication/README.md)
### ക്രെഡിറ്റുകൾ
ഈ പാഠങ്ങൾ ❤️ കൊണ്ട് എഴുതിയത് [ജാലൻ മക്ഗീ](https://twitter.com/JalenMCG)യും [ജാസ്മിൻ ഗ്രീൻവേ](https://twitter.com/paladique)യും ആണ്.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,17 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "5f8e7cdefa096664ae86f795be571580",
"translation_date": "2025-12-19T15:10:58+00:00",
"source_file": "5-Data-Science-In-Cloud/17-Introduction/README.md",
"language_code": "ml"
}
-->
Translation for chunk 1 of 'README.md' skipped due to timeout.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "96f3696153d9ed54b19a1bb65438c104",
"translation_date": "2025-12-19T15:17:51+00:00",
"source_file": "5-Data-Science-In-Cloud/17-Introduction/assignment.md",
"language_code": "ml"
}
-->
# മാർക്കറ്റ് റിസർച്ച്
## നിർദ്ദേശങ്ങൾ
ഈ പാഠത്തിൽ നിങ്ങൾ പഠിച്ചത് വിവിധ പ്രധാന ക്ലൗഡ് പ്രൊവൈഡർമാർ ഉണ്ടെന്ന് ആണ്. ഓരോ പ്രൊവൈഡറും ഡാറ്റാ സയന്റിസ്റ്റിന് എന്തെല്ലാം നൽകാൻ കഴിയുമെന്ന് കണ്ടെത്താൻ മാർക്കറ്റ് റിസർച്ച് നടത്തുക. അവയുടെ ഓഫറിങ്ങുകൾ താരതമ്യപ്പെടുത്താവുന്നതാണോ? ഈ ക്ലൗഡ് പ്രൊവൈഡർമാരിൽ മൂന്ന് അല്ലെങ്കിൽ അതിലധികം പ്രൊവൈഡർമാരുടെ ഓഫറിങ്ങുകൾ വിവരിക്കുന്ന ഒരു പേപ്പർ എഴുതുക.
## റൂബ്രിക്
Exemplary | Adequate | Needs Improvement
--- | --- | -- |
ഒരു പേജ് പേപ്പറിൽ മൂന്ന് ക്ലൗഡ് പ്രൊവൈഡർമാരുടെ ഡാറ്റാ സയൻസ് ഓഫറിങ്ങുകൾ വിവരിക്കുകയും അവ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വ്യക്തമാക്കുകയും ചെയ്യുന്നു. | ഒരു ചെറിയ പേപ്പർ സമർപ്പിച്ചിരിക്കുന്നു | വിശകലനം പൂർത്തിയാക്കാതെ ഒരു പേപ്പർ സമർപ്പിച്ചിരിക്കുന്നു
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,355 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "bd4da10766c64fce4294a98f6479dfb0",
"translation_date": "2025-12-19T14:53:19+00:00",
"source_file": "5-Data-Science-In-Cloud/18-Low-Code/README.md",
"language_code": "ml"
}
-->
# ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: "ലോ കോഡ്/നോ കോഡ്" വഴി
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/18-DataScience-Cloud.png)|
|:---:|
| ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: ലോ കോഡ് - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
അടിസ്ഥാന പട്ടിക:
- [ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: "ലോ കോഡ്/നോ കോഡ്" വഴി](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [പ്രി-ലെക്ചർ ക്വിസ്](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [1. പരിചയം](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [1.1 ആസ്യൂർ മെഷീൻ ലേണിംഗ് എന്താണ്?](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [1.2 ഹാർട്ട് ഫെയില്യർ പ്രവചനം പ്രോജക്ട്:](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [1.3 ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ്:](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2. ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ മോഡൽ ലോ കോഡ്/നോ കോഡ് പരിശീലനം](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2.1 ആസ്യൂർ ML വർക്ക്സ്പേസ് സൃഷ്ടിക്കുക](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2.2 കംപ്യൂട്ട് റിസോഴ്‌സുകൾ](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2.2.1 കംപ്യൂട്ട് റിസോഴ്‌സുകൾക്കായി ശരിയായ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കൽ](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2.2.2 കംപ്യൂട്ട് ക്ലസ്റ്റർ സൃഷ്ടിക്കൽ](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2.3 ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യൽ](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [2.4 AutoML ഉപയോഗിച്ച് ലോ കോഡ്/നോ കോഡ് പരിശീലനം](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [3. ലോ കോഡ്/നോ കോഡ് മോഡൽ ഡിപ്ലോയ്മെന്റ് & എന്റ്പോയിന്റ് ഉപഭോഗം](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [3.1 മോഡൽ ഡിപ്ലോയ്മെന്റ്](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [3.2 എന്റ്പോയിന്റ് ഉപഭോഗം](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [🚀 ചലഞ്ച്](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [പരിശോധന & സ്വയം പഠനം](../../../../5-Data-Science-In-Cloud/18-Low-Code)
- [അസൈൻമെന്റ്](../../../../5-Data-Science-In-Cloud/18-Low-Code)
## [പ്രി-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/34)
## 1. പരിചയം
### 1.1 ആസ്യൂർ മെഷീൻ ലേണിംഗ് എന്താണ്?
ആസ്യൂർ ക്ലൗഡ് പ്ലാറ്റ്ഫോം 200-ലധികം ഉൽപ്പന്നങ്ങളും ക്ലൗഡ് സേവനങ്ങളും ഉൾക്കൊള്ളുന്ന ഒരു പ്ലാറ്റ്ഫോമാണ്, പുതിയ പരിഹാരങ്ങൾ സൃഷ്ടിക്കാൻ സഹായിക്കുന്നതിന് രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു.
ഡാറ്റാ സയന്റിസ്റ്റുകൾ ഡാറ്റ പരിശോധിക്കുകയും പ്രീ-പ്രോസസ്സ് ചെയ്യുകയും, കൃത്യമായ മോഡലുകൾ സൃഷ്ടിക്കാൻ വിവിധ മോഡൽ-ട്രെയിനിംഗ് ആൽഗോരിതങ്ങൾ പരീക്ഷിക്കുകയും ചെയ്യുന്നതിൽ വലിയ പരിശ്രമം ചെലവഴിക്കാറുണ്ട്. ഈ പ്രവർത്തനങ്ങൾ സമയമെടുക്കുന്നവയാണ്, കൂടാതെ ചിലപ്പോൾ വിലയേറിയ കംപ്യൂട്ട് ഹാർഡ്‌വെയർ അനാവശ്യമായി ഉപയോഗിക്കുന്നു.
[Azure ML](https://docs.microsoft.com/azure/machine-learning/overview-what-is-azure-machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ആസ്യൂറിൽ മെഷീൻ ലേണിംഗ് പരിഹാരങ്ങൾ നിർമ്മിക്കുകയും പ്രവർത്തിപ്പിക്കുകയും ചെയ്യുന്നതിനുള്ള ക്ലൗഡ് അടിസ്ഥാനമാക്കിയ പ്ലാറ്റ്ഫോമാണ്. ഡാറ്റാ സയന്റിസ്റ്റുകൾക്ക് ഡാറ്റ തയ്യാറാക്കാനും, മോഡലുകൾ പരിശീലിപ്പിക്കാനും, പ്രവചന സേവനങ്ങൾ പ്രസിദ്ധീകരിക്കാനും, അവയുടെ ഉപയോഗം നിരീക്ഷിക്കാനും സഹായിക്കുന്ന നിരവധി ഫീച്ചറുകളും കഴിവുകളും ഇതിൽ ഉൾക്കൊള്ളുന്നു. ഏറ്റവും പ്രധാനമായി, മോഡൽ പരിശീലനവുമായി ബന്ധപ്പെട്ട സമയമെടുക്കുന്ന പല പ്രവർത്തനങ്ങളും സ്വയം പ്രവർത്തിപ്പിച്ച് അവരുടെ കാര്യക്ഷമത വർദ്ധിപ്പിക്കാൻ ഇത് സഹായിക്കുന്നു; കൂടാതെ വലിയ ഡാറ്റ വോളിയം കൈകാര്യം ചെയ്യുന്നതിനായി ഫലപ്രദമായി സ്കെയിൽ ചെയ്യുന്ന ക്ലൗഡ് അടിസ്ഥാനമാക്കിയ കംപ്യൂട്ട് റിസോഴ്‌സുകൾ ഉപയോഗിക്കാൻ ഇത് അനുവദിക്കുന്നു, ഉപയോഗിക്കുമ്പോഴേ മാത്രം ചെലവ് വരുത്തുന്നു.
ആസ്യൂർ ML ഡെവലപ്പർമാർക്കും ഡാറ്റാ സയന്റിസ്റ്റുകൾക്കും അവരുടെ മെഷീൻ ലേണിംഗ് പ്രവൃത്തികൾക്കായി ആവശ്യമായ എല്ലാ ഉപകരണങ്ങളും നൽകുന്നു. ഇവയിൽ ഉൾപ്പെടുന്നു:
- **Azure Machine Learning Studio**: മോഡൽ പരിശീലനം, ഡിപ്ലോയ്മെന്റ്, ഓട്ടോമേഷൻ, ട്രാക്കിംഗ്, ആസറ്റ് മാനേജ്മെന്റ് എന്നിവയ്ക്കായി ലോ-കോഡ്, നോ-കോഡ് ഓപ്ഷനുകൾ ഉള്ള ആസ്യൂർ മെഷീൻ ലേണിംഗിലെ വെബ് പോർട്ടൽ. സ്റ്റുഡിയോ ആസ്യൂർ ML SDK-യുമായി സംയോജിപ്പിച്ചിരിക്കുന്നു.
- **Jupyter Notebooks**: ML മോഡലുകൾ വേഗത്തിൽ പ്രോട്ടോടൈപ്പ് ചെയ്ത് പരീക്ഷിക്കാൻ.
- **Azure Machine Learning Designer**: മോഡ്യൂളുകൾ ഡ്രാഗ്-അൻഡ്-ഡ്രോപ്പ് ചെയ്ത് പരീക്ഷണങ്ങൾ നിർമ്മിക്കുകയും പിന്നീട് ലോ-കോഡ് പരിസ്ഥിതിയിൽ പൈപ്പ്ലൈനുകൾ ഡിപ്ലോയ് ചെയ്യുകയും ചെയ്യാൻ.
- **Automated machine learning UI (AutoML)**: മെഷീൻ ലേണിംഗ് മോഡൽ വികസനത്തിലെ ആവർത്തന പ്രവർത്തനങ്ങൾ സ്വയം പ്രവർത്തിപ്പിച്ച് ഉയർന്ന സ്കെയിൽ, കാര്യക്ഷമത, ഉൽപാദനക്ഷമത എന്നിവയോടെ ML മോഡലുകൾ നിർമ്മിക്കാൻ സഹായിക്കുന്നു, മോഡൽ ഗുണനിലവാരം നിലനിർത്തിക്കൊണ്ട്.
- **Data Labelling**: ഡാറ്റ സ്വയം ലേബൽ ചെയ്യാൻ സഹായിക്കുന്ന ML ഉപകരണം.
- **Machine learning extension for Visual Studio Code**: ML പ്രോജക്ടുകൾ നിർമ്മിക്കുകയും നിയന്ത്രിക്കുകയും ചെയ്യുന്നതിനുള്ള സമ്പൂർണ വികസന പരിസ്ഥിതി.
- **Machine learning CLI**: കമാൻഡ് ലൈൻ വഴി ആസ്യൂർ ML റിസോഴ്‌സുകൾ നിയന്ത്രിക്കാൻ കമാൻഡുകൾ.
- **PyTorch, TensorFlow, Scikit-learn തുടങ്ങിയ ഓപ്പൺ-സോഴ്‌സ് ഫ്രെയിംവർക്ക്‌സുമായി സംയോജനം**: പരിശീലനം, ഡിപ്ലോയ്മെന്റ്, എന്റ്പോയിന്റ് മാനേജ്മെന്റ് എന്നിവയ്ക്കായി.
- **MLflow**: നിങ്ങളുടെ മെഷീൻ ലേണിംഗ് പരീക്ഷണങ്ങളുടെ ലൈഫ് സൈക്കിൾ മാനേജ്മെന്റ് ചെയ്യാനുള്ള ഓപ്പൺ-സോഴ്‌സ് ലൈബ്രറി. **MLFlow Tracking** MLflow-യുടെ ഒരു ഘടകമാണ്, നിങ്ങളുടെ പരിശീലന റൺ മെട്രിക്‌സും മോഡൽ ആർട്ടിഫാക്റ്റുകളും ലോഗ് ചെയ്ത് ട്രാക്ക് ചെയ്യുന്നു, പരീക്ഷണ പരിസ്ഥിതിയുമായി ബന്ധമില്ലാതെ.
### 1.2 ഹാർട്ട് ഫെയില്യർ പ്രവചനം പ്രോജക്ട്:
പ്രോജക്ടുകൾ നിർമ്മിച്ച് പരീക്ഷണങ്ങൾ നടത്തുന്നത് നിങ്ങളുടെ കഴിവുകളും അറിവുകളും പരീക്ഷിക്കാൻ ഏറ്റവും നല്ല മാർഗമാണ്. ഈ പാഠത്തിൽ, ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ ഹാർട്ട് ഫെയില്യർ ആക്രമണങ്ങൾ പ്രവചിക്കുന്ന ഡാറ്റാ സയൻസ് പ്രോജക്ട് നിർമ്മിക്കുന്ന രണ്ട് വ്യത്യസ്ത മാർഗങ്ങൾ പരിശോധിക്കാം: ലോ കോഡ്/നോ കോഡ് വഴി, ആസ്യൂർ ML SDK വഴി, താഴെ കാണുന്ന സ്കീമ പ്രകാരം:
![project-schema](../../../../translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.ml.png)
ഓരോ മാർഗത്തിനും സ്വന്തം ഗുണങ്ങളും ദോഷങ്ങളും ഉണ്ട്. ലോ കോഡ്/നോ കോഡ് വഴി GUI (ഗ്രാഫിക്കൽ യൂസർ ഇന്റർഫേസ്) ഉപയോഗിച്ച് ആരംഭിക്കാൻ എളുപ്പമാണ്, കോഡ് അറിവ് ആവശ്യമില്ല. ഈ രീതിയിൽ പ്രോജക്ടിന്റെ സാധുത വേഗത്തിൽ പരിശോധിക്കാനും POC (പ്രൂഫ് ഓഫ് കോൺസെപ്റ്റ്) സൃഷ്ടിക്കാനും കഴിയും. എന്നാൽ, പ്രോജക്ട് വളരുമ്പോൾ പ്രൊഡക്ഷൻ റെഡിയാക്കേണ്ടതുണ്ടെങ്കിൽ GUI വഴി റിസോഴ്‌സുകൾ സൃഷ്ടിക്കുന്നത് പ്രായോഗികമല്ല. റിസോഴ്‌സുകൾ സൃഷ്ടിക്കുന്നതിൽ നിന്നും മോഡൽ ഡിപ്ലോയ്മെന്റിലേക്കുള്ള എല്ലാ കാര്യങ്ങളും പ്രോഗ്രാമാറ്റിക്കായി ഓട്ടോമേറ്റ് ചെയ്യേണ്ടതുണ്ട്. ആസ്യൂർ ML SDK ഉപയോഗിക്കുന്നതിന്റെ പ്രാധാന്യം ഇവിടെ വരുന്നു.
| | ലോ കോഡ്/നോ കോഡ് | ആസ്യൂർ ML SDK |
|-------------------|------------------|---------------------------|
| കോഡ് പരിജ്ഞാനം | ആവശ്യമില്ല | ആവശ്യമുണ്ട് |
| വികസന സമയം | വേഗവും എളുപ്പവും | കോഡ് പരിജ്ഞാനത്തെ ആശ്രയിച്ചിരിക്കുന്നു |
| പ്രൊഡക്ഷൻ റെഡി | ഇല്ല | ഉണ്ട് |
### 1.3 ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ്:
കാർഡിയോവാസ്കുലർ രോഗങ്ങൾ (CVDs) ലോകമാകെയുള്ള മരണങ്ങളുടെ 31% നും കാരണമാകുന്ന ഏറ്റവും പ്രധാനപ്പെട്ട മരണകാരണമാണ്. പുകവലി, അസ്വസ്ഥമായ ഭക്ഷണം, അമിതവണ്ണം, ശാരീരിക പ്രവർത്തനക്കുറവ്, മദ്യപാനം എന്നിവ പോലുള്ള പരിസ്ഥിതി, പെരുമാറ്റ അപകടകാരകങ്ങൾ ഈ മോഡലുകളുടെ ഫീച്ചറുകളായി ഉപയോഗിക്കാം. CVD വികസന സാധ്യത കണക്കാക്കാൻ കഴിയുന്നത് ഉയർന്ന അപകടമുള്ള ആളുകളിൽ ആക്രമണങ്ങൾ തടയാൻ സഹായകമാണ്.
കാഗിൾ [ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ്](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) പൊതുവായി ലഭ്യമാക്കിയിട്ടുണ്ട്, ഇത് ഈ പ്രോജക്ടിനായി ഉപയോഗിക്കും. ഡാറ്റാസെറ്റ് ഇപ്പോൾ ഡൗൺലോഡ് ചെയ്യാം. 13 കോളങ്ങളുള്ള (12 ഫീച്ചറുകളും 1 ടാർഗറ്റ് വേരിയബിളും) 299 വരികളുള്ള ടാബുലർ ഡാറ്റാസെറ്റാണ് ഇത്.
| | വേരിയബിൾ നാമം | തരം | വിവരണം | ഉദാഹരണം |
|----|---------------------------|-----------------|-------------------------------------------------------|-------------------|
| 1 | വയസ്സ് | സംഖ്യാത്മക | രോഗിയുടെ വയസ്സ് | 25 |
| 2 | അനീമിയ | ബൂളിയൻ | റെഡ് ബ്ലഡ് സെല്ലുകൾ അല്ലെങ്കിൽ ഹീമോഗ്ലോബിൻ കുറവ് | 0 അല്ലെങ്കിൽ 1 |
| 3 | ക്രിയാറ്റിനിൻ ഫോസ്ഫോകിനേസ് | സംഖ്യാത്മക | രക്തത്തിലെ CPK എൻസൈം ലെവൽ | 542 |
| 4 | ഡയബറ്റീസ് | ബൂളിയൻ | രോഗിക്ക് ഡയബറ്റീസ് ഉണ്ടോ | 0 അല്ലെങ്കിൽ 1 |
| 5 | ഇജക്ഷൻ ഫ്രാക്ഷൻ | സംഖ്യാത്മക | ഹൃദയം ഓരോ ചുരുളിലും പുറത്തുവിടുന്ന രക്തത്തിന്റെ ശതമാനം | 45 |
| 6 | ഉയർന്ന രക്തസമ്മർദ്ദം | ബൂളിയൻ | രോഗിക്ക് ഹൈപ്പർടെൻഷൻ ഉണ്ടോ | 0 അല്ലെങ്കിൽ 1 |
| 7 | പ്ലേറ്റ്ലെറ്റുകൾ | സംഖ്യാത്മക | രക്തത്തിലെ പ്ലേറ്റ്ലെറ്റുകൾ | 149000 |
| 8 | സീറം ക്രിയാറ്റിനിൻ | സംഖ്യാത്മക | രക്തത്തിലെ സീറം ക്രിയാറ്റിനിൻ ലെവൽ | 0.5 |
| 9 | സീറം സോഡിയം | സംഖ്യാത്മക | രക്തത്തിലെ സീറം സോഡിയം ലെവൽ | jun |
| 10 | ലിംഗം | ബൂളിയൻ | സ്ത്രീ അല്ലെങ്കിൽ പുരുഷൻ | 0 അല്ലെങ്കിൽ 1 |
| 11 | പുകവലി | ബൂളിയൻ | രോഗി പുകവലി ചെയ്യുമോ | 0 അല്ലെങ്കിൽ 1 |
| 12 | സമയം | സംഖ്യാത്മക | ഫോളോ-അപ്പ് കാലയളവ് (ദിവസങ്ങൾ) | 4 |
|----|---------------------------|-----------------|-------------------------------------------------------|-------------------|
| 21 | DEATH_EVENT [ടാർഗറ്റ്] | ബൂളിയൻ | ഫോളോ-അപ്പ് കാലയളവിൽ രോഗി മരിച്ചോ | 0 അല്ലെങ്കിൽ 1 |
ഡാറ്റാസെറ്റ് ലഭിച്ച ശേഷം, ആസ്യൂറിൽ പ്രോജക്ട് ആരംഭിക്കാം.
## 2. ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ മോഡൽ ലോ കോഡ്/നോ കോഡ് പരിശീലനം
### 2.1 ആസ്യൂർ ML വർക്ക്സ്പേസ് സൃഷ്ടിക്കുക
ആസ്യൂർ ML-ൽ മോഡൽ പരിശീലിപ്പിക്കാൻ ആദ്യം ആസ്യൂർ ML വർക്ക്സ്പേസ് സൃഷ്ടിക്കണം. വർക്ക്സ്പേസ് ആസ്യൂർ മെഷീൻ ലേണിംഗിനുള്ള ടോപ്പ്-ലെവൽ റിസോഴ്‌സ് ആണ്, നിങ്ങൾ സൃഷ്ടിക്കുന്ന എല്ലാ ആർട്ടിഫാക്റ്റുകളുമായി പ്രവർത്തിക്കാൻ കേന്ദ്രകേന്ദ്രമായ സ്ഥലം നൽകുന്നു. വർക്ക്സ്പേസ് എല്ലാ പരിശീലന റൺസിന്റെ ചരിത്രം സൂക്ഷിക്കുന്നു, ലോഗുകൾ, മെട്രിക്‌സ്, ഔട്ട്പുട്ട്, സ്ക്രിപ്റ്റുകളുടെ സ്നാപ്ഷോട്ട് എന്നിവ ഉൾപ്പെടെ. ഏത് പരിശീലന റൺ മികച്ച മോഡൽ ഉത്പാദിപ്പിക്കുന്നുവെന്ന് നിർണയിക്കാൻ ഈ വിവരങ്ങൾ ഉപയോഗിക്കുന്നു. [കൂടുതൽ അറിയുക](https://docs.microsoft.com/azure/machine-learning/concept-workspace?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
നിങ്ങളുടെ ഓപ്പറേറ്റിംഗ് സിസ്റ്റത്തിനോട് അനുയോജ്യമായ ഏറ്റവും പുതിയ ബ്രൗസർ ഉപയോഗിക്കുന്നത് ശുപാർശ ചെയ്യുന്നു. പിന്തുണയുള്ള ബ്രൗസറുകൾ:
- Microsoft Edge (പുതിയ Microsoft Edge, ഏറ്റവും പുതിയ പതിപ്പ്. Microsoft Edge ലെഗസി അല്ല)
- Safari (ഏറ്റവും പുതിയ പതിപ്പ്, മാക് മാത്രം)
- Chrome (ഏറ്റവും പുതിയ പതിപ്പ്)
- Firefox (ഏറ്റവും പുതിയ പതിപ്പ്)
ആസ്യൂർ മെഷീൻ ലേണിംഗ് ഉപയോഗിക്കാൻ, നിങ്ങളുടെ ആസ്യൂർ സബ്സ്ക്രിപ്ഷനിൽ വർക്ക്സ്പേസ് സൃഷ്ടിക്കുക. പിന്നീട് ഈ വർക്ക്സ്പേസ് ഉപയോഗിച്ച് ഡാറ്റ, കംപ്യൂട്ട് റിസോഴ്‌സുകൾ, കോഡ്, മോഡലുകൾ, മറ്റ് ആർട്ടിഫാക്റ്റുകൾ എന്നിവ നിയന്ത്രിക്കാം.
> **_കുറിപ്പ്:_** ആസ്യൂർ മെഷീൻ ലേണിംഗ് വർക്ക്സ്പേസ് നിങ്ങളുടെ സബ്സ്ക്രിപ്ഷനിൽ നിലനിൽക്കുന്നവരെ ഡാറ്റാ സ്റ്റോറേജിനായി ചെറിയ തുക ചാർജ് ചെയ്യും, അതിനാൽ നിങ്ങൾ ഉപയോഗിക്കാത്തപ്പോൾ വർക്ക്സ്പേസ് ഇല്ലാതാക്കാൻ ശുപാർശ ചെയ്യുന്നു.
1. നിങ്ങളുടെ ആസ്യൂർ സബ്സ്ക്രിപ്ഷനുമായി ബന്ധപ്പെട്ട മൈക്രോസോഫ്റ്റ് ക്രെഡൻഷ്യലുകൾ ഉപയോഗിച്ച് [ആസ്യൂർ പോർട്ടലിൽ](https://ms.portal.azure.com/) സൈൻ ഇൻ ചെയ്യുക.
2. **Create a resource** തിരഞ്ഞെടുക്കുക
![workspace-1](../../../../translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.ml.png)
മെഷീൻ ലേണിംഗ് തിരയുക, മെഷീൻ ലേണിംഗ് ടൈൽ തിരഞ്ഞെടുക്കുക
![workspace-2](../../../../translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.ml.png)
സൃഷ്ടിക്കുക ബട്ടൺ ക്ലിക്ക് ചെയ്യുക
![workspace-3](../../../../translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.ml.png)
ക്രമീകരണങ്ങൾ താഴെപോലെ പൂരിപ്പിക്കുക:
- സബ്സ്ക്രിപ്ഷൻ: നിങ്ങളുടെ ആസ്യൂർ സബ്സ്ക്രിപ്ഷൻ
- റിസോഴ്‌സ് ഗ്രൂപ്പ്: ഒരു റിസോഴ്‌സ് ഗ്രൂപ്പ് സൃഷ്ടിക്കുക അല്ലെങ്കിൽ തിരഞ്ഞെടുക്കുക
- വർക്ക്സ്പേസ് നാമം: നിങ്ങളുടെ വർക്ക്സ്പേസിന് ഒരു വ്യത്യസ്തമായ പേര് നൽകുക
- പ്രദേശം: നിങ്ങളുടെ അടുത്തുള്ള ഭൂമിശാസ്ത്ര പ്രദേശം തിരഞ്ഞെടുക്കുക
- സ്റ്റോറേജ് അക്കൗണ്ട്: നിങ്ങളുടെ വർക്ക്സ്പേസിനായി സൃഷ്ടിക്കപ്പെടുന്ന ഡിഫോൾട്ട് പുതിയ സ്റ്റോറേജ് അക്കൗണ്ട് ശ്രദ്ധിക്കുക
- കീ വാൾട്ട്: നിങ്ങളുടെ വർക്ക്സ്പേസിനായി സൃഷ്ടിക്കപ്പെടുന്ന ഡിഫോൾട്ട് പുതിയ കീ വാൾട്ട് ശ്രദ്ധിക്കുക
- അപ്ലിക്കേഷൻ ഇൻസൈറ്റ്സ്: നിങ്ങളുടെ വർക്ക്സ്പേസിനായി സൃഷ്ടിക്കപ്പെടുന്ന ഡിഫോൾട്ട് പുതിയ അപ്ലിക്കേഷൻ ഇൻസൈറ്റ്സ് റിസോഴ്‌സ് ശ്രദ്ധിക്കുക
- കണ്ടെയ്‌നർ രജിസ്ട്രി: ഇല്ല (മോഡൽ ആദ്യമായി കണ്ടെയ്‌നറിൽ ഡിപ്ലോയ് ചെയ്യുമ്പോൾ സ്വയം സൃഷ്ടിക്കും)
![workspace-4](../../../../translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.ml.png)
- സൃഷ്ടിക്കുക + അവലോകനം ക്ലിക്ക് ചെയ്ത് പിന്നീട് സൃഷ്ടിക്കുക ബട്ടൺ ക്ലിക്ക് ചെയ്യുക
3. നിങ്ങളുടെ വർക്ക്സ്പേസ് സൃഷ്ടിക്കപ്പെടുന്നത് കാത്തിരിക്കുക (ചില മിനിറ്റുകൾ എടുക്കാം). ശേഷം പോർട്ടലിൽ അതിലേക്ക് പോകുക. ഇത് മെഷീൻ ലേണിംഗ് ആസ്യൂർ സേവനത്തിലൂടെ കണ്ടെത്താം.
4. നിങ്ങളുടെ വർക്ക്സ്പേസ് ഓവർവ്യൂ പേജിൽ, ആസ്യൂർ മെഷീൻ ലേണിംഗ് സ്റ്റുഡിയോ ആരംഭിക്കുക (അല്ലെങ്കിൽ പുതിയ ബ്രൗസർ ടാബ് തുറന്ന് https://ml.azure.com-ൽ പോകുക), നിങ്ങളുടെ മൈക്രോസോഫ്റ്റ് അക്കൗണ്ട് ഉപയോഗിച്ച് സൈൻ ഇൻ ചെയ്യുക. ആവശ്യമായാൽ, നിങ്ങളുടെ ആസ്യൂർ ഡയറക്ടറി, സബ്സ്ക്രിപ്ഷൻ, ആസ്യൂർ ML വർക്ക്സ്പേസ് തിരഞ്ഞെടുക്കുക.
![workspace-5](../../../../translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.ml.png)
5. ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ, ഇടത് മുകളിൽ ☰ ഐക്കൺ ടോഗിൾ ചെയ്ത് ഇന്റർഫേസ് ഉള്ള വിവിധ പേജുകൾ കാണുക. ഈ പേജുകൾ ഉപയോഗിച്ച് നിങ്ങളുടെ വർക്ക്സ്പേസ് റിസോഴ്‌സുകൾ നിയന്ത്രിക്കാം.
![workspace-6](../../../../translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.ml.png)
നിങ്ങൾ ആസ്യൂർ പോർട്ടൽ ഉപയോഗിച്ച് വർക്ക്സ്പേസ് നിയന്ത്രിക്കാം, എന്നാൽ ഡാറ്റാ സയന്റിസ്റ്റുകൾക്കും മെഷീൻ ലേണിംഗ് ഓപ്പറേഷൻസ് എഞ്ചിനീയർമാർക്കും, ആസ്യൂർ ML സ്റ്റുഡിയോ വർക്ക്സ്പേസ് റിസോഴ്‌സുകൾ നിയന്ത്രിക്കാൻ കൂടുതൽ കേന്ദ്രീകൃതമായ യൂസർ ഇന്റർഫേസ് നൽകുന്നു.
### 2.2 കംപ്യൂട്ട് റിസോഴ്‌സുകൾ
കംപ്യൂട്ട് റിസോഴ്‌സുകൾ മോഡൽ പരിശീലനവും ഡാറ്റാ എക്സ്പ്ലോറേഷനും നടത്താൻ ഉപയോഗിക്കുന്ന ക്ലൗഡ് അടിസ്ഥാനമാക്കിയ റിസോഴ്‌സുകളാണ്. നിങ്ങൾ സൃഷ്ടിക്കാവുന്ന നാല് തരത്തിലുള്ള കംപ്യൂട്ട് റിസോഴ്‌സുകൾ ഉണ്ട്:
- **Compute Instances**: ഡാറ്റാ സയന്റിസ്റ്റുകൾക്ക് ഡാറ്റയും മോഡലുകളും കൈകാര്യം ചെയ്യാൻ ഉപയോഗിക്കുന്ന ഡെവലപ്പ്മെന്റ് വർക്ക്‌സ്റ്റേഷനുകൾ. ഇതിൽ ഒരു വെർച്വൽ മെഷീൻ (VM) സൃഷ്ടിച്ച് നോട്ട്‌ബുക്ക് ഇൻസ്റ്റൻസ് ആരംഭിക്കുന്നു. പിന്നീട് നോട്ട്‌ബുക്കിൽ നിന്ന് കംപ്യൂട്ട് ക്ലസ്റ്റർ വിളിച്ച് മോഡൽ പരിശീലിപ്പിക്കാം.
- **Compute Clusters**: പരീക്ഷണ കോഡ് ഓൺ-ഡിമാൻഡ് പ്രോസസ്സിംഗിനായി സ്കെയിലബിൾ VM ക്ലസ്റ്ററുകൾ. മോഡൽ പരിശീലനത്തിന് ഇത് ആവശ്യമാണ്. കംപ്യൂട്ട് ക്ലസ്റ്ററുകൾ പ്രത്യേക GPU അല്ലെങ്കിൽ CPU റിസോഴ്‌സുകളും ഉപയോഗിക്കാം.
- **Inference Clusters**: നിങ്ങളുടെ പരിശീലിപ്പിച്ച മോഡലുകൾ ഉപയോഗിക്കുന്ന പ്രവചന സേവനങ്ങൾക്കുള്ള വിന്യാസ ലക്ഷ്യങ്ങൾ.
- **Attached Compute**: Virtual Machines അല്ലെങ്കിൽ Azure Databricks ക്ലസ്റ്ററുകൾ പോലുള്ള നിലവിലുള്ള Azure കംപ്യൂട്ട് റിസോഴ്‌സുകളിലേക്ക് ലിങ്കുകൾ.
#### 2.2.1 നിങ്ങളുടെ കംപ്യൂട്ട് റിസോഴ്‌സുകൾക്കായി ശരിയായ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കൽ
ഒരു കംപ്യൂട്ട് റിസോഴ്‌സ് സൃഷ്ടിക്കുമ്പോൾ പരിഗണിക്കേണ്ട ചില പ്രധാന ഘടകങ്ങളുണ്ട്, ആ തിരഞ്ഞെടുപ്പുകൾ നിർണായകമായ തീരുമാനങ്ങളാകാം.
**നിങ്ങൾക്ക് CPU അല്ലെങ്കിൽ GPU ആവശ്യമുണ്ടോ?**
CPU (Central Processing Unit) ഒരു കമ്പ്യൂട്ടർ പ്രോഗ്രാമിന്റെ നിർദ്ദേശങ്ങൾ നിർവഹിക്കുന്ന ഇലക്ട്രോണിക് സർക്ക്യൂട്ടറിയാണ്. GPU (Graphics Processing Unit) വളരെ ഉയർന്ന നിരക്കിൽ ഗ്രാഫിക്സ്-ബന്ധപ്പെട്ട കോഡ് നിർവഹിക്കാൻ കഴിവുള്ള പ്രത്യേക ഇലക്ട്രോണിക് സർക്ക്യൂട്ടറാണ്.
CPUയു GPUയു തമ്മിലുള്ള പ്രധാന വ്യത്യാസം CPU വേഗത്തിൽ (CPU ക്ലോക്ക് സ്പീഡ് പ്രകാരം) വ്യാപകമായ ടാസ്കുകൾ വേഗത്തിൽ കൈകാര്യം ചെയ്യാൻ രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതായിരിക്കുമ്പോൾ, ഒരേസമയം പ്രവർത്തിക്കാവുന്ന ടാസ്കുകളുടെ concurrencyയിൽ പരിമിതമാണ്. GPUകൾ പാരലൽ കംപ്യൂട്ടിംഗിനായി രൂപകൽപ്പന ചെയ്തതാണ്, അതിനാൽ ഡീപ് ലേണിംഗ് ടാസ്കുകളിൽ വളരെ മികച്ചതാണ്.
| CPU | GPU |
|-----------------------------------------|-----------------------------|
| കുറവ് ചെലവുള്ളത് | കൂടുതൽ ചെലവുള്ളത് |
| concurrency ന്റെ താഴ്ന്ന നില | concurrency ന്റെ ഉയർന്ന നില |
| ഡീപ് ലേണിംഗ് മോഡലുകൾ പരിശീലിപ്പിക്കാൻ മന്ദഗതിയുള്ളത് | ഡീപ് ലേണിംഗിന് അനുയോജ്യം |
**ക്ലസ്റ്റർ വലുപ്പം**
വലുതായ ക്ലസ്റ്ററുകൾ കൂടുതൽ ചെലവേറിയതാണ്, പക്ഷേ മികച്ച പ്രതികരണക്ഷമത നൽകും. അതിനാൽ, നിങ്ങൾക്ക് സമയം ഉണ്ടെങ്കിലും പണം കുറവാണെങ്കിൽ, ചെറിയ ക്ലസ്റ്ററോടെ ആരംഭിക്കുക. മറുവശത്ത്, പണം ഉണ്ടെങ്കിലും സമയം കുറവാണെങ്കിൽ, വലിയ ക്ലസ്റ്ററോടെ ആരംഭിക്കുക.
**VM വലുപ്പം**
നിങ്ങളുടെ സമയം, ബജറ്റ് പരിധികൾ അനുസരിച്ച്, RAM, ഡിസ്ക്, കോറുകളുടെ എണ്ണം, ക്ലോക്ക് സ്പീഡ് എന്നിവയുടെ വലുപ്പം വ്യത്യാസപ്പെടുത്താം. ഈ എല്ലാ പാരാമീറ്ററുകളും വർദ്ധിപ്പിക്കുന്നത് ചെലവേറിയതായിരിക്കും, പക്ഷേ മികച്ച പ്രകടനം നൽകും.
**Dedicated അല്ലെങ്കിൽ Low-Priority Instances?**
Low-priority instance എന്നത് ഇടപെടാവുന്നതാണ്: അടിസ്ഥാനത്തിൽ, Microsoft Azure ആ റിസോഴ്‌സുകൾ എടുത്ത് മറ്റൊരു ടാസ്കിന് നൽകാം, അതിനാൽ ഒരു ജോബ് ഇടപെടപ്പെടും. Dedicated instance അല്ലെങ്കിൽ non-interruptible എന്നത്, നിങ്ങളുടെ അനുമതിയില്ലാതെ ജോബ് ഒരിക്കലും അവസാനിപ്പിക്കപ്പെടില്ല എന്നർത്ഥമാണ്.
ഇത് സമയം vs പണം എന്ന മറ്റൊരു പരിഗണനയാണ്, കാരണം ഇടപെടാവുന്ന ഇൻസ്റ്റൻസുകൾ ഡെഡിക്കേറ്റഡ് ഇൻസ്റ്റൻസുകളേക്കാൾ കുറവ് ചെലവുള്ളതാണ്.
#### 2.2.2 കംപ്യൂട്ട് ക്ലസ്റ്റർ സൃഷ്ടിക്കൽ
മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, compute ലേക്ക് പോകുക, നിങ്ങൾ ഇപ്പോൾ ചർച്ച ചെയ്ത വിവിധ കംപ്യൂട്ട് റിസോഴ്‌സുകൾ കാണാൻ കഴിയും (ഉദാ: compute instances, compute clusters, inference clusters, attached compute). ഈ പ്രോജക്ടിനായി, മോഡൽ പരിശീലനത്തിനായി ഒരു compute cluster ആവശ്യമുണ്ട്. സ്റ്റുഡിയോയിൽ, "Compute" മെനുവിൽ ക്ലിക്ക് ചെയ്യുക, തുടർന്ന് "Compute cluster" ടാബിൽ ക്ലിക്ക് ചെയ്ത് "+ New" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് compute cluster സൃഷ്ടിക്കുക.
![22](../../../../translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.ml.png)
1. നിങ്ങളുടെ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക: Dedicated vs Low priority, CPU അല്ലെങ്കിൽ GPU, VM വലുപ്പം, കോർ എണ്ണം (ഈ പ്രോജക്ടിനായി ഡിഫോൾട്ട് സെറ്റിംഗുകൾ നിലനിർത്താം).
2. Next ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
![23](../../../../translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.ml.png)
3. ക്ലസ്റ്ററിന് ഒരു കംപ്യൂട്ട് പേര് നൽകുക
4. നിങ്ങളുടെ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക: കുറഞ്ഞ/പരമാവധി നോഡുകളുടെ എണ്ണം, സ്കെയിൽ ഡൗൺ ചെയ്യുന്നതിന് മുമ്പുള്ള ഐഡിൽ സെക്കൻഡുകൾ, SSH ആക്‌സസ്. കുറഞ്ഞ നോഡുകളുടെ എണ്ണം 0 ആണെങ്കിൽ, ക്ലസ്റ്റർ ഐഡിൽ ആയപ്പോൾ പണം ലാഭിക്കും. പരമാവധി നോഡുകളുടെ എണ്ണം കൂടുതലായാൽ പരിശീലനം കുറച്ച് സമയം എടുക്കും. പരമാവധി നോഡുകളുടെ ശുപാർശ 3 ആണ്.
5. "Create" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം കുറച്ച് മിനിറ്റുകൾ എടുക്കാം.
![29](../../../../translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.ml.png)
അദ്ഭുതം! ഇപ്പോൾ ഒരു Compute cluster ഉണ്ടാകുമ്പോൾ, ഡാറ്റ Azure ML Studio-യിൽ ലോഡ് ചെയ്യേണ്ടതാണ്.
### 2.3 ഡാറ്റാസെറ്റ് ലോഡിംഗ്
1. മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, ഇടത് മെനുവിൽ "Datasets" ക്ലിക്ക് ചെയ്ത് "+ Create dataset" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് ഒരു dataset സൃഷ്ടിക്കുക. "From local files" ഓപ്ഷൻ തിരഞ്ഞെടുക്കുക, മുൻപ് ഡൗൺലോഡ് ചെയ്ത Kaggle dataset തിരഞ്ഞെടുക്കുക.
![24](../../../../translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.ml.png)
2. നിങ്ങളുടെ dataset-ന് ഒരു പേര്, തരം, വിവരണം നൽകുക. Next ക്ലിക്ക് ചെയ്യുക. ഫയലുകളിൽ നിന്ന് ഡാറ്റ അപ്‌ലോഡ് ചെയ്യുക. Next ക്ലിക്ക് ചെയ്യുക.
![25](../../../../translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.ml.png)
3. Schema-യിൽ, താഴെപ്പറയുന്ന ഫീച്ചറുകൾക്ക് ഡാറ്റ ടൈപ്പ് Boolean ആയി മാറ്റുക: anaemia, diabetes, high blood pressure, sex, smoking, DEATH_EVENT. Next ക്ലിക്ക് ചെയ്ത് Create ക്ലിക്ക് ചെയ്യുക.
![26](../../../../translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.ml.png)
ശ്രേഷ്ഠം! Dataset സജ്ജമായപ്പോൾ, compute cluster സൃഷ്ടിച്ചതിനുശേഷം, മോഡൽ പരിശീലനം ആരംഭിക്കാം!
### 2.4 AutoML ഉപയോഗിച്ച് Low code/No Code പരിശീലനം
പരമ്പരാഗത മെഷീൻ ലേണിംഗ് മോഡൽ വികസനം വിഭവസമ്പന്നമാണ്, വലിയ ഡൊമെയ്ൻ അറിവും സമയവും ആവശ്യമാണ്, നിരവധി മോഡലുകൾ നിർമ്മിച്ച് താരതമ്യം ചെയ്യേണ്ടതുണ്ട്.
Automated machine learning (AutoML) മെഷീൻ ലേണിംഗ് മോഡൽ വികസനത്തിലെ സമയമെടുക്കുന്ന, ആവർത്തനപരമായ പ്രവർത്തനങ്ങൾ സ്വയം പ്രവർത്തിപ്പിക്കുന്ന പ്രക്രിയയാണ്. ഇത് ഡാറ്റ സയന്റിസ്റ്റുകൾ, വിശകലനക്കാർ, ഡെവലപ്പർമാർക്ക് ഉയർന്ന സ്കെയിൽ, കാര്യക്ഷമത, ഉൽപാദകത്വത്തോടെ ML മോഡലുകൾ നിർമ്മിക്കാൻ അനുവദിക്കുന്നു, മോഡൽ ഗുണനിലവാരം നിലനിർത്തിക്കൊണ്ട്. ഇത് പ്രൊഡക്ഷൻ-സജ്ജമായ ML മോഡലുകൾ ലഭിക്കാൻ വേണ്ട സമയവും ലളിതവും കാര്യക്ഷമവുമാണ് കുറയ്ക്കുന്നത്. [കൂടുതൽ പഠിക്കുക](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
1. മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, ഇടത് മെനുവിൽ "Automated ML" ക്ലിക്ക് ചെയ്ത് നിങ്ങൾ അപ്‌ലോഡ് ചെയ്ത dataset തിരഞ്ഞെടുക്കുക. Next ക്ലിക്ക് ചെയ്യുക.
![27](../../../../translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.ml.png)
2. പുതിയ experiment പേര് നൽകുക, target column (DEATH_EVENT) തിരഞ്ഞെടുക്കുക, സൃഷ്ടിച്ച compute cluster തിരഞ്ഞെടുക്കുക. Next ക്ലിക്ക് ചെയ്യുക.
![28](../../../../translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.ml.png)
3. "Classification" തിരഞ്ഞെടുക്കുക, Finish ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം compute cluster വലുപ്പം അനുസരിച്ച് 30 മിനിറ്റിൽ 1 മണിക്കൂർ വരെ എടുക്കാം.
![30](../../../../translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.ml.png)
4. റൺ പൂർത്തിയായ ശേഷം, "Automated ML" ടാബിൽ ക്ലിക്ക് ചെയ്യുക, നിങ്ങളുടെ റൺ തിരഞ്ഞെടുക്കുക, "Best model summary" കാർഡിലെ Algorithm ക്ലിക്ക് ചെയ്യുക.
![31](../../../../translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.ml.png)
ഇവിടെ AutoML സൃഷ്ടിച്ച മികച്ച മോഡലിന്റെ വിശദമായ വിവരണം കാണാം. Models ടാബിൽ മറ്റ് മോഡലുകളും പരിശോധിക്കാം. Explanations (preview ബട്ടൺ) ൽ മോഡലുകൾ പരിശോധിക്കാൻ കുറച്ച് സമയം ചെലവഴിക്കുക. നിങ്ങൾ ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്ന മോഡൽ തിരഞ്ഞെടുക്കുമ്പോൾ (ഇവിടെ AutoML തിരഞ്ഞെടുത്ത മികച്ച മോഡൽ തിരഞ്ഞെടുക്കും), അതിനെ എങ്ങനെ വിന്യസിക്കാമെന്ന് കാണാം.
## 3. Low code/No Code മോഡൽ വിന്യാസവും എൻഡ്‌പോയിന്റ് ഉപഭോഗവും
### 3.1 മോഡൽ വിന്യാസം
Automated machine learning ഇന്റർഫേസ് മികച്ച മോഡൽ വെബ് സേവനമായി കുറച്ച് ഘട്ടങ്ങളിൽ വിന്യസിക്കാൻ അനുവദിക്കുന്നു. വിന്യാസം മോഡൽ ഇന്റഗ്രേഷൻ ആണ്, അതിലൂടെ പുതിയ ഡാറ്റ അടിസ്ഥാനമാക്കി പ്രവചനങ്ങൾ നടത്താനും സാധ്യതയുള്ള അവസരങ്ങൾ തിരിച്ചറിയാനും കഴിയും. ഈ പ്രോജക്ടിനായി, വെബ് സേവനമായി വിന്യസിക്കുന്നത് മെഡിക്കൽ ആപ്ലിക്കേഷനുകൾക്ക് മോഡൽ ഉപയോഗിച്ച് അവരുടെ രോഗികളുടെ ഹൃദയാഘാതം സാധ്യത ലൈവ് പ്രവചിക്കാൻ കഴിയും എന്നർത്ഥമാണ്.
മികച്ച മോഡൽ വിവരണത്തിൽ "Deploy" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
![deploy-1](../../../../translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.ml.png)
15. ഒരു പേര്, വിവരണം, കംപ്യൂട്ട് തരം (Azure Container Instance), authentication സജ്ജമാക്കുക, Deploy ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം പൂർത്തിയാകാൻ ഏകദേശം 20 മിനിറ്റ് എടുക്കാം. വിന്യാസ പ്രക്രിയയിൽ മോഡൽ രജിസ്റ്റർ ചെയ്യൽ, റിസോഴ്‌സുകൾ സൃഷ്ടിക്കൽ, വെബ് സേവനത്തിനായി അവ ക്രമീകരിക്കൽ ഉൾപ്പെടുന്നു. Deploy status കീഴിൽ സ്റ്റാറ്റസ് സന്ദേശം കാണാം. സ്റ്റാറ്റസ് "Healthy" ആണെങ്കിൽ വിന്യസിച്ചും പ്രവർത്തിക്കുന്നുമാണ്.
![deploy-2](../../../../translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.ml.png)
16. വിന്യസിച്ച ശേഷം, Endpoint ടാബിൽ ക്ലിക്ക് ചെയ്ത് നിങ്ങൾ വിന്യസിച്ച എൻഡ്‌പോയിന്റ് തിരഞ്ഞെടുക്കുക. ഇവിടെ എൻഡ്‌പോയിന്റ് സംബന്ധിച്ച എല്ലാ വിവരങ്ങളും കാണാം.
![deploy-3](../../../../translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.ml.png)
അദ്ഭുതം! ഇപ്പോൾ ഒരു മോഡൽ വിന്യസിച്ചിരിക്കുന്നു, എൻഡ്‌പോയിന്റ് ഉപഭോഗം ആരംഭിക്കാം.
### 3.2 എൻഡ്‌പോയിന്റ് ഉപഭോഗം
"Consume" ടാബിൽ ക്ലിക്ക് ചെയ്യുക. ഇവിടെ REST എൻഡ്‌പോയിന്റും python സ്ക്രിപ്റ്റും ഉപഭോഗ ഓപ്ഷനിൽ കാണാം. python കോഡ് വായിക്കാൻ കുറച്ച് സമയം ചെലവഴിക്കുക.
ഈ സ്ക്രിപ്റ്റ് നിങ്ങളുടെ ലോക്കൽ മെഷീനിൽ നിന്ന് നേരിട്ട് പ്രവർത്തിപ്പിക്കാം, നിങ്ങളുടെ എൻഡ്‌പോയിന്റ് ഉപഭോഗിക്കും.
![35](../../../../translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.ml.png)
ഈ 2 കോഡ് ലൈൻ പരിശോധിക്കുക:
```python
url = 'http://98e3715f-xxxx-xxxx-xxxx-9ec22d57b796.centralus.azurecontainer.io/score'
api_key = '' # വെബ് സർവീസിനുള്ള API കീ ഇതിന് പകരം ഉപയോഗിക്കുക
```
`url` വേരിയബിൾ consume ടാബിൽ കാണുന്ന REST എൻഡ്‌പോയിന്റാണ്, `api_key` വേരിയബിൾ consume ടാബിൽ കാണുന്ന പ്രൈമറി കീ ആണ് (authentication സജ്ജമാക്കിയിട്ടുണ്ടെങ്കിൽ മാത്രം). ഇതാണ് സ്ക്രിപ്റ്റ് എൻഡ്‌പോയിന്റ് ഉപഭോഗിക്കാൻ ഉപയോഗിക്കുന്നത്.
18. സ്ക്രിപ്റ്റ് പ്രവർത്തിപ്പിച്ചാൽ താഴെപ്പറയുന്ന ഔട്ട്പുട്ട് കാണും:
```python
b'"{\\"result\\": [true]}"'
```
ഇത് നൽകിയ ഡാറ്റയ്ക്ക് ഹൃദയ പരാജയം പ്രവചനം സത്യമാണെന്ന് സൂചിപ്പിക്കുന്നു. സ്ക്രിപ്റ്റിൽ സ്വയം സൃഷ്ടിച്ച ഡാറ്റയിൽ എല്ലാം ഡിഫോൾട്ടായി 0, false ആയതിനാൽ ഇത് യുക്തിയുള്ളതാണ്. താഴെപ്പറയുന്ന ഇൻപുട്ട് സാമ്പിൾ ഉപയോഗിച്ച് ഡാറ്റ മാറ്റാം:
```python
data = {
"data":
[
{
'age': "0",
'anaemia': "false",
'creatinine_phosphokinase': "0",
'diabetes': "false",
'ejection_fraction': "0",
'high_blood_pressure': "false",
'platelets': "0",
'serum_creatinine': "0",
'serum_sodium': "0",
'sex': "false",
'smoking': "false",
'time': "0",
},
{
'age': "60",
'anaemia': "false",
'creatinine_phosphokinase': "500",
'diabetes': "false",
'ejection_fraction': "38",
'high_blood_pressure': "false",
'platelets': "260000",
'serum_creatinine': "1.40",
'serum_sodium': "137",
'sex': "false",
'smoking': "false",
'time': "130",
},
],
}
```
സ്ക്രിപ്റ്റ് താഴെപ്പറയുന്ന ഫലം നൽകണം:
```python
b'"{\\"result\\": [true, false]}"'
```
അഭിനന്ദനങ്ങൾ! നിങ്ങൾ Azure ML-ൽ മോഡൽ വിന്യസിക്കുകയും പരിശീലിപ്പിക്കുകയും ചെയ്തു!
> **_NOTE:_** പ്രോജക്ട് പൂർത്തിയായ ശേഷം എല്ലാ റിസോഴ്‌സുകളും ഇല്ലാതാക്കാൻ മറക്കരുത്.
## 🚀 ചലഞ്ച്
AutoML ഉൽപ്പാദിപ്പിച്ച ടോപ്പ് മോഡലുകളുടെ വിശദീകരണങ്ങളും വിവരങ്ങളും ശ്രദ്ധാപൂർവ്വം പരിശോധിക്കുക. മികച്ച മോഡൽ മറ്റുള്ളവയെക്കാൾ എങ്ങനെ മെച്ചമാണ് എന്ന് മനസ്സിലാക്കാൻ ശ്രമിക്കുക. ഏത് ആൽഗോരിതങ്ങൾ താരതമ്യം ചെയ്തു? അവ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ എന്തെല്ലാം? ഈ കേസിൽ മികച്ച മോഡൽ എങ്ങനെ മെച്ചപ്പെട്ട പ്രകടനം കാഴ്ചവെക്കുന്നു?
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/35)
## അവലോകനം & സ്വയം പഠനം
ഈ പാഠത്തിൽ, നിങ്ങൾ ക്ലൗഡിൽ Low code/No code രീതിയിൽ ഹൃദയ പരാജയ സാധ്യത പ്രവചിക്കാൻ മോഡൽ പരിശീലിപ്പിക്കുകയും വിന്യസിക്കുകയും ഉപഭോഗിക്കുകയും ചെയ്യുന്നത് പഠിച്ചു. ഇതുവരെ ചെയ്തിട്ടില്ലെങ്കിൽ, AutoML ഉൽപ്പാദിപ്പിച്ച ടോപ്പ് മോഡലുകളുടെ വിശദീകരണങ്ങളിൽ കൂടുതൽ ആഴത്തിൽ നോക്കുക, മികച്ച മോഡൽ മറ്റുള്ളവയെക്കാൾ എങ്ങനെ മെച്ചമാണ് എന്ന് മനസ്സിലാക്കാൻ ശ്രമിക്കുക.
Low code/No code AutoML-ൽ കൂടുതൽ മുന്നോട്ട് പോകാൻ ഈ [ഡോക്യുമെന്റേഷൻ](https://docs.microsoft.com/azure/machine-learning/tutorial-first-experiment-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) വായിക്കുക.
## അസൈൻമെന്റ്
[Low code/No code Data Science project on Azure ML](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ വ്യാഖ്യാനക്കേടുകൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "8fdc4a5fd9bc27a8d2ebef995dfbf73f",
"translation_date": "2025-12-19T15:03:50+00:00",
"source_file": "5-Data-Science-In-Cloud/18-Low-Code/assignment.md",
"language_code": "ml"
}
-->
# ലോ കോഡ്/നോ കോഡ് ഡാറ്റാ സയൻസ് പ്രോജക്ട് ആസ്യൂർ ML-ൽ
## നിർദ്ദേശങ്ങൾ
ലോ കോഡ്/നോ കോഡ് രീതിയിൽ ഒരു മോഡൽ ട്രെയിൻ ചെയ്യാനും, ഡിപ്ലോയ് ചെയ്യാനും, ഉപയോഗിക്കാനും ആസ്യൂർ ML പ്ലാറ്റ്ഫോം എങ്ങനെ ഉപയോഗിക്കാമെന്ന് നാം കണ്ടു. ഇപ്പോൾ മറ്റൊരു മോഡൽ ട്രെയിൻ ചെയ്യാനും, ഡിപ്ലോയ് ചെയ്യാനും, ഉപയോഗിക്കാനും നിങ്ങൾക്ക് ഉപയോഗിക്കാവുന്ന ഡാറ്റ ഏതെങ്കിലും കണ്ടെത്താൻ ചുറ്റിപ്പറ്റി നോക്കുക. [Kaggle](https://kaggle.com) ലും [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ലും ഡാറ്റാസെറ്റുകൾ അന്വേഷിക്കാം.
## റൂബ്രിക്
| ഉദാഹരണപരമായത് | മതിയായത് | മെച്ചപ്പെടുത്തേണ്ടത് |
|-----------|----------|-------------------|
|ഡാറ്റ അപ്‌ലോഡ് ചെയ്യുമ്പോൾ ഫീച്ചറിന്റെ തരം ആവശ്യമായെങ്കിൽ മാറ്റിയിട്ടുണ്ട്. ആവശ്യമായെങ്കിൽ ഡാറ്റ ശുദ്ധീകരിച്ചും. AutoML വഴി ഒരു ഡാറ്റാസെറ്റിൽ ട്രെയിനിംഗ് നടത്തി, മോഡൽ വിശദീകരണങ്ങൾ പരിശോധിച്ചു. മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്തു, അത് ഉപയോഗിക്കാൻ കഴിഞ്ഞു. | ഡാറ്റ അപ്‌ലോഡ് ചെയ്യുമ്പോൾ ഫീച്ചറിന്റെ തരം ആവശ്യമായെങ്കിൽ മാറ്റിയിട്ടുണ്ട്. AutoML വഴി ഒരു ഡാറ്റാസെറ്റിൽ ട്രെയിനിംഗ് നടത്തി, മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്തു, അത് ഉപയോഗിക്കാൻ കഴിഞ്ഞു. | AutoML വഴി ട്രെയിൻ ചെയ്ത മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്തു, അത് ഉപയോഗിക്കാൻ കഴിഞ്ഞു. |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, യന്ത്രം ചെയ്ത വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,325 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "472d3fab1c5be50f387336e7a686dbe1",
"translation_date": "2025-12-19T14:43:18+00:00",
"source_file": "5-Data-Science-In-Cloud/19-Azure/README.md",
"language_code": "ml"
}
-->
# ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: "Azure ML SDK" വഴി
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/19-DataScience-Cloud.png)|
|:---:|
| ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: Azure ML SDK - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
അടിസ്ഥാന പട്ടിക:
- [ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: "Azure ML SDK" വഴി](../../../../5-Data-Science-In-Cloud/19-Azure)
- [പ്രീ-ലെക്ചർ ക്വിസ്](../../../../5-Data-Science-In-Cloud/19-Azure)
- [1. പരിചയം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [1.1 Azure ML SDK എന്താണ്?](../../../../5-Data-Science-In-Cloud/19-Azure)
- [1.2 ഹാർട്ട് ഫെയില്യർ പ്രവചനം പ്രോജക്ടും ഡാറ്റാസെറ്റും പരിചയം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2. Azure ML SDK ഉപയോഗിച്ച് മോഡൽ പരിശീലനം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.1 Azure ML വർക്ക്‌സ്‌പേസ് സൃഷ്ടിക്കുക](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.2 കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് സൃഷ്ടിക്കുക](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.3 ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യൽ](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.4 നോട്ട്‌ബുക്കുകൾ സൃഷ്ടിക്കൽ](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.5 മോഡൽ പരിശീലനം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.5.1 വർക്ക്‌സ്‌പേസ്, പരീക്ഷണം, കംപ്യൂട്ട് ക്ലസ്റ്റർ, ഡാറ്റാസെറ്റ് സജ്ജീകരിക്കൽ](../../../../5-Data-Science-In-Cloud/19-Azure)
- [2.5.2 AutoML കോൺഫിഗറേഷൻ, പരിശീലനം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [3. Azure ML SDK ഉപയോഗിച്ച് മോഡൽ വിന്യാസവും എൻഡ്‌പോയിന്റ് ഉപയോഗവും](../../../../5-Data-Science-In-Cloud/19-Azure)
- [3.1 മികച്ച മോഡൽ സേവ് ചെയ്യൽ](../../../../5-Data-Science-In-Cloud/19-Azure)
- [3.2 മോഡൽ വിന്യാസം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [3.3 എൻഡ്‌പോയിന്റ് ഉപയോഗം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [🚀 ചലഞ്ച്](../../../../5-Data-Science-In-Cloud/19-Azure)
- [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](../../../../5-Data-Science-In-Cloud/19-Azure)
- [പരിശോധന & സ്വയം പഠനം](../../../../5-Data-Science-In-Cloud/19-Azure)
- [അസൈൻമെന്റ്](../../../../5-Data-Science-In-Cloud/19-Azure)
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/36)
## 1. പരിചയം
### 1.1 Azure ML SDK എന്താണ്?
ഡാറ്റാ സയന്റിസ്റ്റുകളും AI ഡെവലപ്പർമാരും Azure Machine Learning SDK ഉപയോഗിച്ച് Azure Machine Learning സേവനത്തോടെ മെഷീൻ ലേണിംഗ് പ്രവൃത്തികൾ നിർമ്മിക്കുകയും പ്രവർത്തിപ്പിക്കുകയും ചെയ്യുന്നു. നിങ്ങൾക്ക് Jupyter നോട്ട്‌ബുക്കുകൾ, Visual Studio Code, അല്ലെങ്കിൽ നിങ്ങളുടെ ഇഷ്ട Python IDE ഉൾപ്പെടെയുള്ള ഏതെങ്കിലും Python പരിസ്ഥിതിയിൽ ഈ സേവനവുമായി ഇടപഴകാം.
SDKയുടെ പ്രധാന മേഖലകൾ:
- മെഷീൻ ലേണിംഗ് പരീക്ഷണങ്ങളിൽ ഉപയോഗിക്കുന്ന നിങ്ങളുടെ ഡാറ്റാസെറ്റുകളുടെ ജീവിതചക്രം പരിശോധിക്കുക, തയ്യാറാക്കുക, നിയന്ത്രിക്കുക.
- നിങ്ങളുടെ മെഷീൻ ലേണിംഗ് പരീക്ഷണങ്ങൾ നിരീക്ഷിക്കാൻ, ലോഗ് ചെയ്യാൻ, ക്രമീകരിക്കാൻ ക്ലൗഡ് വിഭവങ്ങൾ നിയന്ത്രിക്കുക.
- മോഡലുകൾ പ്രാദേശികമായി അല്ലെങ്കിൽ GPU-വേഗതയുള്ള ക്ലൗഡ് വിഭവങ്ങൾ ഉപയോഗിച്ച് പരിശീലിപ്പിക്കുക.
- ഓട്ടോമേറ്റഡ് മെഷീൻ ലേണിംഗ് ഉപയോഗിക്കുക, ഇത് കോൺഫിഗറേഷൻ പാരാമീറ്ററുകളും പരിശീലന ഡാറ്റയും സ്വീകരിച്ച്, മികച്ച മോഡൽ കണ്ടെത്താൻ ആൽഗോരിതങ്ങൾക്കും ഹൈപ്പർപാരാമീറ്റർ ക്രമീകരണങ്ങൾക്കും സ്വയം പരീക്ഷണം നടത്തുന്നു.
- പരിശീലിപ്പിച്ച മോഡലുകൾ RESTful സേവനങ്ങളായി മാറ്റാൻ വെബ് സേവനങ്ങൾ വിന്യസിക്കുക, ഇത് ഏതെങ്കിലും ആപ്ലിക്കേഷനിൽ ഉപയോഗിക്കാം.
[Azure Machine Learning SDKയെ കുറിച്ച് കൂടുതൽ അറിയുക](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
[മുൻപത്തെ പാഠത്തിൽ](../18-Low-Code/README.md) നാം ലോ കോഡ്/നോ കോഡ് രീതിയിൽ മോഡൽ പരിശീലിപ്പിക്കുകയും വിന്യസിക്കുകയും ഉപയോഗിക്കുകയും ചെയ്തിരുന്നു. ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച് ഹാർട്ട് ഫെയില്യർ പ്രവചന മോഡൽ സൃഷ്ടിച്ചു. ഈ പാഠത്തിൽ, നാം അതേ പ്രവർത്തി Azure Machine Learning SDK ഉപയോഗിച്ച് ചെയ്യാൻ പോകുന്നു.
![project-schema](../../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.ml.png)
### 1.2 ഹാർട്ട് ഫെയില്യർ പ്രവചനം പ്രോജക്ടും ഡാറ്റാസെറ്റും പരിചയം
ഹാർട്ട് ഫെയില്യർ പ്രവചനം പ്രോജക്ടും ഡാറ്റാസെറ്റും പരിചയപ്പെടാൻ [ഇവിടെ](../18-Low-Code/README.md) നോക്കുക.
## 2. Azure ML SDK ഉപയോഗിച്ച് മോഡൽ പരിശീലനം
### 2.1 Azure ML വർക്ക്‌സ്‌പേസ് സൃഷ്ടിക്കുക
സൗകര്യത്തിനായി, നാം ഒരു Jupyter നോട്ട്‌ബുക്കിൽ പ്രവർത്തിക്കാനാണ് പോകുന്നത്. ഇതിന് നിങ്ങൾക്ക് ഇതിനകം ഒരു വർക്ക്‌സ്‌പേസ്, കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് ഉണ്ടായിരിക്കണം. നിങ്ങൾക്ക് ഇതിനകം വർക്ക്‌സ്‌പേസ് ഉണ്ടെങ്കിൽ, നേരിട്ട് 2.3 നോട്ട്‌ബുക്ക് സൃഷ്ടിക്കൽ വിഭാഗത്തിലേക്ക് പോകാം.
ഇല്ലെങ്കിൽ, [മുൻപത്തെ പാഠത്തിലെ](../18-Low-Code/README.md) **2.1 Azure ML വർക്ക്‌സ്‌പേസ് സൃഷ്ടിക്കുക** വിഭാഗത്തിലെ നിർദ്ദേശങ്ങൾ പാലിച്ച് വർക്ക്‌സ്‌പേസ് സൃഷ്ടിക്കുക.
### 2.2 കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് സൃഷ്ടിക്കുക
മുൻപ് സൃഷ്ടിച്ച [Azure ML വർക്ക്‌സ്‌പേസിൽ](https://ml.azure.com/) കംപ്യൂട്ട് മെനുവിലേക്ക് പോകുക, അവിടെ ലഭ്യമായ വിവിധ കംപ്യൂട്ട് വിഭവങ്ങൾ കാണാം
![compute-instance-1](../../../../translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.ml.png)
Jupyter നോട്ട്‌ബുക്ക് പ്രൊവിഷൻ ചെയ്യാൻ ഒരു കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് സൃഷ്ടിക്കാം.
1. + New ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
2. നിങ്ങളുടെ കംപ്യൂട്ട് ഇൻസ്റ്റൻസിന് ഒരു പേര് നൽകുക.
3. CPU അല്ലെങ്കിൽ GPU, VM വലുപ്പം, കോർ എണ്ണം തിരഞ്ഞെടുക്കുക.
4. Create ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
അഭിനന്ദനങ്ങൾ, നിങ്ങൾ ഒരു കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് സൃഷ്ടിച്ചു! നാം ഈ കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് ഉപയോഗിച്ച് [നോട്ട്‌ബുക്കുകൾ സൃഷ്ടിക്കൽ](../../../../5-Data-Science-In-Cloud/19-Azure) വിഭാഗത്തിൽ നോട്ട്‌ബുക്ക് സൃഷ്ടിക്കും.
### 2.3 ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യൽ
ഡാറ്റാസെറ്റ് അപ്‌ലോഡ് ചെയ്തിട്ടില്ലെങ്കിൽ, [മുൻപത്തെ പാഠത്തിലെ](../18-Low-Code/README.md) **2.3 ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യൽ** വിഭാഗം കാണുക.
### 2.4 നോട്ട്‌ബുക്കുകൾ സൃഷ്ടിക്കൽ
> **_കുറിപ്പ്:_** അടുത്ത ഘട്ടത്തിന്, നിങ്ങൾക്ക് പുതിയ നോട്ട്‌ബുക്ക് സൃഷ്ടിക്കാം, അല്ലെങ്കിൽ [നാം സൃഷ്ടിച്ച നോട്ട്‌ബുക്ക്](notebook.ipynb) നിങ്ങളുടെ Azure ML സ്റ്റുഡിയോയിലേക്ക് അപ്‌ലോഡ് ചെയ്യാം. അപ്‌ലോഡ് ചെയ്യാൻ, "Notebook" മെനുവിൽ ക്ലിക്ക് ചെയ്ത് നോട്ട്‌ബുക്ക് അപ്‌ലോഡ് ചെയ്യുക.
നോട്ട്‌ബുക്കുകൾ ഡാറ്റാ സയൻസ് പ്രക്രിയയുടെ വളരെ പ്രധാനപ്പെട്ട ഭാഗമാണ്. അവ എക്സ്പ്ലോറട്ടറി ഡാറ്റാ അനാലിസിസ് (EDA) നടത്താൻ, മോഡൽ പരിശീലനത്തിനായി കംപ്യൂട്ട് ക്ലസ്റ്ററിലേക്ക് വിളിക്കാൻ, എൻഡ്‌പോയിന്റ് വിന്യാസത്തിനായി ഇൻഫറൻസ് ക്ലസ്റ്ററിലേക്ക് വിളിക്കാൻ ഉപയോഗിക്കാം.
നോട്ട്‌ബുക്ക് സൃഷ്ടിക്കാൻ, ജുപിറ്റർ നോട്ട്‌ബുക്ക് ഇൻസ്റ്റൻസ് സർവീസ് ചെയ്യുന്ന കംപ്യൂട്ട് നോഡ് ആവശ്യമാണ്. [Azure ML വർക്ക്‌സ്‌പേസിലേക്ക്](https://ml.azure.com/) മടങ്ങി കംപ്യൂട്ട് ഇൻസ്റ്റൻസുകൾ ക്ലിക്ക് ചെയ്യുക. കംപ്യൂട്ട് ഇൻസ്റ്റൻസുകളുടെ പട്ടികയിൽ [മുൻപ് സൃഷ്ടിച്ച കംപ്യൂട്ട് ഇൻസ്റ്റൻസ്](../../../../5-Data-Science-In-Cloud/19-Azure) കാണാം.
1. Applications വിഭാഗത്തിൽ Jupyter ഓപ്ഷൻ ക്ലിക്ക് ചെയ്യുക.
2. "Yes, I understand" ബോക്സ് ടിക്ക് ചെയ്ത് Continue ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
![notebook-1](../../../../translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.ml.png)
3. ഇത് പുതിയ ബ്രൗസർ ടാബിൽ നിങ്ങളുടെ ജുപിറ്റർ നോട്ട്‌ബുക്ക് ഇൻസ്റ്റൻസ് തുറക്കും. "New" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് നോട്ട്‌ബുക്ക് സൃഷ്ടിക്കുക.
![notebook-2](../../../../translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.ml.png)
ഇപ്പോൾ നോട്ട്‌ബുക്ക് ഉണ്ടാകുമ്പോൾ, Azure ML SDK ഉപയോഗിച്ച് മോഡൽ പരിശീലനം ആരംഭിക്കാം.
### 2.5 മോഡൽ പരിശീലനം
ആദ്യമേ, സംശയമുണ്ടെങ്കിൽ, [Azure ML SDK ഡോക്യുമെന്റേഷൻ](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) കാണുക. ഈ പാഠത്തിൽ കാണുന്ന മോഡ്യൂളുകൾ മനസ്സിലാക്കാൻ ആവശ്യമായ എല്ലാ വിവരങ്ങളും അവിടെ ഉണ്ട്.
#### 2.5.1 വർക്ക്‌സ്‌പേസ്, പരീക്ഷണം, കംപ്യൂട്ട് ക്ലസ്റ്റർ, ഡാറ്റാസെറ്റ് സജ്ജീകരിക്കൽ
നിങ്ങൾക്ക് കോൺഫിഗറേഷൻ ഫയലിൽ നിന്ന് `workspace` ലോഡ് ചെയ്യേണ്ടതാണ് താഴെ കാണുന്ന കോഡ് ഉപയോഗിച്ച്:
```python
from azureml.core import Workspace
ws = Workspace.from_config()
```
ഇത് `Workspace` തരം ഒബ്ജക്റ്റ് നൽകുന്നു, ഇത് വർക്ക്‌സ്‌പേസ് പ്രതിനിധീകരിക്കുന്നു. തുടർന്ന്, താഴെ കാണുന്ന കോഡ് ഉപയോഗിച്ച് ഒരു `experiment` സൃഷ്ടിക്കണം:
```python
from azureml.core import Experiment
experiment_name = 'aml-experiment'
experiment = Experiment(ws, experiment_name)
```
വർക്ക്‌സ്‌പേസിൽ നിന്ന് പരീക്ഷണം ലഭിക്കുകയോ സൃഷ്ടിക്കുകയോ ചെയ്യാൻ, പരീക്ഷണത്തിന്റെ പേര് ഉപയോഗിച്ച് അപേക്ഷിക്കാം. പരീക്ഷണത്തിന്റെ പേര് 3-36 അക്ഷരങ്ങൾ ആയിരിക്കണം, അക്ഷരമോ സംഖ്യയോ കൊണ്ട് തുടങ്ങണം, അക്ഷരങ്ങൾ, സംഖ്യകൾ, അണ്ടർസ്കോർ, ഡാഷ് എന്നിവ മാത്രമേ ഉൾക്കൊള്ളൂ. പരീക്ഷണം വർക്ക്‌സ്‌പേസിൽ കണ്ടെത്താനാകാതെപോയാൽ പുതിയ പരീക്ഷണം സൃഷ്ടിക്കും.
ഇപ്പോൾ പരിശീലനത്തിനായി കംപ്യൂട്ട് ക്ലസ്റ്റർ സൃഷ്ടിക്കേണ്ടതാണ്, താഴെ കാണുന്ന കോഡ് ഉപയോഗിച്ച്. ഈ ഘട്ടം കുറച്ച് മിനിറ്റുകൾ എടുക്കാം.
```python
from azureml.core.compute import AmlCompute
aml_name = "heart-f-cluster"
try:
aml_compute = AmlCompute(ws, aml_name)
print('Found existing AML compute context.')
except:
print('Creating new AML compute context.')
aml_config = AmlCompute.provisioning_configuration(vm_size = "Standard_D2_v2", min_nodes=1, max_nodes=3)
aml_compute = AmlCompute.create(ws, name = aml_name, provisioning_configuration = aml_config)
aml_compute.wait_for_completion(show_output = True)
cts = ws.compute_targets
compute_target = cts[aml_name]
```
ഡാറ്റാസെറ്റ് വർക്ക്‌സ്‌പേസിൽ നിന്ന് ഡാറ്റാസെറ്റ് നാമം ഉപയോഗിച്ച് താഴെ കാണുന്ന രീതിയിൽ ലഭിക്കും:
```python
dataset = ws.datasets['heart-failure-records']
df = dataset.to_pandas_dataframe()
df.describe()
```
#### 2.5.2 AutoML കോൺഫിഗറേഷൻ, പരിശീലനം
AutoML കോൺഫിഗറേഷൻ സജ്ജമാക്കാൻ [AutoMLConfig ക്ലാസ്](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig(class)?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ഉപയോഗിക്കുക.
ഡോക്യുമെന്റേഷനിൽ വിശദീകരിച്ചിരിക്കുന്നതുപോലെ, നിങ്ങൾക്ക് പല പാരാമീറ്ററുകളുമായി കളിക്കാം. ഈ പ്രോജക്ടിനായി, താഴെ കാണുന്ന പാരാമീറ്ററുകൾ ഉപയോഗിക്കും:
- `experiment_timeout_minutes`: പരീക്ഷണം ഓടാൻ അനുവദിച്ച പരമാവധി സമയം (മിനിറ്റുകളിൽ), അതിനുശേഷം സ്വയം നിർത്തുകയും ഫലങ്ങൾ ലഭ്യമാക്കുകയും ചെയ്യും
- `max_concurrent_iterations`: പരീക്ഷണത്തിന് അനുവദിച്ച പരമാവധി സമകാലിക പരിശീലന ഇറ്ററേഷനുകളുടെ എണ്ണം
- `primary_metric`: പരീക്ഷണത്തിന്റെ നില നിർണ്ണയിക്കാൻ ഉപയോഗിക്കുന്ന പ്രധാന മെട്രിക്
- `compute_target`: ഓട്ടോമേറ്റഡ് മെഷീൻ ലേണിംഗ് പരീക്ഷണം നടത്താൻ Azure Machine Learning കംപ്യൂട്ട് ടാർഗറ്റ്
- `task`: നടത്തേണ്ട ടാസ്‌കിന്റെ തരം. 'classification', 'regression', അല്ലെങ്കിൽ 'forecasting' എന്നിങ്ങനെ ഓട്ടോമേറ്റഡ് ML പ്രശ്നത്തിന്റെ തരം അനുസരിച്ച്
- `training_data`: പരീക്ഷണത്തിൽ ഉപയോഗിക്കുന്ന പരിശീലന ഡാറ്റ. പരിശീലന ഫീച്ചറുകളും ലേബൽ കോളവും (ഓപ്ഷണൽ സാംപിൾ വെയ്റ്റ് കോളവും) ഉൾക്കൊള്ളണം
- `label_column_name`: ലേബൽ കോളത്തിന്റെ പേര്
- `path`: Azure Machine Learning പ്രോജക്ട് ഫോൾഡറിന്റെ പൂർണ്ണ പാത
- `enable_early_stopping`: സ്കോർ കുറയുന്നുണ്ടെങ്കിൽ നേരത്തെ അവസാനിപ്പിക്കാൻ അനുവദിക്കണോ എന്നത്
- `featurization`: ഫീച്ചറൈസേഷൻ സ്വയം ചെയ്യണോ, അല്ലെങ്കിൽ കസ്റ്റമൈസ്ഡ് ഫീച്ചറൈസേഷൻ ഉപയോഗിക്കണോ എന്ന സൂചിക
- `debug_log`: ഡീബഗ് വിവരങ്ങൾ എഴുതാനുള്ള ലോഗ് ഫയൽ
```python
from azureml.train.automl import AutoMLConfig
project_folder = './aml-project'
automl_settings = {
"experiment_timeout_minutes": 20,
"max_concurrent_iterations": 3,
"primary_metric" : 'AUC_weighted'
}
automl_config = AutoMLConfig(compute_target=compute_target,
task = "classification",
training_data=dataset,
label_column_name="DEATH_EVENT",
path = project_folder,
enable_early_stopping= True,
featurization= 'auto',
debug_log = "automl_errors.log",
**automl_settings
)
```
ഇപ്പോൾ കോൺഫിഗറേഷൻ സജ്ജമാക്കിയതിനുശേഷം, താഴെ കാണുന്ന കോഡ് ഉപയോഗിച്ച് മോഡൽ പരിശീലിപ്പിക്കാം. ക്ലസ്റ്റർ വലുപ്പം അനുസരിച്ച് ഈ ഘട്ടം ഒരു മണിക്കൂർ വരെ എടുക്കാം.
```python
remote_run = experiment.submit(automl_config)
```
RunDetails വിഡ്ജറ്റ് ഉപയോഗിച്ച് വ്യത്യസ്ത പരീക്ഷണങ്ങൾ കാണാം.
```python
from azureml.widgets import RunDetails
RunDetails(remote_run).show()
```
## 3. Azure ML SDK ഉപയോഗിച്ച് മോഡൽ വിന്യാസവും എൻഡ്‌പോയിന്റ് ഉപയോഗവും
### 3.1 മികച്ച മോഡൽ സേവ് ചെയ്യൽ
`remote_run` എന്നത് [AutoMLRun](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) തരം ഒബ്ജക്റ്റാണ്. ഈ ഒബ്ജക്റ്റിന് `get_output()` എന്ന മെത്തഡ് ഉണ്ട്, ഇത് മികച്ച റൺയും അനുബന്ധിച്ച ഫിറ്റുചെയ്ത മോഡലും നൽകുന്നു.
```python
best_run, fitted_model = remote_run.get_output()
```
മികച്ച മോഡലിന് ഉപയോഗിച്ച പാരാമീറ്ററുകൾ കാണാൻ, ഫിറ്റുചെയ്ത മോഡൽ പ്രിന്റ് ചെയ്യുക. മികച്ച മോഡലിന്റെ പ്രോപ്പർട്ടികൾ കാണാൻ [get_properties()](https://docs.microsoft.com/python/api/azureml-core/azureml.core.run(class)?view=azure-ml-py#azureml_core_Run_get_properties?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) മെത്തഡ് ഉപയോഗിക്കുക.
```python
best_run.get_properties()
```
ഇപ്പോൾ മോഡൽ [register_model](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?view=azure-ml-py#register-model-model-name-none--description-none--tags-none--iteration-none--metric-none-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) മെത്തഡ് ഉപയോഗിച്ച് രജിസ്റ്റർ ചെയ്യുക.
```python
model_name = best_run.properties['model_name']
script_file_name = 'inference/score.py'
best_run.download_file('outputs/scoring_file_v_1_0_0.py', 'inference/score.py')
description = "aml heart failure project sdk"
model = best_run.register_model(model_name = model_name,
model_path = './outputs/',
description = description,
tags = None)
```
### 3.2 മോഡൽ വിന്യാസം
മികച്ച മോഡൽ സേവ് ചെയ്ത ശേഷം, [InferenceConfig](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model.inferenceconfig?view=azure-ml-py?ocid=AID3041109) ക്ലാസ് ഉപയോഗിച്ച് വിന്യസിക്കാം. InferenceConfig വിന്യാസത്തിനായി ഉപയോഗിക്കുന്ന കസ്റ്റം പരിസ്ഥിതിയുടെ കോൺഫിഗറേഷൻ സജ്ജീകരണങ്ങൾ പ്രതിനിധീകരിക്കുന്നു. [AciWebservice](https://docs.microsoft.com/python/api/azureml-core/azureml.core.webservice.aciwebservice?view=azure-ml-py) ക്ലാസ് Azure Container Instances-ൽ വെബ് സേവന എൻഡ്‌പോയിന്റായി വിന്യസിച്ച മെഷീൻ ലേണിംഗ് മോഡൽ പ്രതിനിധീകരിക്കുന്നു. മോഡൽ, സ്ക്രിപ്റ്റ്, അനുബന്ധ ഫയലുകൾ എന്നിവയിൽ നിന്നാണ് വിന്യസിച്ച സേവനം സൃഷ്ടിക്കുന്നത്. ഫലമായി ലഭിക്കുന്ന വെബ് സേവനം ലോഡ് ബാലൻസ്ഡ്, HTTP എൻഡ്‌പോയിന്റ് ആണ്, REST API ഉണ്ട്. നിങ്ങൾക്ക് ഈ API-യിലേക്ക് ഡാറ്റ അയച്ച് മോഡലിന്റെ പ്രവചനങ്ങൾ സ്വീകരിക്കാം.
മോഡൽ [deploy](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model(class)?view=azure-ml-py#deploy-workspace--name--models--inference-config-none--deployment-config-none--deployment-target-none--overwrite-false--show-output-false-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) മെത്തഡ് ഉപയോഗിച്ച് വിന്യസിക്കുന്നു.
```python
from azureml.core.model import InferenceConfig, Model
from azureml.core.webservice import AciWebservice
inference_config = InferenceConfig(entry_script=script_file_name, environment=best_run.get_environment())
aciconfig = AciWebservice.deploy_configuration(cpu_cores = 1,
memory_gb = 1,
tags = {'type': "automl-heart-failure-prediction"},
description = 'Sample service for AutoML Heart Failure Prediction')
aci_service_name = 'automl-hf-sdk'
aci_service = Model.deploy(ws, aci_service_name, [model], inference_config, aciconfig)
aci_service.wait_for_deployment(True)
print(aci_service.state)
```
ഈ ഘട്ടം കുറച്ച് മിനിറ്റുകൾ എടുക്കും.
### 3.3 എൻഡ്‌പോയിന്റ് ഉപയോഗം
നിങ്ങളുടെ എൻഡ്‌പോയിന്റ് ഉപയോഗിക്കാൻ ഒരു സാമ്പിൾ ഇൻപുട്ട് സൃഷ്ടിക്കുക:
```python
data = {
"data":
[
{
'age': "60",
'anaemia': "false",
'creatinine_phosphokinase': "500",
'diabetes': "false",
'ejection_fraction': "38",
'high_blood_pressure': "false",
'platelets': "260000",
'serum_creatinine': "1.40",
'serum_sodium': "137",
'sex': "false",
'smoking': "false",
'time': "130",
},
],
}
test_sample = str.encode(json.dumps(data))
```
അതിനുശേഷം, പ്രവചനത്തിനായി ഈ ഇൻപുട്ട് നിങ്ങളുടെ മോഡലിലേക്ക് അയയ്ക്കാം:
```python
response = aci_service.run(input_data=test_sample)
response
```
ഇത് `'{"result": [false]}'` എന്ന ഔട്ട്പുട്ട് നൽകണം. ഇതിന്റെ അർത്ഥം, ഞങ്ങൾ എൻഡ്‌പോയിന്റിലേക്ക് അയച്ച രോഗിയുടെ ഇൻപുട്ട് `false` എന്ന പ്രവചനമാണ് സൃഷ്ടിച്ചത്, അതായത് ഈ വ്യക്തിക്ക് ഹൃദയാഘാതം സംഭവിക്കാനുള്ള സാധ്യത കുറവാണ്.
അഭിനന്ദനങ്ങൾ! നിങ്ങൾ ഇപ്പോൾ Azure ML SDK ഉപയോഗിച്ച് Azure ML-ൽ ഡിപ്ലോയ് ചെയ്ത് പരിശീലിപ്പിച്ച മോഡൽ ഉപയോഗിച്ചു!
> **_കുറിപ്പ്:_** പ്രോജക്ട് പൂർത്തിയാക്കിയ ശേഷം എല്ലാ റിസോഴ്‌സുകളും ഇല്ലാതാക്കാൻ മറക്കരുത്.
## 🚀 ചലഞ്ച്
SDK വഴി നിങ്ങൾ ചെയ്യാൻ കഴിയുന്ന മറ്റു പല കാര്യങ്ങളും ഉണ്ട്, പക്ഷേ ഈ പാഠത്തിൽ അവ എല്ലാം കാണാൻ സാധിക്കില്ല. എന്നാൽ നല്ല വാർത്ത, SDK ഡോക്യുമെന്റേഷൻ എങ്ങനെ സ്കിം ചെയ്യാമെന്ന് പഠിക്കുന്നത് നിങ്ങൾക്ക് സ്വയം വളരെ സഹായകമായിരിക്കും. Azure ML SDK ഡോക്യുമെന്റേഷൻ പരിശോധിച്ച് പൈപ്പ്‌ലൈൻ സൃഷ്ടിക്കാൻ അനുവദിക്കുന്ന `Pipeline` ക്ലാസ് കണ്ടെത്തുക. ഒരു Pipeline എന്നത് ഒരു വർക്ക്‌ഫ്ലോ ആയി പ്രവർത്തിപ്പിക്കാവുന്ന പല ഘട്ടങ്ങളുടെ സമാഹാരമാണ്.
**സൂചന:** [SDK ഡോക്യുമെന്റേഷൻ](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) സന്ദർശിച്ച് തിരയൽ ബാറിൽ "Pipeline" പോലുള്ള കീവേഡുകൾ ടൈപ്പ് ചെയ്യുക. തിരയൽ ഫലങ്ങളിൽ `azureml.pipeline.core.Pipeline` ക്ലാസ് കാണാം.
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/37)
## അവലോകനം & സ്വയം പഠനം
ഈ പാഠത്തിൽ, നിങ്ങൾ Azure ML SDK ഉപയോഗിച്ച് ഹൃദയ പരാജയ സാധ്യത പ്രവചിക്കാൻ മോഡൽ പരിശീലിപ്പിക്കുകയും ഡിപ്ലോയ് ചെയ്യുകയും ഉപയോഗിക്കുകയും ചെയ്യുന്നത് പഠിച്ചു. Azure ML SDK-യെക്കുറിച്ചുള്ള കൂടുതൽ വിവരങ്ങൾക്ക് ഈ [ഡോക്യുമെന്റേഷൻ](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) പരിശോധിക്കുക. Azure ML SDK ഉപയോഗിച്ച് നിങ്ങളുടെ സ്വന്തം മോഡൽ സൃഷ്ടിക്കാൻ ശ്രമിക്കുക.
## അസൈൻമെന്റ്
[Azure ML SDK ഉപയോഗിച്ച് ഡാറ്റാ സയൻസ് പ്രോജക്ട്](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "386efdbc19786951341f6956247ee990",
"translation_date": "2025-12-19T14:47:26+00:00",
"source_file": "5-Data-Science-In-Cloud/19-Azure/assignment.md",
"language_code": "ml"
}
-->
# Azure ML SDK ഉപയോഗിച്ച് ഡാറ്റാ സയൻസ് പ്രോജക്ട്
## നിർദ്ദേശങ്ങൾ
Azure ML SDK ഉപയോഗിച്ച് ഒരു മോഡൽ ട്രെയിൻ ചെയ്യാനും, ഡിപ്ലോയ് ചെയ്യാനും, ഉപയോഗിക്കാനും Azure ML പ്ലാറ്റ്ഫോം എങ്ങനെ ഉപയോഗിക്കാമെന്ന് നാം കണ്ടു. ഇപ്പോൾ മറ്റൊരു മോഡൽ ട്രെയിൻ ചെയ്യാൻ, ഡിപ്ലോയ് ചെയ്യാൻ, ഉപയോഗിക്കാൻ നിങ്ങൾക്ക് ഉപയോഗിക്കാവുന്ന ചില ഡാറ്റ കണ്ടെത്താൻ ചുറ്റിപ്പറ്റി നോക്കുക. [Kaggle](https://kaggle.com) ലും [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ലും ഡാറ്റാസെറ്റുകൾ അന്വേഷിക്കാം.
## റൂബ്രിക്
| ഉദാഹരണമായ | മതിയായ | മെച്ചപ്പെടുത്തേണ്ടത് |
|-----------|----------|-------------------|
|AutoML കോൺഫിഗറേഷൻ ചെയ്യുമ്പോൾ, നിങ്ങൾ SDK ഡോക്യുമെന്റേഷൻ പരിശോധിച്ച് ഉപയോഗിക്കാവുന്ന പാരാമീറ്ററുകൾ കണ്ടു. Azure ML SDK ഉപയോഗിച്ച് AutoML വഴി ഒരു ഡാറ്റാസെറ്റിൽ ട്രെയിനിംഗ് നടത്തി, മോഡൽ വിശദീകരണങ്ങൾ പരിശോധിച്ചു. മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്തു, Azure ML SDK വഴി അത് ഉപയോഗിക്കാൻ കഴിഞ്ഞു. | Azure ML SDK ഉപയോഗിച്ച് AutoML വഴി ഒരു ഡാറ്റാസെറ്റിൽ ട്രെയിനിംഗ് നടത്തി, മോഡൽ വിശദീകരണങ്ങൾ പരിശോധിച്ചു. മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്തു, Azure ML SDK വഴി അത് ഉപയോഗിക്കാൻ കഴിഞ്ഞു. | Azure ML SDK ഉപയോഗിച്ച് AutoML വഴി ഒരു ഡാറ്റാസെറ്റിൽ ട്രെയിനിംഗ് നടത്തി. മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്തു, Azure ML SDK വഴി അത് ഉപയോഗിക്കാൻ കഴിഞ്ഞു. |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,325 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: \"Azure ML SDK\" വഴി\n",
"\n",
"## പരിചയം\n",
"\n",
"ഈ നോട്ട്‌ബുക്കിൽ, Azure ML ഉപയോഗിച്ച് ഒരു മോഡൽ ട്രെയിൻ ചെയ്യാനും, ഡിപ്ലോയ് ചെയ്യാനും, ഉപയോഗിക്കാനും Azure ML SDK എങ്ങനെ ഉപയോഗിക്കാമെന്ന് നാം പഠിക്കും.\n",
"\n",
"ആവശ്യമായ മുൻ‌പരിചയങ്ങൾ:\n",
"1. നിങ്ങൾ ഒരു Azure ML വർക്ക്‌സ്പേസ് സൃഷ്ടിച്ചിട്ടുണ്ട്.\n",
"2. നിങ്ങൾ [ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ്](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) Azure ML-ലേക്ക് ലോഡ് ചെയ്തിട്ടുണ്ട്.\n",
"3. നിങ്ങൾ ഈ നോട്ട്‌ബുക്ക് Azure ML സ്റ്റുഡിയോയിൽ അപ്‌ലോഡ് ചെയ്തിട്ടുണ്ട്.\n",
"\n",
"അടുത്ത ഘട്ടങ്ങൾ:\n",
"\n",
"1. നിലവിലുള്ള വർക്ക്‌സ്പേസിൽ ഒരു എക്സ്പെരിമെന്റ് സൃഷ്ടിക്കുക.\n",
"2. ഒരു കംപ്യൂട്ട് ക്ലസ്റ്റർ സൃഷ്ടിക്കുക.\n",
"3. ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യുക.\n",
"4. AutoMLConfig ഉപയോഗിച്ച് AutoML കോൺഫിഗർ ചെയ്യുക.\n",
"5. AutoML എക്സ്പെരിമെന്റ് റൺ ചെയ്യുക.\n",
"6. ഫലങ്ങൾ പരിശോധിച്ച് മികച്ച മോഡൽ കണ്ടെത്തുക.\n",
"7. മികച്ച മോഡൽ രജിസ്റ്റർ ചെയ്യുക.\n",
"8. മികച്ച മോഡൽ ഡിപ്ലോയ് ചെയ്യുക.\n",
"9. എന്റ്പോയിന്റ് ഉപയോഗിക്കുക.\n",
"\n",
"## Azure മെഷീൻ ലേണിംഗ് SDK-നു പ്രത്യേകമായ ഇമ്പോർട്ടുകൾ\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"from azureml.core import Workspace, Experiment\n",
"from azureml.core.compute import AmlCompute\n",
"from azureml.train.automl import AutoMLConfig\n",
"from azureml.widgets import RunDetails\n",
"from azureml.core.model import InferenceConfig, Model\n",
"from azureml.core.webservice import AciWebservice"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Initialize Workspace\n",
"സ്ഥിരീകരിച്ച കോൺഫിഗറേഷൻ നിന്ന് ഒരു വർക്ക്‌സ്പേസ് ഒബ്ജക്റ്റ് ആരംഭിക്കുക. .\\config.json എന്ന സ്ഥലത്ത് കോൺഫിഗ് ഫയൽ ഉണ്ടെന്ന് ഉറപ്പാക്കുക.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"ws = Workspace.from_config()\n",
"print(ws.name, ws.resource_group, ws.location, ws.subscription_id, sep = '\\n')"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Create an Azure ML experiment\n",
"\n",
"നാം ഇപ്പോൾ ആരംഭിച്ച വർക്ക്സ്പേസിൽ 'aml-experiment' എന്ന പേരിൽ ഒരു പരീക്ഷണം സൃഷ്ടിക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"experiment_name = 'aml-experiment'\n",
"experiment = Experiment(ws, experiment_name)\n",
"experiment"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## കംപ്യൂട്ട് ക്ലസ്റ്റർ സൃഷ്ടിക്കുക\n",
"നിങ്ങളുടെ AutoML റൺക്കായി ഒരു [compute target](https://docs.microsoft.com/azure/machine-learning/concept-azure-machine-learning-architecture#compute-target) സൃഷ്ടിക്കേണ്ടതുണ്ട്.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"aml_name = \"heart-f-cluster\"\n",
"try:\n",
" aml_compute = AmlCompute(ws, aml_name)\n",
" print('Found existing AML compute context.')\n",
"except:\n",
" print('Creating new AML compute context.')\n",
" aml_config = AmlCompute.provisioning_configuration(vm_size = \"Standard_D2_v2\", min_nodes=1, max_nodes=3)\n",
" aml_compute = AmlCompute.create(ws, name = aml_name, provisioning_configuration = aml_config)\n",
" aml_compute.wait_for_completion(show_output = True)\n",
"\n",
"cts = ws.compute_targets\n",
"compute_target = cts[aml_name]"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Data\n",
"നിങ്ങൾ ഡാറ്റാസെറ്റ് Azure ML-ലേക്ക് അപ്‌ലോഡ് ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക, കൂടാതെ കീ ഡാറ്റാസെറ്റിന്റെ പേരുമായി ഒരേ പേരിലാണ്.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"key = 'heart-failure-records'\n",
"dataset = ws.datasets[key]\n",
"df = dataset.to_pandas_dataframe()\n",
"df.describe()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## ഓട്ടോഎംഎൽ കോൺഫിഗറേഷൻ\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"automl_settings = {\n",
" \"experiment_timeout_minutes\": 20,\n",
" \"max_concurrent_iterations\": 3,\n",
" \"primary_metric\" : 'AUC_weighted'\n",
"}\n",
"\n",
"automl_config = AutoMLConfig(compute_target=compute_target,\n",
" task = \"classification\",\n",
" training_data=dataset,\n",
" label_column_name=\"DEATH_EVENT\",\n",
" enable_early_stopping= True,\n",
" featurization= 'auto',\n",
" debug_log = \"automl_errors.log\",\n",
" **automl_settings\n",
" )"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## ഓട്ടോഎംഎൽ റൺ\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"remote_run = experiment.submit(automl_config)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"RunDetails(remote_run).show()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## മികച്ച മോഡൽ സംരക്ഷിക്കുക\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"best_run, fitted_model = remote_run.get_output()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"best_run.get_properties()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"model_name = best_run.properties['model_name']\n",
"script_file_name = 'inference/score.py'\n",
"best_run.download_file('outputs/scoring_file_v_1_0_0.py', 'inference/score.py')\n",
"description = \"aml heart failure project sdk\"\n",
"model = best_run.register_model(model_name = model_name,\n",
" description = description,\n",
" tags = None)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## മികച്ച മോഡൽ വിന്യസിക്കുക\n",
"\n",
"മികച്ച മോഡൽ വിന്യസിക്കാൻ താഴെ കൊടുത്തിരിക്കുന്ന കോഡ് പ്രവർത്തിപ്പിക്കുക. Azure ML പോർട്ടലിൽ വിന്യസനത്തിന്റെ നില നിങ്ങൾക്ക് കാണാം. ഈ ഘട്ടം കുറച്ച് മിനിറ്റുകൾ എടുക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"inference_config = InferenceConfig(entry_script=script_file_name, environment=best_run.get_environment())\n",
"\n",
"aciconfig = AciWebservice.deploy_configuration(cpu_cores = 1,\n",
" memory_gb = 1,\n",
" tags = {'type': \"automl-heart-failure-prediction\"},\n",
" description = 'Sample service for AutoML Heart Failure Prediction')\n",
"\n",
"aci_service_name = 'automl-hf-sdk'\n",
"aci_service = Model.deploy(ws, aci_service_name, [model], inference_config, aciconfig)\n",
"aci_service.wait_for_deployment(True)\n",
"print(aci_service.state)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## എന്റ്പോയിന്റ് ഉപയോഗിക്കുക\n",
"താഴെ കൊടുത്തിരിക്കുന്ന ഇൻപുട്ട് സാമ്പിളിൽ നിങ്ങൾക്ക് ഇൻപുട്ടുകൾ ചേർക്കാം.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"data = {\n",
" \"data\":\n",
" [\n",
" {\n",
" 'age': \"60\",\n",
" 'anaemia': \"false\",\n",
" 'creatinine_phosphokinase': \"500\",\n",
" 'diabetes': \"false\",\n",
" 'ejection_fraction': \"38\",\n",
" 'high_blood_pressure': \"false\",\n",
" 'platelets': \"260000\",\n",
" 'serum_creatinine': \"1.40\",\n",
" 'serum_sodium': \"137\",\n",
" 'sex': \"false\",\n",
" 'smoking': \"false\",\n",
" 'time': \"130\",\n",
" },\n",
" ],\n",
"}\n",
"\n",
"test_sample = str.encode(json.dumps(data))"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"response = aci_service.run(input_data=test_sample)\n",
"response"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**അസൂയാ**: \nഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "af42669556d5dc19fc4cc3866f7d2597",
"translation_date": "2025-12-19T17:10:08+00:00",
"source_file": "5-Data-Science-In-Cloud/19-Azure/notebook.ipynb",
"language_code": "ml"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,36 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "8dfe141a0f46f7d253e07f74913c7f44",
"translation_date": "2025-12-19T13:23:43+00:00",
"source_file": "5-Data-Science-In-Cloud/README.md",
"language_code": "ml"
}
-->
# ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്
![cloud-picture](../../../translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.ml.jpg)
> ഫോട്ടോ [Jelleke Vanooteghem](https://unsplash.com/@ilumire) യുടെ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) ൽ നിന്നാണ്
വലിയ ഡാറ്റയുമായി ഡാറ്റാ സയൻസ് ചെയ്യുമ്പോൾ, ക്ലൗഡ് ഒരു ഗെയിം ചേഞ്ചർ ആകാം. അടുത്ത മൂന്ന് പാഠങ്ങളിൽ, ക്ലൗഡ് എന്താണെന്നും അത് എങ്ങനെ സഹായകരമാകാമെന്നും നാം കാണാൻ പോകുന്നു. ഹൃദയ പരാജയ ഡാറ്റാസെറ്റ് പരിശോധിച്ച്, ആരെങ്കിലും ഹൃദയ പരാജയ സാധ്യതയുള്ളതെന്ന് വിലയിരുത്താൻ സഹായിക്കുന്ന ഒരു മോഡൽ നിർമ്മിക്കാനും നാം പോകുന്നു. മോഡൽ പരിശീലിപ്പിക്കാൻ, വിന്യസിക്കാൻ, ഉപയോഗിക്കാൻ ക്ലൗഡിന്റെ ശക്തി ഉപയോഗിക്കും. ഒരു വഴി കുറഞ്ഞ കോഡ്/കോഡ് ഇല്ലാത്ത രീതിയിൽ മാത്രം ഉപയോക്തൃ ഇന്റർഫേസ് ഉപയോഗിച്ച്, മറ്റൊരു വഴി Azure മെഷീൻ ലേണിംഗ് സോഫ്റ്റ്വെയർ ഡെവലപ്പർ കിറ്റ് (Azure ML SDK) ഉപയോഗിച്ച്.
![project-schema](../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.ml.png)
### വിഷയങ്ങൾ
1. [ഡാറ്റാ സയൻസിനായി ക്ലൗഡ് ഉപയോഗിക്കേണ്ടത് എന്തുകൊണ്ട്?](17-Introduction/README.md)
2. [ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: "കുറഞ്ഞ കോഡ്/കോഡ് ഇല്ലാത്ത" വഴി](18-Low-Code/README.md)
3. [ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്: "Azure ML SDK" വഴി](19-Azure/README.md)
### ക്രെഡിറ്റുകൾ
ഈ പാഠങ്ങൾ ☁️യും 💕യും കൊണ്ട് [Maud Levy](https://twitter.com/maudstweets)യും [Tiffany Souterre](https://twitter.com/TiffanySouterre)യും ചേർന്ന് എഴുതിയതാണ്
ഹൃദയ പരാജയ പ്രവചന പദ്ധതിക്കുള്ള ഡാറ്റ [Larxel](https://www.kaggle.com/andrewmvd) എന്നവരിൽ നിന്നുള്ളതാണ്, [Kaggle](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) ൽ നിന്നും. ഇത് [Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/) അനുമതിയോടെ ലൈസൻസുചെയ്യപ്പെട്ടതാണ്.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,119 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "0f67a4139454816631526779a456b734",
"translation_date": "2025-12-19T16:51:57+00:00",
"source_file": "6-Data-Science-In-Wild/20-Real-World-Examples/README.md",
"language_code": "ml"
}
-->
# യഥാർത്ഥ ലോകത്തിലെ ഡാറ്റാ സയൻസ്
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-RealWorld.png) |
| :--------------------------------------------------------------------------------------------------------------: |
| യഥാർത്ഥ ലോകത്തിലെ ഡാറ്റാ സയൻസ് - _സ്കെച്ച്നോട്ട് by [@nitya](https://twitter.com/nitya)_ |
നാം ഈ പഠനയാത്രയുടെ അവസാനത്തോട് അടുത്തിരിക്കുന്നു!
ഡാറ്റാ സയൻസിന്റെയും നൈതികതയുടെയും നിർവചനങ്ങളോടെ ആരംഭിച്ച്, ഡാറ്റാ വിശകലനത്തിനും ദൃശ്യവത്കരണത്തിനും വിവിധ ഉപകരണങ്ങളും സാങ്കേതിക വിദ്യകളും പരിശോധിച്ചു, ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ അവലോകനം ചെയ്തു, ക്ലൗഡ് കംപ്യൂട്ടിംഗ് സേവനങ്ങളിലൂടെ ഡാറ്റാ സയൻസ് പ്രവൃത്തികൾ സ്കെയിൽ ചെയ്യുകയും ഓട്ടോമേറ്റ് ചെയ്യുകയും ചെയ്യുന്നതിനെക്കുറിച്ച് നോക്കി. അതിനാൽ, നിങ്ങൾക്ക് സംശയമുണ്ടാകാം: _"ഈ പഠനങ്ങളെ യഥാർത്ഥ ലോക സാഹചര്യങ്ങളുമായി എങ്ങനെ കൃത്യമായി ബന്ധിപ്പിക്കാം?"_
ഈ പാഠത്തിൽ, വ്യവസായം മുഴുവൻ ഡാറ്റാ സയൻസിന്റെ യഥാർത്ഥ ലോക പ്രയോഗങ്ങൾ പരിശോധിക്കുകയും ഗവേഷണം, ഡിജിറ്റൽ ഹ്യൂമാനിറ്റീസ്, സുസ്ഥിരത എന്നീ പ്രത്യേക സാഹചര്യങ്ങളിലെ ഉദാഹരണങ്ങളിൽ ആഴത്തിൽ നോക്കുകയും ചെയ്യും. വിദ്യാർത്ഥി പ്രോജക്ട് അവസരങ്ങൾ പരിശോധിച്ച്, നിങ്ങളുടെ പഠനയാത്ര തുടരുമെന്ന് സഹായിക്കുന്ന ഉപകാരപ്രദമായ വിഭവങ്ങൾക്കൊപ്പം സമാപിപ്പിക്കും!
## പ്രീ-ലെക്ചർ ക്വിസ്
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/38)
## ഡാറ്റാ സയൻസ് + വ്യവസായം
AI-യുടെ ജനാധിപത്യവൽക്കരണത്തിന് നന്ദി, ഡെവലപ്പർമാർക്ക് ഇപ്പോൾ AI-നിർഭരമായ തീരുമാനമെടുക്കലും ഡാറ്റാ-നിർഭരമായ洞察ങ്ങളും ഉപയോക്തൃ അനുഭവങ്ങളിലും വികസന പ്രവൃത്തികളിലും രൂപകൽപ്പന ചെയ്യാനും സംയോജിപ്പിക്കാനും എളുപ്പമാണ്. വ്യവസായം മുഴുവൻ ഡാറ്റാ സയൻസ് യഥാർത്ഥ ലോക പ്രയോഗങ്ങളിൽ "പ്രയോഗിക്കപ്പെടുന്ന" ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:
* [Google Flu Trends](https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/) ഡാറ്റാ സയൻസ് ഉപയോഗിച്ച് തിരയൽ പദങ്ങൾ ഫ്ലൂ ട്രെൻഡുകളുമായി ബന്ധിപ്പിച്ചു. സമീപനം പിഴവുകൾ ഉണ്ടായിരുന്നെങ്കിലും, ഡാറ്റാ-നിർഭരമായ ആരോഗ്യപരിചരണ പ്രവചനങ്ങളുടെ സാധ്യതകളും (ചില വെല്ലുവിളികളും) ബോധവൽക്കരിച്ചു.
* [UPS Routing Predictions](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - UPS എങ്ങനെ ഡാറ്റാ സയൻസ്, മെഷീൻ ലേണിംഗ് ഉപയോഗിച്ച് കാലാവസ്ഥാ സാഹചര്യങ്ങൾ, ഗതാഗത മാതൃകകൾ, ഡെലിവറി സമയപരിധികൾ എന്നിവ പരിഗണിച്ച് ഡെലിവറിയ്ക്ക് ഏറ്റവും അനുയോജ്യമായ മാർഗങ്ങൾ പ്രവചിക്കുന്നു എന്ന് വിശദീകരിക്കുന്നു.
* [NYC Taxicab Route Visualization](http://chriswhong.github.io/nyctaxi/) - [Freedom Of Information Laws](https://chriswhong.com/open-data/foil_nyc_taxi/) ഉപയോഗിച്ച് ശേഖരിച്ച ഡാറ്റ NYC ടാക്സികളുടെ ഒരു ദിവസത്തെ ജീവിതം ദൃശ്യവത്കരിച്ചു, അവ എങ്ങനെ തിരക്കുള്ള നഗരത്തിൽ സഞ്ചരിക്കുന്നു, അവർ സമ്പാദിക്കുന്ന പണം, ഓരോ 24 മണിക്കൂറിനുള്ള യാത്രകളുടെ ദൈർഘ്യം എന്നിവ മനസ്സിലാക്കാൻ സഹായിച്ചു.
* [Uber Data Science Workbench](https://eng.uber.com/dsw/) - Uber യാത്രകളിൽ നിന്നുള്ള (പിക്കപ്പ് & ഡ്രോപ്പ് ഓഫ് ലൊക്കേഷനുകൾ, യാത്രാ ദൈർഘ്യം, ഇഷ്ടപ്പെട്ട മാർഗങ്ങൾ തുടങ്ങിയ) ഡാറ്റ ഉപയോഗിച്ച് *ദൈനംദിനം* ഡാറ്റാ അനലിറ്റിക്സ് ഉപകരണം നിർമ്മിച്ച് വിലനിർണ്ണയം, സുരക്ഷ, തട്ടിപ്പ് കണ്ടെത്തൽ, നാവിഗേഷൻ തീരുമാനങ്ങൾ എന്നിവയ്ക്ക് സഹായിക്കുന്നു.
* [Sports Analytics](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - _പ്രവചനാത്മക വിശകലന_ (ടീം, കളിക്കാരൻ വിശകലനം - [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) പോലെ - ഫാൻ മാനേജ്മെന്റ്)യും _ഡാറ്റാ ദൃശ്യവത്കരണ_ (ടീം & ഫാൻ ഡാഷ്ബോർഡുകൾ, ഗെയിമുകൾ തുടങ്ങിയവ)യും ടാലന്റ് സ്കൗട്ടിംഗ്, സ്പോർട്സ് ഗാംബ്ലിംഗ്, ഇൻവെന്ററി/വേദി മാനേജ്മെന്റ് പോലുള്ള പ്രയോഗങ്ങളുമായി കേന്ദ്രീകരിക്കുന്നു.
* [Data Science in Banking](https://data-flair.training/blogs/data-science-in-banking/) - ധനകാര്യ വ്യവസായത്തിൽ ഡാറ്റാ സയൻസിന്റെ മൂല്യം ഹൈലൈറ്റ് ചെയ്യുന്നു, റിസ്‌ക് മോഡലിംഗ്, തട്ടിപ്പ് കണ്ടെത്തൽ, ഉപഭോക്തൃ വിഭാഗീകരണം, റിയൽ-ടൈം പ്രവചനവും ശുപാർശാ സംവിധാനങ്ങളും ഉൾപ്പെടെ. പ്രവചനാത്മക വിശകലനം [ക്രെഡിറ്റ് സ്കോറുകൾ](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit) പോലുള്ള നിർണായക നടപടികൾക്ക് പ്രേരകമാണ്.
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - മെഡിക്കൽ ഇമേജിംഗ് (MRI, X-Ray, CT-സ്കാൻ), ജീനോമിക്സ് (DNA സീക്വൻസിംഗ്), മരുന്ന് വികസനം (റിസ്‌ക് വിലയിരുത്തൽ, വിജയ പ്രവചന), പ്രവചനാത്മക വിശകലനം (രോഗി പരിചരണം & വിതരണ ലജിസ്റ്റിക്സ്), രോഗം ട്രാക്കിംഗ് & പ്രതിരോധം തുടങ്ങിയ പ്രയോഗങ്ങൾ ഹൈലൈറ്റ് ചെയ്യുന്നു.
![Data Science Applications in The Real World](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.ml.png) ചിത്രം ക്രെഡിറ്റ്: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
ചിത്രം ഡാറ്റാ സയൻസ് സാങ്കേതിക വിദ്യകൾ പ്രയോഗിക്കാവുന്ന മറ്റ് മേഖലകളും ഉദാഹരണങ്ങളും കാണിക്കുന്നു. മറ്റ് പ്രയോഗങ്ങൾ അന്വേഷിക്കണോ? താഴെയുള്ള [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) വിഭാഗം പരിശോധിക്കുക.
## ഡാറ്റാ സയൻസ് + ഗവേഷണം
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Research.png) |
| :---------------------------------------------------------------------------------------------------------------: |
| ഡാറ്റാ സയൻസ് & ഗവേഷണം - _സ്കെച്ച്നോട്ട് by [@nitya](https://twitter.com/nitya)_ |
യഥാർത്ഥ ലോക പ്രയോഗങ്ങൾ സാധാരണയായി വ്യവസായ ഉപയോഗ കേസുകളിൽ സ്കെയിലിൽ കേന്ദ്രീകരിക്കുന്നുവെങ്കിലും, _ഗവേഷണ_ പ്രയോഗങ്ങളും പ്രോജക്ടുകളും രണ്ട് കാഴ്ചപ്പാടുകളിൽ ഉപകാരപ്രദമാണ്:
* _നവീകരണ അവസരങ്ങൾ_ - ആധുനിക ആശയങ്ങളുടെ വേഗത്തിലുള്ള പ്രോട്ടോടൈപ്പിംഗ്, അടുത്ത തലമുറ പ്രയോഗങ്ങൾക്കുള്ള ഉപയോക്തൃ അനുഭവങ്ങളുടെ പരിശോധന.
* _പ്രയോഗ വെല്ലുവിളികൾ_ - യഥാർത്ഥ ലോക സാഹചര്യങ്ങളിൽ ഡാറ്റാ സയൻസ് സാങ്കേതിക വിദ്യകളുടെ സാധ്യതയുള്ള ഹാനികൾ അല്ലെങ്കിൽ ഉദ്ദേശിക്കാത്ത ഫലങ്ങൾ അന്വേഷിക്കുക.
വിദ്യാർത്ഥികൾക്ക്, ഈ ഗവേഷണ പ്രോജക്ടുകൾ വിഷയത്തെക്കുറിച്ചുള്ള നിങ്ങളുടെ മനസ്സിലാക്കലും ബന്ധപ്പെട്ട ആളുകളുമായോ ടീമുകളുമായോ സഹകരിക്കുകയും വർദ്ധിപ്പിക്കുന്ന പഠനവും അവസരങ്ങൾ നൽകുന്നു. അതിനാൽ ഗവേഷണ പ്രോജക്ടുകൾ എങ്ങനെയാണ് കാണപ്പെടുന്നത്, അവ എങ്ങനെ സ്വാധീനം ചെലുത്തുന്നു?
ഒരു ഉദാഹരണം നോക്കാം - Joy Buolamwini (MIT മീഡിയ ലാബ്സ്) യുടെ [MIT Gender Shades Study](http://gendershades.org/overview.html) ഒരു [പ്രധാന ഗവേഷണ പേപ്പർ](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf) Timnit Gebru (അന്ന് Microsoft Research-ൽ) സഹരചയിതാവായുള്ളത്, ഇതിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചത്:
* **എന്ത്:** ലിംഗവും ത്വക്കിന്റെ തരം അടിസ്ഥാനമാക്കി സ്വയം പ്രവർത്തിക്കുന്ന മുഖ വിശകലന ആൽഗോരിതങ്ങളും ഡാറ്റാസെറ്റുകളും ഉള്ള പൂർവ്വാഗ്രഹം വിലയിരുത്തുക എന്നതാണ് ഗവേഷണ പ്രോജക്ടിന്റെ ലക്ഷ്യം.
* **എന്തുകൊണ്ട്:** മുഖ വിശകലനം നിയമ നടപ്പാക്കൽ, വിമാനത്താവള സുരക്ഷ, നിയമനം തുടങ്ങിയ മേഖലകളിൽ ഉപയോഗിക്കുന്നു - തെറ്റായ വർഗ്ഗീകരണങ്ങൾ (ഉദാ: പൂർവ്വാഗ്രഹം മൂലം) ബാധിച്ച വ്യക്തികൾക്ക് സാമ്പത്തികവും സാമൂഹികവും ഹാനികൾ ഉണ്ടാക്കാം. പൂർവ്വാഗ്രഹങ്ങൾ മനസ്സിലാക്കുകയും (നീക്കം ചെയ്യുകയോ കുറയ്ക്കുകയോ) നീതിക്ക് നിർണായകമാണ്.
* **എങ്ങനെ:** ഗവേഷകർ നിലവിലുള്ള ബെഞ്ച്മാർക്കുകൾ പ്രധാനമായും വെളുത്ത ത്വക്കുള്ള വിഷയങ്ങൾ ഉപയോഗിക്കുന്നതായി തിരിച്ചറിഞ്ഞു, ലിംഗവും ത്വക്കിന്റെ തരം കൂടി _സമതുല്യമായ_ പുതിയ ഡാറ്റാസെറ്റ് (1000+ ചിത്രങ്ങൾ) ഒരുക്കി. ഈ ഡാറ്റാസെറ്റ് Microsoft, IBM & Face++ എന്നിവയുടെ മൂന്ന് ലിംഗ വർഗ്ഗീകരണ ഉൽപ്പന്നങ്ങളുടെ കൃത്യത വിലയിരുത്താൻ ഉപയോഗിച്ചു.
ഫലങ്ങൾ കാണിച്ചു, മൊത്തത്തിലുള്ള വർഗ്ഗീകരണ കൃത്യത നല്ലതായിരുന്നെങ്കിലും വിവിധ ഉപഗ്രൂപ്പുകൾക്കിടയിൽ പിഴവ് നിരക്കുകളിൽ ശ്രദ്ധേയമായ വ്യത്യാസം ഉണ്ടായിരുന്നു - **മിസ്ജെൻഡറിംഗ്** സ്ത്രീകൾക്കും ഇരുണ്ട ത്വക്കുള്ള വ്യക്തികൾക്കും കൂടുതലായിരുന്നു, ഇത് പൂർവ്വാഗ്രഹത്തിന്റെ സൂചനയാണ്.
**പ്രധാന ഫലങ്ങൾ:** ഡാറ്റാ സയൻസിന് കൂടുതൽ _പ്രതിനിധി ഡാറ്റാസെറ്റുകൾ_ (സമതുല്യ ഉപഗ്രൂപ്പുകൾ) കൂടാതെ കൂടുതൽ _സമഗ്ര ടീമുകൾ_ (വിവിധ പശ്ചാത്തലങ്ങൾ) ആവശ്യമാണ്, AI പരിഹാരങ്ങളിൽ ഇത്തരം പൂർവ്വാഗ്രഹങ്ങൾ നേരത്തെ തിരിച്ചറിയാനും നീക്കം ചെയ്യാനും. ഈ ഗവേഷണ ശ്രമങ്ങൾ പല സംഘടനകളിലും _ഉത്തരവാദിത്വമുള്ള AI_-ക്കുള്ള സിദ്ധാന്തങ്ങളും പ്രാക്ടീസുകളും നിർവചിക്കുന്നതിൽ സഹായിക്കുന്നു, അവരുടെ AI ഉൽപ്പന്നങ്ങളിലും പ്രക്രിയകളിലും നീതി മെച്ചപ്പെടുത്താൻ.
**Microsoft-ൽ ബന്ധപ്പെട്ട ഗവേഷണ ശ്രമങ്ങളെക്കുറിച്ച് അറിയാൻ ആഗ്രഹമുണ്ടോ?**
* [Microsoft Research Projects](https://www.microsoft.com/research/research-area/artificial-intelligence/?facet%5Btax%5D%5Bmsr-research-area%5D%5B%5D=13556&facet%5Btax%5D%5Bmsr-content-type%5D%5B%5D=msr-project) Artificial Intelligence-ൽ പരിശോധിക്കുക.
* [Microsoft Research Data Science Summer School](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/) ൽ നിന്നുള്ള വിദ്യാർത്ഥി പ്രോജക്ടുകൾ അന്വേഷിക്കുക.
* [Fairlearn](https://fairlearn.org/) പ്രോജക്ടും [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) സംരംഭങ്ങളും പരിശോധിക്കുക.
## ഡാറ്റാ സയൻസ് + ഹ്യൂമാനിറ്റീസ്
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Humanities.png) |
| :---------------------------------------------------------------------------------------------------------------: |
| ഡാറ്റാ സയൻസ് & ഡിജിറ്റൽ ഹ്യൂമാനിറ്റീസ് - _സ്കെച്ച്നോട്ട് by [@nitya](https://twitter.com/nitya)_ |
ഡിജിറ്റൽ ഹ്യൂമാനിറ്റീസ് [ഇങ്ങനെ നിർവചിച്ചിട്ടുണ്ട്](https://digitalhumanities.stanford.edu/about-dh-stanford) - "കമ്പ്യൂട്ടേഷണൽ രീതികളും മാനവിക അന്വേഷണവും സംയോജിപ്പിക്കുന്ന പ്രാക്ടീസുകളും സമീപനങ്ങളും". [സ്റ്റാൻഫോർഡ് പ്രോജക്ടുകൾ](https://digitalhumanities.stanford.edu/projects) പോലുള്ള _"റീബൂട്ടിംഗ് ഹിസ്റ്ററി"_ , _"പോയറ്റിക് തിങ്കിംഗ്"_ എന്നിവ [ഡിജിറ്റൽ ഹ്യൂമാനിറ്റീസ് & ഡാറ്റാ സയൻസ്](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) തമ്മിലുള്ള ബന്ധം കാണിക്കുന്നു - നെറ്റ്‌വർക്ക് വിശകലനം, വിവര ദൃശ്യവത്കരണം, സ്ഥലം-ടെക്സ്റ്റ് വിശകലനം പോലുള്ള സാങ്കേതിക വിദ്യകൾ ചരിത്രപരവും സാഹിത്യപരവുമായ ഡാറ്റാസെറ്റുകൾ വീണ്ടും പരിശോധിച്ച് പുതിയ洞察ങ്ങളും കാഴ്ചപ്പാടുകളും കണ്ടെത്താൻ സഹായിക്കുന്നു.
*ഈ മേഖലയിലെ ഒരു പ്രോജക്ട് അന്വേഷിച്ച് വികസിപ്പിക്കണോ?*
["Emily Dickinson and the Meter of Mood"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - [Jen Looper](https://twitter.com/jenlooper) യുടെ ഒരു മികച്ച ഉദാഹരണം, ഡാറ്റാ സയൻസ് ഉപയോഗിച്ച് പരിചിതമായ കവിതകൾ വീണ്ടും പരിശോധിച്ച് അതിന്റെ അർത്ഥവും രചയിതാവിന്റെ സംഭാവനകളും പുതിയ സാഹചര്യങ്ങളിൽ പുനഃമൂല്യനിർണയം ചെയ്യാൻ എങ്ങനെ കഴിയും എന്ന് ചോദിക്കുന്നു. ഉദാഹരണത്തിന്, _ഒരു കവിത എഴുതപ്പെട്ട കാലാവസ്ഥാ കാലം അതിന്റെ ടോൺ അല്ലെങ്കിൽ സന്റിമെന്റ് വിശകലനം ചെയ്ത് പ്രവചിക്കാമോ_ - ഇത് രചയിതാവിന്റെ മനോഭാവത്തെക്കുറിച്ച് എന്ത് പറയുന്നു?
ആ ചോദ്യം ഉത്തരം നൽകാൻ, നാം ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ ഘട്ടങ്ങൾ പിന്തുടരുന്നു:
* [`Data Acquisition`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - വിശകലനത്തിന് അനുയോജ്യമായ ഡാറ്റാസെറ്റ് ശേഖരിക്കാൻ. API (ഉദാ: [Poetry DB API](https://poetrydb.org/index.html)) ഉപയോഗിക്കൽ അല്ലെങ്കിൽ വെബ് പേജുകൾ സ്ക്രാപ്പ് ചെയ്യൽ (ഉദാ: [Project Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) [Scrapy](https://scrapy.org/) പോലുള്ള ഉപകരണങ്ങൾ ഉപയോഗിച്ച്.
* [`Data Cleaning`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - ടെക്സ്റ്റ് എങ്ങനെ ഫോർമാറ്റ് ചെയ്യാം, ശുദ്ധമാക്കാം, ലളിതമാക്കാം എന്ന് Visual Studio Code, Microsoft Excel പോലുള്ള അടിസ്ഥാന ഉപകരണങ്ങൾ ഉപയോഗിച്ച് വിശദീകരിക്കുന്നു.
* [`Data Analysis`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - ഡാറ്റാസെറ്റ് "നോട്ട്ബുക്കുകളിൽ" ഇറക്കുമതി ചെയ്ത് Python പാക്കേജുകൾ (pandas, numpy, matplotlib) ഉപയോഗിച്ച് ഡാറ്റ ക്രമീകരിക്കുകയും ദൃശ്യവത്കരിക്കുകയും ചെയ്യുന്നത് വിശദീകരിക്കുന്നു.
* [`Sentiment Analysis`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - Text Analytics പോലുള്ള ക്ലൗഡ് സേവനങ്ങൾ, [Power Automate](https://flow.microsoft.com/en-us/) പോലുള്ള ലോ-കോഡ് ഉപകരണങ്ങൾ ഉപയോഗിച്ച് ഓട്ടോമേറ്റഡ് ഡാറ്റാ പ്രോസസ്സിംഗ് പ്രവൃത്തികൾ എങ്ങനെ സംയോജിപ്പിക്കാമെന്ന് വിശദീകരിക്കുന്നു.
ഈ പ്രവൃത്തിപദ്ധതി ഉപയോഗിച്ച് കവിതകളുടെ സീസണൽ സ്വാധീനങ്ങൾ(sentiment) പരിശോധിച്ച് രചയിതാവിനെക്കുറിച്ചുള്ള നമ്മുടെ കാഴ്ചപ്പാടുകൾ രൂപപ്പെടുത്താൻ സഹായിക്കും. നിങ്ങൾ തന്നെ പരീക്ഷിച്ച് നോക്കൂ - പിന്നെ നോട്ട്ബുക്ക് വികസിപ്പിച്ച് മറ്റ് ചോദ്യങ്ങൾ ചോദിക്കുകയോ ഡാറ്റ പുതിയ രീതിയിൽ ദൃശ്യവത്കരിക്കുകയോ ചെയ്യൂ!
> [Digital Humanities toolkit](https://github.com/Digital-Humanities-Toolkit) ൽ ചില ഉപകരണങ്ങൾ ഈ അന്വേഷണ മാർഗങ്ങൾ പിന്തുടരാൻ ഉപയോഗിക്കാം
## ഡാറ്റാ സയൻസ് + സുസ്ഥിരത
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Sustainability.png) |
| :---------------------------------------------------------------------------------------------------------------: |
| ഡാറ്റാ സയൻസ് & സുസ്ഥിരത - _സ്കെച്ച്നോട്ട് by [@nitya](https://twitter.com/nitya)_ |
[2030 സുസ്ഥിര വികസന അജണ്ട](https://sdgs.un.org/2030agenda) - 2015-ൽ എല്ലാ ഐക്യരാഷ്ട്രസഭ അംഗങ്ങളും അംഗീകരിച്ചത് - 17 ലക്ഷ്യങ്ങൾ തിരിച്ചറിഞ്ഞു, അവയിൽ ചിലത് **ഗ്രഹത്തെ സംരക്ഷിക്കൽ** എന്നതും കാലാവസ്ഥാ മാറ്റത്തിന്റെ ബാധകൾ കുറയ്ക്കലും ഉൾക്കൊള്ളുന്നു. [Microsoft Sustainability](https://www.microsoft.com/en-us/sustainability) സംരംഭം ഈ ലക്ഷ്യങ്ങളെ പിന്തുണയ്ക്കുന്നു, 2030-ഓടെ കാർബൺ നെഗറ്റീവ്, വെള്ളം പോസിറ്റീവ്, പൂജ്യം മാലിന്യം, ബയോ-വൈവിധ്യമാർന്നതായ 4 ലക്ഷ്യങ്ങളിൽ [കേന്ദ്രീകരിച്ച്](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) സാങ്കേതിക പരിഹാരങ്ങൾ കണ്ടെത്താനും കൂടുതൽ സുസ്ഥിര ഭാവികൾ നിർമ്മിക്കാനും.
ഈ വെല്ലുവിളികൾ സ്കെയിലിലും സമയബന്ധിതവുമാകാൻ ക്ലൗഡ്-സ്കെയിൽ ചിന്തനവും വലിയ ഡാറ്റയും ആവശ്യമാണ്. [Planetary Computer](https://planetarycomputer.microsoft.com/) സംരംഭം ഡാറ്റാ സയന്റിസ്റ്റുകൾക്കും ഡെവലപ്പർമാർക്കും സഹായിക്കുന്ന 4 ഘടകങ്ങൾ നൽകുന്നു:
* [Data Catalog](https://planetarycomputer.microsoft.com/catalog) - പെടാബൈറ്റുകൾ അളവിലുള്ള ഭൂമിശാസ്ത്ര ഡാറ്റ (സൗജന്യവും Azure-ൽ ഹോസ്റ്റ് ചെയ്തതും).
* [Planetary API](https://planetarycomputer.microsoft.com/docs/reference/stac/) - ഉപയോക്താക്കൾക്ക് സ്ഥലം, സമയം എന്നിവയിൽ അനുയോജ്യമായ ഡാറ്റ തിരയാൻ സഹായിക്കുന്നു.
* [Hub](https://planetarycomputer.microsoft.com/docs/overview/environment/) - ശാസ്ത്രജ്ഞർക്ക് വൻഭൂമിശാസ്ത്ര ഡാറ്റാസെറ്റുകൾ പ്രോസസ്സ് ചെയ്യാൻ മാനേജുചെയ്യുന്ന പരിസ്ഥിതി.
Translation for chunk 2 of 'README.md' skipped due to timeout.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,52 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "d1e05715f9d97de6c4f1fb0c5a4702c0",
"translation_date": "2025-12-19T16:59:20+00:00",
"source_file": "6-Data-Science-In-Wild/20-Real-World-Examples/assignment.md",
"language_code": "ml"
}
-->
# ഒരു പ്ലാനറ്ററി കമ്പ്യൂട്ടർ ഡാറ്റാസെറ്റ് അന്വേഷിക്കുക
## നിർദ്ദേശങ്ങൾ
ഈ പാഠത്തിൽ, നാം വിവിധ ഡാറ്റാ സയൻസ് അപ്ലിക്കേഷൻ ഡൊമെയ്‌നുകൾക്കുറിച്ച് സംസാരിച്ചു - ഗവേഷണം, സുസ്ഥിരത, ഡിജിറ്റൽ ഹ്യൂമാനിറ്റീസ് എന്നിവയുമായി ബന്ധപ്പെട്ട ഉദാഹരണങ്ങളിൽ ആഴത്തിലുള്ള പഠനങ്ങൾ നടത്തി. ഈ അസൈൻമെന്റിൽ, നിങ്ങൾ ഈ ഉദാഹരണങ്ങളിൽ ഒന്നിനെ കൂടുതൽ വിശദമായി അന്വേഷിച്ച്, ഡാറ്റാ വിസ്വലൈസേഷനുകളും വിശകലനവും സംബന്ധിച്ച നിങ്ങളുടെ പഠനങ്ങൾ പ്രയോഗിച്ച് സുസ്ഥിരത ഡാറ്റയെക്കുറിച്ചുള്ള洞察ങ്ങൾ കണ്ടെത്തും.
[Planetary Computer](https://planetarycomputer.microsoft.com/) പ്രോജക്ടിന് അക്കൗണ്ട് ഉപയോഗിച്ച് ആക്സസ് ചെയ്യാവുന്ന ഡാറ്റാസെറ്റുകളും API കളും ഉണ്ട് - അസൈൻമെന്റിന്റെ ബോണസ് ഘട്ടം പരീക്ഷിക്കാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ ആക്സസ് ആവശ്യപ്പെടുക. സൈറ്റ് അക്കൗണ്ട് സൃഷ്ടിക്കാതെ ഉപയോഗിക്കാവുന്ന [Explorer](https://planetarycomputer.microsoft.com/explore) ഫീച്ചറും നൽകുന്നു.
`പടികൾ:`
Explorer ഇന്റർഫേസ് (താഴെ സ്ക്രീൻഷോട്ടിൽ കാണിക്കുന്നു) നിങ്ങൾക്ക് ഒരു ഡാറ്റാസെറ്റ് (നൽകിയിരിക്കുന്ന ഓപ്ഷനുകളിൽ നിന്ന്), ഒരു പ്രിസെറ്റ് ക്വറി (ഡാറ്റ ഫിൽട്ടർ ചെയ്യാൻ) ഒപ്പം ഒരു റെൻഡറിംഗ് ഓപ്ഷൻ (പ്രസക്തമായ വിസ്വലൈസേഷൻ സൃഷ്ടിക്കാൻ) തിരഞ്ഞെടുക്കാൻ അനുവദിക്കുന്നു. ഈ അസൈൻമെന്റിൽ, നിങ്ങളുടെ ജോലി:
1. [Explorer ഡോക്യുമെന്റേഷൻ](https://planetarycomputer.microsoft.com/docs/overview/explorer/) വായിക്കുക - ഓപ്ഷനുകൾ മനസിലാക്കുക.
2. ഡാറ്റാസെറ്റ് [കാറ്റലോഗ്](https://planetarycomputer.microsoft.com/catalog) പരിശോധിക്കുക - ഓരോന്നിന്റെയും ഉദ്ദേശ്യം പഠിക്കുക.
3. Explorer ഉപയോഗിക്കുക - താൽപ്പര്യമുള്ള ഒരു ഡാറ്റാസെറ്റ് തിരഞ്ഞെടുക്കുക, പ്രസക്തമായ ക്വറി & റെൻഡറിംഗ് ഓപ്ഷൻ തിരഞ്ഞെടുക്കുക.
![The Planetary Computer Explorer](../../../../translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.ml.png)
`നിങ്ങളുടെ ജോലി:`
ഇപ്പോൾ ബ്രൗസറിൽ റെൻഡർ ചെയ്ത വിസ്വലൈസേഷൻ പഠിച്ച് താഴെ പറയുന്നവയ്ക്ക് ഉത്തരം നൽകുക:
* ഡാറ്റാസെറ്റിന് എന്ത് _ഫീച്ചറുകൾ_ ഉണ്ട്?
* വിസ്വലൈസേഷൻ എന്ത് _洞察ങ്ങൾ_ അല്ലെങ്കിൽ ഫലങ്ങൾ നൽകുന്നു?
* ആ洞察ങ്ങൾ പ്രോജക്ടിന്റെ സുസ്ഥിരത ലക്ഷ്യങ്ങൾക്ക് എന്ത് _പ്രഭാവ_ ചെലുത്തുന്നു?
* വിസ്വലൈസേഷന്റെ _പരിമിതികൾ_ എന്തൊക്കെയാണ് (അഥവാ, നിങ്ങൾക്ക് ലഭിക്കാത്ത洞察ം എന്ത്?)
* നിങ്ങൾക്ക് റോ ഡാറ്റ ലഭിച്ചാൽ, നിങ്ങൾ എന്ത് _മാറ്റ വരുത്തിയ വിസ്വലൈസേഷനുകൾ_ സൃഷ്ടിക്കുമായിരുന്നു, എന്തുകൊണ്ട്?
`ബോണസ് പോയിന്റുകൾ:`
അക്കൗണ്ടിനായി അപേക്ഷിക്കുക - അംഗീകരിച്ചാൽ ലോഗിൻ ചെയ്യുക.
* _Launch Hub_ ഓപ്ഷൻ ഉപയോഗിച്ച് റോ ഡാറ്റ ഒരു നോട്ട്‌ബുക്കിൽ തുറക്കുക.
* ഡാറ്റ ഇന്ററാക്ടീവായി പരിശോധിച്ച്, നിങ്ങൾ ചിന്തിച്ച മാറ്റം വരുത്തിയ വിസ്വലൈസേഷനുകൾ നടപ്പിലാക്കുക.
* ഇപ്പോൾ നിങ്ങളുടെ കസ്റ്റം വിസ്വലൈസേഷനുകൾ വിശകലനം ചെയ്യുക - മുമ്പ് നഷ്ടപ്പെട്ട洞察ങ്ങൾ കണ്ടെത്താൻ കഴിഞ്ഞോ?
## റൂബ്രിക്
Exemplary | Adequate | Needs Improvement
--- | --- | -- |
അഞ്ചു പ്രധാന ചോദ്യങ്ങൾക്കും ഉത്തരം നൽകിയിട്ടുണ്ട്. വിദ്യാർത്ഥി നിലവിലുള്ളതും മാറ്റം വരുത്തിയതുമായ വിസ്വലൈസേഷനുകൾ സുസ്ഥിരത ലക്ഷ്യങ്ങളിലേക്കോ ഫലങ്ങളിലേക്കോ洞察ങ്ങൾ നൽകുന്നതെങ്ങനെ എന്ന് വ്യക്തമായി തിരിച്ചറിഞ്ഞിട്ടുണ്ട്.| വിദ്യാർത്ഥി കുറഞ്ഞത് മുകളിൽ പറഞ്ഞ 3 ചോദ്യങ്ങൾ വിശദമായി ഉത്തരം നൽകിയിട്ടുണ്ട്, Explorer ഉപയോഗത്തിൽ പ്രായോഗിക പരിചയം തെളിയിക്കുന്നു.| വിദ്യാർത്ഥി പല ചോദ്യങ്ങൾക്കും ഉത്തരം നൽകാൻ പരാജയപ്പെട്ടു, അല്ലെങ്കിൽ അപര്യാപ്തമായ വിശദാംശങ്ങൾ നൽകി - പ്രോജക്ടിനായി യഥാർത്ഥ ശ്രമം നടത്തിയില്ല എന്ന് സൂചിപ്പിക്കുന്നു.|
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "07faf02ff163e609edf0b0308dc5d4e6",
"translation_date": "2025-12-19T13:36:40+00:00",
"source_file": "6-Data-Science-In-Wild/README.md",
"language_code": "ml"
}
-->
# Data Science in the Wild
വ്യവസായങ്ങളിലുടനീളം ഡാറ്റാ സയൻസിന്റെ യഥാർത്ഥ ലോക പ്രയോഗങ്ങൾ.
### Topics
1. [Data Science in the Real World](20-Real-World-Examples/README.md)
### Credits
❤️ കൊണ്ട് എഴുതിയത് [Nitya Narasimhan](https://twitter.com/nitya)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,375 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "cc2e18ab65df63e75d3619c4752e9b22",
"translation_date": "2025-12-19T13:04:53+00:00",
"source_file": "AGENTS.md",
"language_code": "ml"
}
-->
# AGENTS.md
## പ്രോജക്ട് അവലോകനം
ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ് മൈക്രോസോഫ്റ്റ് അസ്യൂർ ക്ലൗഡ് അഡ്വക്കേറ്റ്സ് സൃഷ്ടിച്ച ഒരു സമഗ്രമായ 10 ആഴ്ച, 20 പാഠം കോഴ്സാണ്. ഈ റിപോസിറ്ററി പ്രോജക്ട് അടിസ്ഥാനമാക്കിയ പാഠങ്ങളിലൂടെ അടിസ്ഥാന ഡാറ്റാ സയൻസ് ആശയങ്ങൾ പഠിപ്പിക്കുന്ന ഒരു പഠന വിഭവമാണ്, ഇതിൽ Jupyter നോട്ട്‌ബുക്കുകൾ, ഇന്ററാക്ടീവ് ക്വിസുകൾ, ഹാൻഡ്‌സ്-ഓൺ അസൈൻമെന്റുകൾ ഉൾപ്പെടുന്നു.
**പ്രധാന സാങ്കേതികവിദ്യകൾ:**
- **Jupyter Notebooks**: Python 3 ഉപയോഗിച്ച് പ്രധാന പഠന മാധ്യമം
- **Python ലൈബ്രറികൾ**: pandas, numpy, matplotlib ഡാറ്റാ വിശകലനത്തിനും ദൃശ്യീകരണത്തിനും
- **Vue.js 2**: ക്വിസ് അപ്ലിക്കേഷൻ (quiz-app ഫോൾഡർ)
- **Docsify**: ഓഫ്‌ലൈൻ ആക്സസ്‌ക്കായി ഡോക്യുമെന്റേഷൻ സൈറ്റ് ജനറേറ്റർ
- **Node.js/npm**: ജാവാസ്ക്രിപ്റ്റ് ഘടകങ്ങൾക്ക് പാക്കേജ് മാനേജ്മെന്റ്
- **Markdown**: എല്ലാ പാഠം ഉള്ളടക്കവും ഡോക്യുമെന്റേഷനും
**ആർക്കിടെക്ചർ:**
- വ്യാപകമായ ഭാഷാന്തരങ്ങളുള്ള ബഹുഭാഷാ വിദ്യാഭ്യാസ റിപോസിറ്ററി
- പാഠം മോഡ്യൂളുകളായി ഘടിപ്പിച്ചിരിക്കുന്നു (1-Introduction മുതൽ 6-Data-Science-In-Wild വരെ)
- ഓരോ പാഠത്തിലും README, നോട്ട്‌ബുക്കുകൾ, അസൈൻമെന്റുകൾ, ക്വിസുകൾ ഉൾപ്പെടുന്നു
- പാഠത്തിന് മുൻപും ശേഷവും മൂല്യനിർണയത്തിനായി സ്റ്റാൻഡ്എലോൺ Vue.js ക്വിസ് അപ്ലിക്കേഷൻ
- GitHub Codespaces, VS Code ഡെവ് കണ്ടെയ്‌നറുകൾ പിന്തുണ
## സെറ്റപ്പ് കമാൻഡുകൾ
### റിപോസിറ്ററി സെറ്റപ്പ്
```bash
# റിപ്പോസിറ്ററി ക്ലോൺ ചെയ്യുക (ഇതിനുമുമ്പ് ക്ലോൺ ചെയ്തിട്ടില്ലെങ്കിൽ)
git clone https://github.com/microsoft/Data-Science-For-Beginners.git
cd Data-Science-For-Beginners
```
### Python പരിസ്ഥിതി സെറ്റപ്പ്
```bash
# ഒരു വെർച്വൽ എൻവയോൺമെന്റ് സൃഷ്ടിക്കുക (ശുപാർശ ചെയ്യുന്നു)
python -m venv venv
source venv/bin/activate # വിൻഡോസ്-ൽ: venv\Scripts\activate
# പൊതുവായ ഡാറ്റാ സയൻസ് ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്യുക (requirements.txt ഇല്ല)
pip install jupyter pandas numpy matplotlib seaborn scikit-learn
```
### ക്വിസ് അപ്ലിക്കേഷൻ സെറ്റപ്പ്
```bash
# ക്വിസ് ആപ്പിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd quiz-app
# ആശ്രിതങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുക
npm install
# ഡെവലപ്പ്മെന്റ് സർവർ ആരംഭിക്കുക
npm run serve
# പ്രൊഡക്ഷനായി ബിൽഡ് ചെയ്യുക
npm run build
# ലിന്റ് ചെയ്ത് ഫയലുകൾ ശരിയാക്കുക
npm run lint
```
### Docsify ഡോക്യുമെന്റേഷൻ സർവർ
```bash
# ഡോക്സിഫൈ ഗ്ലോബലായി ഇൻസ്റ്റാൾ ചെയ്യുക
npm install -g docsify-cli
# ഡോക്യുമെന്റേഷൻ ലോക്കലായി സർവ് ചെയ്യുക
docsify serve
# ഡോക്യുമെന്റേഷൻ localhost:3000 ൽ ലഭ്യമായിരിക്കും
```
### ദൃശ്യീകരണ പ്രോജക്ടുകൾ സെറ്റപ്പ്
meaningful-visualizations പോലുള്ള ദൃശ്യീകരണ പ്രോജക്ടുകൾക്കായി (പാഠം 13):
```bash
# സ്റ്റാർട്ടർ അല്ലെങ്കിൽ സൊല്യൂഷൻ ഫോൾഡറിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd 3-Data-Visualization/13-meaningful-visualizations/starter
# ആശ്രിതങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുക
npm install
# ഡെവലപ്പ്മെന്റ് സർവർ ആരംഭിക്കുക
npm run serve
# പ്രൊഡക്ഷനായി ബിൽഡ് ചെയ്യുക
npm run build
# ഫയലുകൾ ലിന്റ് ചെയ്യുക
npm run lint
```
## ഡെവലപ്പ്മെന്റ് വർക്ക്‌ഫ്ലോ
### Jupyter നോട്ട്‌ബുക്കുകളുമായി പ്രവർത്തിക്കൽ
1. റിപോസിറ്ററി റൂട്ടിൽ Jupyter ആരംഭിക്കുക: `jupyter notebook`
2. ആവശ്യമായ പാഠ ഫോൾഡറിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
3. `.ipynb` ഫയലുകൾ തുറന്ന് അഭ്യാസങ്ങൾ ചെയ്യുക
4. നോട്ട്‌ബുക്കുകൾ സ്വയം സമ്പൂർണമാണ്, വിശദീകരണങ്ങളും കോഡ് സെല്ലുകളും ഉൾപ്പെടുന്നു
5. മിക്ക നോട്ട്‌ബുക്കുകളും pandas, numpy, matplotlib ഉപയോഗിക്കുന്നു - ഇവ ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക
### പാഠ ഘടന
ഓരോ പാഠവും സാധാരണയായി ഉൾക്കൊള്ളുന്നു:
- `README.md` - സിദ്ധാന്തവും ഉദാഹരണങ്ങളും ഉള്ള പ്രധാന പാഠം ഉള്ളടക്കം
- `notebook.ipynb` - ഹാൻഡ്‌സ്-ഓൺ Jupyter നോട്ട്‌ബുക്ക് അഭ്യാസങ്ങൾ
- `assignment.ipynb` അല്ലെങ്കിൽ `assignment.md` - പ്രാക്ടീസ് അസൈൻമെന്റുകൾ
- `solution/` ഫോൾഡർ - പരിഹാര നോട്ട്‌ബുക്കുകളും കോഡും
- `images/` ഫോൾഡർ - പിന്തുണയ്ക്കുന്ന ദൃശ്യ സാമഗ്രികൾ
### ക്വിസ് അപ്ലിക്കേഷൻ ഡെവലപ്പ്മെന്റ്
- ഡെവലപ്പ്മെന്റിനിടെ ഹോട്ട്-റീലോഡ് ഉള്ള Vue.js 2 അപ്ലിക്കേഷൻ
- ക്വിസുകൾ `quiz-app/src/assets/translations/` ൽ സൂക്ഷിക്കുന്നു
- ഓരോ ഭാഷക്കും സ്വന്തം ഭാഷാന്തര ഫോൾഡർ ഉണ്ട് (en, fr, es, മുതലായവ)
- ക്വിസ് നമ്പറിംഗ് 0 മുതൽ 39 വരെ (മൊത്തം 40 ക്വിസുകൾ)
### ഭാഷാന്തരങ്ങൾ ചേർക്കൽ
- ഭാഷാന്തരങ്ങൾ റിപോസിറ്ററി റൂട്ടിലുള്ള `translations/` ഫോൾഡറിൽ പോകും
- ഓരോ ഭാഷക്കും ഇംഗ്ലീഷിൽ നിന്നുള്ള പാഠ ഘടന പൂർണ്ണമായി മിറർ ചെയ്യുന്നു
- GitHub Actions വഴി സ്വയംഭാഷാന്തരം (co-op-translator.yml)
## ടെസ്റ്റിംഗ് നിർദ്ദേശങ്ങൾ
### ക്വിസ് അപ്ലിക്കേഷൻ ടെസ്റ്റിംഗ്
```bash
cd quiz-app
# ലിന്റ് പരിശോധനകൾ നടത്തുക
npm run lint
# ബിൽഡ് പ്രക്രിയ പരിശോധിക്കുക
npm run build
# മാനുവൽ ടെസ്റ്റിംഗ്: ഡെവ് സർവർ ആരംഭിച്ച് ക്വിസ് പ്രവർത്തനം സ്ഥിരീകരിക്കുക
npm run serve
```
### നോട്ട്‌ബുക്ക് ടെസ്റ്റിംഗ്
- നോട്ട്‌ബുക്കുകൾക്കായി യാന്ത്രിക ടെസ്റ്റ് ഫ്രെയിംവർക്ക് ഇല്ല
- മാനുവൽ പരിശോധന: എല്ലാ സെല്ലുകളും ക്രമത്തിൽ ഓടിക്കുക, പിശകുകൾ ഇല്ലെന്ന് ഉറപ്പാക്കുക
- ഡാറ്റാ ഫയലുകൾ ലഭ്യമാണ് എന്ന് പരിശോധിക്കുക, ഔട്ട്പുട്ടുകൾ ശരിയായി ഉണ്ടാകുന്നു എന്ന് ഉറപ്പാക്കുക
- ദൃശ്യീകരണങ്ങൾ ശരിയായി പ്രദർശിപ്പിക്കുന്നുണ്ടെന്ന് പരിശോധിക്കുക
### ഡോക്യുമെന്റേഷൻ ടെസ്റ്റിംഗ്
```bash
# ഡോക്സിഫൈ ശരിയായി റെൻഡർ ചെയ്യുന്നതായി സ്ഥിരീകരിക്കുക
docsify serve
# ഉള്ളടക്കം വഴി നാവിഗേറ്റ് ചെയ്ത് തകരാറുള്ള ലിങ്കുകൾ മാനുവലായി പരിശോധിക്കുക
# റെൻഡർ ചെയ്ത ഡോക്യുമെന്റേഷനിൽ എല്ലാ പാഠ ലിങ്കുകളും പ്രവർത്തിക്കുന്നുണ്ടെന്ന് സ്ഥിരീകരിക്കുക
```
### കോഡ് ഗുണനിലവാര പരിശോധനകൾ
```bash
# Vue.js പ്രോജക്ടുകൾ (ക്വിസ്-ആപ്പ് மற்றும் ദൃശ്യീകരണ പ്രോജക്ടുകൾ)
cd quiz-app # അല്ലെങ്കിൽ ദൃശ്യീകരണ പ്രോജക്ട് ഫോൾഡർ
npm run lint
# പൈത്തൺ നോട്ട്‌ബുക്കുകൾ - മാനുവൽ പരിശോധന ശുപാർശ ചെയ്യുന്നു
# ഇറക്കുമതികൾ പ്രവർത്തിക്കുന്നുവെന്ന് ഉറപ്പാക്കുക, സെല്ലുകൾ പിശകുകൾ കൂടാതെ പ്രവർത്തിക്കണം
```
## കോഡ് സ്റ്റൈൽ മാർഗ്ഗനിർദ്ദേശങ്ങൾ
### Python (Jupyter നോട്ട്‌ബുക്കുകൾ)
- Python കോഡിനായി PEP 8 സ്റ്റൈൽ മാർഗ്ഗനിർദ്ദേശങ്ങൾ പാലിക്കുക
- ഡാറ്റ വിശകലനത്തിന് വ്യക്തമായ വേരിയബിൾ നാമങ്ങൾ ഉപയോഗിക്കുക
- കോഡ് സെല്ലുകൾക്ക് മുമ്പ് വിശദീകരണങ്ങളുള്ള മാർക്ക്ഡൗൺ സെല്ലുകൾ ഉൾപ്പെടുത്തുക
- കോഡ് സെല്ലുകൾ ഏക ആശയങ്ങളിലോ പ്രവർത്തനങ്ങളിലോ കേന്ദ്രീകരിക്കുക
- ഡാറ്റ മാനിപ്പുലേഷനായി pandas, ദൃശ്യീകരണത്തിന് matplotlib ഉപയോഗിക്കുക
- സാധാരണ ഇംപോർട്ട് പാറ്റേൺ:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
```
### ജാവാസ്ക്രിപ്റ്റ്/Vue.js
- Vue.js 2 സ്റ്റൈൽ ഗൈഡ്, മികച്ച പ്രാക്ടീസുകൾ പാലിക്കുക
- `quiz-app/package.json` ൽ ESLint കോൺഫിഗറേഷൻ
- Vue സിംഗിൾ-ഫയൽ കോംപോണന്റുകൾ (.vue ഫയലുകൾ) ഉപയോഗിക്കുക
- കോംപോണന്റ് അടിസ്ഥാന ആർക്കിടെക്ചർ നിലനിർത്തുക
- മാറ്റങ്ങൾ കമ്മിറ്റ് ചെയ്യുന്നതിന് മുമ്പ് `npm run lint` ഓടിക്കുക
### മാർക്ക്ഡൗൺ ഡോക്യുമെന്റേഷൻ
- വ്യക്തമായ തലക്കെട്ടുകളുടെ ക്രമം (# ## ### മുതലായവ) ഉപയോഗിക്കുക
- ഭാഷാ നിർദ്ദേശകങ്ങളോടുകൂടിയ കോഡ് ബ്ലോക്കുകൾ ഉൾപ്പെടുത്തുക
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് ചേർക്കുക
- ബന്ധപ്പെട്ട പാഠങ്ങൾക്കും വിഭവങ്ങൾക്കും ലിങ്കുകൾ നൽകുക
- വായനാസൗകര്യത്തിന് ലൈൻ നീളം യുക്തമായിരിക്കണം
### ഫയൽ ഓർഗനൈസേഷൻ
- പാഠം ഉള്ളടക്കം നമ്പർ ചെയ്ത ഫോൾഡറുകളിൽ (01-defining-data-science മുതലായവ)
- പരിഹാരങ്ങൾ പ്രത്യേക `solution/` സബ്‌ഫോൾഡറുകളിൽ
- ഭാഷാന്തരങ്ങൾ ഇംഗ്ലീഷ് ഘടനയുടെ മിറർ `translations/` ഫോൾഡറിൽ
- ഡാറ്റാ ഫയലുകൾ `data/` അല്ലെങ്കിൽ പാഠം-നിർദ്ദിഷ്ട ഫോൾഡറുകളിൽ സൂക്ഷിക്കുക
## ബിൽഡ് ആൻഡ് ഡിപ്ലോയ്മെന്റ്
### ക്വിസ് അപ്ലിക്കേഷൻ ഡിപ്ലോയ്മെന്റ്
```bash
cd quiz-app
# പ്രൊഡക്ഷൻ പതിപ്പ് നിർമ്മിക്കുക
npm run build
# ഔട്ട്പുട്ട് dist/ ഫോൾഡറിൽ ആണ്
# dist/ ഫോൾഡർ സ്റ്റാറ്റിക് ഹോസ്റ്റിംഗിലേക്ക് ഡിപ്ലോയ് ചെയ്യുക (Azure Static Web Apps, Netlify, മുതലായവ)
```
### Azure Static Web Apps ഡിപ്ലോയ്മെന്റ്
quiz-app Azure Static Web Apps-ലേക്ക് ഡിപ്ലോയ് ചെയ്യാം:
1. Azure Static Web App റിസോഴ്‌സ് സൃഷ്ടിക്കുക
2. GitHub റിപോസിറ്ററിയുമായി കണക്ട് ചെയ്യുക
3. ബിൽഡ് സെറ്റിംഗുകൾ ക്രമീകരിക്കുക:
- ആപ്പ് ലൊക്കേഷൻ: `quiz-app`
- ഔട്ട്പുട്ട് ലൊക്കേഷൻ: `dist`
4. GitHub Actions workflow പുഷ് ചെയ്യുമ്പോൾ സ്വയം ഡിപ്ലോയ് ചെയ്യും
### ഡോക്യുമെന്റേഷൻ സൈറ്റ്
```bash
# ഡോക്സിഫൈയിൽ നിന്ന് PDF നിർമ്മിക്കുക (ഐച്ഛികം)
npm run convert
# ഡോക്സിഫൈ ഡോക്യുമെന്റേഷൻ മാർക്ക്ഡൗൺ ഫയലുകളിൽ നിന്ന് നേരിട്ട് സേവനം ചെയ്യുന്നു
# വിന്യസത്തിനായി ബിൽഡ് ഘട്ടം ആവശ്യമില്ല
# ഡോക്സിഫൈ ഉപയോഗിച്ച് സ്റ്റാറ്റിക് ഹോസ്റ്റിംഗിലേക്ക് റിപോസിറ്ററി വിന്യസിക്കുക
```
### GitHub Codespaces
- റിപോസിറ്ററിയിൽ ഡെവ് കണ്ടെയ്‌നർ കോൺഫിഗറേഷൻ ഉൾപ്പെടുന്നു
- Codespaces സ്വയം Python, Node.js പരിസ്ഥിതി സജ്ജമാക്കുന്നു
- GitHub UI വഴി Codespace-ൽ റിപോസിറ്ററി തുറക്കുക
- എല്ലാ ആശ്രിതങ്ങളും സ്വയം ഇൻസ്റ്റാൾ ചെയ്യും
## പുൾ റിക്വസ്റ്റ് മാർഗ്ഗനിർദ്ദേശങ്ങൾ
### സമർപ്പിക്കുന്നതിന് മുമ്പ്
```bash
# quiz-app ൽ Vue.js മാറ്റങ്ങൾക്കായി
cd quiz-app
npm run lint
npm run build
# മാറ്റങ്ങൾ പ്രാദേശികമായി പരീക്ഷിക്കുക
npm run serve
```
### PR തലക്കെട്ട് ഫോർമാറ്റ്
- വ്യക്തവും വിവരണാത്മകവുമായ തലക്കെട്ടുകൾ ഉപയോഗിക്കുക
- ഫോർമാറ്റ്: `[Component] Breif description`
- ഉദാഹരണങ്ങൾ:
- `[Lesson 7] Python നോട്ട്‌ബുക്ക് ഇംപോർട്ട് പിശക് പരിഹരിക്കുക`
- `[Quiz App] ജർമ്മൻ ഭാഷാന്തരം ചേർക്കുക`
- `[Docs] README പുതിയ മുൻ‌അവശ്യങ്ങൾ ഉൾപ്പെടുത്തി അപ്ഡേറ്റ് ചെയ്യുക`
### ആവശ്യമായ പരിശോധനകൾ
- എല്ലാ കോഡും പിശകുകൾ കൂടാതെ പ്രവർത്തിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക
- നോട്ട്‌ബുക്കുകൾ പൂർണ്ണമായി എക്സിക്യൂട്ട് ചെയ്യുക
- Vue.js അപ്ലിക്കേഷനുകൾ വിജയകരമായി ബിൽഡ് ചെയ്യുക
- ഡോക്യുമെന്റേഷൻ ലിങ്കുകൾ പ്രവർത്തിക്കുന്നുണ്ടെന്ന് പരിശോധിക്കുക
- ക്വിസ് അപ്ലിക്കേഷൻ മാറ്റിയെങ്കിൽ ടെസ്റ്റ് ചെയ്യുക
- ഭാഷാന്തരങ്ങൾ ഘടനയിൽ സ്ഥിരത പാലിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക
### സംഭാവന മാർഗ്ഗനിർദ്ദേശങ്ങൾ
- നിലവിലുള്ള കോഡ് സ്റ്റൈൽ, പാറ്റേണുകൾ പാലിക്കുക
- സങ്കീർണ്ണമായ ലജിക് വിശദീകരിക്കുന്ന കമന്റുകൾ ചേർക്കുക
- ബന്ധപ്പെട്ട ഡോക്യുമെന്റേഷൻ അപ്ഡേറ്റ് ചെയ്യുക
- ആവശ്യമായ പക്ഷം വ്യത്യസ്ത പാഠ മോഡ്യൂളുകളിൽ മാറ്റങ്ങൾ പരീക്ഷിക്കുക
- CONTRIBUTING.md ഫയൽ പരിശോധിക്കുക
## അധിക കുറിപ്പുകൾ
### സാധാരണ ഉപയോഗിക്കുന്ന ലൈബ്രറികൾ
- **pandas**: ഡാറ്റ മാനിപ്പുലേഷൻ, വിശകലനം
- **numpy**: സംഖ്യാത്മക കംപ്യൂട്ടിംഗ്
- **matplotlib**: ഡാറ്റാ ദൃശ്യീകരണം, പ്ലോട്ടിംഗ്
- **seaborn**: സ്റ്റാറ്റിസ്റ്റിക്കൽ ഡാറ്റാ ദൃശ്യീകരണം (ചില പാഠങ്ങൾ)
- **scikit-learn**: മെഷീൻ ലേണിംഗ് (ഉന്നത പാഠങ്ങൾ)
### ഡാറ്റാ ഫയലുകളുമായി പ്രവർത്തിക്കൽ
- ഡാറ്റാ ഫയലുകൾ `data/` ഫോൾഡറിലോ പാഠം-നിർദ്ദിഷ്ട ഡയറക്ടറികളിലോ
- മിക്ക നോട്ട്‌ബുക്കുകളും സാപേക്ഷ പാതകളിൽ ഡാറ്റാ ഫയലുകൾ പ്രതീക്ഷിക്കുന്നു
- CSV ഫയലുകൾ പ്രധാന ഡാറ്റാ ഫോർമാറ്റ്
- ചില പാഠങ്ങൾ JSON ഉപയോഗിക്കുന്നു നോൺ-റിലേഷണൽ ഡാറ്റാ ഉദാഹരണങ്ങൾക്ക്
### ബഹുഭാഷാ പിന്തുണ
- 40+ ഭാഷാന്തരങ്ങൾ GitHub Actions വഴി സ്വയംഭാഷാന്തരം
- ഭാഷാന്തരം വർക്ക്‌ഫ്ലോ `.github/workflows/co-op-translator.yml`
- ഭാഷാന്തരങ്ങൾ `translations/` ഫോൾഡറിൽ ഭാഷാ കോഡുകളോടെ
- ക്വിസ് ഭാഷാന്തരങ്ങൾ `quiz-app/src/assets/translations/`
### ഡെവലപ്പ്മെന്റ് പരിസ്ഥിതി ഓപ്ഷനുകൾ
1. **ലോകൽ ഡെവലപ്പ്മെന്റ്**: Python, Jupyter, Node.js ലോക്കലായി ഇൻസ്റ്റാൾ ചെയ്യുക
2. **GitHub Codespaces**: ക്ലൗഡ് അടിസ്ഥാന ഡെവലപ്പ്മെന്റ് പരിസ്ഥിതി
3. **VS Code ഡെവ് കണ്ടെയ്‌നറുകൾ**: ലോക്കൽ കണ്ടെയ്‌നർ അടിസ്ഥാന ഡെവലപ്പ്മെന്റ്
4. **Binder**: ക്ലൗഡിൽ നോട്ട്‌ബുക്കുകൾ ആരംഭിക്കുക (കൺഫിഗർ ചെയ്താൽ)
### പാഠം ഉള്ളടക്കം മാർഗ്ഗനിർദ്ദേശങ്ങൾ
- ഓരോ പാഠവും സ്വതന്ത്രമാണ്, മുൻ ആശയങ്ങളിൽ അടിസ്ഥാനമാക്കിയുള്ളത്
- പാഠത്തിന് മുൻപ് ക്വിസുകൾ മുൻ അറിവ് പരിശോധിക്കുന്നു
- പാഠത്തിന് ശേഷം ക്വിസുകൾ പഠനം ശക്തിപ്പെടുത്തുന്നു
- അസൈൻമെന്റുകൾ ഹാൻഡ്‌സ്-ഓൺ അഭ്യാസം നൽകുന്നു
- സ്കെച്ച്നോട്ടുകൾ ദൃശ്യ സംഗ്രഹങ്ങൾ നൽകുന്നു
### സാധാരണ പ്രശ്നങ്ങൾ പരിഹരിക്കൽ
**Jupyter Kernel പ്രശ്നങ്ങൾ:**
```bash
# ശരിയായ കർണൽ ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക
python -m ipykernel install --user --name=datascience
```
**npm ഇൻസ്റ്റാൾ പരാജയങ്ങൾ:**
```bash
# npm കാഷെ ക്ലിയർ ചെയ്ത് വീണ്ടും ശ്രമിക്കുക
npm cache clean --force
rm -rf node_modules package-lock.json
npm install
```
**നോട്ട്‌ബുക്കുകളിൽ ഇംപോർട്ട് പിശകുകൾ:**
- ആവശ്യമായ എല്ലാ ലൈബ്രറികളും ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക
- Python പതിപ്പ് അനുയോജ്യമാണ് എന്ന് പരിശോധിക്കുക (Python 3.7+ ശുപാർശ)
- വെർച്വൽ എൻവയോൺമെന്റ് സജീവമാക്കിയിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക
**Docsify ലോഡ് ചെയ്യാത്തത്:**
- റിപോസിറ്ററി റൂട്ടിൽ നിന്ന് സർവ് ചെയ്യുന്നതാണെന്ന് ഉറപ്പാക്കുക
- `index.html` നിലവിലുണ്ടെന്ന് പരിശോധിക്കുക
- ശരിയായ നെറ്റ്‌വർക്ക് ആക്സസ് (പോർട്ട് 3000) ഉറപ്പാക്കുക
### പ്രകടന പരിഗണനകൾ
- വലിയ ഡാറ്റാസെറ്റുകൾ നോട്ട്‌ബുക്കുകളിൽ ലോഡ് ചെയ്യാൻ സമയം എടുക്കാം
- സങ്കീർണ്ണമായ പ്ലോട്ടുകൾക്ക് ദൃശ്യീകരണം മന്ദഗതിയിലാകാം
- Vue.js ഡെവ് സർവർ ഹോട്ട്-റീലോഡ് സജ്ജമാക്കുന്നു വേഗത്തിലുള്ള ഇറ്ററേഷനുകൾക്കായി
- പ്രൊഡക്ഷൻ ബിൽഡുകൾ ഒപ്റ്റിമൈസ്ഡ്, മിനിഫൈഡ്
### സുരക്ഷാ കുറിപ്പുകൾ
- സენსിറ്റീവ് ഡാറ്റ അല്ലെങ്കിൽ ക്രെഡൻഷ്യലുകൾ കമ്മിറ്റ് ചെയ്യരുത്
- ക്ലൗഡ് പാഠങ്ങളിൽ API കീകൾക്ക് എൻവയോൺമെന്റ് വേരിയബിളുകൾ ഉപയോഗിക്കുക
- അസ്യൂർ-ബന്ധപ്പെട്ട പാഠങ്ങൾക്ക് അസ്യൂർ അക്കൗണ്ട് ക്രെഡൻഷ്യലുകൾ ആവശ്യമാകാം
- സുരക്ഷാ പാച്ചുകൾക്കായി ആശ്രിതങ്ങൾ അപ്ഡേറ്റ് ചെയ്യുക
## ഭാഷാന്തരങ്ങളിൽ സംഭാവന
- GitHub Actions വഴി സ്വയംഭാഷാന്തരം നിയന്ത്രിക്കുന്നു
- ഭാഷാന്തര കൃത്യതയ്ക്കായി മാനുവൽ തിരുത്തലുകൾ സ്വാഗതം
- നിലവിലുള്ള ഭാഷാന്തര ഫോൾഡർ ഘടന പാലിക്കുക
- ക്വിസ് ലിങ്കുകളിൽ ഭാഷാ പാരാമീറ്റർ ചേർക്കുക: `?loc=fr`
- ഭാഷാന്തര പാഠങ്ങൾ ശരിയായി പ്രദർശിപ്പിക്കുന്നുണ്ടെന്ന് ടെസ്റ്റ് ചെയ്യുക
## ബന്ധപ്പെട്ട വിഭവങ്ങൾ
- പ്രധാന കോഴ്സ്: https://aka.ms/datascience-beginners
- Microsoft Learn: https://docs.microsoft.com/learn/
- Student Hub: https://docs.microsoft.com/learn/student-hub
- ചർച്ച ഫോറം: https://github.com/microsoft/Data-Science-For-Beginners/discussions
- മറ്റ് Microsoft കോഴ്സുകൾ: ML for Beginners, AI for Beginners, Web Dev for Beginners
## പ്രോജക്ട് പരിപാലനം
- ഉള്ളടക്കം പുതുക്കാൻ സ്ഥിരം അപ്ഡേറ്റുകൾ
- കമ്മ്യൂണിറ്റി സംഭാവനകൾ സ്വാഗതം
- പ്രശ്നങ്ങൾ GitHub-ൽ ട്രാക്ക് ചെയ്യുന്നു
- PR-കൾ കോഴ്സ് പരിപാലകർ പരിശോധിക്കുന്നു
- മാസാന്തം ഉള്ളടക്കം അവലോകനവും അപ്ഡേറ്റും
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,25 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "c06b12caf3c901eb3156e3dd5b0aea56",
"translation_date": "2025-12-19T13:09:06+00:00",
"source_file": "CODE_OF_CONDUCT.md",
"language_code": "ml"
}
-->
# Microsoft ഓപ്പൺ സോഴ്‌സ് കോഡ് ഓഫ് കണ്ടക്റ്റ്
ഈ പ്രോജക്ട് [Microsoft Open Source Code of Conduct](https://opensource.microsoft.com/codeofconduct/) സ്വീകരിച്ചിട്ടുണ്ട്.
Resources:
- [Microsoft Open Source Code of Conduct](https://opensource.microsoft.com/codeofconduct/)
- [Microsoft Code of Conduct FAQ](https://opensource.microsoft.com/codeofconduct/faq/)
- ചോദ്യങ്ങൾക്കോ ആശങ്കകൾക്കോ [opencode@microsoft.com](mailto:opencode@microsoft.com) എന്ന വിലാസത്തിൽ ബന്ധപ്പെടുക
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,363 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "10f86fb29b5407088445ac803b3d0ed1",
"translation_date": "2025-12-19T12:49:34+00:00",
"source_file": "CONTRIBUTING.md",
"language_code": "ml"
}
-->
# Data Science for Beginners-ലേക്ക് സംഭാവന ചെയ്യുക
Data Science for Beginners പാഠ്യപദ്ധതിയിലേക്ക് സംഭാവന ചെയ്യുന്നതിൽ താൽപര്യമുള്ളതിന് നന്ദി! സമൂഹത്തിൽ നിന്നുള്ള സംഭാവനകൾ ഞങ്ങൾ സ്വാഗതം ചെയ്യുന്നു.
## ഉള്ളടക്ക പട്ടിക
- [നടപടികളുടെ കോഡ്](../..)
- [ഞാൻ എങ്ങനെ സംഭാവന ചെയ്യാം?](../..)
- [ആരംഭിക്കുന്നത്](../..)
- [സംഭാവന മാർഗ്ഗനിർദ്ദേശങ്ങൾ](../..)
- [പുൾ അഭ്യർത്ഥന പ്രക്രിയ](../..)
- [ശൈലി മാർഗ്ഗനിർദ്ദേശങ്ങൾ](../..)
- [സംഭാവനാ ലൈസൻസ് കരാർ](../..)
## നടപ്പടികളുടെ കോഡ്
ഈ പ്രോജക്റ്റ് [Microsoft Open Source Code of Conduct](https://opensource.microsoft.com/codeofconduct/) സ്വീകരിച്ചിട്ടുണ്ട്. കൂടുതൽ വിവരങ്ങൾക്ക് [Code of Conduct FAQ](https://opensource.microsoft.com/codeofconduct/faq/) കാണുക അല്ലെങ്കിൽ [opencode@microsoft.com](mailto:opencode@microsoft.com) എന്ന വിലാസത്തിൽ അധിക ചോദ്യങ്ങൾക്കോ അഭിപ്രായങ്ങൾക്കോ ബന്ധപ്പെടുക.
## ഞാൻ എങ്ങനെ സംഭാവന ചെയ്യാം?
### പിശകുകൾ റിപ്പോർട്ട് ചെയ്യൽ
പിശകുകൾ റിപ്പോർട്ട് ചെയ്യുന്നതിന് മുമ്പ്, പുനരാവൃതികൾ ഒഴിവാക്കാൻ നിലവിലുള്ള പ്രശ്നങ്ങൾ പരിശോധിക്കുക. പിശക് റിപ്പോർട്ട് ചെയ്യുമ്പോൾ, 가능한ത്ര വിശദാംശങ്ങൾ ഉൾപ്പെടുത്തുക:
- **വ്യക്തമായ, വിവരണാത്മകമായ തലക്കെട്ട് ഉപയോഗിക്കുക**
- **പ്രശ്നം പുനരാവർത്തിപ്പെടുത്താനുള്ള കൃത്യമായ ഘട്ടങ്ങൾ വിവരിക്കുക**
- **നിർദ്ദിഷ്ട ഉദാഹരണങ്ങൾ നൽകുക** (കോഡ് സ്നിപ്പറ്റുകൾ, സ്ക്രീൻഷോട്ടുകൾ)
- **നിങ്ങൾ കണ്ട പെരുമാറ്റവും പ്രതീക്ഷിച്ചതും വിവരിക്കുക**
- **നിങ്ങളുടെ പരിസ്ഥിതി വിശദാംശങ്ങൾ ഉൾപ്പെടുത്തുക** (ഓപ്പറേറ്റിംഗ് സിസ്റ്റം, Python പതിപ്പ്, ബ്രൗസർ)
### മെച്ചപ്പെടുത്തലുകൾ നിർദ്ദേശിക്കൽ
മെച്ചപ്പെടുത്തലുകൾ നിർദ്ദേശിക്കുന്നത് സ്വാഗതം ചെയ്യുന്നു! നിർദ്ദേശിക്കുമ്പോൾ:
- **വ്യക്തമായ, വിവരണാത്മകമായ തലക്കെട്ട് ഉപയോഗിക്കുക**
- **നിർദ്ദേശിച്ച മെച്ചപ്പെടുത്തലിന്റെ വിശദമായ വിവരണം നൽകുക**
- **ഈ മെച്ചപ്പെടുത്തൽ എങ്ങനെ പ്രയോജനകരമാകും എന്ന് വിശദീകരിക്കുക**
- **അന്യ പ്രോജക്റ്റുകളിൽ സമാനമായ ഫീച്ചറുകൾ ഉണ്ടെങ്കിൽ അവ പട്ടികപ്പെടുത്തുക**
### ഡോക്യുമെന്റേഷൻ സംഭാവന
ഡോക്യുമെന്റേഷൻ മെച്ചപ്പെടുത്തലുകൾ എപ്പോഴും അഭിനന്ദനാർഹമാണ്:
- **വ്യാകരണ പിശകുകളും ടൈപ്പോകളും ശരിയാക്കുക**
- **വിവരണങ്ങളുടെ വ്യക്തത മെച്ചപ്പെടുത്തുക**
- **കാണാതിരുന്ന ഡോക്യുമെന്റേഷൻ ചേർക്കുക**
- **പഴയ വിവരങ്ങൾ പുതുക്കുക**
- **ഉദാഹരണങ്ങൾ അല്ലെങ്കിൽ ഉപയോഗ കേസുകൾ ചേർക്കുക**
### കോഡ് സംഭാവന
നാം കോഡ് സംഭാവനകൾ സ്വാഗതം ചെയ്യുന്നു, അതിൽ ഉൾപ്പെടുന്നു:
- **പുതിയ പാഠങ്ങൾ അല്ലെങ്കിൽ അഭ്യാസങ്ങൾ**
- **പിശക് പരിഹാരങ്ങൾ**
- **നിലവിലുള്ള നോട്ട്‌ബുക്കുകളിൽ മെച്ചപ്പെടുത്തലുകൾ**
- **പുതിയ ഡാറ്റാസെറ്റുകൾ അല്ലെങ്കിൽ ഉദാഹരണങ്ങൾ**
- **ക്വിസ് ആപ്പ് മെച്ചപ്പെടുത്തലുകൾ**
## ആരംഭിക്കുന്നത്
### മുൻകൂട്ടി ആവശ്യങ്ങൾ
സംഭാവന ചെയ്യുന്നതിന് മുമ്പ്, നിങ്ങൾക്കുണ്ടെന്ന് ഉറപ്പാക്കുക:
1. GitHub അക്കൗണ്ട്
2. നിങ്ങളുടെ സിസ്റ്റത്തിൽ Git ഇൻസ്റ്റാൾ ചെയ്തിട്ടുള്ളത്
3. Python 3.7+യും Jupyter-ഉം ഇൻസ്റ്റാൾ ചെയ്തിട്ടുള്ളത്
4. Node.js, npm (ക്വിസ് ആപ്പ് സംഭാവനകൾക്കായി)
5. പാഠ്യപദ്ധതി ഘടനയെ പരിചയമുള്ളത്
വിശദമായ സജ്ജീകരണ നിർദ്ദേശങ്ങൾക്കായി [INSTALLATION.md](INSTALLATION.md) കാണുക.
### Fork ചെയ്യുക, Clone ചെയ്യുക
1. GitHub-ൽ **റിപ്പോസിറ്ററി Fork ചെയ്യുക**
2. **നിങ്ങളുടെ Fork ലോക്കലായി Clone ചെയ്യുക**:
```bash
git clone https://github.com/YOUR-USERNAME/Data-Science-For-Beginners.git
cd Data-Science-For-Beginners
```
3. **Upstream remote ചേർക്കുക**:
```bash
git remote add upstream https://github.com/microsoft/Data-Science-For-Beginners.git
```
### ബ്രാഞ്ച് സൃഷ്ടിക്കുക
നിങ്ങളുടെ പ്രവർത്തനത്തിനായി പുതിയ ബ്രാഞ്ച് സൃഷ്ടിക്കുക:
```bash
git checkout -b feature/your-feature-name
# അല്ലെങ്കിൽ
git checkout -b fix/your-bug-fix
```
ബ്രാഞ്ച് നാമകരണം:
- `feature/` - പുതിയ ഫീച്ചറുകൾ അല്ലെങ്കിൽ പാഠങ്ങൾ
- `fix/` - പിശക് പരിഹാരങ്ങൾ
- `docs/` - ഡോക്യുമെന്റേഷൻ മാറ്റങ്ങൾ
- `refactor/` - കോഡ് പുനഃസംഘടനം
## സംഭാവന മാർഗ്ഗനിർദ്ദേശങ്ങൾ
### പാഠം ഉള്ളടക്കത്തിന്
പാഠങ്ങൾ സംഭാവന ചെയ്യുമ്പോൾ അല്ലെങ്കിൽ നിലവിലുള്ളവ മാറ്റുമ്പോൾ:
1. **നിലവിലുള്ള ഘടന പാലിക്കുക**:
- README.md-ൽ പാഠം ഉള്ളടക്കം
- Jupyter നോട്ട്‌ബുക്കിൽ അഭ്യാസങ്ങൾ
- അസൈൻമെന്റ് (ഉണ്ടെങ്കിൽ)
- മുൻകൂട്ടി, ശേഷമുള്ള ക്വിസുകൾക്ക് ലിങ്ക്
2. **ഈ ഘടകങ്ങൾ ഉൾപ്പെടുത്തുക**:
- വ്യക്തമായ പഠന ലക്ഷ്യങ്ങൾ
- ഘട്ടം ഘട്ടമായ വിശദീകരണങ്ങൾ
- കോഡ് ഉദാഹരണങ്ങൾ കമന്റുകളോടുകൂടി
- അഭ്യാസങ്ങൾ പ്രാക്ടീസിനായി
- അധിക സ്രോതസുകളിലേക്ക് ലിങ്കുകൾ
3. **പ്രവേശനയോഗ്യത ഉറപ്പാക്കുക**:
- വ്യക്തവും ലളിതവുമായ ഭാഷ ഉപയോഗിക്കുക
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് നൽകുക
- കോഡ് കമന്റുകൾ ഉൾപ്പെടുത്തുക
- വ്യത്യസ്ത പഠന ശൈലികൾ പരിഗണിക്കുക
### Jupyter നോട്ട്‌ബുക്കുകൾക്ക്
1. **കമ്മിറ്റ് ചെയ്യുന്നതിന് മുമ്പ് എല്ലാ ഔട്ട്പുട്ടുകളും ക്ലിയർ ചെയ്യുക**:
```bash
jupyter nbconvert --clear-output --inplace notebook.ipynb
```
2. **വിവരണങ്ങളോടെയുള്ള മാർക്ക്ഡൗൺ സെല്ലുകൾ ഉൾപ്പെടുത്തുക**
3. **സമാനമായ ഫോർമാറ്റിംഗ് ഉപയോഗിക്കുക**:
```python
# മുകളിൽ ലൈബ്രറികൾ ഇറക്കുമതി ചെയ്യുക
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# അർത്ഥമുള്ള വേരിയബിൾ നാമങ്ങൾ ഉപയോഗിക്കുക
# സങ്കീർണ്ണമായ പ്രവർത്തനങ്ങൾക്ക് കമന്റുകൾ ചേർക്കുക
# PEP 8 സ്റ്റൈൽ മാർഗ്ഗനിർദ്ദേശങ്ങൾ പാലിക്കുക
```
4. **നിങ്ങളുടെ നോട്ട്‌ബുക്ക് സമ്പൂർണമായി ടെസ്റ്റ് ചെയ്യുക**
### Python കോഡിനായി
[PEP 8](https://www.python.org/dev/peps/pep-0008/) ശൈലി മാർഗ്ഗനിർദ്ദേശങ്ങൾ പാലിക്കുക:
```python
# നല്ല പ്രാക്ടീസുകൾ
import pandas as pd
def calculate_mean(data):
"""Calculate the mean of a dataset.
Args:
data (list): List of numerical values
Returns:
float: Mean of the dataset
"""
return sum(data) / len(data)
```
### ക്വിസ് ആപ്പ് സംഭാവനകൾക്കായി
ക്വിസ് ആപ്പ് മാറ്റുമ്പോൾ:
1. **ലോക്കലായി ടെസ്റ്റ് ചെയ്യുക**:
```bash
cd quiz-app
npm install
npm run serve
```
2. **Linter ഓടിക്കുക**:
```bash
npm run lint
```
3. **സഫലമായി ബിൽഡ് ചെയ്യുക**:
```bash
npm run build
```
4. **Vue.js ശൈലി ഗൈഡ്**യും നിലവിലുള്ള മാതൃകകളും പാലിക്കുക
### വിവർത്തനങ്ങൾക്കായി
വിവർത്തനങ്ങൾ ചേർക്കുമ്പോൾ അല്ലെങ്കിൽ പുതുക്കുമ്പോൾ:
1. `translations/` ഫോൾഡറിലെ ഘടന പാലിക്കുക
2. ഭാഷാ കോഡ് ഫോൾഡർ നാമമായി ഉപയോഗിക്കുക (ഉദാ: ഫ്രഞ്ച്‌ക്കായി `fr`)
3. ഇംഗ്ലീഷ് പതിപ്പിന്റെ ഫയൽ ഘടന നിലനിർത്തുക
4. ക്വിസ് ലിങ്കുകൾ ഭാഷാ പാരാമീറ്റർ ഉൾക്കൊള്ളുന്നതായി പുതുക്കുക: `?loc=fr`
5. എല്ലാ ലിങ്കുകളും ഫോർമാറ്റിംഗും ടെസ്റ്റ് ചെയ്യുക
## പുൾ അഭ്യർത്ഥന പ്രക്രിയ
### സമർപ്പിക്കുന്നതിന് മുമ്പ്
1. **നിങ്ങളുടെ ബ്രാഞ്ച് ഏറ്റവും പുതിയ മാറ്റങ്ങളോടെ അപ്ഡേറ്റ് ചെയ്യുക**:
```bash
git fetch upstream
git rebase upstream/main
```
2. **നിങ്ങളുടെ മാറ്റങ്ങൾ ടെസ്റ്റ് ചെയ്യുക**:
- മാറ്റിയ എല്ലാ നോട്ട്‌ബുക്കുകളും ഓടിക്കുക
- ക്വിസ് ആപ്പ് മാറ്റിയെങ്കിൽ ടെസ്റ്റ് ചെയ്യുക
- എല്ലാ ലിങ്കുകളും പ്രവർത്തിക്കുന്നുവെന്ന് ഉറപ്പാക്കുക
- വാക്ക് പിശകുകളും വ്യാകരണ പിശകുകളും പരിശോധിക്കുക
3. **നിങ്ങളുടെ മാറ്റങ്ങൾ കമ്മിറ്റ് ചെയ്യുക**:
```bash
git add .
git commit -m "Brief description of changes"
```
വ്യക്തമായ കമ്മിറ്റ് സന്ദേശങ്ങൾ എഴുതുക:
- ഇപ്പോഴത്തെ കാലം ഉപയോഗിക്കുക ("Add feature" "Added feature" അല്ല)
- നിർദ്ദേശാത്മക വാചകം ഉപയോഗിക്കുക ("Move cursor to..." "Moves cursor to..." അല്ല)
- ആദ്യ വരി 72 അക്ഷരങ്ങളിൽ പരിമിതപ്പെടുത്തുക
- ബന്ധപ്പെട്ട പ്രശ്നങ്ങളും പുൾ അഭ്യർത്ഥനകളും സൂചിപ്പിക്കുക
4. **നിങ്ങളുടെ Fork-ലേക്ക് പുഷ് ചെയ്യുക**:
```bash
git push origin feature/your-feature-name
```
### പുൾ അഭ്യർത്ഥന സൃഷ്ടിക്കൽ
1. [റിപ്പോസിറ്ററിയിലേക്ക്](https://github.com/microsoft/Data-Science-For-Beginners) പോകുക
2. "Pull requests" → "New pull request" ക്ലിക്ക് ചെയ്യുക
3. "compare across forks" ക്ലിക്ക് ചെയ്യുക
4. നിങ്ങളുടെ Forkയു ബ്രാഞ്ചും തിരഞ്ഞെടുക്കുക
5. "Create pull request" ക്ലിക്ക് ചെയ്യുക
### PR തലക്കെട്ട് ഫോർമാറ്റ്
വ്യക്തവും വിവരണാത്മകവുമായ തലക്കെട്ടുകൾ ഈ ഫോർമാറ്റ് പാലിച്ച് ഉപയോഗിക്കുക:
```
[Component] Brief description
```
ഉദാഹരണങ്ങൾ:
- `[Lesson 7] Python നോട്ട്‌ബുക്ക് ഇമ്പോർട്ട് പിശക് പരിഹരിക്കുക`
- `[Quiz App] ജർമ്മൻ വിവർത്തനം ചേർക്കുക`
- `[Docs] README പുതിയ മുൻകൂട്ടി ആവശ്യങ്ങളോടെ അപ്ഡേറ്റ് ചെയ്യുക`
- `[Fix] Visualization പാഠത്തിലെ ഡാറ്റ പാത ശരിയാക്കുക`
### PR വിവരണം
നിങ്ങളുടെ PR വിവരണത്തിൽ ഉൾപ്പെടുത്തുക:
- **എന്ത്**: നിങ്ങൾ എന്ത് മാറ്റങ്ങൾ ചെയ്തു?
- **എന്തുകൊണ്ട്**: ഈ മാറ്റങ്ങൾ എന്തുകൊണ്ട് ആവശ്യമാണ്?
- **എങ്ങനെ**: മാറ്റങ്ങൾ എങ്ങനെ നടപ്പിലാക്കി?
- **ടെസ്റ്റിംഗ്**: മാറ്റങ്ങൾ എങ്ങനെ ടെസ്റ്റ് ചെയ്തു?
- **സ്ക്രീൻഷോട്ടുകൾ**: ദൃശ്യ മാറ്റങ്ങൾക്ക് സ്ക്രീൻഷോട്ടുകൾ ചേർക്കുക
- **ബന്ധപ്പെട്ട പ്രശ്നങ്ങൾ**: ബന്ധപ്പെട്ട പ്രശ്നങ്ങൾക്ക് ലിങ്ക് (ഉദാ: "Fixes #123")
### അവലോകന പ്രക്രിയ
1. **ഓട്ടോമേറ്റഡ് ചെക്കുകൾ** നിങ്ങളുടെ PR-ൽ ഓടും
2. **മെയിന്റെയ്‌നർമാർ** നിങ്ങളുടെ സംഭാവന പരിശോധിക്കും
3. **പ്രതികരണങ്ങൾ പരിഹരിക്കുക** അധിക കമ്മിറ്റുകൾ ചെയ്ത്
4. അംഗീകൃതമായാൽ, **മെയിന്റെയ്‌നർ നിങ്ങളുടെ PR മർജ് ചെയ്യും**
### നിങ്ങളുടെ PR മർജ് ചെയ്തശേഷം
1. നിങ്ങളുടെ ബ്രാഞ്ച് ഡിലീറ്റ് ചെയ്യുക:
```bash
git branch -d feature/your-feature-name
git push origin --delete feature/your-feature-name
```
2. നിങ്ങളുടെ Fork അപ്ഡേറ്റ് ചെയ്യുക:
```bash
git checkout main
git pull upstream main
git push origin main
```
## ശൈലി മാർഗ്ഗനിർദ്ദേശങ്ങൾ
### മാർക്ക്ഡൗൺ
- സ്ഥിരമായ തലക്കെട്ട് തലങ്ങൾ ഉപയോഗിക്കുക
- വിഭാഗങ്ങൾക്കിടയിൽ ശൂന്യ വരികൾ ഉൾപ്പെടുത്തുക
- ഭാഷാ നിർദ്ദേശങ്ങളോടെയുള്ള കോഡ് ബ്ലോക്കുകൾ ഉപയോഗിക്കുക:
````markdown
```python
import pandas as pd
```
````
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് ചേർക്കുക: `![Alt text](../../translated_images/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.ml.png)`
- വരി നീളം യുക്തമായിരിക്കണം (ഏകദേശം 80-100 അക്ഷരങ്ങൾ)
### Python
- PEP 8 ശൈലി ഗൈഡ് പാലിക്കുക
- അർത്ഥമുള്ള വേരിയബിൾ നാമങ്ങൾ ഉപയോഗിക്കുക
- ഫംഗ്ഷനുകൾക്ക് ഡോക്സ്ട്രിംഗുകൾ ചേർക്കുക
- ആവശ്യമായിടത്ത് ടൈപ്പ് ഹിന്റുകൾ ഉൾപ്പെടുത്തുക:
```python
def process_data(df: pd.DataFrame) -> pd.DataFrame:
"""Process the input dataframe."""
return df
```
### JavaScript/Vue.js
- Vue.js 2 ശൈലി ഗൈഡ് പാലിക്കുക
- നൽകിയ ESLint കോൺഫിഗറേഷൻ ഉപയോഗിക്കുക
- മോടുലാർ, പുനരുപയോഗയോഗ്യമായ ഘടകങ്ങൾ എഴുതുക
- സങ്കീർണ്ണമായ ലജിക് കമന്റുകളോടെ ചേർക്കുക
### ഫയൽ ഓർഗനൈസേഷൻ
- ബന്ധപ്പെട്ട ഫയലുകൾ ഒന്നിച്ച് സൂക്ഷിക്കുക
- വിവരണാത്മകമായ ഫയൽ നാമങ്ങൾ ഉപയോഗിക്കുക
- നിലവിലുള്ള ഡയറക്ടറി ഘടന പാലിക്കുക
- അനാവശ്യ ഫയലുകൾ (.DS_Store, .pyc, node_modules, തുടങ്ങിയവ) കമ്മിറ്റ് ചെയ്യരുത്
## സംഭാവനാ ലൈസൻസ് കരാർ
ഈ പ്രോജക്റ്റ് സംഭാവനകളും നിർദ്ദേശങ്ങളും സ്വാഗതം ചെയ്യുന്നു. ഭൂരിഭാഗം സംഭാവനകൾക്ക് Contributor License Agreement (CLA) യിൽ നിങ്ങൾക്ക് അവകാശമുണ്ടെന്ന്, ഞങ്ങൾക്ക് നിങ്ങളുടെ സംഭാവന ഉപയോഗിക്കാൻ അവകാശം നൽകുന്നതായി പ്രഖ്യാപിക്കുന്നതിന് സമ്മതിക്കേണ്ടതാണ്. വിശദാംശങ്ങൾക്ക് https://cla.microsoft.com കാണുക.
നിങ്ങൾ പുൾ അഭ്യർത്ഥന സമർപ്പിക്കുമ്പോൾ, CLA-ബോട്ട് സ്വയം നിങ്ങൾക്ക് CLA നൽകേണ്ടതുണ്ടോ എന്ന് നിർണ്ണയിച്ച് PR-നെ അനുയോജ്യമായി അലങ്കരിക്കും (ഉദാ: ലേബൽ, കമന്റ്). ബോട്ടിന്റെ നിർദ്ദേശങ്ങൾ പാലിക്കുക. ഞങ്ങളുടെ CLA ഉപയോഗിക്കുന്ന എല്ലാ റിപ്പോസിറ്ററികളിലും ഇത് ഒരിക്കൽ മാത്രം ചെയ്യേണ്ടതുണ്ട്.
## ചോദ്യങ്ങൾ?
- ഞങ്ങളുടെ [Discord ചാനൽ #data-science-for-beginners](https://aka.ms/ds4beginners/discord) പരിശോധിക്കുക
- ഞങ്ങളുടെ [Discord സമൂഹത്തിൽ](https://aka.ms/ds4beginners/discord) ചേരുക
- നിലവിലുള്ള [പ്രശ്നങ്ങൾ](https://github.com/microsoft/Data-Science-For-Beginners/issues)യും [പുൾ അഭ്യർത്ഥനകളും](https://github.com/microsoft/Data-Science-For-Beginners/pulls) അവലോകനം ചെയ്യുക
## നന്ദി!
നിങ്ങളുടെ സംഭാവനകൾ ഈ പാഠ്യപദ്ധതിയെ എല്ലാവർക്കും മെച്ചപ്പെടുത്തുന്നു. സംഭാവന ചെയ്യാൻ സമയം കണ്ടെത്തിയതിന് നന്ദി!
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,263 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a64d8afa22ffcc2016bb239188d6acb1",
"translation_date": "2025-12-19T13:11:42+00:00",
"source_file": "INSTALLATION.md",
"language_code": "ml"
}
-->
# ഇൻസ്റ്റലേഷൻ ഗൈഡ്
ഈ ഗൈഡ് ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ് പാഠ്യപദ്ധതിയുമായി പ്രവർത്തിക്കാൻ നിങ്ങളുടെ പരിസ്ഥിതി സജ്ജമാക്കുന്നതിൽ സഹായിക്കും.
## ഉള്ളടക്ക പട്ടിക
- [ആവശ്യമായ മുൻകൂട്ടി അറിവുകൾ](../..)
- [വേഗത്തിലുള്ള ആരംഭ ഓപ്ഷനുകൾ](../..)
- [ലോകൽ ഇൻസ്റ്റലേഷൻ](../..)
- [നിങ്ങളുടെ ഇൻസ്റ്റലേഷൻ പരിശോധിക്കുക](../..)
## ആവശ്യമായ മുൻകൂട്ടി അറിവുകൾ
തുടങ്ങുന്നതിന് മുമ്പ്, നിങ്ങൾക്കുണ്ടാകേണ്ടത്:
- കമാൻഡ് ലൈൻ/ടെർമിനലുമായി അടിസ്ഥാന പരിചയം
- ഒരു GitHub അക്കൗണ്ട് (ഉചിതം)
- പ്രാഥമിക സജ്ജീകരണത്തിനായി സ്ഥിരമായ ഇന്റർനെറ്റ് കണക്ഷൻ
## വേഗത്തിലുള്ള ആരംഭ ഓപ്ഷനുകൾ
### ഓപ്ഷൻ 1: GitHub Codespaces (ബിഗിനേഴ്സിന് ശുപാർശ ചെയ്യുന്നു)
ആരാധ്യമായ രീതിയിൽ തുടങ്ങാനുള്ള ഏറ്റവും എളുപ്പവഴി GitHub Codespaces ആണ്, ഇത് നിങ്ങളുടെ ബ്രൗസറിൽ പൂർണ്ണമായ ഡെവലപ്പ്മെന്റ് പരിസ്ഥിതി നൽകുന്നു.
1. [റിപ്പോസിറ്ററി](https://github.com/microsoft/Data-Science-For-Beginners) സന്ദർശിക്കുക
2. **Code** ഡ്രോപ്പ്ഡൗൺ മെനുവിൽ ക്ലിക്ക് ചെയ്യുക
3. **Codespaces** ടാബ് തിരഞ്ഞെടുക്കുക
4. **Create codespace on main** ക്ലിക്ക് ചെയ്യുക
5. പരിസ്ഥിതി ആരംഭിക്കാൻ കാത്തിരിക്കുക (2-3 മിനിറ്റ്)
നിങ്ങളുടെ പരിസ്ഥിതി ഇപ്പോൾ എല്ലാ ആശ്രിതങ്ങളും മുൻകൂട്ടി ഇൻസ്റ്റാൾ ചെയ്ത നിലയിലാണ്!
### ഓപ്ഷൻ 2: ലോകൽ ഡെവലപ്പ്മെന്റ്
നിങ്ങളുടെ സ്വന്തം കമ്പ്യൂട്ടറിൽ പ്രവർത്തിക്കാൻ, താഴെ നൽകിയ വിശദമായ നിർദ്ദേശങ്ങൾ പിന്തുടരുക.
## ലോകൽ ഇൻസ്റ്റലേഷൻ
### ഘട്ടം 1: Git ഇൻസ്റ്റാൾ ചെയ്യുക
Git റിപ്പോസിറ്ററി ക്ലോൺ ചെയ്യാനും നിങ്ങളുടെ മാറ്റങ്ങൾ ട്രാക്ക് ചെയ്യാനും ആവശ്യമാണ്.
**Windows:**
- [git-scm.com](https://git-scm.com/download/win) ൽ നിന്ന് ഡൗൺലോഡ് ചെയ്യുക
- ഡിഫോൾട്ട് സെറ്റിംഗുകളോടെ ഇൻസ്റ്റാളർ റൺ ചെയ്യുക
**macOS:**
- Homebrew വഴി ഇൻസ്റ്റാൾ ചെയ്യുക: `brew install git`
- അല്ലെങ്കിൽ [git-scm.com](https://git-scm.com/download/mac) ൽ നിന്ന് ഡൗൺലോഡ് ചെയ്യുക
**Linux:**
```bash
# ഡെബിയൻ/ഉബുണ്ടു
sudo apt-get update
sudo apt-get install git
# ഫെഡോറ
sudo dnf install git
# ആർച്ച്
sudo pacman -S git
```
### ഘട്ടം 2: റിപ്പോസിറ്ററി ക്ലോൺ ചെയ്യുക
```bash
# റിപ്പോസിറ്ററി ക്ലോൺ ചെയ്യുക
git clone https://github.com/microsoft/Data-Science-For-Beginners.git
# ഡയറക്ടറിയിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd Data-Science-For-Beginners
```
### ഘട്ടം 3: Python, Jupyter ഇൻസ്റ്റാൾ ചെയ്യുക
ഡാറ്റാ സയൻസ് പാഠങ്ങൾക്കായി Python 3.7 അല്ലെങ്കിൽ അതിനുമുകളിൽ വേണം.
**Windows:**
1. [python.org](https://www.python.org/downloads/) ൽ നിന്ന് Python ഡൗൺലോഡ് ചെയ്യുക
2. ഇൻസ്റ്റലേഷനിൽ "Add Python to PATH" തിരഞ്ഞെടുക്കുക
3. ഇൻസ്റ്റലേഷൻ സ്ഥിരീകരിക്കുക:
```bash
python --version
```
**macOS:**
```bash
# ഹോംബ്രൂ ഉപയോഗിക്കുന്നു
brew install python3
# ഇൻസ്റ്റലേഷൻ സ്ഥിരീകരിക്കുക
python3 --version
```
**Linux:**
```bash
# മിക്ക ലിനക്സ് വിതരണങ്ങളിലും പൈതൺ മുൻകൂട്ടി ഇൻസ്റ്റാൾ ചെയ്തിരിക്കുന്നു
python3 --version
# ഇൻസ്റ്റാൾ ചെയ്തിട്ടില്ലെങ്കിൽ:
# ഡെബിയൻ/ഉബുണ്ടു
sudo apt-get install python3 python3-pip
# ഫെഡോറാ
sudo dnf install python3 python3-pip
```
### ഘട്ടം 4: Python പരിസ്ഥിതി സജ്ജമാക്കുക
ആശ്രിതങ്ങൾ വേർതിരിച്ച് സൂക്ഷിക്കാൻ വിർച്വൽ എൻവയോൺമെന്റ് ഉപയോഗിക്കുന്നത് ശുപാർശ ചെയ്യുന്നു.
```bash
# ഒരു വെർച്വൽ എൻവയോൺമെന്റ് സൃഷ്ടിക്കുക
python -m venv venv
# വെർച്വൽ എൻവയോൺമെന്റ് സജീവമാക്കുക
# വിൻഡോസ്-ൽ:
venv\Scripts\activate
# മാക്‌ഒഎസ്/ലിനക്സ്-ൽ:
source venv/bin/activate
```
### ഘട്ടം 5: Python പാക്കേജുകൾ ഇൻസ്റ്റാൾ ചെയ്യുക
ആവശ്യമായ ഡാറ്റാ സയൻസ് ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്യുക:
```bash
pip install jupyter pandas numpy matplotlib seaborn scikit-learn
```
### ഘട്ടം 6: Node.js, npm ഇൻസ്റ്റാൾ ചെയ്യുക (ക്വിസ് ആപ്പിനായി)
ക്വിസ് ആപ്പിന് Node.js, npm ആവശ്യമാണ്.
**Windows/macOS:**
- [nodejs.org](https://nodejs.org/) (LTS പതിപ്പ് ശുപാർശ ചെയ്യുന്നു) ൽ നിന്ന് ഡൗൺലോഡ് ചെയ്യുക
- ഇൻസ്റ്റാളർ റൺ ചെയ്യുക
**Linux:**
```bash
# ഡെബിയൻ/ഉബുണ്ടു
# മുന്നറിയിപ്പ്: ഇന്റർനെറ്റിൽ നിന്നുള്ള സ്ക്രിപ്റ്റുകൾ നേരിട്ട് ബാഷിലേക്ക് പൈപ്പ് ചെയ്യുന്നത് സുരക്ഷാ അപകടം ഉണ്ടാക്കാം.
# സ്ക്രിപ്റ്റ് പ്രവർത്തിപ്പിക്കുന്നതിന് മുമ്പ് അവലോകനം ചെയ്യാൻ ശുപാർശ ചെയ്യുന്നു:
# curl -fsSL https://deb.nodesource.com/setup_lts.x -o setup_lts.x
# less setup_lts.x
# പിന്നീട് പ്രവർത്തിപ്പിക്കുക:
# sudo -E bash setup_lts.x
#
# അല്ലെങ്കിൽ, താഴെ കൊടുത്തിരിക്കുന്ന ഒറ്റ വരി കോഡ് നിങ്ങളുടെ സ്വന്തം അപകടത്തിൽ ഉപയോഗിക്കാം:
curl -fsSL https://deb.nodesource.com/setup_lts.x | sudo -E bash -
sudo apt-get install -y nodejs
# ഫെഡോറ
sudo dnf install nodejs
# ഇൻസ്റ്റലേഷൻ സ്ഥിരീകരിക്കുക
node --version
npm --version
```
### ഘട്ടം 7: ക്വിസ് ആപ്പ് ആശ്രിതങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുക
```bash
# ക്വിസ് ആപ്പ് ഡയറക്ടറിയിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd quiz-app
# ആശ്രിതങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുക
npm install
# റൂട്ട് ഡയറക്ടറിയിലേക്ക് മടങ്ങുക
cd ..
```
### ഘട്ടം 8: Docsify ഇൻസ്റ്റാൾ ചെയ്യുക (ഐച്ഛികം)
ഓഫ്‌ലൈൻ ഡോക്യുമെന്റേഷൻ ആക്‌സസ് ചെയ്യാൻ:
```bash
npm install -g docsify-cli
```
## നിങ്ങളുടെ ഇൻസ്റ്റലേഷൻ പരിശോധിക്കുക
### Python, Jupyter ടെസ്റ്റ് ചെയ്യുക
```bash
# നിങ്ങളുടെ വെർച്വൽ എൻവയോൺമെന്റ് ഇതിനകം സജീവമല്ലെങ്കിൽ സജീവമാക്കുക
# വിൻഡോസ്-ൽ:
venv\Scripts\activate
# മാക്‌ഓഎസ്/ലിനക്സ്-ൽ:
source venv/bin/activate
# ജൂപ്പിറ്റർ നോട്ട്‌ബുക്ക് ആരംഭിക്കുക
jupyter notebook
```
നിങ്ങളുടെ ബ്രൗസർ Jupyter ഇന്റർഫേസ് തുറക്കും. നിങ്ങൾക്ക് ഇപ്പോൾ ഏതെങ്കിലും പാഠത്തിന്റെ `.ipynb` ഫയലിലേക്ക് പോകാം.
### ക്വിസ് ആപ്പ് ടെസ്റ്റ് ചെയ്യുക
```bash
# ക്വിസ് ആപ്പിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd quiz-app
# ഡെവലപ്പ്മെന്റ് സെർവർ ആരംഭിക്കുക
npm run serve
```
ക്വിസ് ആപ്പ് `http://localhost:8080` (അല്ലെങ്കിൽ 8080 തിരക്കുള്ള പക്ഷം മറ്റൊരു പോർട്ട്) ൽ ലഭ്യമായിരിക്കണം.
### ഡോക്യുമെന്റേഷൻ സർവർ ടെസ്റ്റ് ചെയ്യുക
```bash
# റിപ്പോസിറ്ററിയുടെ റൂട്ട് ഡയറക്ടറിയിൽ നിന്ന്
docsify serve
```
ഡോക്യുമെന്റേഷൻ `http://localhost:3000` ൽ ലഭ്യമായിരിക്കണം.
## VS Code Dev Containers ഉപയോഗിക്കൽ
Docker ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടെങ്കിൽ, VS Code Dev Containers ഉപയോഗിക്കാം:
1. [Docker Desktop](https://www.docker.com/products/docker-desktop) ഇൻസ്റ്റാൾ ചെയ്യുക
2. [Visual Studio Code](https://code.visualstudio.com/) ഇൻസ്റ്റാൾ ചെയ്യുക
3. [Remote - Containers extension](https://marketplace.visualstudio.com/items?itemName=ms-vscode-remote.remote-containers) ഇൻസ്റ്റാൾ ചെയ്യുക
4. റിപ്പോസിറ്ററി VS Code ൽ തുറക്കുക
5. `F1` അമർത്തി "Remote-Containers: Reopen in Container" തിരഞ്ഞെടുക്കുക
6. കണ്ടെയ്‌നർ നിർമ്മിക്കാൻ കാത്തിരിക്കുക (ആദ്യ തവണ മാത്രം)
## അടുത്ത ഘട്ടങ്ങൾ
- പാഠ്യപദ്ധതിയുടെ അവലോകനത്തിന് [README.md](README.md) പരിശോധിക്കുക
- സാധാരണ പ്രവൃത്തികൾക്കും ഉദാഹരണങ്ങൾക്കും [USAGE.md](USAGE.md) വായിക്കുക
- പ്രശ്നങ്ങൾ നേരിടുമ്പോൾ [TROUBLESHOOTING.md](TROUBLESHOOTING.md) പരിശോധിക്കുക
- സംഭാവനകൾ നൽകാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ [CONTRIBUTING.md](CONTRIBUTING.md) വായിക്കുക
## സഹായം നേടുക
പ്രശ്നങ്ങൾ നേരിടുമ്പോൾ:
1. [TROUBLESHOOTING.md](TROUBLESHOOTING.md) ഗൈഡ് പരിശോധിക്കുക
2. നിലവിലുള്ള [GitHub Issues](https://github.com/microsoft/Data-Science-For-Beginners/issues) തിരയുക
3. ഞങ്ങളുടെ [Discord community](https://aka.ms/ds4beginners/discord) ൽ ചേരുക
4. നിങ്ങളുടെ പ്രശ്നത്തെക്കുറിച്ച് വിശദമായ വിവരങ്ങളോടെ പുതിയ ഒരു ഇഷ്യൂ സൃഷ്ടിക്കുക
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,252 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "210052dafe5b5d956c427824e2c96686",
"translation_date": "2025-12-19T13:16:08+00:00",
"source_file": "README.md",
"language_code": "ml"
}
-->
# ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ് - ഒരു പാഠ്യപദ്ധതി
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
മൈക്രോസോഫ്റ്റിലെ അസ്യൂർ ക്ലൗഡ് അഡ്വക്കേറ്റ്സ് ഡാറ്റാ സയൻസിനെക്കുറിച്ചുള്ള 10 ആഴ്ച, 20 പാഠങ്ങൾ ഉൾക്കൊള്ളുന്ന ഒരു പാഠ്യപദ്ധതി അവതരിപ്പിക്കാൻ സന്തോഷിക്കുന്നു. ഓരോ പാഠവും പ്രീ-പാഠം, പോസ്റ്റ്-പാഠം ക്വിസുകൾ, പാഠം പൂർത്തിയാക്കാനുള്ള എഴുത്ത് നിർദ്ദേശങ്ങൾ, ഒരു പരിഹാരം, ഒരു അസൈൻമെന്റ് എന്നിവ ഉൾക്കൊള്ളുന്നു. നമ്മുടെ പ്രോജക്റ്റ്-അധിഷ്ഠിത പഠനരീതി നിങ്ങൾക്ക് നിർമ്മിക്കുമ്പോൾ പഠിക്കാനും പുതിയ കഴിവുകൾ 'പിടിപ്പിക്കാൻ' സഹായിക്കുന്ന തെളിയിച്ച മാർഗമാണ്.
**നമ്മുടെ എഴുത്തുകാരെ ഹൃദയം നിറഞ്ഞ നന്ദി:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 പ്രത്യേക നന്ദി 🙏 നമ്മുടെ [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) എഴുത്തുകാര്ക്കും, റിവ്യൂവർക്കും, ഉള്ളടക്ക സംഭാവനക്കാർക്കും,** പ്രത്യേകിച്ച് Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.ml.png)|
|:---:|
| ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ് - _സ്കെച്ച്നോട്ട് [@nitya](https://twitter.com/nitya) tarafından_ |
### 🌐 ബഹുഭാഷാ പിന്തുണ
#### GitHub ആക്ഷൻ വഴി പിന്തുണ (സ്വയം പ്രവർത്തിക്കുന്നതും എല്ലായ്പ്പോഴും പുതുക്കപ്പെടുന്നതും)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh/README.md) | [Chinese (Traditional, Hong Kong)](../hk/README.md) | [Chinese (Traditional, Macau)](../mo/README.md) | [Chinese (Traditional, Taiwan)](../tw/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](./README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../br/README.md) | [Portuguese (Portugal)](../pt/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**കൂടുതൽ ഭാഷാ പിന്തുണ ലഭിക്കാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, അവ ഇവിടെ പട്ടികപ്പെടുത്തിയിരിക്കുന്നു [here](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### നമ്മുടെ കമ്മ്യൂണിറ്റിയിൽ ചേരുക
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
നമുക്ക് ഒരു Discord ലേൺ വിത്ത് AI സീരീസ് തുടരുകയാണ്, കൂടുതൽ അറിയാനും ചേരാനും [Learn with AI Series](https://aka.ms/learnwithai/discord) സന്ദർശിക്കുക, 2025 സെപ്റ്റംബർ 18 - 30 വരെ. GitHub Copilot ഡാറ്റാ സയൻസിനായി ഉപയോഗിക്കുന്നതിനുള്ള ടിപ്സും ട്രിക്കുകളും നിങ്ങൾക്ക് ലഭിക്കും.
![Learn with AI series](../../translated_images/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.ml.jpg)
# നിങ്ങൾ ഒരു വിദ്യാർത്ഥിയാണോ?
തുടങ്ങാൻ താഴെപ്പറയുന്ന വിഭവങ്ങൾ ഉപയോഗിക്കുക:
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) ഈ പേജിൽ, നിങ്ങൾക്ക് തുടക്കക്കാർക്കുള്ള വിഭവങ്ങൾ, വിദ്യാർത്ഥി പാക്കുകൾ, സൗജന്യ സർട്ടിഫിക്കറ്റ് വൗച്ചർ നേടാനുള്ള മാർഗ്ഗങ്ങൾ എന്നിവ ലഭിക്കും. ഇത് നിങ്ങൾക്ക് ബുക്ക്മാർക്ക് ചെയ്ത് ഇടയ്ക്കിടെ പരിശോധിക്കേണ്ട ഒരു പേജ് ആണ്, കാരണം ഞങ്ങൾ ഉള്ളടക്കം കുറഞ്ഞത് മാസത്തിൽ ഒരിക്കൽ മാറ്റുന്നു.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) ഒരു ആഗോള വിദ്യാർത്ഥി അംബാസഡർ കമ്മ്യൂണിറ്റിയിൽ ചേരുക, ഇത് മൈക്രോസോഫ്റ്റിലേക്ക് നിങ്ങളുടെ വഴി ആകാം.
# ആരംഭിക്കുന്നത്
## 📚 ഡോക്യുമെന്റേഷൻ
- **[ഇൻസ്റ്റലേഷൻ ഗൈഡ്](INSTALLATION.md)** - തുടക്കക്കാർക്കുള്ള ഘട്ടം ഘട്ടമായുള്ള സജ്ജീകരണ നിർദ്ദേശങ്ങൾ
- **[ഉപയോഗ ഗൈഡ്](USAGE.md)** - ഉദാഹരണങ്ങളും സാധാരണ പ്രവൃത്തികളും
- **[പ്രശ്നപരിഹാരം](TROUBLESHOOTING.md)** - സാധാരണ പ്രശ്നങ്ങൾക്ക് പരിഹാരങ്ങൾ
- **[സംഭാവനാ ഗൈഡ്](CONTRIBUTING.md)** - ഈ പ്രോജക്റ്റിൽ സംഭാവന ചെയ്യാനുള്ള മാർഗ്ഗങ്ങൾ
- **[അധ്യാപകർക്ക്](for-teachers.md)** - പഠന മാർഗ്ഗനിർദ്ദേശങ്ങളും ക്ലാസ്‌റൂം വിഭവങ്ങളും
## 👨‍🎓 വിദ്യാർത്ഥികൾക്കായി
> **പൂർണ്ണ തുടക്കക്കാർ**: ഡാറ്റാ സയൻസിൽ പുതിയവരാണോ? നമ്മുടെ [തുടക്കക്കാർക്ക് അനുയോജ്യമായ ഉദാഹരണങ്ങൾ](examples/README.md) ഉപയോഗിച്ച് തുടങ്ങുക! ഈ ലളിതവും നല്ല രീതിയിൽ കമന്റ് ചെയ്ത ഉദാഹരണങ്ങൾ പാഠ്യപദ്ധതിയിൽ മുഴുവനായി പ്രവേശിക്കുന്നതിന് മുമ്പ് അടിസ്ഥാനങ്ങൾ മനസ്സിലാക്കാൻ സഹായിക്കും.
> **[വിദ്യാർത്ഥികൾ](https://aka.ms/student-page)**: ഈ പാഠ്യപദ്ധതി സ്വയം ഉപയോഗിക്കാൻ, മുഴുവൻ റിപോ ഫോർക്ക് ചെയ്ത് പ്രീ-ലെക്ചർ ക്വിസ് മുതൽ ആരംഭിച്ച് സ്വയം അഭ്യാസങ്ങൾ പൂർത്തിയാക്കുക. തുടർന്ന് ലെക്ചർ വായിച്ച് ബാക്കി പ്രവർത്തനങ്ങളും പൂർത്തിയാക്കുക. പരിഹാര കോഡ് പകർപ്പവകാശം ചെയ്യുന്നതിന് പകരം പാഠങ്ങൾ മനസ്സിലാക്കി പ്രോജക്റ്റുകൾ സൃഷ്ടിക്കാൻ ശ്രമിക്കുക; എങ്കിലും ആ കോഡ് ഓരോ പ്രോജക്റ്റ്-കേന്ദ്രിത പാഠത്തിലും /solutions ഫോൾഡറുകളിൽ ലഭ്യമാണ്. മറ്റൊരു ആശയം സുഹൃത്തുക്കളുമായി പഠന സംഘം രൂപീകരിച്ച് ഉള്ളടക്കം ഒരുമിച്ച് പഠിക്കുക എന്നതാണ്. കൂടുതൽ പഠനത്തിനായി, [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) ശുപാർശ ചെയ്യുന്നു.
**വേഗത്തിലുള്ള ആരംഭം:**
1. നിങ്ങളുടെ പരിസ്ഥിതി സജ്ജമാക്കാൻ [ഇൻസ്റ്റലേഷൻ ഗൈഡ്](INSTALLATION.md) പരിശോധിക്കുക
2. പാഠ്യപദ്ധതിയുമായി പ്രവർത്തിക്കാൻ [ഉപയോഗ ഗൈഡ്](USAGE.md) അവലോകനം ചെയ്യുക
3. പാഠം 1 മുതൽ തുടക്കം കുറിച്ച് ക്രമമായി മുന്നോട്ട് പോവുക
4. പിന്തുണയ്ക്കായി നമ്മുടെ [Discord കമ്മ്യൂണിറ്റിയിൽ](https://aka.ms/ds4beginners/discord) ചേരുക
## 👩‍🏫 അധ്യാപകർക്ക്
> **അധ്യാപകർ**: ഈ പാഠ്യപദ്ധതി ഉപയോഗിക്കുന്നതിനെക്കുറിച്ച് ചില [സൂചനകൾ](for-teachers.md) ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. നിങ്ങളുടെ അഭിപ്രായങ്ങൾ ഞങ്ങളുടെ [ചർച്ചാ ഫോറത്തിൽ](https://github.com/microsoft/Data-Science-For-Beginners/discussions) അറിയിക്കുക!
## ടീമിനെ പരിചയപ്പെടുക
[![പ്രമോ വീഡിയോ](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "പ്രമോ വീഡിയോ")
**ഗിഫ്** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 പ്രോജക്ട് സൃഷ്ടിച്ച ആളുകളെക്കുറിച്ചുള്ള ഒരു വീഡിയോക്കായി മുകളിൽ കാണുന്ന ചിത്രം ക്ലിക്ക് ചെയ്യുക!
## പാഠശാസ്ത്രം
ഈ പാഠ്യപദ്ധതി നിർമ്മിക്കുമ്പോൾ ഞങ്ങൾ രണ്ട് പാഠശാസ്ത്ര തത്വങ്ങൾ തിരഞ്ഞെടുക്കുകയുണ്ടായി: ഇത് പ്രോജക്ട് അടിസ്ഥാനമാക്കിയുള്ളതായിരിക്കണം എന്നും അതിൽ പതിവായി ക്വിസുകൾ ഉൾപ്പെടണം എന്നും. ഈ പരമ്പരയുടെ അവസാനം, വിദ്യാർത്ഥികൾ ഡാറ്റാ സയൻസിന്റെ അടിസ്ഥാന സിദ്ധാന്തങ്ങൾ, നൈതിക ആശയങ്ങൾ, ഡാറ്റാ തയ്യാറാക്കൽ, ഡാറ്റയുമായി പ്രവർത്തിക്കുന്ന വ്യത്യസ്ത മാർഗങ്ങൾ, ഡാറ്റാ ദൃശ്യീകരണം, ഡാറ്റാ വിശകലനം, ഡാറ്റാ സയൻസിന്റെ യാഥാർത്ഥ്യ ഉപയോഗങ്ങൾ എന്നിവ പഠിച്ചിരിക്കും.
കൂടാതെ, ക്ലാസിന് മുമ്പുള്ള കുറഞ്ഞ സമ്മർദ്ദമുള്ള ക്വിസ് ഒരു വിഷയത്തെ പഠിക്കാനുള്ള വിദ്യാർത്ഥിയുടെ ഉദ്ദേശ്യം സജ്ജമാക്കുന്നു, ക്ലാസിന് ശേഷം രണ്ടാമത്തെ ക്വിസ് കൂടുതൽ ഓർമ്മപ്പെടുത്തലിനായി സഹായിക്കുന്നു. ഈ പാഠ്യപദ്ധതി ലവച്ഛേദ്യവും രസകരവുമാണ്, മുഴുവനായോ ഭാഗികമായോ സ്വീകരിക്കാവുന്നതാണ്. പ്രോജക്ടുകൾ ചെറിയതിൽ ആരംഭിച്ച് 10 ആഴ്ചകളുടെ ചക്രത്തിന്റെ അവസാനം കൂടുതൽ സങ്കീർണ്ണമാകുന്നു.
> ഞങ്ങളുടെ [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md) മാർഗനിർദ്ദേശങ്ങൾ കാണുക. നിങ്ങളുടെ നിർമാണാത്മക പ്രതികരണങ്ങൾ സ്വാഗതം ചെയ്യുന്നു!
## ഓരോ പാഠവും ഉൾക്കൊള്ളുന്നത്:
- ഐച്ഛിക സ്കെച്ച്നോട്ട്
- ഐച്ഛിക സഹായക വീഡിയോ
- പാഠത്തിന് മുമ്പുള്ള വാര്മപ്പ് ക്വിസ്
- എഴുത്തുപാഠം
- പ്രോജക്ട് അടിസ്ഥാനമാക്കിയുള്ള പാഠങ്ങൾക്ക്, പ്രോജക്ട് നിർമ്മിക്കുന്നതിനുള്ള ഘട്ടം ഘട്ടമായ മാർഗ്ഗനിർദ്ദേശങ്ങൾ
- അറിവ് പരിശോധനകൾ
- ഒരു വെല്ലുവിളി
- സഹായക വായന
- അസൈൻമെന്റ്
- [പാഠത്തിന് ശേഷം ക്വിസ്](https://ff-quizzes.netlify.app/en/)
> **ക്വിസുകളെക്കുറിച്ചുള്ള ഒരു കുറിപ്പ്**: എല്ലാ ക്വിസുകളും Quiz-App ഫോൾഡറിൽ ഉൾക്കൊള്ളുന്നു, ഓരോന്നിലും മൂന്ന് ചോദ്യങ്ങളുള്ള 40 ക്വിസുകൾ. അവ പാഠങ്ങളിൽ നിന്നു ബന്ധിപ്പിച്ചിരിക്കുന്നു, പക്ഷേ ക്വിസ് ആപ്പ് പ്രാദേശികമായി പ്രവർത്തിപ്പിക്കാനോ Azure-ലേക്ക് വിന്യസിക്കാനോ കഴിയും; `quiz-app` ഫോൾഡറിലുള്ള നിർദ്ദേശങ്ങൾ പിന്തുടരുക. അവ ക്രമമായി പ്രാദേശികമാക്കപ്പെടുന്നു.
## 🎓 തുടക്കക്കാർക്ക് അനുയോജ്യമായ ഉദാഹരണങ്ങൾ
**ഡാറ്റാ സയൻസിൽ പുതിയവരാണോ?** നിങ്ങൾക്ക് ആരംഭിക്കാൻ സഹായിക്കുന്ന ലളിതവും വിശദീകരിച്ചും ഉള്ള കോഡുകളുള്ള പ്രത്യേക [examples directory](examples/README.md) ഞങ്ങൾ സൃഷ്ടിച്ചിട്ടുണ്ട്:
- 🌟 **ഹലോ വേൾഡ്** - നിങ്ങളുടെ ആദ്യ ഡാറ്റാ സയൻസ് പ്രോഗ്രാം
- 📂 **ഡാറ്റാ ലോഡിംഗ്** - ഡാറ്റാസെറ്റുകൾ വായിക്കുകയും പരിശോധിക്കുകയും ചെയ്യുക
- 📊 **സാധാരണ വിശകലനം** - സ്ഥിതിവിവരക്കണക്കുകൾ കണക്കാക്കുകയും മാതൃകകൾ കണ്ടെത്തുകയും ചെയ്യുക
- 📈 **അടിസ്ഥാന ദൃശ്യീകരണം** - ചാർട്ടുകളും ഗ്രാഫുകളും സൃഷ്ടിക്കുക
- 🔬 **യാഥാർത്ഥ്യ പ്രോജക്ട്** - ആരംഭം മുതൽ അവസാനത്തേയ്ക്ക് പൂർണ്ണ പ്രവൃത്തി പ്രവാഹം
ഓരോ ഉദാഹരണവും ഓരോ ഘട്ടവും വിശദമായി വിശദീകരിക്കുന്ന കമന്റുകളോടെയാണ്, അതുകൊണ്ട് തുടക്കക്കാർക്ക് ഇത് ഏറ്റവും അനുയോജ്യമാണ്!
👉 **[ഉദാഹരണങ്ങളുമായി ആരംഭിക്കുക](examples/README.md)** 👈
## പാഠങ്ങൾ
|![ Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.ml.png)|
|:---:|
| ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ്: റോഡ്‌മാപ്പ് - _സ്കെച്ച്നോട്ട് [@nitya](https://twitter.com/nitya) tarafından_ |
| പാഠ നമ്പർ | വിഷയം | പാഠ ഗ്രൂപ്പിംഗ് | പഠന ലക്ഷ്യങ്ങൾ | ബന്ധിപ്പിച്ച പാഠം | രചയിതാവ് |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | ഡാറ്റാ സയൻസ് നിർവചനം | [Introduction](1-Introduction/README.md) | ഡാറ്റാ സയൻസിന്റെ അടിസ്ഥാന ആശയങ്ങൾ പഠിക്കുക, അതിന്റെ കൃത്രിമ ബുദ്ധിമുട്ട്, മെഷീൻ ലേണിംഗ്, ബിഗ് ഡാറ്റ എന്നിവയുമായി ബന്ധം മനസിലാക്കുക. | [lesson](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | ഡാറ്റാ സയൻസ് നൈതികത | [Introduction](1-Introduction/README.md) | ഡാറ്റാ നൈതികത ആശയങ്ങൾ, വെല്ലുവിളികൾ & ഫ്രെയിംവർക്കുകൾ. | [lesson](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | ഡാറ്റ നിർവചനം | [Introduction](1-Introduction/README.md) | ഡാറ്റ എങ്ങനെ വർഗ്ഗീകരിക്കപ്പെടുന്നു, അതിന്റെ സാധാരണ ഉറവിടങ്ങൾ. | [lesson](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | സ്ഥിതിവിവരശാസ്ത്രം & സാധ്യതകളിലേക്ക് പരിചയം | [Introduction](1-Introduction/README.md) | ഡാറ്റ മനസിലാക്കാൻ സാധ്യതയും സ്ഥിതിവിവരശാസ്ത്രവും ഉപയോഗിക്കുന്ന ഗണിത സാങ്കേതിക വിദ്യകൾ. | [lesson](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | ബന്ധപരമായ ഡാറ്റയുമായി പ്രവർത്തിക്കൽ | [Working With Data](2-Working-With-Data/README.md) | ബന്ധപരമായ ഡാറ്റയിലേക്ക് പരിചയം, Structured Query Language (SQL) ഉപയോഗിച്ച് ബന്ധപരമായ ഡാറ്റ പരിശോധിക്കുകയും വിശകലനം ചെയ്യുകയും ചെയ്യാനുള്ള അടിസ്ഥാനങ്ങൾ. | [lesson](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL ഡാറ്റയുമായി പ്രവർത്തിക്കൽ | [Working With Data](2-Working-With-Data/README.md) | ബന്ധമില്ലാത്ത ഡാറ്റയിലേക്ക് പരിചയം, അതിന്റെ വിവിധ തരം, ഡോക്യുമെന്റ് ഡാറ്റാബേസുകൾ പരിശോധിക്കുകയും വിശകലനം ചെയ്യുകയും ചെയ്യാനുള്ള അടിസ്ഥാനങ്ങൾ. | [lesson](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python ഉപയോഗിച്ച് പ്രവർത്തിക്കൽ | [Working With Data](2-Working-With-Data/README.md) | Pandas പോലുള്ള ലൈബ്രറികൾ ഉപയോഗിച്ച് ഡാറ്റാ പരിശോധനയ്ക്ക് Python ഉപയോഗിക്കുന്നതിന്റെ അടിസ്ഥാനങ്ങൾ. Python പ്രോഗ്രാമിംഗിന്റെ അടിസ്ഥാന അറിവ് ശുപാർശ ചെയ്യുന്നു. | [lesson](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | ഡാറ്റാ തയ്യാറാക്കൽ | [Working With Data](2-Working-With-Data/README.md) | നഷ്ടപ്പെട്ട, തെറ്റായ, അല്ലെങ്കിൽ അപൂർണ്ണമായ ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിനുള്ള ശുചീകരണവും പരിവർത്തനവും ഉൾപ്പെടുന്ന ഡാറ്റ സാങ്കേതികവിദ്യകൾ. | [lesson](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | അളവുകൾ ദൃശ്യീകരിക്കൽ | [Data Visualization](3-Data-Visualization/README.md) | Matplotlib ഉപയോഗിച്ച് പക്ഷി ഡാറ്റ ദൃശ്യീകരിക്കുന്നത് പഠിക്കുക 🦆 | [lesson](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | ഡാറ്റയുടെ വിതരണങ്ങൾ ദൃശ്യീകരിക്കൽ | [Data Visualization](3-Data-Visualization/README.md) | ഒരു ഇടവേളയിൽ ഉള്ള നിരീക്ഷണങ്ങളും പ്രവണതകളും ദൃശ്യീകരിക്കൽ. | [lesson](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | അനുപാതങ്ങൾ ദൃശ്യീകരിക്കൽ | [Data Visualization](3-Data-Visualization/README.md) | വ്യത്യസ്തവും ഗ്രൂപ്പുചെയ്ത ശതമാനങ്ങളും ദൃശ്യീകരിക്കൽ. | [lesson](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | ബന്ധങ്ങൾ ദൃശ്യീകരിക്കൽ | [Data Visualization](3-Data-Visualization/README.md) | ഡാറ്റാ സെറ്റുകളും അവയുടെ ചാരങ്ങളും തമ്മിലുള്ള ബന്ധങ്ങളും സഹബന്ധങ്ങളും ദൃശ്യീകരിക്കൽ. | [lesson](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | അർത്ഥവത്തായ ദൃശ്യീകരണങ്ങൾ | [Data Visualization](3-Data-Visualization/README.md) | പ്രശ്നപരിഹാരത്തിനും洞察ങ്ങൾക്കും ഫലപ്രദമായ നിങ്ങളുടെ ദൃശ്യീകരണങ്ങൾ മൂല്യവത്താക്കാനുള്ള സാങ്കേതിക വിദ്യകളും മാർഗ്ഗനിർദ്ദേശങ്ങളും. | [lesson](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | ഡാറ്റാ സയൻസ് ലൈഫ് സൈക്കിൾ പരിചയം | [Lifecycle](4-Data-Science-Lifecycle/README.md) | ഡാറ്റാ സയൻസ് ലൈഫ് സൈക്കിളിന്റെ പരിചയം, ആദ്യ ഘട്ടമായ ഡാറ്റാ സമാഹരണവും എക്സ്ട്രാക്ഷനും. | [lesson](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | വിശകലനം | [Lifecycle](4-Data-Science-Lifecycle/README.md) | ഡാറ്റാ സയൻസ് ലൈഫ് സൈക്കിളിന്റെ ഈ ഘട്ടം ഡാറ്റ വിശകലന സാങ്കേതിക വിദ്യകളിൽ കേന്ദ്രീകരിക്കുന്നു. | [lesson](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | ആശയവിനിമയം | [Lifecycle](4-Data-Science-Lifecycle/README.md) | ഡാറ്റയിൽ നിന്നുള്ള洞察ങ്ങൾ തീരുമാനമെടുക്കുന്നവർക്കു മനസ്സിലാക്കാൻ എളുപ്പമാക്കുന്ന വിധത്തിൽ അവതരിപ്പിക്കുന്ന ഡാറ്റാ സയൻസ് ലൈഫ് സൈക്കിളിന്റെ ഈ ഘട്ടം. | [lesson](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | ക്ലൗഡിൽ ഡാറ്റാ സയൻസ് | [Cloud Data](5-Data-Science-In-Cloud/README.md) | ക്ലൗഡിൽ ഡാറ്റാ സയൻസ് പരിചയപ്പെടുത്തലും അതിന്റെ ഗുണങ്ങളും. | [lesson](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | ക്ലൗഡിൽ ഡാറ്റാ സയൻസ് | [Cloud Data](5-Data-Science-In-Cloud/README.md) | ലോ കോഡ് ഉപകരണങ്ങൾ ഉപയോഗിച്ച് മോഡലുകൾ പരിശീലിപ്പിക്കൽ. |[lesson](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | ക്ലൗഡിൽ ഡാറ്റാ സയൻസ് | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio ഉപയോഗിച്ച് മോഡലുകൾ വിന്യസിക്കൽ. | [lesson](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | യാഥാർത്ഥ്യത്തിൽ ഡാറ്റാ സയൻസ് | [In the Wild](6-Data-Science-In-Wild/README.md) | യാഥാർത്ഥ്യ ലോകത്തിലെ ഡാറ്റാ സയൻസ് പ്രോജക്ടുകൾ. | [lesson](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
ഈ സാമ്പിൾ ഒരു Codespace-ൽ തുറക്കാൻ ഈ ചുവടുകൾ പിന്തുടരുക:
1. Code ഡ്രോപ്പ്-ഡൗൺ മെനു ക്ലിക്ക് ചെയ്ത് Open with Codespaces ഓപ്ഷൻ തിരഞ്ഞെടുക്കുക.
2. പാനലിന്റെ അടിയിൽ + New codespace തിരഞ്ഞെടുക്കുക.
കൂടുതൽ വിവരങ്ങൾക്ക്, [GitHub ഡോക്യുമെന്റേഷൻ](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) കാണുക.
## VSCode Remote - Containers
നിങ്ങളുടെ ലോക്കൽ മെഷീൻ ഉപയോഗിച്ച് VSCode-ൽ ഈ റിപോസിറ്ററി ഒരു കണ്ടെയ്‌നറിൽ തുറക്കാൻ VS Code Remote - Containers എക്സ്റ്റൻഷൻ ഉപയോഗിച്ച് ഈ ചുവടുകൾ പിന്തുടരുക:
1. നിങ്ങൾ ആദ്യമായി ഡെവലപ്പ്മെന്റ് കണ്ടെയ്‌നർ ഉപയോഗിക്കുന്നുവെങ്കിൽ, നിങ്ങളുടെ സിസ്റ്റം മുൻകൂർ ആവശ്യകതകൾ (ഉദാ: Docker ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടോ) പാലിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക [getting started ഡോക്യുമെന്റേഷനിൽ](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
ഈ റിപോസിറ്ററി ഉപയോഗിക്കാൻ, നിങ്ങൾക്ക് റിപോസിറ്ററി ഒരു ഐസൊലേറ്റഡ് Docker വോളിയത്തിൽ തുറക്കാം:
**കുറിപ്പ്**: ഇതിന് Remote-Containers: **Clone Repository in Container Volume...** കമാൻഡ് ഉപയോഗിച്ച് സോഴ്‌സ് കോഡ് Docker വോളിയത്തിൽ ക്ലോൺ ചെയ്യുന്നു, ലോക്കൽ ഫയൽസിസ്റ്റം ഉപയോഗിക്കാതെ. [Volumes](https://docs.docker.com/storage/volumes/) കണ്ടെയ്‌നർ ഡാറ്റ നിലനിർത്തുന്നതിനുള്ള മുൻഗണനാ മാർഗമാണ്.
അല്ലെങ്കിൽ, ലോക്കലായി ക്ലോൺ ചെയ്ത അല്ലെങ്കിൽ ഡൗൺലോഡ് ചെയ്ത റിപോസിറ്ററി തുറക്കാം:
- ഈ റിപോസിറ്ററി നിങ്ങളുടെ ലോക്കൽ ഫയൽസിസ്റ്റത്തിലേക്ക് ക്ലോൺ ചെയ്യുക.
- F1 അമർത്തി **Remote-Containers: Open Folder in Container...** കമാൻഡ് തിരഞ്ഞെടുക്കുക.
- ഈ ഫോൾഡറിന്റെ ക്ലോൺ ചെയ്ത കോപ്പി തിരഞ്ഞെടുക്കുക, കണ്ടെയ്‌നർ ആരംഭിക്കാൻ കാത്തിരിക്കുക, തുടർന്ന് പരീക്ഷിക്കുക.
## ഓഫ്‌ലൈൻ ആക്‌സസ്
[Docsify](https://docsify.js.org/#/) ഉപയോഗിച്ച് ഈ ഡോക്യുമെന്റേഷൻ ഓഫ്‌ലൈൻ പ്രവർത്തിപ്പിക്കാം. ഈ റിപോസിറ്ററി ഫോർക്ക് ചെയ്ത്, നിങ്ങളുടെ ലോക്കൽ മെഷീനിൽ [Docsify ഇൻസ്റ്റാൾ](https://docsify.js.org/#/quickstart) ചെയ്യുക, തുടർന്ന് ഈ റിപോസിറ്ററിയുടെ റൂട്ട് ഫോൾഡറിൽ `docsify serve` ടൈപ്പ് ചെയ്യുക. വെബ്സൈറ്റ് നിങ്ങളുടെ ലോക്കൽഹോസ്റ്റിൽ പോർട്ട് 3000-ൽ ലഭ്യമായിരിക്കും: `localhost:3000`.
> കുറിപ്പ്, നോട്ട്‌ബുക്കുകൾ Docsify വഴി റെൻഡർ ചെയ്യപ്പെടില്ല, അതിനാൽ നിങ്ങൾക്ക് നോട്ട്‌ബുക്ക് പ്രവർത്തിപ്പിക്കേണ്ടത് ഉണ്ടെങ്കിൽ, അത് വേർതിരിച്ച് VS Code-ൽ Python കർണൽ ഉപയോഗിച്ച് നടത്തുക.
## മറ്റ് പാഠ്യപദ്ധതികൾ
ഞങ്ങളുടെ ടീം മറ്റ് പാഠ്യപദ്ധതികളും നിർമ്മിക്കുന്നു! പരിശോധിക്കുക:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents for Beginners](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### ജനറേറ്റീവ് AI സീരീസ്
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### കോർ ലേണിംഗ്
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersecurity for Beginners](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web Dev for Beginners](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT for Beginners](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Development for Beginners](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### കോപൈലറ്റ് സീരീസ്
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## സഹായം നേടുക
**പ്രശ്നങ്ങൾ നേരിടുന്നുണ്ടോ?** സാധാരണ പ്രശ്നങ്ങൾക്ക് പരിഹാരങ്ങൾക്കായി ഞങ്ങളുടെ [ട്രബ്ല്ഷൂട്ടിംഗ് ഗൈഡ്](TROUBLESHOOTING.md) പരിശോധിക്കുക.
AI ആപ്പുകൾ നിർമ്മിക്കുന്നതിൽ നിങ്ങൾക്ക് തടസ്സം നേരിടുകയോ എന്തെങ്കിലും ചോദ്യങ്ങളുണ്ടോ? MCP-യെക്കുറിച്ചുള്ള ചർച്ചകളിൽ സഹപാഠികളും പരിചയസമ്പന്നരായ ഡെവലപ്പർമാരും ചേർന്ന് സംവദിക്കൂ. ചോദ്യങ്ങൾക്ക് സ്വാഗതം പറയുന്ന, അറിവ് സ്വതന്ത്രമായി പങ്കിടുന്ന ഒരു പിന്തുണയുള്ള സമൂഹമാണ് ഇത്.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
നിങ്ങൾക്ക് ഉൽപ്പന്ന പ്രതികരണമോ നിർമ്മാണത്തിൽ പിഴവുകളോ ഉണ്ടെങ്കിൽ സന്ദർശിക്കുക:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,53 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "0d575483100c332b2dbaefef915bb3c4",
"translation_date": "2025-12-19T13:13:57+00:00",
"source_file": "SECURITY.md",
"language_code": "ml"
}
-->
## Security
Microsoft നമ്മുടെ സോഫ്റ്റ്വെയർ ഉൽപ്പന്നങ്ങളും സേവനങ്ങളും സുരക്ഷിതമാക്കുന്നതിൽ ഗൗരവമുണ്ട്, ഇതിൽ നമ്മുടെ GitHub സംഘടനകൾ വഴി നിയന്ത്രിക്കുന്ന എല്ലാ സോഴ്‌സ് കോഡ് റിപോസിറ്ററികളും ഉൾപ്പെടുന്നു, അവയിൽ [Microsoft](https://github.com/Microsoft), [Azure](https://github.com/Azure), [DotNet](https://github.com/dotnet), [AspNet](https://github.com/aspnet), [Xamarin](https://github.com/xamarin), കൂടാതെ [നമ്മുടെ GitHub സംഘടനകൾ](https://opensource.microsoft.com/) ഉൾപ്പെടുന്നു.
നിങ്ങൾക്ക് Microsoft-ന്റെ ഉടമസ്ഥതയിലുള്ള ഏതെങ്കിലും റിപോസിറ്ററിയിൽ [Microsoft-ന്റെ സുരക്ഷാ ദുർബലതയുടെ നിർവചനത്തിന്](https://docs.microsoft.com/en-us/previous-versions/tn-archive/cc751383(v=technet.10)) അനുയോജ്യമായ ഒരു സുരക്ഷാ ദുർബലത കണ്ടെത്തിയതായി തോന്നുന്നുവെങ്കിൽ, താഴെ വിവരിച്ചിരിക്കുന്നതുപോലെ അത് ഞങ്ങളോട് റിപ്പോർട്ട് ചെയ്യുക.
## Reporting Security Issues
**സുരക്ഷാ ദുർബലതകൾ പൊതു GitHub ഇഷ്യൂസിലൂടെ റിപ്പോർട്ട് ചെയ്യരുത്.**
പകരം, ദയവായി അവ Microsoft Security Response Center (MSRC) ൽ [https://msrc.microsoft.com/create-report](https://msrc.microsoft.com/create-report) എന്ന വിലാസത്തിൽ റിപ്പോർട്ട് ചെയ്യുക.
ലോഗിൻ ചെയ്യാതെ സമർപ്പിക്കാൻ നിങ്ങൾക്ക് ഇഷ്ടമെങ്കിൽ, [secure@microsoft.com](mailto:secure@microsoft.com) എന്ന ഇമെയിലിലേക്ക് അയയ്ക്കുക. സാധ്യമായെങ്കിൽ, ഞങ്ങളുടെ PGP കീ ഉപയോഗിച്ച് നിങ്ങളുടെ സന്ദേശം എൻക്രിപ്റ്റ് ചെയ്യുക; അത് [Microsoft Security Response Center PGP Key പേജ്](https://www.microsoft.com/en-us/msrc/pgp-key-msrc) ൽ നിന്ന് ഡൗൺലോഡ് ചെയ്യുക.
നിങ്ങൾക്ക് 24 മണിക്കൂറിനുള്ളിൽ ഒരു പ്രതികരണം ലഭിക്കണം. എന്തെങ്കിലും കാരണത്താൽ ലഭിക്കാത്ത പക്ഷം, ഞങ്ങൾ നിങ്ങളുടെ പ്രാഥമിക സന്ദേശം സ്വീകരിച്ചിട്ടുണ്ടെന്ന് ഉറപ്പാക്കാൻ ഇമെയിൽ വഴി ഫോളോ അപ്പ് ചെയ്യുക. കൂടുതൽ വിവരങ്ങൾ [microsoft.com/msrc](https://www.microsoft.com/msrc) ൽ ലഭ്യമാണ്.
ദയവായി താഴെപ്പറയുന്ന ആവശ്യമായ വിവരങ്ങൾ (നിങ്ങൾക്ക് നൽകാൻ കഴിയുന്നത്ര) ഉൾപ്പെടുത്തുക, ഇത് പ്രശ്നത്തിന്റെ സ്വഭാവവും പരിധിയും നമുക്ക് മെച്ചമായി മനസ്സിലാക്കാൻ സഹായിക്കും:
* പ്രശ്നത്തിന്റെ തരം (ഉദാ: ബഫർ ഓവർഫ്ലോ, SQL ഇൻജക്ഷൻ, ക്രോസ്-സൈറ്റ് സ്ക്രിപ്റ്റിംഗ്, തുടങ്ങിയവ)
* പ്രശ്നം പ്രകടമാകുന്ന സോഴ്‌സ് ഫയലുകളുടെ പൂർണ്ണ പാതകൾ
* ബാധിച്ച സോഴ്‌സ് കോഡിന്റെ സ്ഥാനം (ടാഗ്/ബ്രാഞ്ച്/കമ്മിറ്റ് അല്ലെങ്കിൽ നേരിട്ട് URL)
* പ്രശ്നം പുനരാവർത്തിപ്പിക്കാൻ ആവശ്യമായ പ്രത്യേക കോൺഫിഗറേഷൻ
* പ്രശ്നം പുനരാവർത്തിപ്പിക്കാൻ ഘട്ടം-ഘട്ടമായ നിർദ്ദേശങ്ങൾ
* പ്രൂഫ്-ഓഫ്-കോൺസെപ്റ്റ് അല്ലെങ്കിൽ എക്സ്പ്ലോയിറ്റ് കോഡ് (സാധ്യമായെങ്കിൽ)
* പ്രശ്നത്തിന്റെ പ്രഭാവം, അതിൽ ഒരു ആക്രമണകാരൻ എങ്ങനെ പ്രശ്നം ഉപയോഗപ്പെടുത്താമെന്ന് ഉൾപ്പെടെ
ഈ വിവരങ്ങൾ നിങ്ങളുടെ റിപ്പോർട്ട് വേഗത്തിൽ പരിശോധിക്കാൻ സഹായിക്കും.
നിങ്ങൾ ബഗ് ബൗണ്ടിക്ക് റിപ്പോർട്ട് ചെയ്യുകയാണെങ്കിൽ, കൂടുതൽ സമഗ്രമായ റിപ്പോർട്ടുകൾ ഉയർന്ന ബൗണ്ടി അവാർഡിന് സഹായകമാകും. ഞങ്ങളുടെ [Microsoft Bug Bounty Program](https://microsoft.com/msrc/bounty) പേജ് സന്ദർശിച്ച് സജീവ പ്രോഗ്രാമുകൾക്കുറിച്ച് കൂടുതൽ വിവരങ്ങൾ അറിയുക.
## Preferred Languages
എല്ലാ ആശയവിനിമയവും ഇംഗ്ലീഷിൽ ആയിരിക്കണമെന്ന് ഞങ്ങൾ അഭിലഷിക്കുന്നു.
## Policy
Microsoft [Coordinated Vulnerability Disclosure](https://www.microsoft.com/en-us/msrc/cvd) എന്ന സിദ്ധാന്തം പിന്തുടരുന്നു.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,26 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "872be8bc1b93ef1dd9ac3d6e8f99f6ab",
"translation_date": "2025-12-19T12:48:32+00:00",
"source_file": "SUPPORT.md",
"language_code": "ml"
}
-->
# പിന്തുണ
## പ്രശ്നങ്ങൾ ഫയൽ ചെയ്യാനും സഹായം ലഭിക്കാനും
ഈ പ്രോജക്ട് ബഗുകളും ഫീച്ചർ അഭ്യർത്ഥനകളും ട്രാക്ക് ചെയ്യാൻ GitHub Issues ഉപയോഗിക്കുന്നു. പുനരാവൃതികൾ ഒഴിവാക്കാൻ പുതിയ പ്രശ്നങ്ങൾ ഫയൽ ചെയ്യുന്നതിന് മുമ്പ് നിലവിലുള്ള പ്രശ്നങ്ങൾ തിരയുക. പുതിയ പ്രശ്നങ്ങൾക്കായി, നിങ്ങളുടെ ബഗ് അല്ലെങ്കിൽ ഫീച്ചർ അഭ്യർത്ഥന പുതിയ ഒരു പ്രശ്നമായി ഫയൽ ചെയ്യുക.
ഈ പ്രോജക്ട് ഉപയോഗിക്കുന്നതിനെക്കുറിച്ചുള്ള സഹായത്തിനും ചോദ്യങ്ങൾക്കും, ഒരു പ്രശ്നം ഫയൽ ചെയ്യുക.
## Microsoft പിന്തുണ നയം
ഈ റിപ്പോസിറ്ററിയുടെ പിന്തുണ മുകളിൽ പട്ടികപ്പെടുത്തിയ വിഭവങ്ങളിലേക്കാണ് പരിമിതമായിരിക്കുന്നത്.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,629 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "93a6a8a8a209128cbfedcbc076ee21b0",
"translation_date": "2025-12-19T12:55:49+00:00",
"source_file": "TROUBLESHOOTING.md",
"language_code": "ml"
}
-->
# പ്രശ്നപരിഹാര ഗൈഡ്
ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ് പാഠ്യപദ്ധതിയുമായി പ്രവർത്തിക്കുമ്പോൾ നിങ്ങൾക്ക് നേരിടാവുന്ന സാധാരണ പ്രശ്നങ്ങൾക്ക് ഈ ഗൈഡ് പരിഹാരങ്ങൾ നൽകുന്നു.
## ഉള്ളടക്ക പട്ടിക
- [Python and Jupyter Issues](../..)
- [Package and Dependency Issues](../..)
- [Jupyter Notebook Issues](../..)
- [Quiz Application Issues](../..)
- [Git and GitHub Issues](../..)
- [Docsify Documentation Issues](../..)
- [Data and File Issues](../..)
- [Performance Issues](../..)
- [Getting Additional Help](../..)
## Python and Jupyter Issues
### Python കണ്ടെത്താനാകുന്നില്ല അല്ലെങ്കിൽ തെറ്റായ പതിപ്പ്
**പ്രശ്നം:** `python: command not found` അല്ലെങ്കിൽ തെറ്റായ Python പതിപ്പ്
**പരിഹാരം:**
```bash
# പൈത്തൺ പതിപ്പ് പരിശോധിക്കുക
python --version
python3 --version
# പൈത്തൺ 3 'python3' എന്ന പേരിൽ ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടെങ്കിൽ, ഒരു അലിയാസ് സൃഷ്ടിക്കുക
# macOS/Linux-ൽ, ~/.bashrc അല്ലെങ്കിൽ ~/.zshrc-ലേക്ക് ചേർക്കുക:
alias python=python3
alias pip=pip3
# അല്ലെങ്കിൽ python3 വ്യക്തമായി ഉപയോഗിക്കുക
python3 -m pip install jupyter
```
**Windows പരിഹാരം:**
1. [python.org](https://www.python.org/) ൽ നിന്ന് Python വീണ്ടും ഇൻസ്റ്റാൾ ചെയ്യുക
2. ഇൻസ്റ്റലേഷൻ സമയത്ത് "Add Python to PATH" തിരഞ്ഞെടുക്കുക
3. നിങ്ങളുടെ ടെർമിനൽ/കമാൻഡ് പ്രോംപ്റ്റ് റീസ്റ്റാർട്ട് ചെയ്യുക
### Virtual Environment സജീവമാക്കൽ പ്രശ്നങ്ങൾ
**പ്രശ്നം:** Virtual environment സജീവമാകുന്നില്ല
**പരിഹാരം:**
**Windows:**
```bash
# നിങ്ങൾക്ക് എക്സിക്യൂഷൻ നയം പിശക് ലഭിച്ചാൽ
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
# പിന്നെ സജീവമാക്കുക
venv\Scripts\activate
```
**macOS/Linux:**
```bash
# സജീവമാക്കുന്ന സ്ക്രിപ്റ്റ് പ്രവർത്തനക്ഷമമാണെന്ന് ഉറപ്പാക്കുക
chmod +x venv/bin/activate
# പിന്നീട് സജീവമാക്കുക
source venv/bin/activate
```
**സജീവമാക്കൽ സ്ഥിരീകരിക്കുക:**
```bash
# നിങ്ങളുടെ പ്രോംപ്റ്റ് (venv) കാണിക്കണം
# Python സ്ഥാനം പരിശോധിക്കുക
which python # venv കാണിക്കണം
```
### Jupyter Kernel പ്രശ്നങ്ങൾ
**പ്രശ്നം:** "Kernel not found" അല്ലെങ്കിൽ "Kernel keeps dying"
**പരിഹാരം:**
```bash
# കർണൽ പുനഃസ്ഥാപിക്കുക
python -m ipykernel install --user --name=datascience --display-name="Python (Data Science)"
# അല്ലെങ്കിൽ ഡിഫോൾട്ട് കർണൽ ഉപയോഗിക്കുക
python -m ipykernel install --user
# ജുപിറ്റർ പുനരാരംഭിക്കുക
jupyter notebook
```
**പ്രശ്നം:** Jupyter-ൽ തെറ്റായ Python പതിപ്പ്
**പരിഹാരം:**
```bash
# നിങ്ങളുടെ വെർച്വൽ എൻവയോൺമെന്റിൽ Jupyter ഇൻസ്റ്റാൾ ചെയ്യുക
source venv/bin/activate # ആദ്യം സജീവമാക്കുക
pip install jupyter ipykernel
# കർണൽ രജിസ്റ്റർ ചെയ്യുക
python -m ipykernel install --user --name=venv --display-name="Python (venv)"
# Jupyter-ൽ, Kernel -> Change kernel -> Python (venv) തിരഞ്ഞെടുക്കുക
```
## Package and Dependency Issues
### Import Errors
**പ്രശ്നം:** `ModuleNotFoundError: No module named 'pandas'` (അല്ലെങ്കിൽ മറ്റ് പാക്കേജുകൾ)
**പരിഹാരം:**
```bash
# വെർച്വൽ എൻവയോൺമെന്റ് സജീവമാക്കിയിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക
source venv/bin/activate # മാക്‌ഒഎസ്/ലിനക്സ്
venv\Scripts\activate # വിൻഡോസ്
# നഷ്ടമായ പാക്കേജ് ഇൻസ്റ്റാൾ ചെയ്യുക
pip install pandas
# എല്ലാ പൊതുവായ പാക്കേജുകളും ഇൻസ്റ്റാൾ ചെയ്യുക
pip install jupyter pandas numpy matplotlib seaborn scikit-learn
# ഇൻസ്റ്റലേഷൻ സ്ഥിരീകരിക്കുക
python -c "import pandas; print(pandas.__version__)"
```
### Pip ഇൻസ്റ്റലേഷൻ പരാജയങ്ങൾ
**പ്രശ്നം:** `pip install` അനുമതി പിഴവുകളോടെ പരാജയപ്പെടുന്നു
**പരിഹാരം:**
```bash
# --user ഫ്ലാഗ് ഉപയോഗിക്കുക
pip install --user package-name
# അല്ലെങ്കിൽ വിർച്വൽ എൻവയോൺമെന്റ് ഉപയോഗിക്കുക (ശുപാർശ ചെയ്യുന്നു)
python -m venv venv
source venv/bin/activate
pip install package-name
```
**പ്രശ്നം:** `pip install` SSL സർട്ടിഫിക്കറ്റ് പിഴവുകളോടെ പരാജയപ്പെടുന്നു
**പരിഹാരം:**
```bash
# ആദ്യം പിപ്പ് അപ്ഡേറ്റ് ചെയ്യുക
python -m pip install --upgrade pip
# വിശ്വസനീയമായ ഹോസ്റ്റുമായി ഇൻസ്റ്റാൾ ചെയ്യാൻ ശ്രമിക്കുക (താൽക്കാലിക പരിഹാരം)
pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org package-name
```
### പാക്കേജ് പതിപ്പ് പൊരുത്തക്കേട്
**പ്രശ്നം:** പൊരുത്തക്കേടുള്ള പാക്കേജ് പതിപ്പുകൾ
**പരിഹാരം:**
```bash
# പുതിയ വെർച്വൽ എൻവയോൺമെന്റ് സൃഷ്ടിക്കുക
python -m venv venv-new
source venv-new/bin/activate # അല്ലെങ്കിൽ Windows-ൽ venv-new\Scripts\activate
# ആവശ്യമായെങ്കിൽ പ്രത്യേക പതിപ്പുകളുള്ള പാക്കേജുകൾ ഇൻസ്റ്റാൾ ചെയ്യുക
pip install pandas==1.3.0
pip install numpy==1.21.0
# അല്ലെങ്കിൽ pip ആശ്രിതത്വങ്ങൾ പരിഹരിക്കട്ടെ
pip install jupyter pandas numpy matplotlib seaborn scikit-learn
```
## Jupyter Notebook Issues
### Jupyter ആരംഭിക്കില്ല
**പ്രശ്നം:** `jupyter notebook` കമാൻഡ് കണ്ടെത്താനാകുന്നില്ല
**പരിഹാരം:**
```bash
# Jupyter ഇൻസ്റ്റാൾ ചെയ്യുക
pip install jupyter
# അല്ലെങ്കിൽ python -m ഉപയോഗിക്കുക
python -m jupyter notebook
# ആവശ്യമെങ്കിൽ PATH-ലേക്ക് ചേർക്കുക (macOS/Linux)
export PATH="$HOME/.local/bin:$PATH"
```
### Notebook ലോഡ് ചെയ്യാനോ സേവ് ചെയ്യാനോ കഴിയുന്നില്ല
**പ്രശ്നം:** "Notebook failed to load" അല്ലെങ്കിൽ സേവ് പിഴവുകൾ
**പരിഹാരം:**
1. ഫയൽ അനുമതികൾ പരിശോധിക്കുക
```bash
# നിങ്ങൾക്ക് എഴുതാനുള്ള അനുമതികൾ ഉണ്ടെന്ന് ഉറപ്പാക്കുക
ls -l notebook.ipynb
chmod 644 notebook.ipynb # ആവശ്യമെങ്കിൽ
```
2. ഫയൽ കേടുപാടുകൾ പരിശോധിക്കുക
```bash
# JSON ഘടന പരിശോധിക്കാൻ ടെക്സ്റ്റ് എഡിറ്ററിൽ തുറക്കാൻ ശ്രമിക്കുക
# കേടുപാടായാൽ ഉള്ളടക്കം പുതിയ നോട്ട്‌ബുക്കിലേക്ക് പകർത്തുക
```
3. Jupyter കാഷെ ക്ലിയർ ചെയ്യുക
```bash
jupyter notebook --clear-cache
```
### സെൽ പ്രവർത്തിക്കില്ല
**പ്രശ്നം:** സെൽ "In [*]" എന്ന നിലയിൽ കുടുങ്ങി അല്ലെങ്കിൽ വളരെ സമയം എടുക്കുന്നു
**പരിഹാരം:**
1. **Kernel ഇടപെടുക**: "Interrupt" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക അല്ലെങ്കിൽ `I, I` അമർത്തുക
2. **Kernel റീസ്റ്റാർട്ട് ചെയ്യുക**: Kernel മെനു → Restart
3. നിങ്ങളുടെ കോഡിൽ അനന്ത ലൂപ്പുകൾ ഉണ്ടോ എന്ന് പരിശോധിക്കുക
4. **ഔട്ട്പുട്ട് ക്ലിയർ ചെയ്യുക**: സെൽ → All Output → Clear
### പ്ലോട്ടുകൾ കാണിക്കുന്നില്ല
**പ്രശ്നം:** `matplotlib` പ്ലോട്ടുകൾ നോട്ട്‌ബുക്കിൽ കാണിക്കുന്നില്ല
**പരിഹാരം:**
```python
# നോട്ട്‌ബുക്കിന്റെ മുകളിൽ മാജിക് കമാൻഡ് ചേർക്കുക
%matplotlib inline
import matplotlib.pyplot as plt
# പ്ലോട്ട് സൃഷ്ടിക്കുക
plt.plot([1, 2, 3, 4])
plt.show() # show() വിളിക്കുന്നത് ഉറപ്പാക്കുക
```
**ഇന്ററാക്ടീവ് പ്ലോട്ടുകൾക്കുള്ള ബദൽ:**
```python
%matplotlib notebook
# അല്ലെങ്കിൽ
%matplotlib widget
```
## Quiz Application Issues
### npm install പരാജയപ്പെടുന്നു
**പ്രശ്നം:** `npm install` സമയത്ത് പിഴവുകൾ
**പരിഹാരം:**
```bash
# npm കാഷെ ക്ലിയർ ചെയ്യുക
npm cache clean --force
# node_modules ഉം package-lock.json ഉം നീക്കം ചെയ്യുക
rm -rf node_modules package-lock.json
# പുനഃസ്ഥാപിക്കുക
npm install
# ഇപ്പോഴും പരാജയപ്പെടുന്നുവെങ്കിൽ, legacy peer deps ഉപയോഗിച്ച് ശ്രമിക്കുക
npm install --legacy-peer-deps
```
### Quiz ആപ്പ് ആരംഭിക്കില്ല
**പ്രശ്നം:** `npm run serve` പരാജയപ്പെടുന്നു
**പരിഹാരം:**
```bash
# Node.js പതിപ്പ് പരിശോധിക്കുക
node --version # 12.x അല്ലെങ്കിൽ അതിനുമുകളിൽ ആയിരിക്കണം
# ആശ്രിതങ്ങൾ വീണ്ടും ഇൻസ്റ്റാൾ ചെയ്യുക
cd quiz-app
rm -rf node_modules package-lock.json
npm install
# വ്യത്യസ്ത പോർട്ട് പരീക്ഷിക്കുക
npm run serve -- --port 8081
```
### പോർട്ട് ഇതിനകം ഉപയോഗത്തിലാണ്
**പ്രശ്നം:** "Port 8080 is already in use"
**പരിഹാരം:**
```bash
# 8080 പോർട്ടിൽ പ്രവർത്തിക്കുന്ന പ്രോസസ്സ് കണ്ടെത്തി നശിപ്പിക്കുക
# macOS/Linux:
lsof -ti:8080 | xargs kill -9
# Windows:
netstat -ano | findstr :8080
taskkill /PID <PID> /F
# അല്ലെങ്കിൽ വ്യത്യസ്തമായ ഒരു പോർട്ട് ഉപയോഗിക്കുക
npm run serve -- --port 8081
```
### Quiz ലോഡ് ചെയ്യാനോ ശൂന്യ പേജ് കാണിക്കാനോ കഴിയുന്നില്ല
**പ്രശ്നം:** Quiz ആപ്പ് ലോഡ് ആകുന്നു പക്ഷേ ശൂന്യ പേജ് കാണിക്കുന്നു
**പരിഹാരം:**
1. ബ്രൗസർ കോൺസോൾ പിഴവുകൾ പരിശോധിക്കുക (F12)
2. ബ്രൗസർ കാഷെയും കുക്കികളും ക്ലിയർ ചെയ്യുക
3. വേറെ ബ്രൗസർ പരീക്ഷിക്കുക
4. ജാവാസ്ക്രിപ്റ്റ് സജീവമാണെന്ന് ഉറപ്പാക്കുക
5. അഡ്ബ്ലോക്കറുകൾ തടസ്സം സൃഷ്ടിക്കുന്നുണ്ടോ എന്ന് പരിശോധിക്കുക
```bash
# ആപ്പ് പുനർനിർമ്മിക്കുക
npm run build
npm run serve
```
## Git and GitHub Issues
### Git തിരിച്ചറിയുന്നില്ല
**പ്രശ്നം:** `git: command not found`
**പരിഹാരം:**
**Windows:**
- [git-scm.com](https://git-scm.com/) ൽ നിന്ന് Git ഇൻസ്റ്റാൾ ചെയ്യുക
- ഇൻസ്റ്റലേഷൻ കഴിഞ്ഞ് ടെർമിനൽ റീസ്റ്റാർട്ട് ചെയ്യുക
**macOS:**
> **കുറിപ്പ്:** നിങ്ങൾക്ക് Homebrew ഇൻസ്റ്റാൾ ചെയ്തിട്ടില്ലെങ്കിൽ, ആദ്യം [https://brew.sh/](https://brew.sh/) ൽ നൽകിയ നിർദ്ദേശങ്ങൾ പാലിച്ച് അത് ഇൻസ്റ്റാൾ ചെയ്യുക.
```bash
# ഹോംബ്രൂ വഴി ഇൻസ്റ്റാൾ ചെയ്യുക
brew install git
# അല്ലെങ്കിൽ Xcode കമാൻഡ് ലൈൻ ടൂളുകൾ ഇൻസ്റ്റാൾ ചെയ്യുക
xcode-select --install
```
**Linux:**
```bash
sudo apt-get install git # ഡെബിയൻ/ഉബുണ്ടു
sudo dnf install git # ഫെഡോറാ
```
### Clone പരാജയപ്പെടുന്നു
**പ്രശ്നം:** `git clone` ഓതന്റിക്കേഷൻ പിഴവുകളോടെ പരാജയപ്പെടുന്നു
**പരിഹാരം:**
```bash
# HTTPS URL ഉപയോഗിക്കുക
git clone https://github.com/microsoft/Data-Science-For-Beginners.git
# GitHub-ൽ 2FA സജ്ജമാക്കിയിട്ടുണ്ടെങ്കിൽ, Personal Access Token ഉപയോഗിക്കുക
# ടോക്കൺ സൃഷ്ടിക്കുക: https://github.com/settings/tokens
# ചോദിക്കുമ്പോൾ പാസ്‌വേഡായി ടോക്കൺ ഉപയോഗിക്കുക
```
### Permission Denied (publickey)
**പ്രശ്നം:** SSH കീ ഓതന്റിക്കേഷൻ പരാജയപ്പെടുന്നു
**പരിഹാരം:**
```bash
# SSH കീ ജനറേറ്റ് ചെയ്യുക
ssh-keygen -t ed25519 -C "your_email@example.com"
# കീ ssh-agent-ലേക്ക് ചേർക്കുക
eval "$(ssh-agent -s)"
ssh-add ~/.ssh/id_ed25519
# പബ്ലിക് കീ GitHub-ലേക്ക് ചേർക്കുക
# കീ കോപ്പി ചെയ്യുക: cat ~/.ssh/id_ed25519.pub
# ഇവിടെ ചേർക്കുക: https://github.com/settings/keys
```
## Docsify Documentation Issues
### Docsify കമാൻഡ് കണ്ടെത്താനാകുന്നില്ല
**പ്രശ്നം:** `docsify: command not found`
**പരിഹാരം:**
```bash
# ആഗോളമായി ഇൻസ്റ്റാൾ ചെയ്യുക
npm install -g docsify-cli
# macOS/Linux-ൽ അനുമതി പിശക് ഉണ്ടെങ്കിൽ
sudo npm install -g docsify-cli
# ഇൻസ്റ്റലേഷൻ സ്ഥിരീകരിക്കുക
docsify --version
# ഇപ്പോഴും കണ്ടെത്താനാകുന്നില്ലെങ്കിൽ, npm ആഗോള പാത ചേർക്കുക
# npm ആഗോള പാത കണ്ടെത്തുക
npm config get prefix
# PATH-ലേക്ക് ചേർക്കുക (~/.bashrc അല്ലെങ്കിൽ ~/.zshrc-ലേക്ക് ചേർക്കുക)
export PATH="$PATH:/usr/local/bin"
```
### ഡോക്യുമെന്റേഷൻ ലോഡ് ചെയ്യാനാകുന്നില്ല
**പ്രശ്നം:** Docsify സർവ് ചെയ്യുന്നു പക്ഷേ ഉള്ളടക്കം ലോഡ് ചെയ്യുന്നില്ല
**പരിഹാരം:**
```bash
# നിങ്ങൾ റിപോസിറ്ററി റൂട്ടിൽ ഉണ്ടെന്ന് ഉറപ്പാക്കുക
cd Data-Science-For-Beginners
# index.html പരിശോധിക്കുക
ls index.html
# പ്രത്യേക പോർട്ടിൽ സർവ് ചെയ്യുക
docsify serve --port 3000
# ബ്രൗസർ കോൺസോളിൽ പിശകുകൾ പരിശോധിക്കുക (F12)
```
### ചിത്രങ്ങൾ കാണിക്കുന്നില്ല
**പ്രശ്നം:** ചിത്രങ്ങൾ തകരാറുള്ള ലിങ്ക് ഐക്കൺ കാണിക്കുന്നു
**പരിഹാരം:**
1. ചിത്രം പാതകൾ സാപേക്ഷമാണെന്ന് പരിശോധിക്കുക
2. ചിത്രം ഫയലുകൾ റിപ്പോസിറ്ററിയിൽ ഉണ്ടെന്ന് ഉറപ്പാക്കുക
3. ബ്രൗസർ കാഷെ ക്ലിയർ ചെയ്യുക
4. ഫയൽ എക്സ്റ്റൻഷനുകൾ പൊരുത്തപ്പെടുന്നുണ്ടോ എന്ന് പരിശോധിക്കുക (ചില സിസ്റ്റങ്ങളിൽ കേസ് സെൻസിറ്റീവ്)
## Data and File Issues
### ഫയൽ കണ്ടെത്താനാകുന്നില്ല പിഴവുകൾ
**പ്രശ്നം:** ഡാറ്റ ലോഡ് ചെയ്യുമ്പോൾ `FileNotFoundError`
**പരിഹാരം:**
```python
import os
# നിലവിലെ പ്രവർത്തന ഡയറക്ടറി പരിശോധിക്കുക
print(os.getcwd())
# പൂർണ്ണ പാത ഉപയോഗിക്കുക
data_path = os.path.join(os.getcwd(), 'data', 'filename.csv')
df = pd.read_csv(data_path)
# അല്ലെങ്കിൽ നോട്ട്‌ബുക്ക് സ്ഥിതിചെയ്യുന്ന സ്ഥലത്ത് നിന്ന് സാപേക്ഷ പാത ഉപയോഗിക്കുക
df = pd.read_csv('../data/filename.csv')
# ഫയൽ നിലവിലുണ്ടെന്ന് സ്ഥിരീകരിക്കുക
print(os.path.exists('data/filename.csv'))
```
### CSV വായന പിഴവുകൾ
**പ്രശ്നം:** CSV ഫയലുകൾ വായിക്കുമ്പോൾ പിഴവുകൾ
**പരിഹാരം:**
```python
import pandas as pd
# വ്യത്യസ്ത എൻകോഡിംഗുകൾ പരീക്ഷിക്കുക
df = pd.read_csv('file.csv', encoding='utf-8')
# അല്ലെങ്കിൽ
df = pd.read_csv('file.csv', encoding='latin-1')
# അല്ലെങ്കിൽ
df = pd.read_csv('file.csv', encoding='ISO-8859-1')
# നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ കൈകാര്യം ചെയ്യുക
df = pd.read_csv('file.csv', na_values=['NA', 'N/A', ''])
# കോമ അല്ലെങ്കിൽ ഡെലിമിറ്റർ വ്യക്തമാക്കുക
df = pd.read_csv('file.csv', delimiter=';')
```
### വലിയ ഡാറ്റാസെറ്റുകൾ ഉപയോഗിക്കുമ്പോൾ മെമ്മറി പിഴവുകൾ
**പ്രശ്നം:** വലിയ ഫയലുകൾ ലോഡ് ചെയ്യുമ്പോൾ `MemoryError`
**പരിഹാരം:**
```python
# ചങ്കുകളായി വായിക്കുക
chunk_size = 10000
chunks = []
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
# ചങ്ക് പ്രോസസ്സ് ചെയ്യുക
chunks.append(chunk)
df = pd.concat(chunks)
# അല്ലെങ്കിൽ പ്രത്യേക കോളങ്ങൾ മാത്രം വായിക്കുക
df = pd.read_csv('file.csv', usecols=['col1', 'col2'])
# കൂടുതൽ കാര്യക്ഷമമായ ഡാറ്റാ ടൈപ്പുകൾ ഉപയോഗിക്കുക
df = pd.read_csv('file.csv', dtype={'column_name': 'int32'})
```
## Performance Issues
### നോട്ട്‌ബുക്ക് പ്രകടനം മന്ദഗതിയിലാണ്
**പ്രശ്നം:** നോട്ട്‌ബുക്കുകൾ വളരെ മന്ദഗതിയിലാണ് പ്രവർത്തിക്കുന്നത്
**പരിഹാരം:**
1. **Kernel റീസ്റ്റാർട്ട് ചെയ്ത് ഔട്ട്പുട്ട് ക്ലിയർ ചെയ്യുക**
- Kernel → Restart & Clear Output
2. **ഉപയോഗിക്കാത്ത നോട്ട്‌ബുക്കുകൾ അടയ്ക്കുക**
3. **കോഡ് ഒപ്റ്റിമൈസ് ചെയ്യുക:**
```python
# ലൂപ്പുകൾക്ക് പകരം വെക്ടറൈസ്ഡ് ഓപ്പറേഷനുകൾ ഉപയോഗിക്കുക
# മോശം:
result = []
for x in data:
result.append(x * 2)
# നല്ലത്:
result = data * 2 # NumPy/Pandas വെക്ടറൈസേഷൻ
```
4. **വലിയ ഡാറ്റാസെറ്റുകൾ സാമ്പിൾ ചെയ്യുക:**
```python
# വികസനത്തിനിടെ സാമ്പിളുമായി പ്രവർത്തിക്കുക
df_sample = df.sample(n=1000) # അല്ലെങ്കിൽ df.head(1000)
```
### ബ്രൗസർ ക്രാഷ്
**പ്രശ്നം:** ബ്രൗസർ ക്രാഷ് ചെയ്യുന്നു അല്ലെങ്കിൽ പ്രതികരിക്കാതെ പോകുന്നു
**പരിഹാരം:**
1. ഉപയോഗിക്കാത്ത ടാബുകൾ അടയ്ക്കുക
2. ബ്രൗസർ കാഷെ ക്ലിയർ ചെയ്യുക
3. ബ്രൗസർ മെമ്മറി വർദ്ധിപ്പിക്കുക (Chrome: `chrome://settings/system`)
4. JupyterLab ഉപയോഗിക്കുക:
```bash
pip install jupyterlab
jupyter lab
```
## Getting Additional Help
### സഹായം ചോദിക്കുന്നതിന് മുമ്പ്
1. ഈ പ്രശ്നപരിഹാര ഗൈഡ് പരിശോധിക്കുക
2. [GitHub Issues](https://github.com/microsoft/Data-Science-For-Beginners/issues) തിരയുക
3. [INSTALLATION.md](INSTALLATION.md) ഉം [USAGE.md](USAGE.md) ഉം അവലോകനം ചെയ്യുക
4. പിഴവിന്റെ സന്ദേശം ഓൺലൈനിൽ തിരയാൻ ശ്രമിക്കുക
### സഹായം ചോദിക്കുന്ന വിധം
പ്രശ്നം സൃഷ്ടിക്കുമ്പോൾ അല്ലെങ്കിൽ സഹായം ചോദിക്കുമ്പോൾ ഉൾപ്പെടുത്തുക:
1. **ഓപ്പറേറ്റിംഗ് സിസ്റ്റം**: Windows, macOS, അല്ലെങ്കിൽ Linux (ഏത് ഡിസ്‌ട്രിബ്യൂഷൻ)
2. **Python പതിപ്പ്**: `python --version` ഓടിക്കുക
3. **പിഴവ് സന്ദേശം**: പൂർണ്ണമായ പിഴവ് സന്ദേശം പകർത്തുക
4. **പുനരാവർത്തനത്തിന് വേണ്ട ഘട്ടങ്ങൾ**: പിഴവ് സംഭവിക്കുന്നതിന് മുമ്പ് നിങ്ങൾ ചെയ്തത്
5. **നിങ്ങൾ ശ്രമിച്ച കാര്യങ്ങൾ**: നിങ്ങൾ ഇതിനകം പരീക്ഷിച്ച പരിഹാരങ്ങൾ
**ഉദാഹരണം:**
```
**Operating System:** macOS 12.0
**Python Version:** 3.9.7
**Error Message:** ModuleNotFoundError: No module named 'pandas'
**Steps to Reproduce:**
1. Activated virtual environment
2. Started Jupyter notebook
3. Tried to import pandas
**What I've Tried:**
- Ran pip install pandas
- Restarted Jupyter
```
### കമ്മ്യൂണിറ്റി വിഭവങ്ങൾ
- **GitHub Issues**: [Create an issue](https://github.com/microsoft/Data-Science-For-Beginners/issues/new)
- **Discord**: [Join our community](https://aka.ms/ds4beginners/discord)
- **Discussions**: [GitHub Discussions](https://github.com/microsoft/Data-Science-For-Beginners/discussions)
- **Microsoft Learn**: [Q&A Forums](https://docs.microsoft.com/answers/)
### ബന്ധപ്പെട്ട ഡോക്യുമെന്റേഷൻ
- [INSTALLATION.md](INSTALLATION.md) - സെറ്റപ്പ് നിർദ്ദേശങ്ങൾ
- [USAGE.md](USAGE.md) - പാഠ്യപദ്ധതി ഉപയോഗിക്കുന്ന വിധം
- [CONTRIBUTING.md](CONTRIBUTING.md) - സംഭാവന ചെയ്യാനുള്ള മാർഗ്ഗങ്ങൾ
- [README.md](README.md) - പ്രോജക്ട് അവലോകനം
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,376 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "f546349678757508d69ce9e1d2688446",
"translation_date": "2025-12-19T12:45:11+00:00",
"source_file": "USAGE.md",
"language_code": "ml"
}
-->
# ഉപയോഗ മാർഗ്ഗനിർദ്ദേശം
ഡാറ്റാ സയൻസ് ഫോർ ബിഗിനേഴ്സ് പാഠ്യപദ്ധതിയുടെ ഉദാഹരണങ്ങളും സാധാരണ പ്രവൃത്തിപദ്ധതികളും ഈ മാർഗ്ഗനിർദ്ദേശം നൽകുന്നു.
## ഉള്ളടക്ക പട്ടിക
- [ഈ പാഠ്യപദ്ധതി എങ്ങനെ ഉപയോഗിക്കാം](../..)
- [പാഠങ്ങളുമായി പ്രവർത്തിക്കൽ](../..)
- [ജുപിറ്റർ നോട്ട്‌ബുക്കുകളുമായി പ്രവർത്തിക്കൽ](../..)
- [ക്വിസ് അപ്ലിക്കേഷൻ ഉപയോഗിക്കൽ](../..)
- [സാധാരണ പ്രവൃത്തിപദ്ധതികൾ](../..)
- [സ്വയം പഠിക്കുന്നവർക്കുള്ള ടിപ്പുകൾ](../..)
- [അധ്യാപകർക്കുള്ള ടിപ്പുകൾ](../..)
## ഈ പാഠ്യപദ്ധതി എങ്ങനെ ഉപയോഗിക്കാം
ഈ പാഠ്യപദ്ധതി ലവചികമായും വിവിധ രീതികളിൽ ഉപയോഗിക്കാവുന്നതുമായ രീതിയിൽ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു:
- **സ്വയംനിർദ്ദേശ പഠനം**: നിങ്ങളുടെ സ്വന്തം വേഗതയിൽ സ്വതന്ത്രമായി പാഠങ്ങൾ പഠിക്കുക
- **ക്ലാസ്‌റൂം നിർദ്ദേശം**: മാർഗ്ഗനിർദ്ദേശത്തോടെ ഘടനാപരമായ കോഴ്സ് ആയി ഉപയോഗിക്കുക
- **അധ്യയന ഗ്രൂപ്പുകൾ**: കൂട്ടായ്മയിൽ സഹപാഠികളോടൊപ്പം പഠിക്കുക
- **വർക്ക്‌ഷോപ്പ് ഫോർമാറ്റ്**: തീവ്രമായ ചെറുകാല പഠന സെഷനുകൾ
## പാഠങ്ങളുമായി പ്രവർത്തിക്കൽ
ഓരോ പാഠവും പഠനം പരമാവധി ആക്കാൻ സ്ഥിരമായ ഘടന പിന്തുടരുന്നു:
### പാഠ ഘടന
1. **പ്രീ-പാഠ ക്വിസ്**: നിലവിലുള്ള അറിവ് പരിശോധിക്കുക
2. **സ്കെച്ച്നോട്ട്** (ഐച്ഛികം): പ്രധാന ആശയങ്ങളുടെ ദൃശ്യ സംഗ്രഹം
3. **വീഡിയോ** (ഐച്ഛികം): അനുബന്ധ വീഡിയോ ഉള്ളടക്കം
4. **ലിഖിത പാഠം**: മുഖ്യ ആശയങ്ങളും വിശദീകരണങ്ങളും
5. **ജുപിറ്റർ നോട്ട്‌ബുക്ക്**: പ്രായോഗിക കോഡിംഗ് അഭ്യാസങ്ങൾ
6. **അസൈൻമെന്റ്**: പഠിച്ചതു പ്രയോഗിക്കുക
7. **പോസ്റ്റ്-പാഠ ക്വിസ്**: നിങ്ങളുടെ മനസ്സിലാക്കൽ ശക്തിപ്പെടുത്തുക
### ഒരു പാഠത്തിനുള്ള ഉദാഹരണ പ്രവൃത്തിപദ്ധതി
```bash
# 1. പാഠം ഡയറക്ടറിയിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd 1-Introduction/01-defining-data-science
# 2. README.md വായിക്കുക
# README.md നിങ്ങളുടെ ബ്രൗസറിലോ എഡിറ്ററിലോ തുറക്കുക
# 3. പൂർവ്വപാഠം ക്വിസ് എടുക്കുക
# README-യിലെ ക്വിസ് ലിങ്കിൽ ക്ലിക്ക് ചെയ്യുക
# 4. Jupyter നോട്ട്‌ബുക്ക് തുറക്കുക (ലഭ്യമായാൽ)
jupyter notebook
# 5. നോട്ട്‌ബുക്കിലെ അഭ്യാസങ്ങൾ പൂർത്തിയാക്കുക
# 6. അസൈൻമെന്റിൽ പ്രവർത്തിക്കുക
# 7. പാശ്ചാത്യപാഠം ക്വിസ് എടുക്കുക
```
## ജുപിറ്റർ നോട്ട്‌ബുക്കുകളുമായി പ്രവർത്തിക്കൽ
### ജുപിറ്റർ ആരംഭിക്കൽ
```bash
# നിങ്ങളുടെ വെർച്വൽ എൻവയോൺമെന്റ് സജീവമാക്കുക
source venv/bin/activate # മാക്‌ഓഎസ്/ലിനക്സിൽ
# അല്ലെങ്കിൽ
venv\Scripts\activate # വിൻഡോസിൽ
# റിപോസിറ്ററി റൂട്ടിൽ നിന്ന് ജുപിറ്റർ ആരംഭിക്കുക
jupyter notebook
```
### നോട്ട്‌ബുക്ക് സെല്ലുകൾ പ്രവർത്തിപ്പിക്കൽ
1. **ഒരു സെൽ പ്രവർത്തിപ്പിക്കുക**: `Shift + Enter` അമർത്തുക അല്ലെങ്കിൽ "Run" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക
2. **എല്ലാ സെല്ലുകളും പ്രവർത്തിപ്പിക്കുക**: മെനുവിൽ നിന്ന് "Cell" → "Run All" തിരഞ്ഞെടുക്കുക
3. **കേർണൽ പുനരാരംഭിക്കുക**: പ്രശ്നങ്ങൾ ഉണ്ടെങ്കിൽ "Kernel" → "Restart" തിരഞ്ഞെടുക്കുക
### ഉദാഹരണം: നോട്ട്‌ബുക്കിൽ ഡാറ്റയുമായി പ്രവർത്തിക്കൽ
```python
# ആവശ്യമായ ലൈബ്രറികൾ ഇറക്കുമതി ചെയ്യുക
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# ഒരു ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യുക
df = pd.read_csv('data/sample.csv')
# ഡാറ്റ പരിശോധിക്കുക
df.head()
df.info()
df.describe()
# ഒരു ദൃശ്യവൽക്കരണം സൃഷ്ടിക്കുക
plt.figure(figsize=(10, 6))
plt.plot(df['column_name'])
plt.title('Sample Visualization')
plt.xlabel('X-axis Label')
plt.ylabel('Y-axis Label')
plt.show()
```
### നിങ്ങളുടെ ജോലി സംരക്ഷിക്കൽ
- ജുപിറ്റർ സ്വയംക്രമമായി ഇടക്കിടെ സേവ് ചെയ്യുന്നു
- മാനുവലായി സേവ് ചെയ്യാൻ: `Ctrl + S` (മാക്ഓഎസിൽ `Cmd + S`) അമർത്തുക
- നിങ്ങളുടെ പുരോഗതി `.ipynb` ഫയലിൽ സേവ് ചെയ്യപ്പെടുന്നു
## ക്വിസ് അപ്ലിക്കേഷൻ ഉപയോഗിക്കൽ
### ക്വിസ് ആപ്പ് ലോക്കലായി പ്രവർത്തിപ്പിക്കൽ
```bash
# ക്വിസ് ആപ്പ് ഡയറക്ടറിയിലേക്ക് നാവിഗേറ്റ് ചെയ്യുക
cd quiz-app
# ഡെവലപ്പ്മെന്റ് സർവർ ആരംഭിക്കുക
npm run serve
# http://localhost:8080 ൽ ആക്‌സസ് ചെയ്യുക
```
### ക്വിസുകൾ എടുക്കൽ
1. പ്രീ-പാഠ ക്വിസുകൾ ഓരോ പാഠത്തിന്റെ മുകളിൽ ലിങ്ക് ചെയ്തിരിക്കുന്നു
2. പോസ്റ്റ്-പാഠ ക്വിസുകൾ ഓരോ പാഠത്തിന്റെ താഴെ ലിങ്ക് ചെയ്തിരിക്കുന്നു
3. ഓരോ ക്വിസിലും 3 ചോദ്യങ്ങളുണ്ട്
4. ക്വിസുകൾ പഠനം ശക്തിപ്പെടുത്താൻ രൂപകൽപ്പന ചെയ്തതാണ്, പൂർണ്ണമായ പരീക്ഷണത്തിന് അല്ല
### ക്വിസ് നമ്പറിംഗ്
- ക്വിസുകൾ 0-39 വരെ നമ്പർ ചെയ്തിരിക്കുന്നു (മൊത്തം 40 ക്വിസുകൾ)
- ഓരോ പാഠത്തിനും സാധാരണയായി പ്രീയും പോസ്റ്റും ക്വിസ് ഉണ്ട്
- ക്വിസ് URLs-ൽ ക്വിസ് നമ്പർ ഉൾപ്പെടുന്നു: `https://ff-quizzes.netlify.app/en/ds/quiz/0`
## സാധാരണ പ്രവൃത്തിപദ്ധതികൾ
### പ്രവൃത്തിപദ്ധതി 1: പൂർണ്ണ തുടക്കക്കാരൻ പാത
```bash
# 1. നിങ്ങളുടെ പരിസ്ഥിതി സജ്ജമാക്കുക (INSTALLATION.md കാണുക)
# 2. പാഠം 1 മുതൽ ആരംഭിക്കുക
cd 1-Introduction/01-defining-data-science
# 3. ഓരോ പാഠത്തിനും:
# - പാഠത്തിന് മുമ്പുള്ള ക്വിസ് എടുക്കുക
# - പാഠത്തിന്റെ ഉള്ളടക്കം വായിക്കുക
# - നോട്ട്‌ബുക്ക് വഴി പ്രവർത്തിക്കുക
# - അസൈൻമെന്റ് പൂർത്തിയാക്കുക
# - പാഠത്തിന് ശേഷമുള്ള ക്വിസ് എടുക്കുക
# 4. എല്ലാ 20 പാഠങ്ങളും ക്രമമായി മുന്നോട്ട് പോകുക
```
### പ്രവൃത്തിപദ്ധതി 2: വിഷയം-നിർദ്ദിഷ്ട പഠനം
നിങ്ങൾക്ക് ഒരു പ്രത്യേക വിഷയത്തിൽ താൽപര്യമുണ്ടെങ്കിൽ:
```bash
# ഉദാഹരണം: ഡാറ്റാ ദൃശ്യീകരണത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുക
cd 3-Data-Visualization
# പാഠങ്ങൾ 9-13 പരിശോധിക്കുക:
# - പാഠം 9: അളവുകൾ ദൃശ്യീകരിക്കൽ
# - പാഠം 10: വിതരണങ്ങൾ ദൃശ്യീകരിക്കൽ
# - പാഠം 11: അനുപാതങ്ങൾ ദൃശ്യീകരിക്കൽ
# - പാഠം 12: ബന്ധങ്ങൾ ദൃശ്യീകരിക്കൽ
# - പാഠം 13: അർത്ഥവത്തായ ദൃശ്യീകരണങ്ങൾ
```
### പ്രവൃത്തിപദ്ധതി 3: പ്രോജക്ട്-അധിഷ്ഠിത പഠനം
```bash
# 1. ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ പാഠങ്ങൾ (14-16) അവലോകനം ചെയ്യുക
cd 4-Data-Science-Lifecycle
# 2. യഥാർത്ഥ ലോക ഉദാഹരണം വഴി പ്രവർത്തിക്കുക (പാഠം 20)
cd ../6-Data-Science-In-Wild/20-Real-World-Examples
# 3. നിങ്ങളുടെ സ്വന്തം പ്രോജക്ടിൽ ആശയങ്ങൾ പ്രയോഗിക്കുക
```
### പ്രവൃത്തിപദ്ധതി 4: ക്ലൗഡ്-അധിഷ്ഠിത ഡാറ്റാ സയൻസ്
```bash
# ക്ലൗഡ് ഡാറ്റ സയൻസ് പഠിക്കുക (പാഠങ്ങൾ 17-19)
cd 5-Data-Science-In-Cloud
# 17: ക്ലൗഡ് ഡാറ്റ സയൻസിലേക്ക് പരിചയം
# 18: ലോ-കോഡ് എംഎൽ ടൂളുകൾ
# 19: അസ്യൂർ മെഷീൻ ലേണിംഗ് സ്റ്റുഡിയോ
```
## സ്വയം പഠിക്കുന്നവർക്കുള്ള ടിപ്പുകൾ
### ക്രമീകരിച്ചിരിക്കുക
```bash
# ഒരു പഠന ജേർണൽ സൃഷ്ടിക്കുക
mkdir my-learning-journal
# ഓരോ പാഠത്തിനും കുറിപ്പുകൾ സൃഷ്ടിക്കുക
echo "# Lesson 1 Notes" > my-learning-journal/lesson-01-notes.md
```
### പതിവായി അഭ്യാസം ചെയ്യുക
- ഓരോ ദിവസവും അല്ലെങ്കിൽ ആഴ്ചയിൽ ഒരു നിശ്ചിത സമയം മാറ്റിവെക്കുക
- ആഴ്ചയിൽ കുറഞ്ഞത് ഒരു പാഠം പൂർത്തിയാക്കുക
- മുമ്പത്തെ പാഠങ്ങൾ ഇടക്കിടെ അവലോകനം ചെയ്യുക
### സമൂഹവുമായി ഇടപഴകുക
- [ഡിസ്‌കോർഡ് സമൂഹം](https://aka.ms/ds4beginners/discord)യിൽ ചേരുക
- ഡിസ്‌കോർഡിലെ #Data-Science-for-Beginners ചാനലിൽ പങ്കെടുക്കുക [Discord Discussions](https://aka.ms/ds4beginners/discord)
- നിങ്ങളുടെ പുരോഗതി പങ്കുവെക്കുകയും ചോദ്യങ്ങൾ ചോദിക്കുകയും ചെയ്യുക
### നിങ്ങളുടെ സ്വന്തം പ്രോജക്ടുകൾ നിർമ്മിക്കുക
പാഠങ്ങൾ പൂർത്തിയാക്കിയ ശേഷം, ആശയങ്ങൾ വ്യക്തിഗത പ്രോജക്ടുകളിൽ പ്രയോഗിക്കുക:
```python
# ഉദാഹരണം: നിങ്ങളുടെ സ്വന്തം ഡാറ്റാസെറ്റ് വിശകലനം ചെയ്യുക
import pandas as pd
# നിങ്ങളുടെ സ്വന്തം ഡാറ്റ ലോഡ് ചെയ്യുക
my_data = pd.read_csv('my-project/data.csv')
# പഠിച്ച സാങ്കേതിക വിദ്യകൾ പ്രയോഗിക്കുക
# - ഡാറ്റ ശുചീകരണം (പാഠം 8)
# - അന്വേഷണാത്മക ഡാറ്റ വിശകലനം (പാഠം 7)
# - ദൃശ്യവൽക്കരണം (പാഠങ്ങൾ 9-13)
# - വിശകലനം (പാഠം 15)
```
## അധ്യാപകർക്കുള്ള ടിപ്പുകൾ
### ക്ലാസ്‌റൂം ക്രമീകരണം
1. വിശദമായ മാർഗ്ഗനിർദ്ദേശങ്ങൾക്ക് [for-teachers.md](for-teachers.md) പരിശോധിക്കുക
2. പങ്കുവെക്കുന്ന പരിസ്ഥിതി സജ്ജമാക്കുക (GitHub Classroom അല്ലെങ്കിൽ Codespaces)
3. ഒരു ആശയവിനിമയ ചാനൽ സ്ഥാപിക്കുക (Discord, Slack, അല്ലെങ്കിൽ Teams)
### പാഠം പദ്ധതിയിടൽ
**സൂചിപ്പിച്ച 10-ആഴ്ച ഷെഡ്യൂൾ:**
- **ആഴ്ച 1-2**: പരിചയം (പാഠങ്ങൾ 1-4)
- **ആഴ്ച 3-4**: ഡാറ്റയുമായി പ്രവർത്തിക്കൽ (പാഠങ്ങൾ 5-8)
- **ആഴ്ച 5-6**: ഡാറ്റാ ദൃശ്യീകരണം (പാഠങ്ങൾ 9-13)
- **ആഴ്ച 7-8**: ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ (പാഠങ്ങൾ 14-16)
- **ആഴ്ച 9**: ക്ലൗഡ് ഡാറ്റാ സയൻസ് (പാഠങ്ങൾ 17-19)
- **ആഴ്ച 10**: യാഥാർത്ഥ്യ പ്രയോഗങ്ങളും അന്തിമ പ്രോജക്ടുകളും (പാഠം 20)
### ഓഫ്‌ലൈൻ ആക്‌സസിനായി ഡോക്സിഫൈ പ്രവർത്തിപ്പിക്കൽ
```bash
# ക്ലാസ് റൂം ഉപയോഗത്തിനായി ഡോക്യുമെന്റേഷൻ ലോക്കലായി സർവ് ചെയ്യുക
docsify serve
# വിദ്യാർത്ഥികൾ localhost:3000 ൽ പ്രവേശിക്കാം
# പ്രാഥമിക ക്രമീകരണത്തിന് ശേഷം ഇന്റർനെറ്റ് ആവശ്യമില്ല
```
### അസൈൻമെന്റ് ഗ്രേഡിംഗ്
- പൂർത്തിയാക്കിയ അഭ്യാസങ്ങൾക്കായി വിദ്യാർത്ഥികളുടെ നോട്ട്‌ബുക്കുകൾ പരിശോധിക്കുക
- ക്വിസ് സ്കോറുകൾ വഴി മനസ്സിലാക്കൽ പരിശോധിക്കുക
- ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ സിദ്ധാന്തങ്ങൾ ഉപയോഗിച്ച് അന്തിമ പ്രോജക്ടുകൾ വിലയിരുത്തുക
### അസൈൻമെന്റുകൾ സൃഷ്ടിക്കൽ
```python
# ഉദാഹരണ കസ്റ്റം അസൈൻമെന്റ് ടെംപ്ലേറ്റ്
"""
Assignment: [Topic]
Objective: [Learning goal]
Dataset: [Provide or have students find one]
Tasks:
1. Load and explore the dataset
2. Clean and prepare the data
3. Create at least 3 visualizations
4. Perform analysis
5. Communicate findings
Deliverables:
- Jupyter notebook with code and explanations
- Written summary of findings
"""
```
## ഓഫ്‌ലൈൻ പ്രവർത്തനം
### വിഭവങ്ങൾ ഡൗൺലോഡ് ചെയ്യുക
```bash
# മുഴുവൻ റിപ്പോസിറ്ററി ക്ലോൺ ചെയ്യുക
git clone https://github.com/microsoft/Data-Science-For-Beginners.git
# ഡാറ്റാസെറ്റുകൾ മുൻകൂട്ടി ഡൗൺലോഡ് ചെയ്യുക
# മിക്ക ഡാറ്റാസെറ്റുകളും റിപ്പോസിറ്ററിയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്
```
### ഡോക്യുമെന്റേഷൻ ലോക്കലായി പ്രവർത്തിപ്പിക്കുക
```bash
# ഡോക്സിഫൈയുമായി സേവനം ചെയ്യുക
docsify serve
# localhost:3000 ൽ പ്രവേശിക്കുക
```
### ക്വിസ് ആപ്പ് ലോക്കലായി പ്രവർത്തിപ്പിക്കുക
```bash
cd quiz-app
npm run serve
```
## വിവർത്തന ഉള്ളടക്കം ആക്‌സസ് ചെയ്യൽ
40-ലധികം ഭാഷകളിൽ വിവർത്തനങ്ങൾ ലഭ്യമാണ്:
```bash
# പരിഭാഷപ്പെടുത്തിയ പാഠങ്ങൾ ആക്‌സസ് ചെയ്യുക
cd translations/fr # ഫ്രഞ്ച്
cd translations/es # സ്പാനിഷ്
cd translations/de # ജർമ്മൻ
# ... കൂടാതെ മറ്റും നിരവധി
```
ഓരോ വിവർത്തനവും ഇംഗ്ലീഷ് പതിപ്പിന്റെ സമാന ഘടന നിലനിർത്തുന്നു.
## അധിക വിഭവങ്ങൾ
### പഠനം തുടരുക
- [Microsoft Learn](https://docs.microsoft.com/learn/) - അധിക പഠന പാതകൾ
- [Student Hub](https://docs.microsoft.com/learn/student-hub) - വിദ്യാർത്ഥികൾക്കുള്ള വിഭവങ്ങൾ
- [Azure AI Foundry](https://aka.ms/foundry/forum) - സമൂഹ ഫോറം
### ബന്ധപ്പെട്ട പാഠ്യപദ്ധതികൾ
- [AI for Beginners](https://aka.ms/ai-beginners)
- [ML for Beginners](https://aka.ms/ml-beginners)
- [Web Dev for Beginners](https://aka.ms/webdev-beginners)
- [Generative AI for Beginners](https://aka.ms/genai-beginners)
## സഹായം നേടുക
- സാധാരണ പ്രശ്നങ്ങൾക്ക് [TROUBLESHOOTING.md](TROUBLESHOOTING.md) പരിശോധിക്കുക
- [GitHub Issues](https://github.com/microsoft/Data-Science-For-Beginners/issues) തിരയുക
- ഞങ്ങളുടെ [ഡിസ്‌കോർഡ്](https://aka.ms/ds4beginners/discord) ചേരുക
- പ്രശ്നങ്ങൾ റിപ്പോർട്ട് ചെയ്യാനും സംഭാവന നൽകാനും [CONTRIBUTING.md](CONTRIBUTING.md) അവലോകനം ചെയ്യുക
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാപത്രം**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, യന്ത്രം ചെയ്ത വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് കരുതേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ വ്യാഖ്യാനക്കേടുകൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "3767555b3cc28a2865c79202f4374204",
"translation_date": "2025-12-19T13:30:42+00:00",
"source_file": "docs/_sidebar.md",
"language_code": "ml"
}
-->
- പരിചയം
- [ഡാറ്റാ സയൻസ് നിർവചനം](../1-Introduction/01-defining-data-science/README.md)
- [ഡാറ്റാ സയൻസിന്റെ നൈതികത](../1-Introduction/02-ethics/README.md)
- [ഡാറ്റ നിർവചനം](../1-Introduction/03-defining-data/README.md)
- [സാധ്യതയും സ്ഥിതിവിവരശാസ്ത്രവും](../1-Introduction/04-stats-and-probability/README.md)
- ഡാറ്റയുമായി പ്രവർത്തിക്കൽ
- [ബന്ധപ്പെട്ട ഡാറ്റാബേസുകൾ](../2-Working-With-Data/05-relational-databases/README.md)
- [ബന്ധമില്ലാത്ത ഡാറ്റാബേസുകൾ](../2-Working-With-Data/06-non-relational/README.md)
- [പൈത്തൺ](../2-Working-With-Data/07-python/README.md)
- [ഡാറ്റ തയ്യാറാക്കൽ](../2-Working-With-Data/08-data-preparation/README.md)
- ഡാറ്റാ ദൃശ്യവൽക്കരണം
- [അളവുകൾ ദൃശ്യവൽക്കരിക്കൽ](../3-Data-Visualization/09-visualization-quantities/README.md)
- [വിതരണങ്ങൾ ദൃശ്യവൽക്കരിക്കൽ](../3-Data-Visualization/10-visualization-distributions/README.md)
- [അനുപാതങ്ങൾ ദൃശ്യവൽക്കരിക്കൽ](../3-Data-Visualization/11-visualization-proportions/README.md)
- [ബന്ധങ്ങൾ ദൃശ്യവൽക്കരിക്കൽ](../3-Data-Visualization/12-visualization-relationships/README.md)
- [അർത്ഥവത്തായ ദൃശ്യവൽക്കരണങ്ങൾ](../3-Data-Visualization/13-meaningful-visualizations/README.md)
- ഡാറ്റാ സയൻസ് ജീവിതചക്രം
- [പരിചയം](../4-Data-Science-Lifecycle/14-Introduction/README.md)
- [വിശകലനം](../4-Data-Science-Lifecycle/15-analyzing/README.md)
- [സംവാദം](../4-Data-Science-Lifecycle/16-communication/README.md)
- ക്ലൗഡിൽ ഡാറ്റാ സയൻസ്
- [പരിചയം](../5-Data-Science-In-Cloud/17-Introduction/README.md)
- [ലോ കോഡ്](../5-Data-Science-In-Cloud/18-Low-Code/README.md)
- [അസ്യൂർ](../5-Data-Science-In-Cloud/19-Azure/README.md)
- വന്യജീവിതത്തിലെ ഡാറ്റാ സയൻസ്
- [DS ഇൻ ദി വയൽഡ്](../6-Data-Science-In-Wild/README.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,151 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "9bef7fd96c8f262339933117d9b3e342",
"translation_date": "2025-12-19T13:27:55+00:00",
"source_file": "examples/README.md",
"language_code": "ml"
}
-->
# തുടക്കക്കാർക്ക് അനുയോജ്യമായ ഡാറ്റാ സയൻസ് ഉദാഹരണങ്ങൾ
ഉദാഹരണങ്ങൾ ഡയറക്ടറിയിലേക്ക് സ്വാഗതം! ഈ ലളിതവും നന്നായി കമന്റ് ചെയ്ത ഉദാഹരണങ്ങളുടെ ശേഖരം, നിങ്ങൾ ഒരു പൂർണ്ണമായ തുടക്കക്കാരനാണെങ്കിലും, ഡാറ്റാ സയൻസിൽ തുടങ്ങാൻ സഹായിക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്തതാണ്.
## 📚 ഇവിടെ നിങ്ങൾ കണ്ടെത്തുന്നത്
ഓരോ ഉദാഹരണവും സ്വയം സമ്പൂർണമാണ്, കൂടാതെ ഇതിൽ ഉൾപ്പെടുന്നു:
- **പ്രതീകാത്മകമായ കമന്റുകൾ** ഓരോ ഘട്ടവും വിശദീകരിക്കുന്നു
- **ലളിതവും വായിക്കാൻ എളുപ്പവുമായ കോഡ്** ഓരോ തത്വവും ഒരേസമയം പ്രദർശിപ്പിക്കുന്നു
- **യഥാർത്ഥ ലോക സാഹചര്യങ്ങൾ** ഈ സാങ്കേതിക വിദ്യകൾ എപ്പോൾ എങ്ങനെ ഉപയോഗിക്കാമെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു
- **പ്രതീക്ഷിച്ച ഔട്ട്പുട്ട്** നിങ്ങൾ എന്ത് നോക്കണമെന്ന് അറിയാൻ
## 🚀 തുടങ്ങുന്നത്
### മുൻകൂട്ടി ആവശ്യമായവ
ഈ ഉദാഹരണങ്ങൾ പ്രവർത്തിപ്പിക്കുന്നതിന് മുമ്പ്, ഉറപ്പാക്കുക:
- Python 3.7 അല്ലെങ്കിൽ അതിനുമുകളിൽ ഇൻസ്റ്റാൾ ചെയ്തിട്ടുള്ളത്
- Python സ്ക്രിപ്റ്റുകൾ എങ്ങനെ പ്രവർത്തിപ്പിക്കാമെന്ന് അടിസ്ഥാന അറിവ്
### ആവശ്യമായ ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്യൽ
```bash
pip install pandas numpy matplotlib
```
## 📖 ഉദാഹരണങ്ങളുടെ അവലോകനം
### 1. ഹലോ വേൾഡ് - ഡാറ്റാ സയൻസ് ശൈലി
**ഫയൽ:** `01_hello_world_data_science.py`
നിങ്ങളുടെ ആദ്യ ഡാറ്റാ സയൻസ് പ്രോഗ്രാം! പഠിക്കുക:
- ലളിതമായ ഒരു ഡാറ്റാസെറ്റ് ലോഡ് ചെയ്യുന്നത്
- നിങ്ങളുടെ ഡാറ്റയെക്കുറിച്ചുള്ള അടിസ്ഥാന വിവരങ്ങൾ പ്രദർശിപ്പിക്കുന്നത്
- നിങ്ങളുടെ ആദ്യ ഡാറ്റാ സയൻസ് ഔട്ട്പുട്ട് പ്രിന്റ് ചെയ്യുന്നത്
പൂർണ്ണമായ തുടക്കക്കാർക്ക് അവരുടെ ആദ്യ ഡാറ്റാ സയൻസ് പ്രോഗ്രാം പ്രവർത്തനത്തിൽ കാണാൻ ഇത് അനുയോജ്യമാണ്.
---
### 2. ഡാറ്റ ലോഡ് ചെയ്യുകയും പരിശോധിക്കുകയും ചെയ്യൽ
**ഫയൽ:** `02_loading_data.py`
ഡാറ്റയുമായി പ്രവർത്തിക്കുന്ന അടിസ്ഥാനങ്ങൾ പഠിക്കുക:
- CSV ഫയലുകളിൽ നിന്ന് ഡാറ്റ വായിക്കുക
- നിങ്ങളുടെ ഡാറ്റാസെറ്റിന്റെ ആദ്യ കുറച്ച് വരികൾ കാണുക
- നിങ്ങളുടെ ഡാറ്റയെക്കുറിച്ചുള്ള അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ നേടുക
- ഡാറ്റാ തരം മനസ്സിലാക്കുക
ഇത് സാധാരണയായി ഏതൊരു ഡാറ്റാ സയൻസ് പ്രോജക്ടിന്റെയും ആദ്യ ഘട്ടമാണ്!
---
### 3. ലളിതമായ ഡാറ്റാ വിശകലനം
**ഫയൽ:** `03_simple_analysis.py`
നിങ്ങളുടെ ആദ്യ ഡാറ്റാ വിശകലനം നടത്തുക:
- അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ (സാധാരണ, മധ്യക, മോഡ്) കണക്കാക്കുക
- പരമാവധി, കുറഞ്ഞ മൂല്യങ്ങൾ കണ്ടെത്തുക
- മൂല്യങ്ങളുടെ സംഭവനകൾ എണ്ണുക
- നിബന്ധനകളുടെ അടിസ്ഥാനത്തിൽ ഡാറ്റ ഫിൽട്ടർ ചെയ്യുക
നിങ്ങളുടെ ഡാറ്റയെക്കുറിച്ചുള്ള ലളിതമായ ചോദ്യങ്ങൾക്ക് എങ്ങനെ ഉത്തരം നൽകാമെന്ന് കാണുക.
---
### 4. ഡാറ്റാ ദൃശ്യീകരണ അടിസ്ഥാനങ്ങൾ
**ഫയൽ:** `04_basic_visualization.py`
നിങ്ങളുടെ ആദ്യ ദൃശ്യീകരണങ്ങൾ സൃഷ്ടിക്കുക:
- ലളിതമായ ബാർ ചാർട്ട് നിർമ്മിക്കുക
- ഒരു ലൈൻ പ്ലോട്ട് സൃഷ്ടിക്കുക
- പൈ ചാർട്ട് ജനറേറ്റ് ചെയ്യുക
- നിങ്ങളുടെ ദൃശ്യീകരണങ്ങൾ ചിത്രങ്ങളായി സേവ് ചെയ്യുക
നിങ്ങളുടെ കണ്ടെത്തലുകൾ ദൃശ്യമായി പ്രചരിപ്പിക്കാൻ പഠിക്കുക!
---
### 5. യഥാർത്ഥ ഡാറ്റയുമായി പ്രവർത്തിക്കൽ
**ഫയൽ:** `05_real_world_example.py`
എല്ലാം ചേർത്ത് ഒരു സമ്പൂർണ ഉദാഹരണം:
- റിപോസിറ്ററിയിൽ നിന്നുള്ള യഥാർത്ഥ ഡാറ്റ ലോഡ് ചെയ്യുക
- ഡാറ്റ ശുദ്ധീകരിക്കുകയും തയ്യാറാക്കുകയും ചെയ്യുക
- വിശകലനം നടത്തുക
- അർത്ഥപൂർണമായ ദൃശ്യീകരണങ്ങൾ സൃഷ്ടിക്കുക
- നിഗമനങ്ങൾ വരുത്തുക
ഈ ഉദാഹരണം ആരംഭം മുതൽ അവസാനം വരെ ഒരു സമ്പൂർണ പ്രവൃത്തി പ്രവാഹം കാണിക്കുന്നു.
---
## 🎯 ഈ ഉദാഹരണങ്ങൾ എങ്ങനെ ഉപയോഗിക്കാം
1. **ആരംഭത്തിൽ നിന്ന് തുടങ്ങുക**: ഉദാഹരണങ്ങൾ ബുദ്ധിമുട്ടിന്റെ ക്രമത്തിൽ നമ്പർ ചെയ്തിരിക്കുന്നു. `01_hello_world_data_science.py` മുതൽ ആരംഭിച്ച് മുന്നോട്ട് പോവുക.
2. **കമന്റുകൾ വായിക്കുക**: ഓരോ ഫയലിലും കോഡ് എന്ത് ചെയ്യുന്നു, എന്തുകൊണ്ട് ചെയ്യുന്നു എന്നതിന്റെ വിശദമായ കമന്റുകൾ ഉണ്ട്. അവ ശ്രദ്ധാപൂർവ്വം വായിക്കുക!
3. **പരീക്ഷണം നടത്തുക**: കോഡ് മാറ്റി നോക്കുക. ഒരു മൂല്യം മാറ്റിയാൽ എന്ത് സംഭവിക്കും? തെറ്റുകൾ ഉണ്ടാക്കുകയും അവ പരിഹരിക്കുകയും ചെയ്യുക - ഇതാണ് പഠന രീതി!
4. **കോഡ് പ്രവർത്തിപ്പിക്കുക**: ഓരോ ഉദാഹരണവും പ്രവർത്തിപ്പിച്ച് ഔട്ട്പുട്ട് ശ്രദ്ധിക്കുക. നിങ്ങൾ പ്രതീക്ഷിച്ചതുമായി താരതമ്യം ചെയ്യുക.
5. **അധികം വികസിപ്പിക്കുക**: ഒരു ഉദാഹരണം മനസ്സിലാക്കിയ ശേഷം, നിങ്ങളുടെ സ്വന്തം ആശയങ്ങൾ ചേർത്ത് വികസിപ്പിക്കാൻ ശ്രമിക്കുക.
## 💡 തുടക്കക്കാർക്ക് ഉപദേശങ്ങൾ
- **വേഗം പിടിക്കരുത്**: അടുത്ത ഉദാഹരണത്തിലേക്ക് പോകുന്നതിന് മുമ്പ് ഓരോ ഉദാഹരണവും മനസ്സിലാക്കാൻ സമയം എടുക്കുക
- **കോഡ് താങ്കൾ തന്നെ ടൈപ്പ് ചെയ്യുക**: പകർത്തി പേസ്റ്റ് ചെയ്യരുത്. ടൈപ്പിംഗ് നിങ്ങളെ പഠിപ്പിക്കുകയും ഓർക്കാനും സഹായിക്കും
- **അപരിചിതമായ ആശയങ്ങൾ അന്വേഷിക്കുക**: നിങ്ങൾക്ക് മനസ്സിലാകാത്ത എന്തെങ്കിലും കണ്ടാൽ, ഓൺലൈനിലും പ്രധാന പാഠങ്ങളിലും തിരയുക
- **ചോദ്യങ്ങൾ ചോദിക്കുക**: സഹായം ആവശ്യമെങ്കിൽ [ചർച്ചാ ഫോറം](https://github.com/microsoft/Data-Science-For-Beginners/discussions) ൽ ചേരുക
- **നിയമിതമായി അഭ്യാസം ചെയ്യുക**: ഒരാഴ്ചയിൽ ഒരു വലിയ സെഷൻ ചെയ്യുന്നതിന് പകരം, ദിവസവും കുറച്ച് കോഡ് ചെയ്യാൻ ശ്രമിക്കുക
## 🔗 അടുത്ത ഘട്ടങ്ങൾ
ഈ ഉദാഹരണങ്ങൾ പൂർത്തിയാക്കിയ ശേഷം, നിങ്ങൾ തയ്യാറാണ്:
- പ്രധാന പാഠ്യപദ്ധതി പാഠങ്ങൾ പഠിക്കാൻ
- ഓരോ പാഠം ഫോൾഡറിലെയും അസൈൻമെന്റുകൾ പരീക്ഷിക്കാൻ
- കൂടുതൽ ആഴത്തിലുള്ള പഠനത്തിനായി Jupyter നോട്ട്‌ബുക്കുകൾ പരിശോധിക്കാൻ
- നിങ്ങളുടെ സ്വന്തം ഡാറ്റാ സയൻസ് പ്രോജക്ടുകൾ സൃഷ്ടിക്കാൻ
## 📚 അധിക സ്രോതസുകൾ
- [പ്രധാന പാഠ്യപദ്ധതി](../README.md) - സമ്പൂർണ 20-പാഠ കോഴ്‌സ്
- [അധ്യാപകർക്ക്](../for-teachers.md) - ഈ പാഠ്യപദ്ധതി നിങ്ങളുടെ ക്ലാസ്സിൽ ഉപയോഗിക്കുന്നത്
- [Microsoft Learn](https://docs.microsoft.com/learn/) - സൗജന്യ ഓൺലൈൻ പഠന സ്രോതസുകൾ
- [Python ഡോക്യുമെന്റേഷൻ](https://docs.python.org/3/) - ഔദ്യോഗിക Python റഫറൻസ്
## 🤝 സംഭാവനകൾ
ഒരു പിശക് കണ്ടെത്തിയോ പുതിയ ഒരു ഉദാഹരണത്തിന് ആശയമുണ്ടോ? ഞങ്ങൾ സംഭാവനകൾ സ്വാഗതം ചെയ്യുന്നു! ദയവായി ഞങ്ങളുടെ [സംഭാവന മാർഗ്ഗനിർദ്ദേശം](../CONTRIBUTING.md) കാണുക.
---
**സന്തോഷകരമായ പഠനം! 🎉**
ഓരോ വിദഗ്ധനും ഒരിക്കൽ തുടക്കക്കാരനായിരുന്നു. ഓരോ ഘട്ടവും ക്രമമായി മുന്നോട്ട് പോവുക, പിഴച്ചാലും ഭയപ്പെടേണ്ട - അവ പഠനത്തിന്റെ ഭാഗമാണ്!
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,78 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "f7440be10c17a8a9262713af3d2818a9",
"translation_date": "2025-12-19T12:40:49+00:00",
"source_file": "for-teachers.md",
"language_code": "ml"
}
-->
## അധ്യാപകര്‍ക്കായി
ഈ പാഠ്യപദ്ധതി നിങ്ങളുടെ ക്ലാസ്സില്‍ ഉപയോഗിക്കണോ? ദയവായി സ്വതന്ത്രമായി ഉപയോഗിക്കൂ!
വാസ്തവത്തില്‍, GitHub Classroom ഉപയോഗിച്ച് GitHub-ലും ഇത് ഉപയോഗിക്കാം.
അതിനായി, ഈ റിപോ ഫോര്‍ക്ക് ചെയ്യുക. ഓരോ പാഠത്തിനും ഒരു റിപോ സൃഷ്ടിക്കേണ്ടതുണ്ട്, അതിനാല്‍ ഓരോ ഫോള്‍ഡറും വേര്‍തിരിച്ച് ഒരു റിപോ ആയി മാറ്റേണ്ടതുണ്ട്. അങ്ങനെ, [GitHub Classroom](https://classroom.github.com/classrooms) ഓരോ പാഠവും വേര്‍തിരിച്ച് സ്വീകരിക്കാം.
ഈ [പൂര്‍ണ നിര്‍ദ്ദേശങ്ങള്‍](https://github.blog/2020-03-18-set-up-your-digital-classroom-with-github-classroom/) നിങ്ങളുടെ ക്ലാസ്സ്‌റൂം എങ്ങനെ സജ്ജമാക്കാമെന്ന് ഒരു ആശയം നല്‍കും.
## നിലവിലുള്ള റിപോ ഉപയോഗിക്കുന്നത്
GitHub Classroom ഉപയോഗിക്കാതെ ഈ റിപോ നിലവിലുള്ള രൂപത്തില്‍ ഉപയോഗിക്കണമെങ്കില്‍, അത് സാധ്യമാണ്. ഏത് പാഠം ഒന്നിച്ച് പഠിക്കണമെന്ന് നിങ്ങളുടെ വിദ്യാര്‍ത്ഥികളുമായി സംവദിക്കേണ്ടതുണ്ട്.
ഓണ്‍ലൈന്‍ ഫോര്‍മാറ്റില്‍ (Zoom, Teams, അല്ലെങ്കില്‍ മറ്റേതെങ്കിലും) ക്വിസുകള്‍ക്കായി ബ്രേക്ക്ഔട്ട് റൂമുകള്‍ രൂപീകരിച്ച്, വിദ്യാര്‍ത്ഥികളെ പഠനത്തിന് തയ്യാറാക്കാന്‍ മെന്റര്‍ ചെയ്യാം. പിന്നീട് ക്വിസുകള്‍ക്കായി വിദ്യാര്‍ത്ഥികളെ ക്ഷണിച്ച്, ഒരു നിശ്ചിത സമയത്ത് അവരുടെ ഉത്തരം 'issues' ആയി സമര്‍പ്പിക്കാം. സമാനമായി അസൈന്‍മെന്റുകള്‍ കൂടി, വിദ്യാര്‍ത്ഥികള്‍ തുറന്നിടത്ത് സഹകരിച്ച് പ്രവര്‍ത്തിക്കാന്‍ ആഗ്രഹിക്കുന്നുവെങ്കില്‍ ചെയ്യാം.
കൂടുതല്‍ സ്വകാര്യമായ ഫോര്‍മാറ്റ് ഇഷ്ടപ്പെടുന്നുവെങ്കില്‍, നിങ്ങളുടെ വിദ്യാര്‍ത്ഥികളെ പാഠം പാഠം ഫോര്‍ക്ക് ചെയ്ത് അവരുടെ സ്വന്തം GitHub റിപോകളില്‍ സ്വകാര്യ റിപോകളായി സൃഷ്ടിച്ച് നിങ്ങള്‍ക്ക് ആക്‌സസ് നല്‍കാന്‍ പറയുക. പിന്നീട് അവർ ക്വിസുകളും അസൈന്‍മെന്റുകളും സ്വകാര്യമായി പൂര്‍ത്തിയാക്കി നിങ്ങളുടെ ക്ലാസ്സ്‌റൂം റിപോയിലെ issues വഴി സമര്‍പ്പിക്കാം.
ഓണ്‍ലൈന്‍ ക്ലാസ്സ്‌റൂം ഫോര്‍മാറ്റില്‍ ഇത് പ്രവര്‍ത്തിപ്പിക്കാന്‍ നിരവധി മാര്‍ഗ്ഗങ്ങളുണ്ട്. നിങ്ങള്‍ക്ക് ഏറ്റവും അനുയോജ്യമായത് എന്താണെന്ന് ഞങ്ങളെ അറിയിക്കുക!
## ഈ പാഠ്യപദ്ധതിയില്‍ ഉള്‍പ്പെടുത്തിയിരിക്കുന്നത്:
20 പാഠങ്ങള്‍, 40 ക്വിസുകള്‍, 20 അസൈന്‍മെന്റുകള്‍. ദൃശ്യ പഠനാര്‍ത്ഥികള്‍ക്കായി പാഠങ്ങളോടൊപ്പം സ്കെച്ച്നോട്ടുകള്‍ ഉണ്ട്. പല പാഠങ്ങളും Python-ലും R-ലും ലഭ്യമാണ്, VS Code-ല്‍ Jupyter നോട്ട്‌ബുക്കുകള്‍ ഉപയോഗിച്ച് പൂര്‍ത്തിയാക്കാം. ഈ ടെക് സ്റ്റാക്ക് ഉപയോഗിച്ച് ക്ലാസ്സ്‌റൂം എങ്ങനെ സജ്ജമാക്കാമെന്ന് കൂടുതല്‍ അറിയാന്‍: https://code.visualstudio.com/docs/datascience/jupyter-notebooks.
എല്ലാ സ്കെച്ച്നോട്ടുകളും, വലിയ ഫോര്‍മാറ്റിലുള്ള പോസ്റ്ററടക്കം, [ഈ ഫോള്‍ഡറില്‍](../../sketchnotes) ഉണ്ട്.
[Docsify](https://docsify.js.org/#/) ഉപയോഗിച്ച് ഈ പാഠ്യപദ്ധതി സ്റ്റാന്‍ഡ്എലോണ്‍, ഓഫ്‌ലൈന്‍-ഫ്രണ്ട്ലി വെബ്‌സൈറ്റ് ആയി ഓടിക്കാം. നിങ്ങളുടെ ലൊക്കല്‍ മെഷീനില്‍ [Docsify ഇന്‍സ്റ്റാള്‍](https://docsify.js.org/#/quickstart) ചെയ്ത്, ഈ റിപോയുടെ റൂട്ട് ഫോള്‍ഡറില്‍ `docsify serve` ടൈപ്പ് ചെയ്യുക. വെബ്‌സൈറ്റ് നിങ്ങളുടെ ലോക്കല്‍ഹോസ്റ്റില്‍ പോര്‍ട്ട് 3000-ല്‍ ലഭിക്കും: `localhost:3000`.
ഓഫ്‌ലൈന്‍-ഫ്രണ്ട്ലി പാഠ്യപദ്ധതി സ്റ്റാന്‍ഡ്എലോണ്‍ വെബ് പേജായി തുറക്കും: https://localhost:3000
പാഠങ്ങള്‍ 6 ഭാഗങ്ങളായി ഗ്രൂപ്പ് ചെയ്തിരിക്കുന്നു:
- 1: പരിചയം
- 1: ഡാറ്റാ സയന്‍സ് നിർവചനം
- 2: നൈതികത
- 3: ഡാറ്റ നിർവചനം
- 4: പ്രൊബബിലിറ്റി ആൻഡ് സ്റ്റാറ്റിസ്റ്റിക്സ് അവലോകനം
- 2: ഡാറ്റയുമായി ജോലി ചെയ്യല്‍
- 5: റിലേഷണല്‍ ഡാറ്റാബേസുകള്‍
- 6: നോണ്‍-റിലേഷണല്‍ ഡാറ്റാബേസുകള്‍
- 7: Python
- 8: ഡാറ്റ തയ്യാറാക്കല്‍
- 3: ഡാറ്റാ ദൃശ്യീകരണം
- 9: അളവുകളുടെ ദൃശ്യീകരണം
- 10: വിതരണങ്ങളുടെ ദൃശ്യീകരണം
- 11: അനുപാതങ്ങളുടെ ദൃശ്യീകരണം
- 12: ബന്ധങ്ങളുടെ ദൃശ്യീകരണം
- 13: അര്‍ത്ഥവത്തായ ദൃശ്യീകരണങ്ങള്‍
- 4: ഡാറ്റാ സയന്‍സ് ലൈഫ്‌സൈക്കിൾ
- 14: പരിചയം
- 15: വിശകലനം
- 16: ആശയവിനിമയം
- 5: ക്ലൗഡിലെ ഡാറ്റാ സയന്‍സ്
- 17: പരിചയം
- 18: ലോ-കോഡ് ഓപ്ഷനുകള്‍
- 19: Azure
- 6: വന്യപ്രകൃതിയിലെ ഡാറ്റാ സയന്‍സ്
- 20: അവലോകനം
## ദയവായി നിങ്ങളുടെ അഭിപ്രായങ്ങള്‍ നല്‍കുക!
ഈ പാഠ്യപദ്ധതി നിങ്ങളുടെയും നിങ്ങളുടെ വിദ്യാര്‍ത്ഥികളുടെയും ആവശ്യങ്ങള്‍ക്ക് അനുയോജ്യമായി പ്രവര്‍ത്തിക്കണമെന്ന് ഞങ്ങള്‍ ആഗ്രഹിക്കുന്നു. ചര്‍ച്ചാ ബോര്‍ഡുകളില്‍ നിങ്ങളുടെ അഭിപ്രായങ്ങള്‍ നല്‍കുക! നിങ്ങളുടെ വിദ്യാര്‍ത്ഥികള്‍ക്കായി ചര്‍ച്ചാ ബോര്‍ഡുകളില്‍ ക്ലാസ്സ്‌റൂം ഏരിയ സൃഷ്ടിക്കാന്‍ സ്വതന്ത്രമായി ശ്രമിക്കൂ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,141 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "e92c33ea498915a13c9aec162616db18",
"translation_date": "2025-12-19T13:25:40+00:00",
"source_file": "quiz-app/README.md",
"language_code": "ml"
}
-->
# ക്വിസുകൾ
ഈ ക്വിസുകൾ https://aka.ms/datascience-beginners എന്ന ഡാറ്റാ സയൻസ് പാഠ്യപദ്ധതിക്കുള്ള പ്രീ-ലക്ചർ, പോസ്റ്റ്-ലക്ചർ ക്വിസുകളാണ്
## വിവർത്തനം ചെയ്ത ക്വിസ് സെറ്റ് ചേർക്കൽ
`assets/translations` ഫോൾഡറുകളിൽ പൊരുത്തപ്പെടുന്ന ക്വിസ് ഘടനകൾ സൃഷ്ടിച്ച് ക്വിസ് വിവർത്തനം ചേർക്കുക. കാനോണിക്കൽ ക്വിസുകൾ `assets/translations/en` ൽ ഉണ്ട്. ക്വിസുകൾ പല ഗ്രൂപ്പുകളായി വിഭജിച്ചിരിക്കുന്നു. ശരിയായ ക്വിസ് വിഭാഗവുമായി നമ്പറിംഗ് പൊരുത്തപ്പെടുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക. ഈ പാഠ്യപദ്ധതിയിൽ മൊത്തം 40 ക്വിസുകൾ ഉണ്ട്, എണ്ണൽ 0 മുതൽ ആരംഭിക്കുന്നു.
വിവർത്തനങ്ങൾ എഡിറ്റ് ചെയ്ത ശേഷം, `en` ൽ ഉള്ള കൺവെൻഷനുകൾ അനുസരിച്ച് എല്ലാ ഫയലുകളും ഇറക്കുമതി ചെയ്യാൻ വിവർത്തന ഫോൾഡറിലെ index.js ഫയൽ എഡിറ്റ് ചെയ്യുക.
`assets/translations` ൽ ഉള്ള `index.js` ഫയൽ പുതിയ വിവർത്തന ഫയലുകൾ ഇറക്കുമതി ചെയ്യാൻ എഡിറ്റ് ചെയ്യുക.
അതിനുശേഷം, ഈ ആപ്പിലെ `App.vue` ൽ ഉള്ള ഡ്രോപ്പ്ഡൗണിൽ നിങ്ങളുടെ ഭാഷ ചേർക്കുക. ലൊക്കലൈസ്ഡ് ചുരുക്കനാമം നിങ്ങളുടെ ഭാഷയുടെ ഫോൾഡർ നാമവുമായി പൊരുത്തപ്പെടണം.
അവസാനമായി, വിവർത്തനം ചെയ്ത പാഠങ്ങളിൽ ഉള്ള എല്ലാ ക്വിസ് ലിങ്കുകളും, അവ ഉണ്ടെങ്കിൽ, ഈ ലൊക്കലൈസേഷൻ ഒരു ക്വറി പാരാമീറ്ററായി ഉൾപ്പെടുത്താൻ എഡിറ്റ് ചെയ്യുക: ഉദാഹരണത്തിന് `?loc=fr`.
## പ്രോജക്ട് സജ്ജീകരണം
```
npm install
```
### വികസനത്തിനായി കോമ്പൈൽ ചെയ്ത് ഹോട്ട്-റീലോഡ് ചെയ്യുന്നു
```
npm run serve
```
### ഉത്പാദനത്തിനായി കോമ്പൈൽ ചെയ്ത് മിനിഫൈ ചെയ്യുന്നു
```
npm run build
```
### ഫയലുകൾ ലിന്റ് ചെയ്ത് ശരിയാക്കുന്നു
```
npm run lint
```
### കോൺഫിഗറേഷൻ ഇഷ്ടാനുസൃതമാക്കുക
കാണുക [Configuration Reference](https://cli.vuejs.org/config/) .
ക്രെഡിറ്റുകൾ: ഈ ക്വിസ് ആപ്പിന്റെ ഒറിജിനൽ വേർഷനിന് നന്ദി: https://github.com/arpan45/simple-quiz-vue
## Azure-ലേക്ക് ഡിപ്ലോയ് ചെയ്യൽ
തുടങ്ങാൻ സഹായിക്കുന്ന ഘട്ടം-ഘട്ടം ഗൈഡ് ഇവിടെ:
1. GitHub റിപോസിറ്ററി ഫോർക്ക് ചെയ്യുക
നിങ്ങളുടെ സ്റ്റാറ്റിക് വെബ് ആപ്പ് കോഡ് നിങ്ങളുടെ GitHub റിപോസിറ്ററിയിൽ ഉണ്ടെന്ന് ഉറപ്പാക്കുക. ഈ റിപോസിറ്ററി ഫോർക്ക് ചെയ്യുക.
2. Azure സ്റ്റാറ്റിക് വെബ് ആപ്പ് സൃഷ്ടിക്കുക
- [Azure അക്കൗണ്ട്](http://azure.microsoft.com) സൃഷ്ടിക്കുക
- [Azure പോർട്ടൽ](https://portal.azure.com) ൽ പോകുക
- “Create a resource” ക്ലിക്ക് ചെയ്ത് “Static Web App” തിരയുക.
- “Create” ക്ലിക്ക് ചെയ്യുക.
3. സ്റ്റാറ്റിക് വെബ് ആപ്പ് കോൺഫിഗർ ചെയ്യുക
- അടിസ്ഥാനങ്ങൾ: സബ്സ്ക്രിപ്ഷൻ: നിങ്ങളുടെ Azure സബ്സ്ക്രിപ്ഷൻ തിരഞ്ഞെടുക്കുക.
- റിസോഴ്‌സ് ഗ്രൂപ്പ്: പുതിയ റിസോഴ്‌സ് ഗ്രൂപ്പ് സൃഷ്ടിക്കുക അല്ലെങ്കിൽ നിലവിലുള്ളത് ഉപയോഗിക്കുക.
- പേര്: നിങ്ങളുടെ സ്റ്റാറ്റിക് വെബ് ആപ്പിന് ഒരു പേര് നൽകുക.
- പ്രദേശം: നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് ഏറ്റവും അടുത്ത പ്രദേശം തിരഞ്ഞെടുക്കുക.
- #### ഡിപ്ലോയ്മെന്റ് വിശദാംശങ്ങൾ:
- ഉറവിടം: “GitHub” തിരഞ്ഞെടുക്കുക.
- GitHub അക്കൗണ്ട്: Azure-ന് നിങ്ങളുടെ GitHub അക്കൗണ്ടിൽ പ്രവേശനം അനുവദിക്കുക.
- ഓർഗനൈസേഷൻ: നിങ്ങളുടെ GitHub ഓർഗനൈസേഷൻ തിരഞ്ഞെടുക്കുക.
- റിപോസിറ്ററി: നിങ്ങളുടെ സ്റ്റാറ്റിക് വെബ് ആപ്പ് ഉള്ള റിപോസിറ്ററി തിരഞ്ഞെടുക്കുക.
- ബ്രാഞ്ച്: ഡിപ്ലോയ് ചെയ്യാൻ ആഗ്രഹിക്കുന്ന ബ്രാഞ്ച് തിരഞ്ഞെടുക്കുക.
- #### ബിൽഡ് വിശദാംശങ്ങൾ:
- ബിൽഡ് പ്രീസെറ്റുകൾ: നിങ്ങളുടെ ആപ്പ് നിർമ്മിച്ച ഫ്രെയിംവർക്ക് തിരഞ്ഞെടുക്കുക (ഉദാ: React, Angular, Vue, മുതലായവ).
- ആപ്പ് സ്ഥലം: നിങ്ങളുടെ ആപ്പ് കോഡ് ഉള്ള ഫോൾഡർ വ്യക്തമാക്കുക (ഉദാ: റൂട്ട് ആണെങ്കിൽ /).
- API സ്ഥലം: API ഉണ്ടെങ്കിൽ, അതിന്റെ സ്ഥലം വ്യക്തമാക്കുക (ഐച്ഛികം).
- ഔട്ട്പുട്ട് സ്ഥലം: ബിൽഡ് ഔട്ട്പുട്ട് സൃഷ്ടിക്കുന്ന ഫോൾഡർ വ്യക്തമാക്കുക (ഉദാ: build അല്ലെങ്കിൽ dist).
4. അവലോകനം ചെയ്ത് സൃഷ്ടിക്കുക
നിങ്ങളുടെ ക്രമീകരണങ്ങൾ അവലോകനം ചെയ്ത് “Create” ക്ലിക്ക് ചെയ്യുക. Azure ആവശ്യമായ റിസോഴ്‌സുകൾ സജ്ജമാക്കി നിങ്ങളുടെ റിപോസിറ്ററിയിൽ GitHub Actions വർക്ക്‌ഫ്ലോ സൃഷ്ടിക്കും.
5. GitHub Actions വർക്ക്‌ഫ്ലോ
Azure നിങ്ങളുടെ റിപോസിറ്ററിയിൽ (.github/workflows/azure-static-web-apps-<name>.yml) GitHub Actions വർക്ക്‌ഫ്ലോ ഫയൽ സ്വയം സൃഷ്ടിക്കും. ഈ വർക്ക്‌ഫ്ലോ ബിൽഡ്, ഡിപ്ലോയ്മെന്റ് പ്രക്രിയ കൈകാര്യം ചെയ്യും.
6. ഡിപ്ലോയ്മെന്റ് നിരീക്ഷിക്കുക
നിങ്ങളുടെ GitHub റിപോസിറ്ററിയിലെ “Actions” ടാബിലേക്ക് പോകുക.
ഒരു വർക്ക്‌ഫ്ലോ പ്രവർത്തിക്കുന്നതായി കാണണം. ഈ വർക്ക്‌ഫ്ലോ നിങ്ങളുടെ സ്റ്റാറ്റിക് വെബ് ആപ്പ് Azure-ലേക്ക് ബിൽഡ് ചെയ്ത് ഡിപ്ലോയ് ചെയ്യും.
വർക്ക്‌ഫ്ലോ പൂർത്തിയായാൽ, നിങ്ങളുടെ ആപ്പ് നൽകിയ Azure URL-ൽ ലൈവ് ആയിരിക്കും.
### ഉദാഹരണ വർക്ക്‌ഫ്ലോ ഫയൽ
GitHub Actions വർക്ക്‌ഫ്ലോ ഫയൽ എങ്ങനെ കാണാമെന്ന് ഉദാഹരണം:
name: Azure Static Web Apps CI/CD
```
on:
push:
branches:
- main
pull_request:
types: [opened, synchronize, reopened, closed]
branches:
- main
jobs:
build_and_deploy_job:
runs-on: ubuntu-latest
name: Build and Deploy Job
steps:
- uses: actions/checkout@v2
- name: Build And Deploy
id: builddeploy
uses: Azure/static-web-apps-deploy@v1
with:
azure_static_web_apps_api_token: ${{ secrets.AZURE_STATIC_WEB_APPS_API_TOKEN }}
repo_token: ${{ secrets.GITHUB_TOKEN }}
action: "upload"
app_location: "quiz-app" # App source code path
api_location: ""API source code path optional
output_location: "dist" #Built app content directory - optional
```
### അധിക സ്രോതസുകൾ
- [Azure Static Web Apps ഡോക്യുമെന്റേഷൻ](https://learn.microsoft.com/azure/static-web-apps/getting-started)
- [GitHub Actions ഡോക്യുമെന്റേഷൻ](https://docs.github.com/actions/use-cases-and-examples/deploying/deploying-to-azure-static-web-app)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,23 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "3a848466cb63aff1a93411affb152c2a",
"translation_date": "2025-12-19T13:31:46+00:00",
"source_file": "sketchnotes/README.md",
"language_code": "ml"
}
-->
എല്ലാ സ്കെച്ച്നോട്ടുകളും ഇവിടെ കണ്ടെത്തുക!
## ക്രെഡിറ്റുകൾ
നിത്യ നരസിംഹൻ, കലാകാരൻ
![roadmap sketchnote](../../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.ml.png)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**അസൂയാ**:
ഈ രേഖ AI വിവർത്തന സേവനം [Co-op Translator](https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായകമായ വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,178 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "43212cc1ac137b7bb1dcfb37ca06b0f4",
"translation_date": "2025-12-19T13:36:58+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "te"
}
-->
# డేటా సైన్స్ నిర్వచనం
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| డేటా సైన్స్ నిర్వచనం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
---
[![డేటా సైన్స్ నిర్వచనం వీడియో](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.te.png)](https://youtu.be/beZ7Mb_oz9I)
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/0)
## డేటా అంటే ఏమిటి?
మన రోజువారీ జీవితంలో, మనం ఎప్పుడూ డేటాతో చుట్టబడి ఉంటాము. మీరు ఇప్పుడు చదువుతున్న వచనం డేటానే. మీ స్మార్ట్‌ఫోన్‌లో మీ స్నేహితుల ఫోన్ నంబర్ల జాబితా డేటా, అలాగే మీ గడియారంలో ప్రదర్శించబడుతున్న ప్రస్తుత సమయం కూడా డేటానే. మనుషులుగా, మనం సహజంగానే డేటాతో పనిచేస్తాము, మన దగ్గర ఉన్న డబ్బును లెక్కించడం లేదా స్నేహితులకు లేఖలు రాయడం ద్వారా.
కానీ, కంప్యూటర్లు సృష్టించబడిన తర్వాత డేటా చాలా ముఖ్యమైంది అయింది. కంప్యూటర్ల ప్రాథమిక పాత్ర గణనలను నిర్వహించడం, కానీ అవి ఆపరేట్ చేయడానికి డేటా అవసరం. కాబట్టి, మనం కంప్యూటర్లు డేటాను ఎలా నిల్వ చేస్తాయో, ప్రాసెస్ చేస్తాయో అర్థం చేసుకోవాలి.
ఇంటర్నెట్ ఉద్భవంతో, కంప్యూటర్ల పాత్ర డేటా నిర్వహణ పరికరాలుగా పెరిగింది. మీరు ఆలోచిస్తే, ఇప్పుడు మనం కంప్యూటర్లను గణనలకు కాకుండా డేటా ప్రాసెసింగ్ మరియు కమ్యూనికేషన్ కోసం ఎక్కువగా ఉపయోగిస్తున్నాము. మనం స్నేహితునికి ఇమెయిల్ రాస్తున్నప్పుడు లేదా ఇంటర్నెట్‌లో సమాచారాన్ని శోధిస్తున్నప్పుడు - మనం అసలు డేటాను సృష్టించడం, నిల్వ చేయడం, ప్రసారం చేయడం మరియు మార్చడం చేస్తున్నాము.
> మీరు చివరిసారిగా కంప్యూటర్లను వాస్తవంగా ఏదైనా గణన చేయడానికి ఉపయోగించినప్పుడు గుర్తు చేసుకోగలరా?
## డేటా సైన్స్ అంటే ఏమిటి?
[వికీపీడియా](https://en.wikipedia.org/wiki/Data_science) ప్రకారం, **డేటా సైన్స్** అనేది *సంఘటిత మరియు అసంఘటిత డేటా నుండి జ్ఞానం మరియు అవగాహనలను పొందడానికి శాస్త్రీయ పద్ధతులను ఉపయోగించే శాస్త్రీయ రంగం, మరియు విస్తృత అనువర్తన రంగాలలో డేటా నుండి జ్ఞానం మరియు అమలు చేయదగిన అవగాహనలను వర్తింపజేసే రంగం*గా నిర్వచించబడింది.
ఈ నిర్వచనం డేటా సైన్స్ యొక్క క్రింది ముఖ్యాంశాలను హైలైట్ చేస్తుంది:
* డేటా సైన్స్ యొక్క ప్రధాన లక్ష్యం డేటా నుండి **జ్ఞానం పొందడం**, అంటే - డేటాను **అర్థం చేసుకోవడం**, కొన్ని దాగి ఉన్న సంబంధాలను కనుగొనడం మరియు ఒక **మోడల్** నిర్మించడం.
* డేటా సైన్స్ **శాస్త్రీయ పద్ధతులను** ఉపయోగిస్తుంది, ఉదాహరణకు సంభావ్యత మరియు గణాంకాలు. వాస్తవానికి, *డేటా సైన్స్* అనే పదం మొదట ప్రవేశపెట్టినప్పుడు, కొంతమంది డేటా సైన్స్ గణాంకాలకి కొత్త ఫ్యాన్సీ పేరు మాత్రమే అని వాదించారు. ఇప్పుడు ఈ రంగం చాలా విస్తృతమైందని స్పష్టమైంది.
* పొందిన జ్ఞానం కొన్ని **అమలు చేయదగిన అవగాహనలను** ఉత్పత్తి చేయడానికి ఉపయోగించాలి, అంటే మీరు వాస్తవ వ్యాపార పరిస్థితులకు వర్తింపజేయగల ప్రాక్టికల్ అవగాహన.
* మనం **సంఘటిత** మరియు **అసంఘటిత** డేటా రెండింటిపై కూడా ఆపరేట్ చేయగలగాలి. కోర్సులో తరువాత డేటా రకాల గురించి మళ్ళీ చర్చిస్తాము.
* **అనువర్తన రంగం** ఒక ముఖ్యమైన భావన, మరియు డేటా శాస్త్రవేత్తలు తరచుగా సమస్య రంగంలో కనీసం కొంత నైపుణ్యం కలిగి ఉండాలి, ఉదాహరణకు: ఫైనాన్స్, వైద్యం, మార్కెటింగ్ మొదలైనవి.
> డేటా సైన్స్ యొక్క మరో ముఖ్యాంశం ఏమిటంటే, ఇది డేటాను కంప్యూటర్ల ద్వారా ఎలా సేకరించవచ్చో, నిల్వ చేయవచ్చో, ఆపరేట్ చేయవచ్చో అధ్యయనం చేస్తుంది. గణాంకాలు మనకు గణిత శాస్త్రపు ఆధారాలను ఇస్తే, డేటా సైన్స్ గణిత సూత్రాలను వాస్తవంగా డేటా నుండి అవగాహనలను పొందడానికి వర్తింపజేస్తుంది.
డేటా సైన్స్‌ను చూడటానికి ఒక మార్గం ([జిమ్ గ్రే](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))కి అప్పగించబడింది) ఇది శాస్త్రం యొక్క వేరే ఒక పారడైమ్‌గా పరిగణించవచ్చు:
* **ప్రయోగాత్మక** (Empirical), ఇందులో మనం ఎక్కువగా పరిశీలనలు మరియు ప్రయోగాల ఫలితాలపై ఆధారపడతాము
* **సిద్ధాంతాత్మక** (Theoretical), ఇక్కడ కొత్త భావనలు ఉన్న శాస్త్రీయ జ్ఞానంలో నుండి ఉద్భవిస్తాయి
* **గణనాత్మక** (Computational), ఇక్కడ మనం కొన్ని గణనాత్మక ప్రయోగాల ఆధారంగా కొత్త సూత్రాలను కనుగొంటాము
* **డేటా-ఆధారిత** (Data-Driven), డేటాలో సంబంధాలు మరియు నమూనాలను కనుగొనడంపై ఆధారపడి ఉంటుంది
## ఇతర సంబంధిత రంగాలు
డేటా విస్తృతంగా ఉండటంతో, డేటా సైన్స్ కూడా విస్తృత రంగం, అనేక ఇతర శాస్త్రాలను స్పర్శిస్తుంది.
<dl>
<dt>డేటాబేసులు</dt>
<dd>
ముఖ్యమైన పరిగణన ఏమిటంటే డేటాను <b>ఎలా నిల్వ చేయాలి</b>, అంటే వేగంగా ప్రాసెస్ చేయడానికి ఎలా నిర్మించాలి. వివిధ రకాల డేటాబేసులు ఉన్నాయి, అవి సంఘటిత మరియు అసంఘటిత డేటాను నిల్వ చేస్తాయి, వాటిని <a href="../../2-Working-With-Data/README.md">మన కోర్సులో పరిశీలిస్తాము</a>.
</dd>
<dt>బిగ్ డేటా</dt>
<dd>
చాలా పెద్ద పరిమాణంలో సాదారణ నిర్మాణంతో ఉన్న డేటాను నిల్వ చేసి ప్రాసెస్ చేయాల్సి వస్తుంది. కంప్యూటర్ క్లస్టర్‌లో పంపిణీ చేయబడిన విధంగా ఆ డేటాను నిల్వ చేయడానికి మరియు సమర్థవంతంగా ప్రాసెస్ చేయడానికి ప్రత్యేక పద్ధతులు మరియు సాధనాలు ఉన్నాయి.
</dd>
<dt>మిషన్ లెర్నింగ్</dt>
<dd>
డేటాను అర్థం చేసుకోవడానికి ఒక మార్గం అనేది కావలసిన ఫలితాన్ని అంచనా వేయగలిగే <b>మోడల్ నిర్మించడం</b>. డేటా నుండి మోడల్స్ అభివృద్ధి చేయడం <b>మిషన్ లెర్నింగ్</b> అని పిలవబడుతుంది. దీని గురించి మరింత తెలుసుకోవడానికి మన <a href="https://aka.ms/ml-beginners">Machine Learning for Beginners</a> పాఠ్యాంశాన్ని చూడవచ్చు.
</dd>
<dt>కృత్రిమ మేధస్సు</dt>
<dd>
మిషన్ లెర్నింగ్ యొక్క ఒక విభాగం అయిన కృత్రిమ మేధస్సు (AI) కూడా డేటాపై ఆధారపడి ఉంటుంది, మరియు ఇది మానవ ఆలోచనా ప్రక్రియలను అనుకరించే అధిక సంక్లిష్టత మోడల్స్ నిర్మించడంలో నిమగ్నమవుతుంది. AI పద్ధతులు తరచుగా అసంఘటిత డేటాను (ఉదా: సహజ భాష) సంఘటిత అవగాహనలుగా మార్చడానికి సహాయపడతాయి.
</dd>
<dt>విజువలైజేషన్</dt>
<dd>
చాలా పెద్ద పరిమాణంలో ఉన్న డేటా మనుషులకు అర్థం కాకపోవచ్చు, కానీ ఆ డేటాను ఉపయోగించి ఉపయోగకరమైన విజువలైజేషన్లు సృష్టించినప్పుడు, మనం డేటాను బాగా అర్థం చేసుకుని కొన్ని తర్కాలను తీసుకోవచ్చు. కాబట్టి, సమాచారాన్ని విజువలైజ్ చేయడానికి అనేక మార్గాలను తెలుసుకోవడం ముఖ్యం - ఇది మన కోర్సు <a href="../../3-Data-Visualization/README.md">మూడు సెక్షన్</a>లో కవర్ చేస్తాము. సంబంధిత రంగాలు <b>ఇన్ఫోగ్రాఫిక్స్</b> మరియు సాధారణంగా <b>హ్యూమన్-కంప్యూటర్ ఇంటరాక్షన్</b> కూడా ఉన్నాయి.
</dd>
</dl>
## డేటా రకాలు
మనం ఇప్పటికే చెప్పినట్లుగా, డేటా ఎక్కడా ఉంటుంది. మనం దాన్ని సరైన విధంగా సేకరించాలి! **సంఘటిత** మరియు **అసంఘటిత** డేటాను వేరుచేయడం ఉపయోగకరం. మొదటిది సాధారణంగా బాగా నిర్మించబడిన రూపంలో ఉంటుంది, తరచుగా ఒక పట్టిక లేదా పలు పట్టికల రూపంలో, మరొకటి కేవలం ఫైళ్ల సేకరణ మాత్రమే. కొన్నిసార్లు మనం **అర్ధ-సంఘటిత** డేటా గురించి కూడా మాట్లాడవచ్చు, దీనికి కొంత నిర్మాణం ఉంటుంది కానీ అది చాలా మారవచ్చు.
| సంఘటిత | అర్ధ-సంఘటిత | అసంఘటిత |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| వ్యక్తుల ఫోన్ నంబర్ల జాబితా | లింకులతో ఉన్న వికీపీడియా పేజీలు | ఎన్సైక్లోపిడియా బ్రిటానికా వచనం |
| గత 20 సంవత్సరాల పాటు ప్రతి నిమిషం భవనం లోని అన్ని గదుల ఉష్ణోగ్రత | రచయితలు, ప్రచురణ తేదీ, సారాంశంతో JSON ఫార్మాట్‌లో శాస్త్రీయ పత్రాల సేకరణ | కార్పొరేట్ డాక్యుమెంట్లతో ఫైల్ షేర్ |
| భవనంలో ప్రవేశించే అన్ని వ్యక్తుల వయస్సు మరియు లింగం డేటా | ఇంటర్నెట్ పేజీలు | పర్యవేక్షణ కెమెరా నుండి రా వీడియో ఫీడ్ |
## డేటా ఎక్కడ నుండి పొందాలి
డేటా పొందడానికి అనేక సాధ్యమైన మూలాలు ఉన్నాయి, వాటన్నింటినీ జాబితా చేయడం అసాధ్యం! అయినప్పటికీ, మీరు డేటా పొందగల సాధారణ ప్రదేశాలను కొన్ని చెప్పుకుందాం:
* **సంఘటిత**
- **ఇంటర్నెట్ ఆఫ్ థింగ్స్** (IoT), ఉష్ణోగ్రత లేదా ఒత్తిడి సెన్సార్ల వంటి వివిధ సెన్సార్ల నుండి డేటా సహా, చాలా ఉపయోగకరమైన డేటాను అందిస్తుంది. ఉదాహరణకు, ఒక కార్యాలయ భవనం IoT సెన్సార్లతో సజ్జమైతే, మనం ఆటోమేటిక్‌గా వేడి మరియు లైటింగ్‌ను నియంత్రించి ఖర్చులను తగ్గించవచ్చు.
- **సర్వేలు** వినియోగదారులు కొనుగోలు తర్వాత లేదా వెబ్ సైట్ సందర్శించిన తర్వాత పూర్తి చేయమని అడిగే ప్రశ్నావళి.
- **ప్రవర్తన విశ్లేషణ** ఉదాహరణకు, వినియోగదారు ఒక సైట్ లో ఎంత లోతుగా వెళ్తున్నాడో, మరియు సైట్ నుండి బయటకు వెళ్లడానికి సాధారణ కారణం ఏమిటో అర్థం చేసుకోవడంలో సహాయపడుతుంది.
* **అసంఘటిత**
- **వచనాలు** ఒక సంపూర్ణ **భావోద్వేగ స్కోరు** లేదా కీలకపదాలు మరియు సారాంశాన్ని తీసివేయడం వంటి అవగాహనల సమృద్ధి మూలం కావచ్చు.
- **చిత్రాలు** లేదా **వీడియో**. పర్యవేక్షణ కెమెరా నుండి వీడియో రోడ్డుపై ట్రాఫిక్ అంచనా వేయడానికి మరియు ట్రాఫిక్ జామ్‌ల గురించి ప్రజలకు సమాచారం ఇవ్వడానికి ఉపయోగించవచ్చు.
- వెబ్ సర్వర్ **లాగ్స్** మన సైట్ లో ఏ పేజీలు ఎక్కువగా సందర్శించబడుతున్నాయో, మరియు ఎంతసేపు ఉంటున్నారో అర్థం చేసుకోవడానికి ఉపయోగించవచ్చు.
* అర్ధ-సంఘటిత
- **సోషల్ నెట్‌వర్క్** గ్రాఫ్లు వినియోగదారుల వ్యక్తిత్వాలు మరియు సమాచారాన్ని వ్యాప్తి చేయడంలో సామర్థ్యం గురించి మంచి డేటా మూలాలు కావచ్చు.
- పార్టీ నుండి ఫోటోలు ఉన్నప్పుడు, మనం ఒకరితో ఒకరు ఫోటోలు తీసుకునే వ్యక్తుల గ్రాఫ్ నిర్మించి **గ్రూప్ డైనమిక్స్** డేటాను తీసివేయవచ్చు.
వివిధ డేటా మూలాలను తెలుసుకోవడం ద్వారా, మీరు వివిధ పరిస్థితుల గురించి ఆలోచించి, డేటా సైన్స్ సాంకేతికతలను వర్తింపజేసి పరిస్థితిని మెరుగుపరచడానికి ప్రయత్నించవచ్చు.
## డేటాతో మీరు ఏమి చేయగలరు
డేటా సైన్స్‌లో, మనం డేటా ప్రయాణం క్రింది దశలపై దృష్టి పెడతాము:
<dl>
<dt>1) డేటా సేకరణ</dt>
<dd>
మొదటి దశ డేటాను సేకరించడం. చాలా సందర్భాల్లో ఇది సులభమైన ప్రక్రియ కావచ్చు, ఉదాహరణకు వెబ్ అప్లికేషన్ నుండి డేటా డేటాబేస్‌కు వస్తుంది, కానీ కొన్నిసార్లు ప్రత్యేక సాంకేతికతలు ఉపయోగించాల్సి ఉంటుంది. ఉదాహరణకు, IoT సెన్సార్ల నుండి డేటా అధికంగా ఉండవచ్చు, అందువల్ల IoT హబ్ వంటి బఫరింగ్ ఎండ్పాయింట్లను ఉపయోగించి అన్ని డేటాను సేకరించి తర్వాత ప్రాసెస్ చేయడం మంచి పద్ధతి.
</dd>
<dt>2) డేటా నిల్వ</dt>
<dd>
డేటాను నిల్వ చేయడం సవాలు కావచ్చు, ముఖ్యంగా బిగ్ డేటా గురించి మాట్లాడుతున్నప్పుడు. డేటాను ఎలా నిల్వ చేయాలో నిర్ణయించేటప్పుడు, భవిష్యత్తులో మీరు డేటాను ఎలా క్వెరీ చేయాలనుకుంటున్నారో ముందుగా ఊహించడం మంచిది. డేటాను నిల్వ చేసే కొన్ని మార్గాలు ఉన్నాయి:
<ul>
<li>ఒక రిలేషనల్ డేటాబేస్ పట్టికల సేకరణను నిల్వ చేస్తుంది, మరియు వాటిని క్వెరీ చేయడానికి SQL అనే ప్రత్యేక భాషను ఉపయోగిస్తుంది. సాధారణంగా, పట్టికలు వివిధ గ్రూపులుగా, స్కీమాలుగా పిలవబడతాయి. చాలా సందర్భాల్లో డేటాను అసలు రూపం నుండి స్కీమాకు సరిపడేలా మార్చాల్సి ఉంటుంది.</li>
<li><a href="https://en.wikipedia.org/wiki/NoSQL">NoSQL</a> డేటాబేస్, ఉదాహరణకు <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, డేటాపై స్కీమాలను అమలు చేయదు, మరియు మరింత సంక్లిష్టమైన డేటాను నిల్వ చేయడానికి అనుమతిస్తుంది, ఉదాహరణకు, హైరార్కికల్ JSON డాక్యుమెంట్లు లేదా గ్రాఫ్లు. అయితే, NoSQL డేటాబేసులకు SQL లాంటి సమృద్ధి క్వెరీ సామర్థ్యాలు లేవు, మరియు రిఫరెన్షియల్ ఇంటిగ్రిటీని అమలు చేయలేవు, అంటే పట్టికల నిర్మాణం మరియు పట్టికల మధ్య సంబంధాలను నియంత్రించే నియమాలు.</li>
<li><a href="https://en.wikipedia.org/wiki/Data_lake">డేటా లేక్</a> నిల్వ అనేది పెద్ద పరిమాణంలో ఉన్న రా, అసంఘటిత డేటా సేకరణ కోసం ఉపయోగిస్తారు. డేటా లేక్స్ తరచుగా బిగ్ డేటాతో ఉపయోగిస్తారు, అందులో అన్ని డేటా ఒకే యంత్రంలో సరిపోదు, కాబట్టి క్లస్టర్ సర్వర్ల ద్వారా నిల్వ చేసి ప్రాసెస్ చేయాలి. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">పార్కెట్</a> అనేది బిగ్ డేటాతో తరచుగా ఉపయోగించే డేటా ఫార్మాట్.</li>
</ul>
</dd>
<dt>3) డేటా ప్రాసెసింగ్</dt>
<dd>
ఇది డేటా ప్రయాణంలో అత్యంత ఆసక్తికరమైన భాగం, ఇది డేటాను అసలు రూపం నుండి విజువలైజేషన్/మోడల్ శిక్షణకు ఉపయోగించే రూపంలోకి మార్చడం. వచనం లేదా చిత్రాల వంటి అసంఘటిత డేటాతో వ్యవహరించేటప్పుడు, మనం కొంత AI సాంకేతికతలను ఉపయోగించి డేటా నుండి <b>ఫీచర్లు</b> తీసివేయవచ్చు, తద్వారా దాన్ని సంఘటిత రూపంలోకి మార్చవచ్చు.
</dd>
<dt>4) విజువలైజేషన్ / మానవ అవగాహన</dt>
<dd>
చాలాసార్లు, డేటాను అర్థం చేసుకోవడానికి, మనం దాన్ని విజువలైజ్ చేయాలి. మన టూల్‌బాక్స్‌లో అనేక విజువలైజేషన్ పద్ధతులు ఉండటం వల్ల, సరైన దృశ్యాన్ని కనుగొని అవగాహన పొందవచ్చు. తరచుగా, డేటా శాస్త్రవేత్త డేటాతో "ఆడుకుంటూ", దాన్ని ఎన్నో సార్లు విజువలైజ్ చేసి సంబంధాలను వెతుకుతాడు. అలాగే, మనం గణాంక పద్ధతులను ఉపయోగించి ఒక హైపోథసిస్‌ను పరీక్షించవచ్చు లేదా డేటా భాగాల మధ్య సంబంధాన్ని నిరూపించవచ్చు.
</dd>
<dt>5) అంచనా మోడల్ శిక్షణ</dt>
<dd>
డేటా సైన్స్ యొక్క తుది లక్ష్యం డేటా ఆధారంగా నిర్ణయాలు తీసుకోవడం కావడంతో, మనం <a href="http://github.com/microsoft/ml-for-beginners">మిషన్ లెర్నింగ్</a> సాంకేతికతలను ఉపయోగించి అంచనా మోడల్ నిర్మించవచ్చు. తరువాత, ఈ మోడల్‌ను ఉపయోగించి సమాన నిర్మాణాలున్న కొత్త డేటా సెట్‌లపై అంచనాలు చేయవచ్చు.
</dd>
</dl>
తప్పకుండా, వాస్తవ డేటాపై ఆధారపడి, కొన్ని దశలు లేకపోవచ్చు (ఉదా: మనకు ఇప్పటికే డేటా డేటాబేస్‌లో ఉన్నప్పుడు, లేదా మోడల్ శిక్షణ అవసరం లేకపోతే), లేదా కొన్ని దశలు పలు సార్లు పునరావృతమవ్వచ్చు (ఉదా: డేటా ప్రాసెసింగ్).
## డిజిటలైజేషన్ మరియు డిజిటల్ ట్రాన్స్‌ఫర్మేషన్
గత దశాబ్దంలో, అనేక వ్యాపారాలు వ్యాపార నిర్ణయాలు తీసుకునేటప్పుడు డేటా ప్రాముఖ్యతను అర్థం చేసుకున్నాయి. వ్యాపారాన్ని నడిపించడానికి డేటా సైన్స్ సూత్రాలను వర్తింపజేయడానికి, మొదట కొంత డేటాను సేకరించాలి, అంటే వ్యాపార ప్రక్రియలను డిజిటల్ రూపంలోకి మార్చాలి. దీనిని **డిజిటలైజేషన్** అంటారు. ఈ డేటాపై డేటా సైన్స్ సాంకేతికతలను వర్తింపజేసి నిర్ణయాలను మార్గనిర్దేశం చేయడం ద్వారా ఉత్పాదకతలో గణనీయమైన పెరుగుదల (లేదా వ్యాపార మార్పు) సాధించవచ్చు, దీనిని **డిజిటల్ ట్రాన్స్‌ఫర్మేషన్** అంటారు.
ఒక ఉదాహరణను పరిశీలిద్దాం. మనకు ఒక డేటా సైన్స్ కోర్సు (ఇలాంటి ఒకటి) ఉంది, దీన్ని మనం ఆన్‌లైన్‌లో విద్యార్థులకు అందిస్తున్నాము, మరియు దీన్ని మెరుగుపరచడానికి డేటా సైన్స్ ఉపయోగించాలనుకుంటున్నాము. మనం ఎలా చేయగలం?
మనం మొదట అడగవచ్చు "ఏం డిజిటలైజ్ చేయవచ్చు?" సులభమైన మార్గం ప్రతి విద్యార్థి ప్రతి మాడ్యూల్ పూర్తి చేయడానికి తీసుకునే సమయాన్ని కొలవడం, మరియు ప్రతి మాడ్యూల్ చివరలో బహుళ ఎంపిక పరీక్ష ద్వారా పొందిన జ్ఞానాన్ని కొలవడం. అన్ని విద్యార్థుల సమయాన్ని సగటు తీసుకుంటే, ఏ మాడ్యూల్స్ విద్యార్థులకు ఎక్కువ కష్టాలు కలిగిస్తున్నాయో తెలుసుకుని వాటిని సులభతరం చేయడానికి పని చేయవచ్చు.
> మీరు ఈ విధానం సరైనది కాదని వాదించవచ్చు, ఎందుకంటే మాడ్యూల్స్ వివిధ పొడవులలో ఉండవచ్చు. మాడ్యూల్ పొడవు (అక్షరాల సంఖ్యలో) ద్వారా సమయాన్ని భాగించటం మరింత న్యాయమైనది, మరియు ఆ విలువలను పోల్చటం మంచిది.
మేము బహుళ-ఎంపిక పరీక్షల ఫలితాలను విశ్లేషించడం ప్రారంభించినప్పుడు, విద్యార్థులు అర్థం చేసుకోవడంలో కష్టపడుతున్న భావనలను గుర్తించడానికి ప్రయత్నించవచ్చు, మరియు ఆ సమాచారాన్ని ఉపయోగించి కంటెంట్‌ను మెరుగుపరచవచ్చు. దానికి, ప్రతి ప్రశ్న ఒక నిర్దిష్ట భావన లేదా జ్ఞాన భాగానికి మ్యాప్ అయ్యే విధంగా పరీక్షలను రూపకల్పన చేయాలి.
మరింత క్లిష్టంగా చేయాలనుకుంటే, మేము ప్రతి మాడ్యూల్ కోసం తీసుకున్న సమయాన్ని విద్యార్థుల వయస్సు వర్గంతో పోల్చి గ్రాఫ్ చేయవచ్చు. కొన్ని వయస్సు వర్గాల కోసం మాడ్యూల్ పూర్తి చేయడానికి అనవసరంగా ఎక్కువ సమయం పడుతుందని లేదా విద్యార్థులు పూర్తి చేయకముందే వదిలివేస్తారని కనుగొనవచ్చు. ఇది మాడ్యూల్ కోసం వయస్సు సిఫార్సులను అందించడంలో సహాయపడుతుంది, మరియు తప్పు అంచనాల వల్ల ప్రజల అసంతృప్తిని తగ్గిస్తుంది.
## 🚀 సవాలు
ఈ సవాలలో, మేము డేటా సైన్స్ రంగానికి సంబంధించిన భావనలను పాఠ్యాలను పరిశీలించడం ద్వారా కనుగొనడానికి ప్రయత్నిస్తాము. మేము డేటా సైన్స్ పై వికీపీడియా వ్యాసాన్ని తీసుకుని, టెక్స్ట్‌ను డౌన్లోడ్ చేసి ప్రాసెస్ చేసి, ఈ విధమైన పద మేఘాన్ని నిర్మిస్తాము:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.te.png)
కోడ్‌ను చదవడానికి [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ను సందర్శించండి. మీరు కోడ్‌ను కూడా నడిపించి, అన్ని డేటా మార్పిడి ప్రక్రియలను ప్రత్యక్షంగా చూడవచ్చు.
> మీరు జూపిటర్ నోట్‌బుక్‌లో కోడ్ ఎలా నడిపించాలో తెలియకపోతే, [ఈ వ్యాసం](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) చూడండి.
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/1)
## అసైన్‌మెంట్లు
* **టాస్క్ 1**: పై కోడ్‌ను మార్చి **బిగ్ డేటా** మరియు **మిషన్ లెర్నింగ్** రంగాలకు సంబంధించిన భావనలను కనుగొనండి
* **టాస్క్ 2**: [డేటా సైన్స్ సన్నివేశాల గురించి ఆలోచించండి](assignment.md)
## క్రెడిట్స్
ఈ పాఠం ♥️ తో [Dmitry Soshnikov](http://soshnikov.com) రచించారు
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,48 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "4e0f1773b9bee1be3b28f9fe2c71b3de",
"translation_date": "2025-12-19T13:40:49+00:00",
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "te"
}
-->
# అసైన్‌మెంట్: డేటా సైన్స్ సన్నివేశాలు
ఈ మొదటి అసైన్‌మెంట్‌లో, మీరు వివిధ సమస్యా డొమైన్‌లలోని కొన్ని వాస్తవ జీవిత ప్రక్రియ లేదా సమస్య గురించి ఆలోచించి, డేటా సైన్స్ ప్రక్రియను ఉపయోగించి దాన్ని ఎలా మెరుగుపరచవచ్చో ఆలోచించమని కోరుతున్నాము. క్రింది విషయాల గురించి ఆలోచించండి:
1. మీరు ఏ డేటాను సేకరించగలరు?
1. దాన్ని మీరు ఎలా సేకరిస్తారు?
1. డేటాను మీరు ఎలా నిల్వ చేస్తారు? డేటా ఎంత పెద్దదిగా ఉండవచ్చు?
1. ఈ డేటా నుండి మీరు ఏ అవగాహనలను పొందగలరు? డేటా ఆధారంగా ఏ నిర్ణయాలను తీసుకోవచ్చు?
3 విభిన్న సమస్యలు/ప్రక్రియల గురించి ఆలోచించి, ప్రతి సమస్యా డొమైన్ కోసం పై పాయింట్లను వివరించండి.
ఇక్కడ కొన్ని సమస్యా డొమైన్‌లు మరియు సమస్యలు ఉన్నాయి, ఇవి మీ ఆలోచన ప్రారంభానికి సహాయపడతాయి:
1. పిల్లల విద్యా ప్రక్రియను మెరుగుపరచడానికి మీరు డేటాను ఎలా ఉపయోగించగలరు?
1. మహమ్మారి సమయంలో టీకా నియంత్రణ కోసం మీరు డేటాను ఎలా ఉపయోగించగలరు?
1. మీరు పని సమయంలో ఉత్పాదకత ఉన్నారని నిర్ధారించుకోవడానికి డేటాను ఎలా ఉపయోగించగలరు?
## సూచనలు
క్రింది పట్టికను పూరించండి (అవసరమైతే సూచించిన సమస్యా డొమైన్‌ల స్థానంలో మీ స్వంత వాటిని ఉపయోగించండి):
| సమస్యా డొమైన్ | సమస్య | ఏ డేటాను సేకరించాలి | డేటాను ఎలా నిల్వ చేయాలి | ఏ అవగాహనలు/నిర్ణయాలు తీసుకోవచ్చు |
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
| విద్య | | | | |
| టీకా | | | | |
| ఉత్పాదకత | | | | |
## రూబ్రిక్
ఉదాహరణాత్మక | సరిపడిన | మెరుగుదల అవసరం
--- | --- | -- |
అన్ని సమస్యా డొమైన్‌ల కోసం తగిన డేటా మూలాలు, డేటా నిల్వ విధానాలు మరియు సాధ్యమైన నిర్ణయాలు/అవగాహనలను గుర్తించగలిగినవారు | పరిష్కారంలోని కొన్ని అంశాలు వివరించబడలేదు, డేటా నిల్వ చర్చించబడలేదు, కనీసం 2 సమస్యా డొమైన్‌లు మాత్రమే వివరించబడ్డాయి | డేటా పరిష్కారంలోని భాగాలు మాత్రమే వివరించబడ్డాయి, ఒకే ఒక సమస్యా డొమైన్ మాత్రమే పరిగణించబడింది.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,50 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-12-19T14:29:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "te"
}
-->
# అసైన్‌మెంట్: డేటా సైన్స్ సన్నివేశాలు
ఈ మొదటి అసైన్‌మెంట్‌లో, మేము మీరు వివిధ సమస్యా డొమైన్‌లలోని కొన్ని వాస్తవ జీవిత ప్రక్రియ లేదా సమస్య గురించి ఆలోచించాలని కోరుతున్నాము, మరియు మీరు డేటా సైన్స్ ప్రక్రియను ఉపయోగించి దాన్ని ఎలా మెరుగుపరచగలరో. క్రింది విషయాల గురించి ఆలోచించండి:
1. మీరు ఏ డేటాను సేకరించగలరు?
1. దాన్ని మీరు ఎలా సేకరిస్తారు?
1. డేటాను మీరు ఎలా నిల్వ చేస్తారు? డేటా ఎంత పెద్దదిగా ఉండవచ్చు?
1. ఈ డేటా నుండి మీరు ఏ అవగాహనలను పొందగలరు? డేటా ఆధారంగా ఏ నిర్ణయాలు తీసుకోవచ్చు?
3 విభిన్న సమస్యలు/ప్రక్రియల గురించి ఆలోచించి, ప్రతి సమస్యా డొమైన్ కోసం పై పాయింట్లను వివరించండి.
ఇక్కడ కొన్ని సమస్యా డొమైన్‌లు మరియు సమస్యలు ఉన్నాయి, ఇవి మీ ఆలోచన ప్రారంభానికి సహాయపడతాయి:
1. పిల్లల విద్యా ప్రక్రియను మెరుగుపరచడానికి మీరు డేటాను ఎలా ఉపయోగించగలరు?
1. మహమ్మారి సమయంలో టీకా నియంత్రణ కోసం మీరు డేటాను ఎలా ఉపయోగించగలరు?
1. మీరు పని సమయంలో ఉత్పాదకత ఉన్నారని నిర్ధారించుకోవడానికి డేటాను ఎలా ఉపయోగించగలరు?
## సూచనలు
క్రింది పట్టికను పూరించండి (మీ అవసరానికి అనుగుణంగా సూచించిన సమస్యా డొమైన్‌లను మీ స్వంత వాటితో మార్చుకోవచ్చు):
| సమస్యా డొమైన్ | సమస్య | ఏ డేటాను సేకరించాలి | డేటాను ఎలా నిల్వ చేయాలి | ఏ అవగాహన/నిర్ణయాలు తీసుకోవచ్చు |
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
| విద్య | విశ్వవిద్యాలయంలో, సాధారణంగా లెక్చర్లకు హాజరు తక్కువగా ఉంటుంది, మరియు లెక్చర్లకు హాజరు ఇచ్చే విద్యార్థులు పరీక్షల్లో సగటున మెరుగ్గా ఉంటారని మన hypothesis ఉంది. హాజరును ప్రేరేపించి hypothesis ని పరీక్షించాలనుకుంటున్నాము. | తరగతిలో సెక్యూరిటీ కెమెరా తీసిన చిత్రాల ద్వారా లేదా తరగతిలో విద్యార్థుల మొబైల్ ఫోన్ల బ్లూటూత్/వైఫై అడ్రెస్లను ట్రాక్ చేయడం ద్వారా హాజరును ట్రాక్ చేయవచ్చు. పరీక్షా డేటా ఇప్పటికే విశ్వవిద్యాలయ డేటాబేస్‌లో అందుబాటులో ఉంది. | సెక్యూరిటీ కెమెరా చిత్రాలను ట్రాక్ చేస్తే - తరగతి సమయంలో కొన్ని (5-10) ఫోటోలు (అనుసంఘటిత డేటా) నిల్వ చేయాలి, తరువాత AI ఉపయోగించి విద్యార్థుల ముఖాలను గుర్తించి (డేటాను నిర్మిత రూపంలోకి మార్చాలి). | ప్రతి విద్యార్థి సగటు హాజరు డేటాను లెక్కించి, పరీక్షా గ్రేడ్‌లతో ఏ సంబంధం ఉందో చూడవచ్చు. సంబంధం గురించి [probability and statistics](../../04-stats-and-probability/README.md) విభాగంలో మరింత చర్చిస్తాము. విద్యార్థుల హాజరును ప్రేరేపించడానికి వారానికి ఒకసారి హాజరు రేటింగ్‌ను స్కూల్ పోర్టల్‌లో ప్రచురించి, అత్యధిక హాజరు ఉన్నవారిలో బహుమతులు ఇవ్వవచ్చు. |
| టీకా | | | | |
| ఉత్పాదకత | | | | |
> *ఈ అసైన్‌మెంట్‌లో మీరు ఏం చేయాలో అర్థం చేసుకోవడానికి ఒక ఉదాహరణగా ఒకే ఒక సమాధానాన్ని మాత్రమే అందిస్తున్నాము.*
## రూబ్రిక్
ఉదాహరణాత్మకంగా | సరిపడా | మెరుగుదల అవసరం
--- | --- | -- |
అన్ని సమస్యా డొమైన్‌ల కోసం తగిన డేటా మూలాలు, డేటా నిల్వ విధానాలు మరియు సాధ్యమైన నిర్ణయాలు/అవగాహనలను గుర్తించగలిగారు | పరిష్కారంలోని కొన్ని అంశాలు వివరించబడలేదు, డేటా నిల్వ గురించి చర్చించబడలేదు, కనీసం 2 సమస్యా డొమైన్‌లు మాత్రమే వివరించబడ్డాయి | డేటా పరిష్కారంలోని భాగాలు మాత్రమే వివరించబడ్డాయి, ఒకే ఒక సమస్యా డొమైన్ మాత్రమే పరిగణించబడింది.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,275 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-12-19T14:02:12+00:00",
"source_file": "1-Introduction/02-ethics/README.md",
"language_code": "te"
}
-->
# డేటా నైతికతకు పరిచయం
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/02-Ethics.png)|
|:---:|
| డేటా సైన్స్ నైతికత - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
---
మేము అందరం డేటా ప్రపంచంలో నివసిస్తున్న డేటా పౌరులు.
మార్కెట్ ధోరణులు 2022 నాటికి, 3 పెద్ద సంస్థలలో 1 సంస్థ తమ డేటాను ఆన్‌లైన్ [మార్కెట్‌ప్లేస్‌లు మరియు ఎక్స్ఛేంజ్‌లు](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) ద్వారా కొనుగోలు చేసి అమ్ముతుందని చెబుతున్నాయి. **యాప్ డెవలపర్లు**గా, డేటా ఆధారిత అవగాహనలను మరియు అల్గోరిథం ఆధారిత ఆటోమేషన్‌ను రోజువారీ వినియోగదారుల అనుభవాలలో సులభంగా మరియు తక్కువ ఖర్చుతో సమీకరించగలుగుతాము. కానీ AI విస్తృతంగా ఉపయోగించబడుతున్నందున, అలాంటి అల్గోరిథాల [ఆయుధీకరణ](https://www.youtube.com/watch?v=TQHs8SA1qpk) వల్ల కలిగే ప్రమాదాలను కూడా అర్థం చేసుకోవాలి.
ధోరణులు సూచిస్తున్నాయి 2025 నాటికి, మేము [180 జెట్టాబైట్ల](https://www.statista.com/statistics/871513/worldwide-data-created/) కంటే ఎక్కువ డేటాను ఉత్పత్తి చేసి వినియోగిస్తాము. **డేటా సైంటిస్టులు**కి, ఈ సమాచార విప్లవం వ్యక్తిగత మరియు ప్రవర్తనా డేటాకు అపూర్వమైన ప్రాప్తిని అందిస్తుంది. దీని ద్వారా, వివరమైన వినియోగదారు ప్రొఫైల్స్ నిర్మించడం మరియు నిర్ణయాలను సున్నితంగా ప్రభావితం చేయడం సాధ్యం అవుతుంది—అనేకసార్లు ఇది [స్వేచ్ఛా ఎంపిక మాయ](https://www.datasciencecentral.com/the-pareto-set-and-the-paradox-of-choice/)ను కలిగిస్తుంది. ఇది వినియోగదారులను ఇష్టమైన ఫలితాల వైపు నడిపించడానికి ఉపయోగించవచ్చు, కానీ ఇది డేటా గోప్యత, స్వతంత్రత మరియు అల్గోరిథమిక్ ప్రభావం యొక్క నైతిక పరిమితులపై కీలక ప్రశ్నలను కూడా రేకెత్తిస్తుంది.
డేటా నైతికత ఇప్పుడు డేటా సైన్స్ మరియు ఇంజనీరింగ్ కోసం _అవసరమైన రక్షణా గడపలు_ అయింది, మా డేటా ఆధారిత చర్యల వల్ల కలిగే ప్రమాదాలు మరియు అనుకోని పరిణామాలను తగ్గించడంలో సహాయపడుతుంది. [గార్ట్నర్ హైప్ సైకిల్ ఫర్ AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) డిజిటల్ నైతికత, బాధ్యతాయుత AI, మరియు AI పాలనలో సంబంధిత ధోరణులను గుర్తించి, AI యొక్క _ప్రజాస్వామ్యీకరణ_ మరియు _పరిశ్రమీకరణ_ వంటి పెద్ద మెగాథ్రెండ్లకు కీలక డ్రైవర్‌లుగా పేర్కొంటుంది.
![Gartner's Hype Cycle for AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
ఈ పాఠంలో, మేము డేటా నైతికత యొక్క ఆసక్తికరమైన ప్రాంతాన్ని అన్వేషిస్తాము - ప్రాథమిక భావనలు మరియు సవాళ్లు నుండి, కేసు అధ్యయనాలు మరియు పాలన వంటి వర్తింపజేసిన AI భావనల వరకు - ఇవి డేటా మరియు AIతో పని చేసే బృందాలు మరియు సంస్థలలో నైతికత సంస్కృతిని స్థాపించడంలో సహాయపడతాయి.
## [పూర్వ-ఉపన్యాస క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/2) 🎯
## ప్రాథమిక నిర్వచనాలు
మొదట ప్రాథమిక పదజాలాన్ని అర్థం చేసుకుందాం.
"నైతికత" అనే పదం [గ్రీకు పదం "ethikos"](https://en.wikipedia.org/wiki/Ethics) (మరియు దాని మూలం "ethos") నుండి వచ్చింది, దీని అర్థం _చరిత్ర లేదా నైతిక స్వభావ_.
**నైతికత** అనేది సమాజంలో మన ప్రవర్తనను నియంత్రించే పంచుకున్న విలువలు మరియు నైతిక సూత్రాల గురించి. నైతికత చట్టాలపై ఆధారపడదు, కానీ "సరైనది vs. తప్పు" అనే విస్తృతంగా అంగీకరించబడిన ప్రమాణాలపై ఆధారపడుతుంది. అయితే, నైతిక ఆలోచనలు కార్పొరేట్ పాలన చర్యలు మరియు ప్రభుత్వ నియంత్రణలను ప్రభావితం చేసి, అనుగుణతకు మరింత ప్రేరణలను సృష్టించవచ్చు.
**డేటా నైతికత** అనేది [నూతన నైతిక శాఖ](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) ఇది "_డేటా, అల్గోరిథమ్స్ మరియు సంబంధిత ఆచరణల_ నైతిక సమస్యలను అధ్యయనం చేసి, మూల్యాంకనం చేస్తుంది". ఇక్కడ, **"డేటా"** ఉత్పత్తి, రికార్డింగ్, సంరక్షణ, ప్రాసెసింగ్, ప్రచారం, పంచుకోవడం మరియు వినియోగం వంటి చర్యలపై దృష్టి సారిస్తుంది, **"అల్గోరిథమ్స్"** AI, ఏజెంట్లు, మెషీన్ లెర్నింగ్ మరియు రోబోట్లపై దృష్టి సారిస్తుంది, మరియు **"ఆచరణలు"** బాధ్యతాయుత ఆవిష్కరణ, ప్రోగ్రామింగ్, హాకింగ్ మరియు నైతిక కోడ్స్ వంటి అంశాలపై దృష్టి సారిస్తుంది.
**వర్తింపజేసిన నైతికత** అనేది [నైతిక ఆలోచనల ప్రాక్టికల్ వర్తన](https://en.wikipedia.org/wiki/Applied_ethics). ఇది _వాస్తవ ప్రపంచ చర్యలు, ఉత్పత్తులు మరియు ప్రక్రియల_ సందర్భంలో నైతిక సమస్యలను సక్రియంగా పరిశీలించడం మరియు మా నిర్వచించిన నైతిక విలువలకు అనుగుణంగా ఉండేలా సరిచేసే చర్యలు తీసుకోవడం.
**నైతికత సంస్కృతి** అనేది [_వర్తిపజేసిన నైతికతను ఆపరేషనల్ చేయడ_](https://hbr.org/2019/05/how-to-design-an-ethical-organization) గురించి, మా నైతిక సూత్రాలు మరియు ఆచరణలు సంస్థ అంతటా సुसంపన్నంగా మరియు విస్తృతంగా అవలంబించబడేలా చూసుకోవడం. విజయవంతమైన నైతిక సంస్కృతులు సంస్థవ్యాప్తంగా నైతిక సూత్రాలను నిర్వచిస్తాయి, అనుగుణతకు అర్థవంతమైన ప్రేరణలను అందిస్తాయి, మరియు సంస్థలో ప్రతి స్థాయిలో కోరుకున్న ప్రవర్తనలను ప్రోత్సహించి, నైతిక ప్రమాణాలను బలోపేతం చేస్తాయి.
## నైతికత భావనలు
ఈ విభాగంలో, మేము డేటా నైతికత కోసం **పంచుకున్న విలువలు** (సూత్రాలు) మరియు **నైతిక సవాళ్లు** (సమస్యలు) వంటి భావనలను చర్చిస్తాము - మరియు ఈ భావనలను వాస్తవ ప్రపంచ సందర్భాలలో అర్థం చేసుకోవడానికి సహాయపడే **కేసు అధ్యయనాలు**ని అన్వేషిస్తాము.
### 1. నైతిక సూత్రాలు
ప్రతి డేటా నైతికత వ్యూహం _నైతిక సూత్రాలు_ని నిర్వచించడం ద్వారా ప్రారంభమవుతుంది - ఇవి "పంచుకున్న విలువలు"గా, అనుకూల ప్రవర్తనలను వివరించి, మా డేటా & AI ప్రాజెక్టులలో అనుగుణ చర్యలకు మార్గదర్శకంగా ఉంటాయి. మీరు వీటిని వ్యక్తిగత లేదా బృంద స్థాయిలో నిర్వచించవచ్చు. అయితే, పెద్ద సంస్థలలో ఇవి సాధారణంగా కార్పొరేట్ స్థాయిలో నిర్వచించబడిన _నైతిక AI_ మిషన్ స్టేట్‌మెంట్ లేదా ఫ్రేమ్‌వర్క్‌లో ఉంటాయి మరియు అన్ని బృందాలలో సక్రమంగా అమలు చేయబడతాయి.
**ఉదాహరణ:** మైక్రోసాఫ్ట్ యొక్క [బాధ్యతాయుత AI](https://www.microsoft.com/en-us/ai/responsible-ai) మిషన్ స్టేట్‌మెంట్ ఇలా ఉంది: _"మేము ప్రజలను ముందుగా ఉంచే నైతిక సూత్రాల ద్వారా నడిచే AI అభివృద్ధికి కట్టుబడి ఉన్నాము"_ - క్రింద ఫ్రేమ్‌వర్క్‌లో 6 నైతిక సూత్రాలను గుర్తించింది:
![Responsible AI at Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
ఈ సూత్రాలను సంక్షిప్తంగా పరిశీలిద్దాం. _పారదర్శకత_ మరియు _బాధ్యతాయుతత_ అనేవి ఇతర సూత్రాల పునాది - కాబట్టి వాటితో ప్రారంభిద్దాం:
* [**బాధ్యతాయుతత**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) అనేది ప్రాక్టిషనర్లను వారి డేటా & AI కార్యకలాపాలకు మరియు ఈ నైతిక సూత్రాలకు అనుగుణంగా ఉండటానికి _బాధ్యులుగా_ చేస్తుంది.
* [**పారదర్శకత**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) డేటా మరియు AI చర్యలు వినియోగదారులకు _అర్థమయ్యేలా_ (వివరణాత్మకంగా) ఉండేలా చూసుకుంటుంది, నిర్ణయాల వెనుక ఉన్న ఏమి మరియు ఎందుకు అనే విషయాలను వివరిస్తుంది.
* [**న్యాయం**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - AI అన్ని వ్యక్తులను సమానంగా వ్యవహరించేందుకు దృష్టి సారిస్తుంది, డేటా మరియు వ్యవస్థలలో ఉన్న ఏదైనా వ్యవస్థాపక లేదా అంతర్గత సామాజిక-సాంకేతిక పక్షపాతతలను పరిష్కరిస్తుంది.
* [**నమ్మకదారితనం & భద్రత**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI నిర్వచించిన విలువలకు అనుగుణంగా _స్థిరగా_ ప్రవర్తించేందుకు, ప్రమాదాలు లేదా అనుకోని పరిణామాలను తగ్గించేందుకు చూసుకుంటుంది.
* [**గోప్యత & భద్రత**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - డేటా లైనేజ్‌ను అర్థం చేసుకోవడం మరియు వినియోగదారులకు _డేటా గోప్యత మరియు సంబంధిత రక్షణలు_ అందించడం గురించి.
* [**సమగ్రత**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI పరిష్కారాలను ఉద్దేశ్యంతో రూపకల్పన చేయడం, వాటిని విస్తృతమైన మానవ అవసరాలు & సామర్థ్యాలకు అనుగుణంగా మార్చడం గురించి.
> 🚨 మీ డేటా నైతికత మిషన్ స్టేట్‌మెంట్ ఏమిటి అని ఆలోచించండి. ఇతర సంస్థల నైతిక AI ఫ్రేమ్‌వర్క్‌లను అన్వేషించండి - ఇక్కడ [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles), మరియు [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) నుండి ఉదాహరణలు ఉన్నాయి. అవి ఏ పంచుకున్న విలువలను కలిగి ఉన్నాయి? ఈ సూత్రాలు వారు పనిచేసే AI ఉత్పత్తి లేదా పరిశ్రమకు ఎలా సంబంధించాయి?
### 2. నైతిక సవాళ్లు
నైతిక సూత్రాలు నిర్వచించిన తర్వాత, తదుపరి దశ మా డేటా మరియు AI చర్యలు ఆ పంచుకున్న విలువలకు అనుగుణంగా ఉన్నాయా అని అంచనా వేయడం. మీ చర్యలను రెండు వర్గాలలో ఆలోచించండి: _డేటా సేకరణ_ మరియు _అల్గోరిథ రూపకల్పన_.
డేటా సేకరణలో, చర్యలు సాధారణంగా వ్యక్తిగత డేటా లేదా వ్యక్తిగతంగా గుర్తించగల సమాచారాన్ని (PII) కలిగి ఉంటాయి. ఇందులో [వివిధ రకాల వ్యక్తిగతేతర డేటా అంశాలు](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) ఉంటాయి, ఇవి _సమష్టిగా_ ఒక వ్యక్తిని గుర్తిస్తాయి. నైతిక సవాళ్లు _డేటా గోప్యత_, _డేటా యాజమాన్య_, మరియు వినియోగదారుల కోసం _సూచిత అనుమతి_ మరియు _బుద్ధి స్వంత హక్కులు_ వంటి సంబంధిత అంశాలకు సంబంధించినవి కావచ్చు.
అల్గోరిథం రూపకల్పనలో, చర్యలు **డేటాసెట్‌లను** సేకరించడం & సంరక్షించడం, తరువాత వాటిని ఉపయోగించి ఫలితాలను అంచనా వేయడం లేదా వాస్తవ ప్రపంచ సందర్భాలలో నిర్ణయాలను ఆటోమేట్ చేసే **డేటా మోడల్స్**ను శిక్షణ ఇవ్వడం మరియు అమలు చేయడం ఉంటాయి. నైతిక సవాళ్లు _డేటాసెట్ పక్షపాతత_, _డేటా నాణ్యత_, _అన్యాయ_, మరియు అల్గోరిథమ్స్‌లో _తప్పు ప్రాతినిధ్య_ వంటి సమస్యల నుండి ఉత్పన్నమవుతాయి - వాటిలో కొన్ని వ్యవస్థాపక స్వభావం కలిగి ఉంటాయి.
రెండు సందర్భాలలోనూ, నైతిక సవాళ్లు మా చర్యలు మా పంచుకున్న విలువలకు విరుద్ధంగా ఉండే ప్రాంతాలను హైలైట్ చేస్తాయి. ఈ సమస్యలను గుర్తించడానికి, తగ్గించడానికి, లేదా తొలగించడానికి - మేము మా చర్యలకు సంబంధించిన నైతిక "అవును/కాదు" ప్రశ్నలను అడిగి, అవసరమైన సరిదిద్దు చర్యలు తీసుకోవాలి. కొన్ని నైతిక సవాళ్లు మరియు అవి రేకెత్తించే నైతిక ప్రశ్నలను చూద్దాం:
#### 2.1 డేటా యాజమాన్యం
డేటా సేకరణ సాధారణంగా డేటా సబ్జెక్టులను గుర్తించగల వ్యక్తిగత డేటాను కలిగి ఉంటుంది. [డేటా యాజమాన్యం](https://permission.io/blog/data-ownership) అనేది డేటా సృష్టి, ప్రాసెసింగ్, మరియు ప్రచారం సంబంధించి _నియత్రణ_ మరియు [_వినియోగదారు హక్కులు_](https://permission.io/blog/data-ownership) గురించి.
మేము అడగాల్సిన నైతిక ప్రశ్నలు:
* డేటా యజమాని ఎవరు? (వినియోగదారు లేదా సంస్థ)
* డేటా సబ్జెక్టులకు ఏ హక్కులు ఉన్నాయి? (ఉదా: ప్రాప్తి, తొలగింపు, పోర్టబిలిటీ)
* సంస్థలకు ఏ హక్కులు ఉన్నాయి? (ఉదా: దుర్వినియోగ వినియోగదారు సమీక్షలను సరిచేయడం)
#### 2.2 సూచిత అనుమతి
[సూచిత అనుమతి](https://legaldictionary.net/informed-consent/) అనేది వినియోగదారులు (ఉదా: డేటా సేకరణ) చర్యకు సంబంధించి సంబంధిత వాస్తవాలను పూర్తిగా అర్థం చేసుకుని అంగీకరించడం.
ఇక్కడ అన్వేషించాల్సిన ప్రశ్నలు:
* వినియోగదారు (డేటా సబ్జెక్టు) డేటా సేకరణ మరియు వినియోగానికి అనుమతి ఇచ్చారా?
* ఆ డేటా సేకరణ ఉద్దేశ్యాన్ని వినియోగదారు అర్థం చేసుకున్నారా?
* వారి పాల్గొనడంలో ఉన్న ప్రమాదాలను వినియోగదారు అర్థం చేసుకున్నారా?
#### 2.3 మేధో సంపత్తి
[మేధో సంపత్తి](https://en.wikipedia.org/wiki/Intellectual_property) అనేది మానవ ప్రయత్నం ఫలితంగా ఉత్పన్నమయ్యే అమూర్త సృష్టులు, ఇవి వ్యక్తులు లేదా వ్యాపారాలకు _ఆర్థిక విలువ కలిగి ఉడవచ్చు_.
ఇక్కడ అన్వేషించాల్సిన ప్రశ్నలు:
* సేకరించిన డేటాకు వినియోగదారు లేదా వ్యాపారానికి ఆర్థిక విలువ ఉందా?
* **వినియోగదారుకు** ఇక్కడ మేధో సంపత్తి ఉందా?
* **సంస్థకు** ఇక్కడ మేధో సంపత్తి ఉందా?
* ఈ హక్కులు ఉన్నట్లయితే, వాటిని ఎలా రక్షిస్తున్నాము?
#### 2.4 డేటా గోప్యత
[డేటా గోప్యత](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) లేదా సమాచార గోప్యత అనేది వ్యక్తిగత గుర్తింపు సమాచారానికి సంబంధించి వినియోగదారుల గోప్యతను మరియు గుర్తింపును రక్షించడం.
ఇక్కడ అన్వేషించాల్సిన ప్రశ్నలు:
* వినియోగదారుల (వ్యక్తిగత) డేటా హ్యాక్స్ మరియు లీక్‌ల నుండి రక్షించబడిందా?
* వినియోగదారుల డేటా అనుమతించబడిన వినియోగదారులు మరియు సందర్భాలకు మాత్రమే అందుబాటులో ఉందా?
* డేటా పంచుకున్నప్పుడు వినియోగదారుల అనామకత కాపాడబడిందా?
* అనామక డేటాసెట్‌ల నుండి వినియోగదారును గుర్తించవచ్చా?
#### 2.5 మర్చిపోవడానికి హక్కు
[మర్చిపోవడానికి హక్కు](https://en.wikipedia.org/wiki/Right_to_be_forgotten) లేదా [తొలగింపు హక్కు](https://www.gdpreu.org/right-to-be-forgotten/) వినియోగదారులకు అదనపు వ్యక్తిగత డేటా రక్షణను అందిస్తుంది. ప్రత్యేక పరిస్థితులలో, ఇది వినియోగదారులకు ఇంటర్నెట్ సెర్చ్‌లు మరియు ఇతర ప్రదేశాల నుండి వ్యక్తిగత డేటాను తొలగించమని లేదా తీసివేయమని అభ్యర్థించే హక్కును ఇస్తుంది - గత చర్యలు వారి మీద ప్రభావం చూపకుండా కొత్తగా ఆన్‌లైన్ ప్రారంభించడానికి వీలు కల్పిస్తుంది.
ఇక్కడ అన్వేషించాల్సిన ప్రశ్నలు:
* వ్యవస్థ డేటా సబ్జెక్టులకు తొలగింపు అభ్యర్థన చేయడానికి అనుమతిస్తుందా?
* వినియోగదారు అనుమతి ఉపసంహరణ ఆటోమేటెడ్ తొలగింపును ప్రారంభించాలా?
* అనుమతి లేకుండా లేదా చట్టవిరుద్ధంగా డేటా సేకరించబడిందా?
* మేము డేటా గోప్యత కోసం ప్రభుత్వ నియంత్రణలకు అనుగుణంగా ఉన్నామా?
#### 2.6 డేటాసెట్ పక్షపాతత
డేటాసెట్ లేదా [సేకరణ పక్షపాతత](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) అనేది అల్గోరిథం అభివృద్ధికి _ప్రతినిధి కాని_ డేటా ఉపసమితిని ఎంచుకోవడం, ఇది వివిధ సమూహాల ఫలితాల్లో అన్యాయాన్ని సృష్టిస్తుంది. పక్షపాతత రకాలు ఎంపిక లేదా నమూనా పక్షపాతత, స్వచ్ఛంద పక్షపాతత, మరియు పరికరం పక్షపాతత.
ఇక్కడ అన్వేషించాల్సిన ప్రశ్నలు:
* మేము ప్రతినిధి డేటా సబ్జెక్టుల సమూహాన్ని నియమించుకున్నామా?
* మేము సేకరించిన లేదా సంరక్షించిన డేటాసెట్‌ను వివిధ పక్షపాతతలకు పరీక్షించామా?
* కనుగొన్న పక్షపాతతలను తగ్గించగలమా లేదా తొలగించగలమా?
#### 2.7 డేటా నాణ్యత
[డేటా నాణ్యత](https://lakefs.io/data-quality-testing/) అనేది మా అల్గోరిథమ్స్ అభివృద్ధికి ఉపయోగించిన సంరక్షించిన డేటాసెట్ యొక్క సరైనతను పరిశీలించడం, మా AI ఉద్దేశానికి అవసరమైన ఖచ్చితత్వం మరియు స్థిరత్వం ప్రమాణాలను ఫీచర్లు మరియు రికార్డులు అందిస్తున్నాయా అని చూడటం.
ఇక్కడ అన్వేషించాల్సిన ప్రశ్నలు:
* మా ఉపయోగకరమైన సందర్భానికి సరైన _ఫీచర్లను_ మేము సేకరించామా?
* వివిధ డేటా మూలాల నుండి డేటా _స్థిరగా_ సేకరించబడిందా?
* వివిధ పరిస్థితులు లేదా పరిస్థితుల కోసం డేటాసెట్ _పూర్తిగా_ ఉందా?
* సమాచారం వాస్తవాన్ని ప్రతిబింబించడంలో _ఖచ్చితగా_ సేకరించబడిందా?
#### 2.8 అల్గోరిథం న్యాయం
[అల్గోరిథం న్యాయం](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) అల్గోరిథం డిజైన్ నిర్దిష్ట డేటా సబ్జెక్టుల ఉపసమూహాలపై వ్యవస్థాపకంగా వివక్ష చూపుతున్నదో లేదో తనిఖీ చేస్తుంది, ఇది _విభజనలో_ (ఆ సమూహం నుండి వనరులు నిరాకరించబడటం లేదా నిలిపివేయబడటం) మరియు _సేవా నాణ్యతలో_ (కొన్ని ఉపసమూహాలకు AI మరికొంత మందికి ఉన్నంత ఖచ్చితంగా లేకపోవడం) [సంభావ్య నష్టాలకు](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) దారితీస్తుంది.
ఇక్కడ పరిశీలించవలసిన ప్రశ్నలు:
* మేము వివిధ ఉపసమూహాలు మరియు పరిస్థితుల కోసం మోడల్ ఖచ్చితత్వాన్ని అంచనా వేశామా?
* మేము వ్యవస్థను సంభావ్య నష్టాల (ఉదా: స్టీరియోటైపింగ్) కోసం పరిశీలించామా?
* గుర్తించిన నష్టాలను తగ్గించడానికి డేటాను సవరించగలమా లేదా మోడల్స్‌ను మళ్లీ శిక్షణ ఇవ్వగలమా?
మరింత తెలుసుకోవడానికి [AI న్యాయం చెక్లిస్ట్లు](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) వంటి వనరులను అన్వేషించండి.
#### 2.9 తప్పు ప్రాతినిధ్యం
[డేటా తప్పు ప్రాతినిధ్యం](https://www.sciencedirect.com/topics/computer-science/misrepresentation) అనేది నిజాయితీగా నివేదించబడిన డేటా నుండి పొందిన అవగాహనలను మోసపూరితంగా కమ్యూనికేట్ చేస్తున్నామా అని అడగడం గురించి.
ఇక్కడ పరిశీలించవలసిన ప్రశ్నలు:
* మేము అసంపూర్ణ లేదా తప్పు డేటాను నివేదిస్తున్నామా?
* మేము డేటాను తప్పుదారి చూపించే తీరులో విజువలైజ్ చేస్తున్నామా?
* ఫలితాలను మోసపూరితంగా మార్చడానికి ఎంపిక చేసిన గణాంక పద్ధతులను ఉపయోగిస్తున్నామా?
* వేరే వివరణలు ఉన్నాయా, అవి వేరే తీరులో ముగింపు ఇవ్వగలవా?
#### 2.10 స్వేచ్ఛా ఎంపిక
[స్వేచ్ఛా ఎంపిక మాయ](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) అనేది వ్యవస్థ "ఎంపిక నిర్మాణాలు" నిర్ణయాల అల్గోరిథమ్స్ ఉపయోగించి ప్రజలను ఇష్టమైన ఫలితాన్ని తీసుకోవడానికి ప్రేరేపిస్తాయి, అయితే వారికి ఎంపికలు మరియు నియంత్రణ ఉన్నట్లు అనిపిస్తాయి. ఈ [డార్క్ ప్యాటర్న్స్](https://www.darkpatterns.org/) వినియోగదారులకు సామాజిక మరియు ఆర్థిక నష్టం కలిగించవచ్చు. వినియోగదారుల నిర్ణయాలు ప్రవర్తనా ప్రొఫైల్స్‌ను ప్రభావితం చేస్తాయి, కాబట్టి ఈ చర్యలు భవిష్యత్తు ఎంపికలను ప్రభావితం చేసి నష్టాలను పెంచవచ్చు.
ఇక్కడ పరిశీలించవలసిన ప్రశ్నలు:
* ఆ ఎంపిక చేయడంలో వినియోగదారుడు ప్రభావాలను అర్థం చేసుకున్నాడా?
* వినియోగదారుడు (వేరే) ఎంపికలు మరియు వాటి లాభనష్టాలను తెలుసుకున్నాడా?
* వినియోగదారుడు ఆ ఆటోమేటెడ్ లేదా ప్రభావిత ఎంపికను తర్వాత తిరిగి మార్చగలడా?
### 3. కేసు అధ్యయనాలు
ఈ నైతిక సవాళ్లను వాస్తవ ప్రపంచ సందర్భాలలో ఉంచడానికి, వ్యక్తులు మరియు సమాజానికి సంభావ్య నష్టాలు మరియు పరిణామాలను హైలైట్ చేసే కేసు అధ్యయనాలను చూడటం సహాయపడుతుంది, ఇలాంటి నైతిక ఉల్లంఘనలను పక్కన పెట్టినప్పుడు.
ఇక్కడ కొన్ని ఉదాహరణలు:
| నైతిక సవాలు | కేసు అధ్యయనం |
|--- |--- |
| **సూచిత సమ్మతి** | 1972 - [టస్కీగీ సిఫిలిస్ అధ్యయనం](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - ఈ అధ్యయనంలో పాల్గొన్న ఆఫ్రికన్ అమెరికన్ పురుషులకు ఉచిత వైద్య సేవలు వాగ్దానం చేయబడినప్పటికీ, పరిశోధకులు వారి రోగ నిర్ధారణ లేదా చికిత్స అందుబాటును తెలియజేయకుండా మోసం చేశారు. అనేక మంది మరణించారు & భాగస్వాములు లేదా పిల్లలు ప్రభావితులయ్యారు; ఈ అధ్యయనం 40 సంవత్సరాలు కొనసాగింది. |
| **డేటా గోప్యత** | 2007 - [నెట్‌ఫ్లిక్స్ డేటా ప్రైజ్](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) పరిశోధకులకు _50K కస్టమర్ల నుండి 10 మిలియన్ల అనామక సినిమా ర్యాకిగ్స్_ అందజేసింది, సిఫార్సు అల్గోరిథమ్స్ మెరుగుపరచడానికి. అయితే, పరిశోధకులు అనామక డేటాను వ్యక్తిగత గుర్తింపు డేటాతో _బాహ్య డేటాసెట్లలో_ (ఉదా: IMDb వ్యాఖ్యలు) అనుసంధానించి కొంత నెట్‌ఫ్లిక్స్ సభ్యులను "డీ-అనామీకరైజ్" చేయగలిగారు.|
| **సేకరణ పక్షపాతం** | 2013 - బోస్టన్ నగరం [స్ట్రీట్ బంప్](https://www.boston.gov/transportation/street-bump) అనే యాప్ అభివృద్ధి చేసింది, ఇది పౌరులు రోడ్డు లోపాలను నివేదించడానికి ఉపయోగపడింది, నగరానికి రోడ్డు డేటాను మెరుగుపరచడానికి. అయితే, [తక్కువ ఆదాయ వర్గాల ప్రజలకు కార్లు మరియు ఫోన్లకు తక్కువ ప్రాప్యత ఉండటం](https://hbr.org/2013/04/the-hidden-biases-in-big-data) వలన వారి రోడ్డు సమస్యలు ఈ యాప్‌లో కనిపించలేదు. అభివృద్ధి దారులు అకాడమిక్‌లతో కలిసి సమాన ప్రాప్యత మరియు డిజిటల్ విభజనల సమస్యలపై పని చేశారు. |
| **అల్గోరిథమిక్ న్యాయం** | 2018 - MIT [జెండర్ షేడ్స్ స్టడీ](http://gendershades.org/overview.html) లింగ వర్గీకరణ AI ఉత్పత్తుల ఖచ్చితత్వాన్ని అంచనా వేసింది, మహిళలు మరియు రంగు వ్యక్తుల కోసం ఖచ్చితత్వంలో లోపాలను వెల్లడించింది. [2019 ఆపిల్ కార్డ్](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) మహిళలకు పురుషుల కంటే తక్కువ క్రెడిట్ ఇచ్చినట్లు కనిపించింది. ఇవి అల్గోరిథమిక్ పక్షపాతం కారణంగా సామాజిక-ఆర్థిక నష్టాలను చూపించాయి.|
| **డేటా తప్పు ప్రాతినిధ్యం** | 2020 - [జార్జియా పబ్లిక్ హెల్త్ డిపార్ట్‌మెంట్ COVID-19 చార్ట్స్](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) విడుదల చేసింది, ఇది నిర్ధారిత కేసుల ధోరణులపై పౌరులను తప్పుదారి చూపించింది, x-అక్షంపై కాలానుక్రమం లేని క్రమంలో. ఇది విజువలైజేషన్ ట్రిక్స్ ద్వారా తప్పు ప్రాతినిధ్యాన్ని సూచిస్తుంది. |
| **స్వేచ్ఛా ఎంపిక మాయ** | 2020 - లెర్నింగ్ యాప్ [ABCmouse FTC ఫిర్యాదు పరిష్కారానికి $10M చెల్లించింది](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) ఇక్కడ తల్లిదండ్రులు రద్దు చేయలేని సబ్‌స్క్రిప్షన్ల కోసం చెల్లింపులకు బంధింపబడ్డారు. ఇది ఎంపిక నిర్మాణాలలో డార్క్ ప్యాటర్న్లను చూపిస్తుంది, వినియోగదారులను సంభావ్య నష్టకర ఎంపికల వైపు నడిపించింది. |
| **డేటా గోప్యత & వినియోగదారు హక్కులు** | 2021 - ఫేస్‌బుక్ [డేటా లీక్](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530 మిలియన్ల వినియోగదారుల డేటాను బయటపెట్టింది, FTCకి $5B సెటిల్‌మెంట్ చెల్లించింది. అయితే, లీక్ గురించి వినియోగదారులకు తెలియజేయడం నిరాకరించింది, ఇది డేటా పారదర్శకత మరియు ప్రాప్యతపై వినియోగదారు హక్కులను ఉల్లంఘించింది. |
మరిన్ని కేసు అధ్యయనాలను అన్వేషించాలనుకుంటున్నారా? ఈ వనరులను చూడండి:
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - వివిధ పరిశ్రమలలో నైతిక సంక్షోభాలు.
* [డేటా సైన్స్ నైతికత కోర్సు](https://www.coursera.org/learn/data-science-ethics#syllabus) - ప్రముఖ కేసు అధ్యయనాలు.
* [ఎక్కడ తప్పు జరిగింది](https://deon.drivendata.org/examples/) - డియాన్ చెక్లిస్ట్ ఉదాహరణలతో
> 🚨 మీరు చూసిన కేసు అధ్యయనాల గురించి ఆలోచించండి - మీరు ఇలాంటి నైతిక సవాలు మీ జీవితంలో ఎదుర్కొన్నారా లేదా ప్రభావితులయ్యారా? ఈ విభాగంలో చర్చించిన నైతిక సవాళ్లలో ఒకదాన్ని చూపించే మరో కేసు అధ్యయనాన్ని మీరు గుర్తించగలరా?
## అన్వయించిన నైతికత
మేము నైతిక సూత్రాలు, సవాళ్లు మరియు వాస్తవ ప్రపంచ సందర్భాలలో కేసు అధ్యయనాల గురించి మాట్లాడాము. కానీ మన ప్రాజెక్టుల్లో నైతిక సూత్రాలు మరియు ఆచరణలను _అన్వయిచడ_ ఎలా ప్రారంభించాలి? మరియు ఈ ఆచరణలను మెరుగైన పాలన కోసం _ఆపరేషనలైజ్_ చేయడం ఎలా? కొన్ని వాస్తవ ప్రపంచ పరిష్కారాలను పరిశీలిద్దాం:
### 1. వృత్తిపరమైన కోడ్స్
వృత్తిపరమైన కోడ్స్ సంస్థలకు సభ్యులను వారి నైతిక సూత్రాలు మరియు మిషన్ స్టేట్‌మెంట్‌ను మద్దతు ఇవ్వడానికి "ప్రేరేపించే" ఒక ఎంపికను అందిస్తాయి. కోడ్స్ వృత్తిపరమైన ప్రవర్తనకు _నైతిక మార్గదర్శకాలు_, ఉద్యోగులు లేదా సభ్యులు తమ సంస్థ సూత్రాలకు అనుగుణంగా నిర్ణయాలు తీసుకోవడంలో సహాయపడతాయి. ఇవి సభ్యుల స్వచ్ఛంద అనుగుణతపై ఆధారపడి ఉంటాయి; అయితే, అనేక సంస్థలు సభ్యుల అనుగుణత కోసం అదనపు బహుమతులు మరియు శిక్షలను అందిస్తాయి.
ఉదాహరణలు:
* [ఆక్స్ఫర్డ్ మ్యూనిక్](http://www.code-of-ethics.org/code-of-conduct/) నైతిక కోడ్
* [డేటా సైన్స్ అసోసియేషన్](http://datascienceassn.org/code-of-conduct.html) ప్రవర్తన కోడ్ (2013లో సృష్టించబడింది)
* [ACM నైతికత మరియు వృత్తిపరమైన ప్రవర్తన కోడ్](https://www.acm.org/code-of-ethics) (1993 నుండి)
> 🚨 మీరు వృత్తిపరమైన ఇంజనీరింగ్ లేదా డేటా సైన్స్ సంస్థకు సభ్యుడా? వారి సైట్‌ను పరిశీలించి వారు వృత్తిపరమైన నైతిక కోడ్‌ను నిర్వచించారా చూడండి. వారి నైతిక సూత్రాల గురించి ఇది ఏమి చెబుతుంది? సభ్యులను కోడ్‌ను అనుసరించడానికి వారు ఎలా "ప్రేరేపిస్తున్నారు"?
### 2. నైతిక చెక్లిస్ట్లు
వృత్తిపరమైన కోడ్స్ ప్రాక్టీషనర్ల నుండి అవసరమైన _నైతిక ప్రవర్తన_ ను నిర్వచిస్తాయి, కానీ పెద్ద స్థాయి ప్రాజెక్టుల్లో అమలులో [పరిచయ పరిమితులు](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) ఉన్నాయి. బదులుగా, అనేక డేటా సైన్స్ నిపుణులు [చెక్లిస్ట్లను](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) ప్రోత్సహిస్తారు, ఇవి సూత్రాలను ఆచరణలకు **కనెక్ట్** చేయగలవు మరింత నిర్ణీత మరియు కార్యాచరణాత్మక మార్గాల్లో.
చెక్లిస్ట్లు ప్రశ్నలను "అవును/కాదు" పనులుగా మార్చి ఆపరేషనలైజ్ చేయగలవు, వాటిని ప్రామాణిక ఉత్పత్తి విడుదల వర్క్‌ఫ్లోలలో భాగంగా ట్రాక్ చేయవచ్చు.
ఉదాహరణలు:
* [Deon](https://deon.drivendata.org/) - [పరిశ్రమ సిఫారసులు](https://deon.drivendata.org/#checklist-citations) ఆధారంగా సృష్టించబడిన సాధారణ-ఉద్దేశ్య డేటా నైతిక చెక్లిస్ట్, సులభ సమీకరణ కోసం కమాండ్-లైన్ టూల్‌తో.
* [గోప్యతా ఆడిట్ చెక్లిస్ట్](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - చట్టపరమైన మరియు సామాజిక పరిధుల నుండి సమాచార నిర్వహణ ఆచరణలకు సాధారణ మార్గదర్శకాలు.
* [AI న్యాయం చెక్లిస్ట్](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - AI అభివృద్ధి చక్రాలలో న్యాయం తనిఖీలను అనుసరించడానికి AI ప్రాక్టీషనర్లు సృష్టించారు.
* [డేటా మరియు AI నైతికత కోసం 22 ప్రశ్నలు](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - మరింత తెరచిన ఫ్రేమ్‌వర్క్, డిజైన్, అమలు మరియు సంస్థా సందర్భాలలో నైతిక సమస్యల ప్రారంభ అన్వేషణ కోసం నిర్మించబడింది.
### 3. నైతిక నియమాలు
నైతికత అనేది పంచుకున్న విలువలను నిర్వచించడం మరియు సరైన పని చేయడం _స్వచ్ఛగా_. **అనుగుణత** అనేది చట్టాన్ని అనుసరించడం, అది ఎక్కడ నిర్వచించబడిందో అక్కడ. **పాలన** అనేది సంస్థలు నైతిక సూత్రాలను అమలు చేయడానికి మరియు స్థాపిత చట్టాలను పాటించడానికి ఉపయోగించే అన్ని మార్గాలను విస్తృతంగా కవర్ చేస్తుంది.
ఈ రోజు, సంస్థల్లో పాలన రెండు రూపాల్లో ఉంటుంది. మొదటిది, సంస్థలో అన్ని AI సంబంధిత ప్రాజెక్టులలో **నైతిక AI** సూత్రాలను నిర్వచించడం మరియు అవలంబన ఆచరణలను స్థాపించడం. రెండవది, సంస్థలు పనిచేసే ప్రాంతాల కోసం అన్ని ప్రభుత్వ ఆదేశిత **డేటా రక్షణ నియమాలను** పాటించడం.
డేటా రక్షణ మరియు గోప్యతా నియమాల ఉదాహరణలు:
* `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - _ఫెడరల్ ప్రభుత్వ_ వ్యక్తిగత సమాచార సేకరణ, ఉపయోగం మరియు ప్రకటనను నియంత్రిస్తుంది.
* `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - వ్యక్తిగత ఆరోగ్య డేటాను రక్షిస్తుంది.
* `1998`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 సంవత్సరాల కింద పిల్లల డేటా గోప్యతను రక్షిస్తుంది.
* `2018`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - వినియోగదారు హక్కులు, డేటా రక్షణ మరియు గోప్యతను అందిస్తుంది.
* `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) వినియోగదారులకు వారి (వ్యక్తిగత) డేటాపై మరిన్ని _హక్కులు_ ఇస్తుంది.
* `2021`, చైనా [Personal Information Protection Law](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) ఇటీవల ఆమోదించింది, ఇది ప్రపంచంలోనే అత్యంత కఠినమైన ఆన్‌లైన్ డేటా గోప్యతా నియమాలను సృష్టించింది.
> 🚨 యూరోపియన్ యూనియన్ నిర్వచించిన GDPR (General Data Protection Regulation) ఈ రోజుల్లో అత్యంత ప్రభావవంతమైన డేటా గోప్యతా నియమాలలో ఒకటి. ఇది [8 వినియోగదారు హక్కులను](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) కూడా నిర్వచిస్తుందని మీకు తెలుసా? ఇవి ఏమిటి, మరియు అవి ఎందుకు ముఖ్యమో తెలుసుకోండి.
### 4. నైతిక సంస్కృతి
_అనుగుణత_ (చట్టం యొక్క "అక్షరాన్ని" తగినంతగా పాటించడం) మరియు [వ్యవస్థాపక సమస్యలను](https://www.coursera.org/learn/data-science-ethics/home/week/4) (ఉదా: ఒప్పందం, సమాచార అసమానత, పంపిణీ అన్యాయం) పరిష్కరించడంలో ఒక అమూల్యమైన గ్యాప్ ఇంకా ఉంది, ఇవి AI ఆయుధీకరణను వేగవంతం చేయవచ్చు.
ఇది పరిశ్రమలో _సస్థల మధ్య_ భావోద్వేగ సంబంధాలు మరియు సారూప్య పంచుకున్న విలువలను నిర్మించే నైతిక సంస్కృతులను నిర్వచించడానికి [సహకార దృక్పథాలను](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) అవసరం. ఇది సంస్థల్లో మరింత [నిర్వచించబడిన డేటా నైతిక సంస్కృతులను](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) కోరుతుంది - _ఎవరైనా_ [అండన్ కార్డ్‌ను పుల్ల్ చేయగలరు](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (ప్రక్రియలో తొందరగా నైతిక సమస్యలను ఎత్తి చూపడానికి) మరియు _నైతిక అచనాలు_ (ఉదా: నియామకంలో) AI ప్రాజెక్టుల టీమ్ నిర్మాణంలో ప్రధాన ప్రమాణంగా ఉండాలి.
---
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/3) 🎯
## సమీక్ష & స్వీయ అధ్యయనం
కోర్సులు మరియు పుస్తకాలు ప్రాథమిక నైతిక సూత్రాలు మరియు సవాళ్లను అర్థం చేసుకోవడంలో సహాయపడతాయి, కేసు అధ్యయనాలు మరియు సాధనాలు వాస్తవ ప్రపంచ సందర్భాలలో అన్వయించిన నైతిక ఆచరణలకు సహాయపడతాయి. ప్రారంభించడానికి కొన్ని వనరులు ఇక్కడ ఉన్నాయి.
* [మిషిన్ లెర్నింగ్ ఫర్ బిగినర్స్](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - మైక్రోసాఫ్ట్ నుండి ఫెయిర్నెస్ పై పాఠం.
* [జవాబుదారీ AI సూత్రాలు](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - మైక్రోసాఫ్ట్ లెర్న్ నుండి ఉచిత అభ్యాస మార్గం.
* [నైతికత మరియు డేటా సైన్స్](https://resources.oreilly.com/examples/0636920203964) - ఓ'రైలీ ఈబుక్ (ఎం. లౌకిడెస్, హెచ్. మేసన్ తదితరులు)
* [డేటా సైన్స్ నైతికత](https://www.coursera.org/learn/data-science-ethics#syllabus) - మిచిగన్ విశ్వవిద్యాలయం నుండి ఆన్‌లైన్ కోర్సు.
* [ఎథిక్స్ అన్‌వ్రాప్డ్](https://ethicsunwrapped.utexas.edu/case-studies) - టెక్సాస్ విశ్వవిద్యాలయం నుండి కేసు అధ్యయనాలు.
# అసైన్‌మెంట్
[డేటా ఎథిక్స్ కేసు అధ్యయనం రాయండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,35 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "b588c0fc73014f52520c666efc3e0cc3",
"translation_date": "2025-12-19T14:28:09+00:00",
"source_file": "1-Introduction/02-ethics/assignment.md",
"language_code": "te"
}
-->
## డేటా నైతికత కేసు అధ్యయనం రాయండి
## సూచనలు
మీరు వివిధ [డేటా నైతికత సవాళ్ళు](README.md#2-ethics-challenges) గురించి నేర్చుకున్నారు మరియు నిజజీవిత సందర్భాలలో డేటా నైతికత సవాళ్లను ప్రతిబింబించే కొన్ని [కేసు అధ్యయనాలు](README.md#3-case-studies) చూశారు.
ఈ అసైన్‌మెంట్‌లో, మీరు మీ స్వంత అనుభవం నుండి లేదా మీరు పరిచయమైన సంబంధిత నిజజీవిత సందర్భం నుండి డేటా నైతికత సవాల్‌ను ప్రతిబింబించే మీ స్వంత కేసు అధ్యయనాన్ని రాయాలి. ఈ దశలను అనుసరించండి:
1. `డేటా నైతికత సవాల్‌ను ఎంచుకోండి`. ప్రేరణ కోసం [పాఠం ఉదాహరణలు](README.md#2-ethics-challenges) చూడండి లేదా [Deon చెక్లిస్ట్](https://deon.drivendata.org/examples/) వంటి ఆన్‌లైన్ ఉదాహరణలను అన్వేషించండి.
2. `నిజజీవిత ఉదాహరణను వివరించండి`. మీరు విన్న (శీర్షికలు, పరిశోధన అధ్యయనం మొదలైనవి) లేదా అనుభవించిన (స్థానిక సమాజం) పరిస్థితిని ఆలోచించండి, అక్కడ ఈ నిర్దిష్ట సవాల్ సంభవించింది. సవాల్‌కు సంబంధించిన డేటా నైతికత ప్రశ్నలను ఆలోచించండి - మరియు ఈ సమస్య కారణంగా ఏర్పడే సంభావ్య హానులు లేదా అనుకోని పరిణామాలను చర్చించండి. బోనస్ పాయింట్లు: ఈ సవాల్ యొక్క ప్రతికూల ప్రభావాన్ని తొలగించడానికి లేదా తగ్గించడానికి సహాయపడే సంభావ్య పరిష్కారాలు లేదా ప్రక్రియలను ఆలోచించండి.
3. `సంబంధిత వనరుల జాబితాను అందించండి`. ఇది నిజజీవిత సంఘటన అని నిరూపించడానికి ఒకటి లేదా ఎక్కువ వనరులను (ఆర్టికల్ లింకులు, వ్యక్తిగత బ్లాగ్ పోస్ట్ లేదా చిత్రం, ఆన్‌లైన్ పరిశోధన పేపర్ మొదలైనవి) పంచుకోండి. బోనస్ పాయింట్లు: సంఘటన నుండి సంభావ్య హానులు & పరిణామాలను కూడా చూపించే వనరులను పంచుకోండి, లేదా దాని పునరావృతం నివారించడానికి తీసుకున్న సానుకూల చర్యలను హైలైట్ చేయండి.
## రూబ్రిక్
ఉదాహరణాత్మక | తగినంత | మెరుగుదల అవసరం
--- | --- | --- |
ఒకటి లేదా ఎక్కువ డేటా నైతికత సవాళ్లు గుర్తించబడ్డాయి. <br/> <br/> కేసు అధ్యయనం ఆ సవాల్‌ను ప్రతిబింబించే నిజజీవిత సంఘటనను స్పష్టంగా వివరించి, దాని వల్ల కలిగిన అనుచిత పరిణామాలు లేదా హానులను హైలైట్ చేస్తుంది. <br/><br/> ఇది సంభవించిందని నిరూపించడానికి కనీసం ఒక లింక్ వనరు ఉంది. | ఒక డేటా నైతికత సవాల్ గుర్తించబడింది. <br/><br/> కనీసం ఒక సంబంధిత హాని లేదా పరిణామం సంక్షిప్తంగా చర్చించబడింది. <br/><br/> అయితే చర్చ పరిమితంగా ఉంది లేదా నిజజీవిత సంభవం యొక్క సాక్ష్యం లేదు. | ఒక డేటా సవాల్ గుర్తించబడింది. <br/><br/> అయితే వివరణ లేదా వనరులు సవాల్‌ను సరైన రీతిలో ప్రతిబింబించవు లేదా నిజజీవిత సంభవాన్ని నిరూపించవు. |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,88 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "12339119c0165da569a93ddba05f9339",
"translation_date": "2025-12-19T13:58:23+00:00",
"source_file": "1-Introduction/03-defining-data/README.md",
"language_code": "te"
}
-->
# డేటా నిర్వచనం
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|డేటా నిర్వచనం - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
డేటా అనేది నిజాలు, సమాచారం, పరిశీలనలు మరియు కొలతలు, ఇవి ఆవిష్కరణలు చేయడానికి మరియు సమాచారంతో కూడిన నిర్ణయాలను మద్దతు ఇవ్వడానికి ఉపయోగిస్తారు. ఒక డేటా పాయింట్ అనేది ఒక డేటాసెట్‌లోని ఒకే ఒక డేటా యూనిట్, ఇది డేటా పాయింట్ల సేకరణ. డేటాసెట్లు వివిధ ఫార్మాట్లు మరియు నిర్మాణాలలో ఉండవచ్చు, మరియు సాధారణంగా దాని మూలం లేదా డేటా ఎక్కడినుంచి వచ్చింది అనే ఆధారంగా ఉంటాయి. ఉదాహరణకు, ఒక కంపెనీ యొక్క నెలవారీ ఆదాయం స్ప్రెడ్షీట్‌లో ఉండవచ్చు కానీ స్మార్ట్‌వాచ్ నుండి గంటల వారీ గుండె రేటు డేటా [JSON](https://stackoverflow.com/a/383699) ఫార్మాట్‌లో ఉండవచ్చు. డేటా శాస్త్రవేత్తలు సాధారణంగా ఒక డేటాసెట్‌లోని వివిధ రకాల డేటాతో పని చేస్తారు.
ఈ పాఠం డేటాను దాని లక్షణాలు మరియు మూలాల ద్వారా గుర్తించడం మరియు వర్గీకరించడంపై కేంద్రీకృతమైంది.
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/4)
## డేటా ఎలా వివరించబడుతుంది
### రా డేటా
రా డేటా అనేది దాని మూలం నుండి ప్రారంభ స్థితిలో వచ్చిన డేటా, ఇది విశ్లేషించబడలేదు లేదా సక్రమంగా ఏర్పాటు చేయబడలేదు. ఒక డేటాసెట్‌లో ఏమి జరుగుతుందో అర్థం చేసుకోవడానికి, అది మానవులు మరియు వారు ఉపయోగించే సాంకేతికతకు అర్థమయ్యే ఫార్మాట్‌లో సక్రమంగా ఏర్పాటు చేయబడాలి. ఒక డేటాసెట్ నిర్మాణం దాని ఏర్పాటు ఎలా ఉందో వివరిస్తుంది మరియు ఇది నిర్మిత, నిర్మిత కాని మరియు అర్ధ-నిర్మితంగా వర్గీకరించబడవచ్చు. ఈ నిర్మాణ రకాలు మూలం ఆధారంగా మారవచ్చు కానీ చివరికి ఈ మూడు వర్గాలలో సరిపోతాయి.
### పరిమాణాత్మక డేటా
పరిమాణాత్మక డేటా అనేది డేటాసెట్‌లోని సంఖ్యాత్మక పరిశీలనలు మరియు సాధారణంగా విశ్లేషించబడవచ్చు, కొలవబడవచ్చు మరియు గణితంగా ఉపయోగించబడవచ్చు. పరిమాణాత్మక డేటా కొన్ని ఉదాహరణలు: ఒక దేశ జనాభా, ఒక వ్యక్తి ఎత్తు లేదా ఒక కంపెనీ త్రైమాసిక ఆదాయం. కొంత అదనపు విశ్లేషణతో, పరిమాణాత్మక డేటా వాయు నాణ్యత సూచిక (AQI) యొక్క సీజనల్ ట్రెండ్లను కనుగొనడానికి లేదా సాధారణ పని దినంలో రష్ అవర్ ట్రాఫిక్ సంభావ్యతను అంచనా వేయడానికి ఉపయోగించవచ్చు.
### గుణాత్మక డేటా
గుణాత్మక డేటా, లేదా వర్గీకృత డేటా, అనేది పరిమాణాత్మక డేటా పరిశీలనల లాగా ఆబ్జెక్టివ్‌గా కొలవలేని డేటా. ఇది సాధారణంగా వివిధ రకాల సబ్జెక్టివ్ డేటా, ఇది ఏదైనా వస్తువు లేదా ప్రక్రియ యొక్క నాణ్యతను పట్టుకుంటుంది. కొన్నిసార్లు, గుణాత్మక డేటా సంఖ్యాత్మకంగా ఉండవచ్చు కానీ సాధారణంగా గణితంగా ఉపయోగించబడదు, ఉదాహరణకు ఫోన్ నంబర్లు లేదా టైమ్‌స్టాంప్లు. గుణాత్మక డేటా కొన్ని ఉదాహరణలు: వీడియో వ్యాఖ్యలు, కారు తయారీ మరియు మోడల్ లేదా మీ అత్యంత సన్నిహిత మిత్రుల ఇష్టమైన రంగు. గుణాత్మక డేటా వినియోగదారులు ఏ ఉత్పత్తులను ఎక్కువగా ఇష్టపడతారో అర్థం చేసుకోవడానికి లేదా ఉద్యోగ దరఖాస్తు రిజ్యూమ్‌లలో ప్రాచుర్యం పొందిన కీవర్డ్లను గుర్తించడానికి ఉపయోగించవచ్చు.
### నిర్మిత డేటా
నిర్మిత డేటా అనేది వరుసలు మరియు కాలమ్స్‌లో ఏర్పాటు చేయబడిన డేటా, ప్రతి వరుసకు అదే కాలమ్‌ల సెట్ ఉంటుంది. కాలమ్స్ ఒక నిర్దిష్ట రకం విలువను సూచిస్తాయి మరియు ఆ విలువ ఏమిటో వివరిస్తూ ఒక పేరుతో గుర్తించబడతాయి, వరుసలు వాస్తవ విలువలను కలిగి ఉంటాయి. కాలమ్‌లకు విలువలపై నిర్దిష్ట నియమాలు లేదా పరిమితులు ఉండవచ్చు, విలువలు కాలమ్‌ను సరిగ్గా ప్రతిబింబించడానికి. ఉదాహరణకు, ఒక కస్టమర్‌ల స్ప్రెడ్షీట్‌లో ప్రతి వరుసకు ఫోన్ నంబర్ ఉండాలి మరియు ఫోన్ నంబర్లు ఎప్పుడూ అక్షరాలు కలిగి ఉండకూడదు. ఫోన్ నంబర్ కాలమ్‌పై నియమాలు ఉండవచ్చు, అది ఎప్పుడూ ఖాళీగా ఉండకూడదని మరియు కేవలం సంఖ్యలు మాత్రమే ఉండాలని.
నిర్మిత డేటా లాభం ఏమిటంటే, ఇది ఇతర నిర్మిత డేటాతో సంబంధం కలిగి ఉండే విధంగా ఏర్పాటు చేయబడవచ్చు. అయితే, డేటా ఒక నిర్దిష్ట విధంగా ఏర్పాటు చేయబడినందున, దాని మొత్తం నిర్మాణంలో మార్పులు చేయడం చాలా కష్టంగా ఉంటుంది. ఉదాహరణకు, ఖాళీగా ఉండకూడని ఇమెయిల్ కాలమ్‌ను కస్టమర్ స్ప్రెడ్షీట్‌లో జోడించడం అంటే, ఈ విలువలను ఇప్పటికే ఉన్న కస్టమర్ వరుసలకు ఎలా జోడించాలో మీరు ఆలోచించాలి.
నిర్మిత డేటా ఉదాహరణలు: స్ప్రెడ్షీట్లు, రిలేషనల్ డేటాబేసులు, ఫోన్ నంబర్లు, బ్యాంక్ స్టేట్మెంట్లు
### నిర్మిత కాని డేటా
నిర్మిత కాని డేటా సాధారణంగా వరుసలు లేదా కాలమ్‌లుగా వర్గీకరించలేం మరియు దానికి అనుసరించాల్సిన ఫార్మాట్ లేదా నియమాలు ఉండవు. నిర్మిత కాని డేటాకు నిర్మిత డేటాతో పోలిస్తే తక్కువ పరిమితులు ఉండటంతో కొత్త సమాచారాన్ని జోడించడం సులభం. ఉదాహరణకు, ప్రతి 2 నిమిషాలకు బారోమెట్రిక్ ప్రెషర్‌ను కొలిచే సెన్సార్ ఇప్పుడు ఉష్ణోగ్రతను కొలవడానికి మరియు రికార్డ్ చేయడానికి అప్‌డేట్ పొందినట్లయితే, అది నిర్మిత కాని డేటా అయితే ఇప్పటికే ఉన్న డేటాను మార్చాల్సిన అవసరం లేదు. అయితే, ఈ రకమైన డేటాను విశ్లేషించడం లేదా పరిశీలించడం ఎక్కువ సమయం తీసుకోవచ్చు. ఉదాహరణకు, ఒక శాస్త్రవేత్త గత నెల సగటు ఉష్ణోగ్రతను కనుగొనాలనుకుంటే, సెన్సార్ కొన్ని రికార్డ్ చేసిన డేటాలో "e" అనే అక్షరాన్ని నమోదు చేసి అది సెన్సార్ బిగ్గరగా పనిచేయలేదని సూచిస్తే, డేటా అసంపూర్ణంగా ఉంటుంది.
నిర్మిత కాని డేటా ఉదాహరణలు: టెక్స్ట్ ఫైళ్లు, టెక్స్ట్ సందేశాలు, వీడియో ఫైళ్లు
### అర్ధ-నిర్మిత డేటా
అర్ధ-నిర్మిత డేటాకు నిర్మిత మరియు నిర్మిత కాని డేటా లక్షణాలు కలవు. ఇది సాధారణంగా వరుసలు మరియు కాలమ్‌ల ఫార్మాట్‌కు అనుగుణంగా ఉండదు కానీ నిర్మితంగా పరిగణించదగిన విధంగా ఏర్పాటు చేయబడుతుంది మరియు ఒక స్థిరమైన ఫార్మాట్ లేదా నియమాలను అనుసరించవచ్చు. నిర్మాణం మూలాల మధ్య మారవచ్చు, ఉదాహరణకు బాగా నిర్వచించబడిన హైరార్కీ నుండి కొత్త సమాచారాన్ని సులభంగా సమ్మిళితం చేయడానికి అనువైన మరింత సౌకర్యవంతమైనది వరకు. మెటాడేటా అనేది డేటా ఎలా ఏర్పాటు చేయబడిందో మరియు నిల్వ చేయబడిందో నిర్ణయించడంలో సహాయపడే సూచికలు మరియు డేటా రకంపై ఆధారపడి వివిధ పేర్లతో ఉంటాయి. సాధారణ మెటాడేటా పేర్లు: ట్యాగ్లు, ఎలిమెంట్లు, ఎంటిటీలను మరియు లక్షణాలు. ఉదాహరణకు, ఒక సాధారణ ఇమెయిల్ సందేశానికి ఒక విషయం, శరీరం మరియు రిసిపియెంట్ల సెట్ ఉంటుంది మరియు ఎవరు లేదా ఎప్పుడు పంపారో ఆధారంగా ఏర్పాటు చేయబడవచ్చు.
అర్ధ-నిర్మిత డేటా ఉదాహరణలు: HTML, CSV ఫైళ్లు, జావాస్క్రిప్ట్ ఆబ్జెక్ట్ నోటేషన్ (JSON)
## డేటా మూలాలు
డేటా మూలం అనేది డేటా ఉత్పత్తి అయిన ప్రాథమిక స్థలం లేదా అది "ఉండే" ప్రదేశం, మరియు అది ఎప్పుడు మరియు ఎలా సేకరించబడిందో ఆధారంగా మారుతుంది. దాని వినియోగదారులచే ఉత్పత్తి చేయబడిన డేటాను ప్రాథమిక డేటా అంటారు, మరియు సాధారణ ఉపయోగం కోసం సేకరించిన మూలం నుండి వచ్చిన డేటాను ద్వితీయ డేటా అంటారు. ఉదాహరణకు, ఒక వనవిల్లు లో పరిశీలనలు సేకరించే శాస్త్రవేత్తల సమూహం ప్రాథమికంగా పరిగణించబడుతుంది, మరియు వారు ఇతర శాస్త్రవేత్తలతో పంచుకుంటే, అది ఆ వినియోగదారులకు ద్వితీయంగా పరిగణించబడుతుంది.
డేటాబేసులు సాధారణ మూలాలు మరియు డేటాను హోస్ట్ చేయడానికి మరియు నిర్వహించడానికి డేటాబేస్ మేనేజ్‌మెంట్ సిస్టమ్‌పై ఆధారపడి ఉంటాయి, వినియోగదారులు క్వెరీలు అనే ఆదేశాలను ఉపయోగించి డేటాను అన్వేషిస్తారు. ఫైళ్లు డేటా మూలాలుగా ఆడియో, చిత్రం, వీడియో ఫైళ్లు మరియు ఎక్సెల్ వంటి స్ప్రెడ్షీట్లు ఉండవచ్చు. ఇంటర్నెట్ మూలాలు డేటాను హోస్ట్ చేయడానికి సాధారణ ప్రదేశం, ఇక్కడ డేటాబేసులు మరియు ఫైళ్లు రెండూ ఉండవచ్చు. అప్లికేషన్ ప్రోగ్రామింగ్ ఇంటర్‌ఫేసులు (APIs) ప్రోగ్రామర్లకు ఇంటర్నెట్ ద్వారా బాహ్య వినియోగదారులతో డేటాను పంచుకునే మార్గాలను సృష్టించడానికి అనుమతిస్తాయి, మరియు వెబ్ స్క్రాపింగ్ ప్రక్రియ వెబ్ పేజీ నుండి డేటాను తీసుకుంటుంది. [డేటాతో పని చేయడం](../../../../../../../../../2-Working-With-Data) పాఠాలు వివిధ డేటా మూలాలను ఎలా ఉపయోగించాలో కేంద్రీకృతమై ఉన్నాయి.
## ముగింపు
ఈ పాఠంలో మనం నేర్చుకున్నాం:
- డేటా అంటే ఏమిటి
- డేటా ఎలా వివరించబడుతుంది
- డేటా ఎలా వర్గీకరించబడుతుంది మరియు వర్గాలుగా విభజించబడుతుంది
- డేటా ఎక్కడ కనుగొనవచ్చు
## 🚀 సవాలు
Kaggle అనేది ఓపెన్ డేటాసెట్లకు అద్భుతమైన మూలం. [డేటాసెట్ శోధన సాధనం](https://www.kaggle.com/datasets) ఉపయోగించి కొన్ని ఆసక్తికరమైన డేటాసెట్లను కనుగొని ఈ ప్రమాణాలతో 3-5 డేటాసెట్లను వర్గీకరించండి:
- డేటా పరిమాణాత్మకమా లేదా గుణాత్మకమా?
- డేటా నిర్మితమా, నిర్మిత కాని, లేదా అర్ధ-నిర్మితమా?
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/5)
## సమీక్ష & స్వీయ అధ్యయనం
- ఈ Microsoft Learn యూనిట్, [మీ డేటాను వర్గీకరించండి](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) అనే శీర్షికతో, నిర్మిత, అర్ధ-నిర్మిత మరియు నిర్మిత కాని డేటా యొక్క వివరమైన విభజనను కలిగి ఉంది.
## అసైన్‌మెంట్
[డేటాసెట్ల వర్గీకరణ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,81 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2e5cacb967c1e9dfd07809bfc441a0b4",
"translation_date": "2025-12-19T14:01:10+00:00",
"source_file": "1-Introduction/03-defining-data/assignment.md",
"language_code": "te"
}
-->
# డేటాసెట్‌ల వర్గీకరణ
## సూచనలు
ఈ అసైన్‌మెంట్‌లోని ప్రాంప్ట్‌లను అనుసరించి, డేటాను క్రింది డేటా రకాలలో ఒకదానితో గుర్తించి వర్గీకరించండి:
**సంరచనా రకాలు**: నిర్మిత, అర్ధ-నిర్మిత, లేదా నిర్మితం కాని
**విలువ రకాలు**: గుణాత్మక లేదా పరిమాణాత్మక
**మూల రకాలు**: ప్రాథమిక లేదా ద్వితీయ
1. ఒక కంపెనీని కొనుగోలు చేసి ఇప్పుడు ఒక పేరెంట్ కంపెనీ ఉంది. డేటా శాస్త్రవేత్తలు పేరెంట్ కంపెనీ నుండి కస్టమర్ ఫోన్ నంబర్ల స్ప్రెడ్షీట్‌ను అందుకున్నారు.
సంరచనా రకం:
విలువ రకం:
మూల రకం:
---
2. ఒక స్మార్ట్ వాచ్ దాని ధరించే వ్యక్తి నుండి హార్ట్ రేట్ డేటాను సేకరిస్తోంది, మరియు రా డేటా JSON ఫార్మాట్‌లో ఉంది.
సంరచనా రకం:
విలువ రకం:
మూల రకం:
---
3. ఉద్యోగుల మానసిక స్థితిపై వర్క్‌ప్లేస్ సర్వే CSV ఫైల్‌లో నిల్వ చేయబడింది.
సంరచనా రకం:
విలువ రకం:
మూల రకం:
---
4. ఖగోళ శాస్త్రవేత్తలు స్పేస్ ప్రోబ్ సేకరించిన గెలాక్సీల డేటాబేస్‌ను యాక్సెస్ చేస్తున్నారు. డేటాలో ప్రతి గెలాక్సీలోని గ్రహాల సంఖ్య ఉంది.
సంరచనా రకం:
విలువ రకం:
మూల రకం:
---
5. ఒక వ్యక్తిగత ఆర్థిక యాప్ యూజర్ యొక్క ఆర్థిక ఖాతాలకు APIల ద్వారా కనెక్ట్ అవుతుంది, వారి నికర విలువను లెక్కించడానికి. వారు అన్ని లావాదేవీలను వరుసలు మరియు కాలమ్స్ రూపంలో చూస్తారు, ఇది స్ప్రెడ్షీట్‌కు సమానంగా ఉంటుంది.
సంరచనా రకం:
విలువ రకం:
మూల రకం:
## రూబ్రిక్
ఉదాత్తమైనది | సరిపడినది | మెరుగుదల అవసరం
--- | --- | -- |
సంరచనా, విలువ, మరియు మూలాలను సరిగ్గా గుర్తించడం | 3 లో సరైన గుర్తింపు | 2 లేదా తక్కువ సరైన గుర్తింపు |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,278 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "ce95884566a74db72572cd51f0cb25ad",
"translation_date": "2025-12-19T13:48:12+00:00",
"source_file": "1-Introduction/04-stats-and-probability/README.md",
"language_code": "te"
}
-->
# గణాంకాలు మరియు సంభావ్యతకు సంక్షిప్త పరిచయం
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../sketchnotes/04-Statistics-Probability.png)|
|:---:|
| గణాంకాలు మరియు సంభావ్యత - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
గణాంకాలు మరియు సంభావ్యత సిద్ధాంతం గణితశాస్త్రంలోని రెండు అత్యంత సంబంధిత విభాగాలు, ఇవి డేటా సైన్స్‌కు చాలా సంబంధం కలిగి ఉంటాయి. గణితంపై లోతైన జ్ఞానం లేకుండా కూడా డేటాతో పని చేయవచ్చు, కానీ కనీసం కొన్ని ప్రాథమిక భావనలను తెలుసుకోవడం మంచిది. ఇక్కడ మేము మీకు ప్రారంభం కావడానికి సహాయపడే సంక్షిప్త పరిచయాన్ని అందిస్తాము.
[![పరిచయ వీడియో](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.te.png)](https://youtu.be/Z5Zy85g4Yjw)
## [పాఠం ముందు క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/6)
## సంభావ్యత మరియు యాదృచ్ఛిక చరాలు
**సంభావ్యత** అనేది 0 మరియు 1 మధ్య ఉన్న ఒక సంఖ్య, ఇది ఒక **ఈవెంట్** సంభవించే అవకాశాన్ని వ్యక్తం చేస్తుంది. ఇది ఈవెంట్‌కు దారితీసే సానుకూల ఫలితాల సంఖ్యను, మొత్తం ఫలితాల సంఖ్యతో భాగించి నిర్వచించబడుతుంది, అన్ని ఫలితాలు సమానంగా సంభావ్యమని తీసుకుంటే. ఉదాహరణకు, ఒక డైను త్రో చేసినప్పుడు, సమ సంఖ్య వచ్చే సంభావ్యత 3/6 = 0.5.
ఈవెంట్ల గురించి మాట్లాడేటప్పుడు, మేము **యాదృచ్ఛిక చరాలు** ఉపయోగిస్తాము. ఉదాహరణకు, డై త్రో చేసినప్పుడు వచ్చిన సంఖ్యను సూచించే యాదృచ్ఛిక చరము 1 నుండి 6 వరకు విలువలు తీసుకుంటుంది. 1 నుండి 6 వరకు ఉన్న సంఖ్యల సమూహాన్ని **నమూనా స్థలం** అంటారు. ఒక యాదృచ్ఛిక చరము ఒక నిర్దిష్ట విలువ తీసుకునే సంభావ్యత గురించి మాట్లాడవచ్చు, ఉదాహరణకు P(X=3)=1/6.
ముందటి ఉదాహరణలో యాదృచ్ఛిక చరము **విభిన్న** అని పిలవబడుతుంది, ఎందుకంటే దానికి లెక్కించదగిన నమూనా స్థలం ఉంటుంది, అంటే వేర్వేరు విలువలు ఉంటాయి. కొన్ని సందర్భాల్లో నమూనా స్థలం నిజ సంఖ్యల పరిధి లేదా మొత్తం నిజ సంఖ్యల సమూహం కావచ్చు. అలాంటి చరాలు **అనంతర** అని పిలవబడతాయి. బస్సు వచ్చే సమయం మంచి ఉదాహరణ.
## సంభావ్యత పంపిణీ
విభిన్న యాదృచ్ఛిక చరాల సందర్భంలో, ప్రతి ఈవెంట్ యొక్క సంభావ్యతను P(X) అనే ఫంక్షన్ ద్వారా సులభంగా వివరించవచ్చు. నమూనా స్థలం *S* నుండి ప్రతి విలువ *s* కు 0 నుండి 1 మధ్య ఒక సంఖ్య ఇస్తుంది, అన్ని ఈవెంట్లకు P(X=s) విలువల మొత్తం 1 అవుతుంది.
అత్యంత ప్రసిద్ధ విభిన్న పంపిణీ **సమాన పంపిణీ** (uniform distribution), ఇందులో N అంశాల నమూనా స్థలం ఉంటుంది, ప్రతి అంశానికి 1/N సమాన సంభావ్యత ఉంటుంది.
అనంతర చరాల సంభావ్యత పంపిణీని వివరించడం కష్టం, వీటి విలువలు [a,b] మధ్య లేదా మొత్తం నిజ సంఖ్యల సమూహం నుండి తీసుకోబడతాయి. బస్సు వచ్చే సమయాన్ని పరిగణించండి. నిజానికి, ప్రతి ఖచ్చితమైన వచ్చే సమయం *t* కోసం, ఆ సమయానికి బస్సు రావడం సంభావ్యత 0!
> ఇప్పుడు మీరు తెలుసుకున్నారు, 0 సంభావ్యత ఉన్న ఈవెంట్లు జరుగుతాయి, మరియు చాలా సార్లు! కనీసం ప్రతి సారి బస్సు వచ్చినప్పుడు!
మేము ఒక విలువ ఇచ్చిన పరిధిలో పడే సంభావ్యత గురించి మాత్రమే మాట్లాడవచ్చు, ఉదా. P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). ఈ సందర్భంలో, సంభావ్యత పంపిణీని **సంభావ్యత సాంద్రత ఫంక్షన్** p(x) ద్వారా వివరించవచ్చు, అలా
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.te.png)
సమాన పంపిణీకి అనురూపమైన అనంతర పంపిణీని **అనంతర సమాన పంపిణీ** అంటారు, ఇది ఒక పరిమిత పరిధిలో నిర్వచించబడుతుంది. విలువ X ఒక l పొడవు ఉన్న పరిధిలో పడే సంభావ్యత l కు అనుపాతంగా ఉంటుంది, మరియు 1 వరకు పెరుగుతుంది.
మరొక ముఖ్యమైన పంపిణీ **సాధారణ పంపిణీ** (normal distribution), దీని గురించి మేము క్రింద మరింత వివరంగా మాట్లాడతాము.
## సగటు, వ్యత్యాసం మరియు ప్రమాణ విభిన్నత
ఒక యాదృచ్ఛిక చరము X యొక్క n నమూనాల శ్రేణి తీసుకుందాం: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. సాంప్రదాయ పద్ధతిలో **సగటు** (లేదా **గణిత సగటు**) విలువను (x<sub>1</sub>+x<sub>2</sub>+...+x<sub>n</sub>)/n గా నిర్వచించవచ్చు. నమూనా పరిమాణం పెరిగినప్పుడు (అంటే n&rarr;&infin;) పంపిణీ యొక్క సగటు (లేదా **ఆశ** (expectation)) లభిస్తుంది. ఆశను **E**(x) గా సూచిస్తాము.
> ఏదైనా విభిన్న పంపిణీకి విలువలు {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} మరియు సంభావ్యతలు p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub> ఉంటే, ఆశ E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub> అని నిరూపించవచ్చు.
విలువలు ఎంత దూరంగా వ్యాప్తి చెందాయో తెలుసుకోవడానికి, వ్యత్యాసం &sigma;<sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/n ను లెక్కించవచ్చు, ఇక్కడ &mu; అనేది సగటు. &sigma; ను **ప్రమాణ విభిన్నత** (standard deviation) అంటారు, &sigma;<sup>2</sup> ను **వ్యత్యాసం** (variance) అంటారు.
## మోడ్, మాధ్యమం మరియు క్వార్టైల్‌లు
కొన్నిసార్లు, సగటు డేటాకు "సాధారణ" విలువను సరైన రీతిలో సూచించదు. ఉదాహరణకు, కొన్ని అత్యంత విలువలు సగటుపై ప్రభావం చూపవచ్చు. మరో మంచి సూచిక **మాధ్యమం** (median), ఇది అర్థం డేటా పాయింట్లు దాని కంటే తక్కువగా ఉంటాయి, మిగతా అర్థం ఎక్కువగా ఉంటాయి.
డేటా పంపిణీని అర్థం చేసుకోవడానికి, **క్వార్టైల్‌లు** గురించి మాట్లాడటం ఉపయోగకరం:
* మొదటి క్వార్టైల్, లేదా Q1, అంటే 25% డేటా దాని కంటే తక్కువగా ఉంటుంది
* మూడవ క్వార్టైల్, లేదా Q3, అంటే 75% డేటా దాని కంటే తక్కువగా ఉంటుంది
గ్రాఫికల్‌గా మాధ్యమం మరియు క్వార్టైల్‌ల సంబంధాన్ని **బాక్స్ ప్లాట్** అనే చిత్రంలో చూపవచ్చు:
<img src="../../../../translated_images/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.te.png" alt="Box Plot Explanation" width="50%">
ఇక్కడ మేము **ఇంటర్-క్వార్టైల్ పరిధి** IQR=Q3-Q1 ను లెక్కిస్తాము, మరియు **అత్యధిక విలువలు** (outliers) - [Q1-1.5*IQR,Q3+1.5*IQR] పరిధికి వెలుపల ఉన్న విలువలు.
చిన్న సంఖ్యలో విలువలు ఉన్న పరిమిత పంపిణీకి, ఎక్కువ సార్లు కనిపించే విలువను **మోడ్** అంటారు. ఇది తరచుగా వర్గీకృత డేటాకు వర్తిస్తుంది, ఉదా. రంగులు. ఉదాహరణకు, రెండు గుంపుల ప్రజలు ఉన్నారు - కొంతమంది ఎరుపు రంగును ఇష్టపడతారు, మరికొందరు నీలం రంగును. రంగులను సంఖ్యలతో కోడ్ చేస్తే, ఇష్టమైన రంగు సగటు విలువ ఆరెంజ్-గ్రీన్ మధ్యలో ఉంటుంది, ఇది ఏ గుంపు ఇష్టాన్ని సూచించదు. కానీ మోడ్ ఆ రంగులలో ఒకటి లేదా రెండూ కావచ్చు, ప్రజల ఓట్ల సంఖ్య సమానమైతే (ఈ సందర్భంలో నమూనాను **బహుముఖ** (multimodal) అంటారు).
## వాస్తవ ప్రపంచ డేటా
వాస్తవ జీవిత డేటాను విశ్లేషించినప్పుడు, అవి యాదృచ్ఛిక చరాలు కాకపోవచ్చు, అంటే ఫలితం తెలియని ప్రయోగాలు చేయడం కాదు. ఉదాహరణకు, బేస్‌బాల్ ఆటగాళ్ల బృందం మరియు వారి శరీర డేటా, ఉదా. ఎత్తు, బరువు, వయస్సు. ఆ సంఖ్యలు ఖచ్చితంగా యాదృచ్ఛికం కావు, కానీ అదే గణిత భావనలను వర్తింపజేయవచ్చు. ఉదాహరణకు, వ్యక్తుల బరువుల శ్రేణిని ఒక యాదృచ్ఛిక చరము నుండి తీసుకున్న విలువల శ్రేణిగా పరిగణించవచ్చు. క్రింద [మేజర్ లీగ్ బేస్‌బాల్](http://mlb.mlb.com/index.jsp) నుండి తీసుకున్న నిజమైన ఆటగాళ్ల బరువుల శ్రేణి ఉంది, [ఈ డేటాసెట్](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) నుండి (సౌకర్యార్థం, మొదటి 20 విలువలు మాత్రమే చూపబడినవి):
```
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
```
> **గమనిక**: ఈ డేటాసెట్‌తో పని చేసే ఉదాహరణ చూడాలంటే, [సహాయక నోట్బుక్](notebook.ipynb) చూడండి. ఈ పాఠంలో చాల సవాళ్లు ఉన్నాయి, వాటిని ఆ నోట్బుక్‌లో కోడ్ జోడించి పూర్తి చేయవచ్చు. డేటాతో ఎలా పని చేయాలో తెలియకపోతే, భయపడకండి - తర్వాతి సమయంలో Python ఉపయోగించి డేటాతో పని చేయడం మళ్ళీ నేర్చుకుంటాము. Jupyter Notebookలో కోడ్ ఎలా నడిపించాలో తెలియకపోతే, [ఈ వ్యాసం](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) చూడండి.
ఇది మా డేటా కోసం సగటు, మాధ్యమం మరియు క్వార్టైల్‌లను చూపించే బాక్స్ ప్లాట్:
![బరువు బాక్స్ ప్లాట్](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.te.png)
మా డేటాలో వేర్వేరు ఆటగాళ్ల **పాత్రలు** గురించి సమాచారం ఉన్నందున, పాత్రల వారీగా బాక్స్ ప్లాట్ కూడా చేయవచ్చు - ఇది పాత్రల మధ్య పరిమాణాల విలువలు ఎలా భిన్నమవుతాయో అర్థం చేసుకోవడానికి సహాయపడుతుంది. ఈసారి మేము ఎత్తును పరిగణిస్తాము:
![పాత్రల వారీగా బాక్స్ ప్లాట్](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.te.png)
ఈ చిత్రణ సూచిస్తుంది, సగటున మొదటి బేస్‌మెన్ ఎత్తు రెండవ బేస్‌మెన్ కంటే ఎక్కువ. ఈ పాఠంలో తర్వాత మేము ఈ హైపోథిసిస్‌ను మరింత అధికారికంగా పరీక్షించడం మరియు మా డేటా గణాంకపరంగా ప్రామాణికమని చూపడం నేర్చుకుంటాము.
> వాస్తవ ప్రపంచ డేటాతో పని చేసే సమయంలో, అన్ని డేటా పాయింట్లు కొన్ని సంభావ్యత పంపిణీ నుండి తీసుకున్న నమూనాలు అని భావిస్తాము. ఈ భావన మాకు మెషీన్ లెర్నింగ్ సాంకేతికతలను వర్తింపజేసి పనిచేసే ముందస్తు నమూనాలను నిర్మించడానికి అనుమతిస్తుంది.
మా డేటా పంపిణీని చూడటానికి, మేము **హిస్టోగ్రామ్** అనే గ్రాఫ్‌ను చిత్రించవచ్చు. X-అక్షంలో వివిధ బరువు పరిధులు (అంటే **బిన్లు**) ఉంటాయి, మరియు నిలువు అక్షం ఆ పరిధిలో మా యాదృచ్ఛిక చరము నమూనా ఉన్న సార్లు చూపిస్తుంది.
![వాస్తవ ప్రపంచ డేటా హిస్టోగ్రామ్](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.te.png)
ఈ హిస్టోగ్రామ్ నుండి మీరు చూడవచ్చు అన్ని విలువలు ఒక నిర్దిష్ట సగటు బరువు చుట్టూ కేంద్రీకృతమై ఉన్నాయి, మరియు ఆ బరువునుండి దూరంగా పోతే ఆ బరువుల సంఖ్య తక్కువగా ఉంటుంది. అంటే, బేస్‌బాల్ ఆటగాడి బరువు సగటు బరువుతో చాలా భిన్నంగా ఉండటం చాలా అసంభావ్యం. బరువుల వ్యత్యాసం సగటు నుండి బరువులు ఎంత భిన్నంగా ఉండవచ్చో చూపిస్తుంది.
> ఇతర వ్యక్తుల బరువులు తీసుకుంటే, బేస్‌బాల్ లీగ్ కాకుండా, పంపిణీ భిన్నంగా ఉండవచ్చు. అయితే, పంపిణీ ఆకారం అదే ఉంటుంది, కానీ సగటు మరియు వ్యత్యాసం మారతాయి. కాబట్టి, మా నమూనాను బేస్‌బాల్ ఆటగాళ్లపై శిక్షణ ఇస్తే, అది విశ్వవిద్యాలయ విద్యార్థులపై వర్తింపజేస్తే తప్పు ఫలితాలు ఇవ్వవచ్చు, ఎందుకంటే ప్రాథమిక పంపిణీ భిన్నంగా ఉంటుంది.
## సాధారణ పంపిణీ
ముందు చూచిన బరువుల పంపిణీ చాలా సాధారణం, మరియు వాస్తవ ప్రపంచం నుండి చాలా కొలతలు అదే రకమైన పంపిణీని అనుసరిస్తాయి, కానీ వేర్వేరు సగటు మరియు వ్యత్యాసంతో. ఈ పంపిణీని **సాధారణ పంపిణీ** అంటారు, ఇది గణాంకాలలో చాలా ముఖ్యమైన పాత్ర పోషిస్తుంది.
సాధారణ పంపిణీ ఉపయోగించి, భవిష్యత్తు బేస్‌బాల్ ఆటగాళ్ల యాదృచ్ఛిక బరువులను సృష్టించడం సరైన మార్గం. ఒకసారి మేము సగటు బరువు `mean` మరియు ప్రమాణ విభిన్నత `std` తెలుసుకున్నాక, 1000 బరువు నమూనాలను క్రింది విధంగా సృష్టించవచ్చు:
```python
samples = np.random.normal(mean,std,1000)
```
సృష్టించిన నమూనాల హిస్టోగ్రామ్‌ను చిత్రిస్తే, పై చూపిన చిత్రానికి చాలా సమీపంగా ఉంటుంది. నమూనాల సంఖ్య మరియు బిన్ల సంఖ్య పెంచితే, మేము సిద్దాంతానికి మరింత దగ్గరగా ఉన్న సాధారణ పంపిణీ చిత్రాన్ని సృష్టించవచ్చు:
![సగటు=0 మరియు ప్రమాణ విభిన్నత=1 ఉన్న సాధారణ పంపిణీ](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.te.png)
*సగటు=0 మరియు ప్రమాణ విభిన్నత=1 ఉన్న సాధారణ పంపిణీ*
## విశ్వాస అంతరాలు
బేస్‌బాల్ ఆటగాళ్ల బరువుల గురించి మాట్లాడేటప్పుడు, ఒక నిర్దిష్ట **యాదృచ్ఛిక చరము W** ఉందని భావిస్తాము, ఇది అన్ని బేస్‌బాల్ ఆటగాళ్ల బరువుల ఆదర్శ సంభావ్యత పంపిణీకి అనుగుణంగా ఉంటుంది (అంటే **జనాభా**). మా బరువుల శ్రేణి జనాభాలోని ఒక ఉపసమూహం, అంటే **నమూనా**. ఆసక్తికరమైన ప్రశ్న ఏమిటంటే, W పంపిణీ యొక్క పరిమాణాలు, అంటే జనాభా సగటు మరియు వ్యత్యాసం తెలుసుకోవచ్చా?
సులభమైన సమాధానం మా నమూనా సగటు మరియు వ్యత్యాసం లెక్కించడం. అయితే, మా యాదృచ్ఛిక నమూనా పూర్తి జనాభాను సరిగ్గా ప్రతిబింబించకపోవచ్చు. కాబట్టి **విశ్వాస అంతరం** గురించి మాట్లాడటం అర్థం.
> **విశ్వాస అంతరం** అనేది మా నమూనా ఆధారంగా జనాభా నిజమైన సగటును అంచనా వేయడం, ఇది ఒక నిర్దిష్ట సంభావ్యత (లేదా **విశ్వాస స్థాయి**)తో ఖచ్చితంగా ఉంటుంది.
మా పంపిణీ నుండి X<sub>1</sub>, ..., X<sub>n</sub> నమూనాలు ఉన్నాయని భావిద్దాం. ప్రతి సారి నమూనా తీసుకున్నప్పుడు, వేరే సగటు విలువ &mu; వస్తుంది. కాబట్టి &mu; ఒక యాదృచ్ఛిక చరము అని పరిగణించవచ్చు. విశ్వాస p ఉన్న విశ్వాస అంతరం (L<sub>p</sub>,R<sub>p</sub>) అని పిలవబడుతుంది, ఇది **P**(L<sub>p</sub>&leq;&mu;&leq;R<sub>p</sub>) = p, అంటే కొలిచిన సగటు విలువ ఆ పరిధిలో పడే సంభావ్యత p.
ఈ విశ్వాస అంతరాలు ఎలా లెక్కించబడతాయో మా సంక్షిప్త పరిచయంలో చర్చించడం కష్టం. మరిన్ని వివరాలు [వికీపీడియాలో](https://en.wikipedia.org/wiki/Confidence_interval) చూడవచ్చు. సంక్షిప్తంగా, మేము నమూనా సగటు పంపిణీని జనాభా నిజమైన సగటుతో సంబంధించి నిర్వచిస్తాము, దీనిని **స్టూడెంట్ పంపిణీ** అంటారు.
> **ఆసక్తికరమైన వాస్తవం**: స్టూడెంట్ పంపిణీని గణిత శాస్త్రజ్ఞుడు విలియం సీలీ గోసెట్ పేరుతో పిలుస్తారు, అతను తన పత్రాన్ని "స్టూడెంట్" అనే పర్యాయ నామంతో ప్రచురించాడు. అతను గిన్నెస్ బ్రూయరీలో పని చేశాడు, మరియు ఒక సంస్కరణ ప్రకారం, అతని ఉద్యోగదారు వారు ముడి పదార్థాల నాణ్యతను నిర్ణయించడానికి గణాంక పరీక్షలను ఉపయోగిస్తున్నారని సాధారణ ప్రజలకు తెలియకుండా ఉండాలని కోరుకున్నారు.
మనం మన జనాభా సగటు &mu; ను విశ్వాసం p తో అంచనా వేయాలనుకుంటే, మనం స్టూడెంట్ పంపిణీ A యొక్క *(1-p)/2-వ శాతం స్థానాన్ని* తీసుకోవాలి, ఇది పట్టికల నుండి తీసుకోవచ్చు లేదా గణాంక సాఫ్ట్‌వేర్ (ఉదా. Python, R, మొదలైనవి) లోని కొన్ని బిల్ట్-ఇన్ ఫంక్షన్లను ఉపయోగించి కంప్యూట్ చేయవచ్చు. ఆపై &mu; కోసం అంతరం X&pm;A*D/&radic;n గా ఇవ్వబడుతుంది, ఇక్కడ X నమూనా నుండి పొందిన సగటు, D ప్రామాణిక వ్యత్యాసం.
> **గమనిక**: మేము [స్వేచ్ఛా డిగ్రీలు](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) అనే ముఖ్యమైన భావన చర్చను కూడా వదిలివేస్తున్నాము, ఇది స్టూడెంట్ పంపిణీకి సంబంధించి ముఖ్యమైనది. మీరు ఈ భావనను లోతుగా అర్థం చేసుకోవడానికి గణాంకాలపై మరింత పూర్తి పుస్తకాలను చూడవచ్చు.
బరువు మరియు ఎత్తుల విశ్వాస అంతరాన్ని లెక్కించే ఉదాహరణ [సహాయక నోట్బుక్స్](notebook.ipynb) లో ఇవ్వబడింది.
| p | బరువు సగటు |
|-----|-----------|
| 0.85 | 201.73±0.94 |
| 0.90 | 201.73±1.08 |
| 0.95 | 201.73±1.28 |
గమనించండి, విశ్వాసం అవకాశము ఎక్కువైతే, విశ్వాస అంతరం కూడా విస్తృతంగా ఉంటుంది.
## హైపోథిసిస్ పరీక్ష
మన బేస్‌బాల్ ఆటగాళ్ల డేటాసెట్‌లో, వివిధ ఆటగాడు పాత్రలు ఉన్నాయి, అవి క్రింద సారాంశం చేయబడినవి ([సహాయక నోట్బుక్](notebook.ipynb) లో ఈ పట్టిక ఎలా లెక్కించాలో చూడండి):
| పాత్ర | ఎత్తు | బరువు | సంఖ్య |
|------|--------|--------|-------|
| క్యాచర్ | 72.723684 | 204.328947 | 76 |
| డిజైనేటెడ్_హిట్టర్ | 74.222222 | 220.888889 | 18 |
| ఫస్ట్_బేస్మన్ | 74.000000 | 213.109091 | 55 |
| అవుట్‌ఫీల్డర్ | 73.010309 | 199.113402 | 194 |
| రిలీఫ్_పిచ్చర్ | 74.374603 | 203.517460 | 315 |
| సెకడ్_బేస్మన్ | 71.362069 | 184.344828 | 58 |
| షార్ట్‌స్టాప్ | 71.903846 | 182.923077 | 52 |
| స్టార్టిగ్_పిచ్చర్ | 74.719457 | 205.163636 | 221 |
| థర్డ్_బేస్మన్ | 73.044444 | 200.955556 | 45 |
మనం గమనించవచ్చు, ఫస్ట్ బేస్మన్‌ల సగటు ఎత్తు సెకండ్ బేస్మన్‌ల కంటే ఎక్కువగా ఉంది. కాబట్టి, మనం ఈ నిర్ణయానికి రావచ్చు: **ఫస్ట్ బేస్మన్‌లు సెకండ్ బేస్మన్‌ల కంటే ఎత్తుగా ఉంటారు**.
> ఈ ప్రకటనను **హైపోథిసిస్** అంటారు, ఎందుకంటే ఈ వాస్తవం నిజమో కాదో మనకు తెలియదు.
కానీ, ఈ నిర్ణయం ఎప్పుడూ స్పష్టంగా ఉండదు. పై చర్చ ప్రకారం ప్రతి సగటుకు ఒక విశ్వాస అంతరం ఉంటుంది, కాబట్టి ఈ తేడా గణాంక తప్పిదం మాత్రమే కావచ్చు. మన హైపోథిసిస్‌ను పరీక్షించడానికి మరింత అధికారిక మార్గం అవసరం.
మనం ఫస్ట్ మరియు సెకండ్ బేస్మన్‌ల ఎత్తుల కోసం విశ్వాస అంతరాలను వేర్వేరు లెక్కిద్దాం:
| విశ్వాసం | ఫస్ట్ బేస్మన్ | సెకండ్ బేస్మన్ |
|------------|---------------|----------------|
| 0.85 | 73.62..74.38 | 71.04..71.69 |
| 0.90 | 73.56..74.44 | 70.99..71.73 |
| 0.95 | 73.47..74.53 | 70.92..71.81 |
మనం చూడవచ్చు, ఎటువంటి విశ్వాసంలో ఈ అంతరాలు ఒకదానితో ఒకటి మిళితం కావు. ఇది మన హైపోథిసిస్‌ను నిరూపిస్తుంది, అంటే ఫస్ట్ బేస్మన్‌లు సెకండ్ బేస్మన్‌ల కంటే ఎత్తుగా ఉంటారు.
మరింత అధికారికంగా, మనం పరిష్కరించాల్సిన సమస్య ఏమిటంటే **రెండు ప్రాబబిలిటీ పంపిణీలు ఒకే విధంగా ఉన్నాయా లేదా కనీసం ఒకే పారామితులు కలిగి ఉన్నాయా అని చూడటం**. పంపిణీ ఆధారంగా, మనం వేర్వేరు పరీక్షలను ఉపయోగించాలి. మన పంపిణీలు సాధారణమైనవి అని తెలుసుకుంటే, మనం **[స్టూడెంట్ t-పరీక్ష](https://en.wikipedia.org/wiki/Student%27s_t-test)** ఉపయోగించవచ్చు.
స్టూడెంట్ t-పరీక్షలో, మనం **t-విలువ**ను లెక్కిస్తాము, ఇది సగటుల మధ్య తేడాను సూచిస్తుంది, వ్యత్యాసాన్ని పరిగణలోకి తీసుకుంటూ. ఇది t-విలువ స్టూడెంట్ పంపిణీని అనుసరిస్తుందని చూపించబడింది, ఇది మనకు ఇచ్చిన విశ్వాస స్థాయికి **p** త్రెషోల్డ్ విలువను అందిస్తుంది (ఇది లెక్కించవచ్చు లేదా సంఖ్యా పట్టికలలో చూడవచ్చు). ఆపై మనం t-విలువను ఈ త్రెషోల్డ్‌తో పోల్చి హైపోథిసిస్‌ను ఆమోదించవచ్చు లేదా తిరస్కరించవచ్చు.
Pythonలో, మనం **SciPy** ప్యాకేజీని ఉపయోగించవచ్చు, ఇది `ttest_ind` ఫంక్షన్‌ను కలిగి ఉంది (ఇతర అనేక ఉపయోగకర గణాంక ఫంక్షన్లతో పాటు!). ఇది మనకు t-విలువను లెక్కిస్తుంది, అలాగే విశ్వాస p-విలువ యొక్క రివర్స్ లుకప్ కూడా చేస్తుంది, కాబట్టి మనం కేవలం విశ్వాసాన్ని చూసి నిర్ణయం తీసుకోవచ్చు.
ఉదాహరణకు, ఫస్ట్ మరియు సెకండ్ బేస్మన్‌ల ఎత్తుల మధ్య మన తులన ఈ క్రింది ఫలితాలను ఇస్తుంది:
```python
from scipy.stats import ttest_ind
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
```
```
T-value = 7.65
P-value: 9.137321189738925e-12
```
మన సందర్భంలో, p-విలువ చాలా తక్కువగా ఉంది, అంటే ఫస్ట్ బేస్మన్‌లు ఎక్కువ ఎత్తుగా ఉన్నారని బలమైన సాక్ష్యం ఉంది.
మరియు మనం పరీక్షించదలచిన ఇతర హైపోథిసిస్‌లు కూడా ఉన్నాయి, ఉదా:
* ఒక నమూనా కొన్ని పంపిణీని అనుసరిస్తుందని నిరూపించడానికి. మన ఉదాహరణలో ఎత్తులు సాధారణ పంపిణీ అనుకుంటున్నాము, కానీ అది అధికారిక గణాంక ధృవీకరణ అవసరం.
* ఒక నమూనా సగటు విలువ కొన్ని ముందుగా నిర్వచించిన విలువకు సరిపోతుందని నిరూపించడానికి
* అనేక నమూనాల సగటులను పోల్చడానికి (ఉదా. వయస్సు వర్గాల మధ్య సంతోష స్థాయిల తేడా)
## పెద్ద సంఖ్యల చట్టం మరియు సెంట్రల్ లిమిట్ థియోరమ్
సాధారణ పంపిణీ ఎందుకు ముఖ్యమో ఒక కారణం **సెంట్రల్ లిమిట్ థియోరమ్**. మనకు N స్వతంత్ర విలువల పెద్ద నమూనా X<sub>1</sub>, ..., X<sub>N</sub> ఉందని ఊహించండి, ఇవి ఏదైనా పంపిణీ నుండి తీసుకున్నవి, సగటు &mu; మరియు వ్యత్యాసం &sigma;<sup>2</sup> కలిగి ఉంటాయి. ఆపై, సరిపడా పెద్ద N (మరియు అంటే N&rarr;&infin;) కోసం, సగటు &Sigma;<sub>i</sub>X<sub>i</sub> సాధారణ పంపిణీ అవుతుంది, సగటు &mu; మరియు వ్యత్యాసం &sigma;<sup>2</sup>/N తో.
> సెంట్రల్ లిమిట్ థియోరమ్‌ను మరో విధంగా అర్థం చేసుకోవచ్చు: పంపిణీ ఏదైనా ఉన్నా సరే, ఏదైనా యాదృచ్ఛిక వేరియబుల్ విలువల సమాహారం సగటును లెక్కించినప్పుడు అది సాధారణ పంపిణీ అవుతుంది.
సెంట్రల్ లిమిట్ థియోరమ్ నుండి ఇది కూడా తెలుస్తుంది, N&rarr;&infin; అయినప్పుడు, నమూనా సగటు &mu; కు సమానం అయ్యే అవకాశము 1 అవుతుంది. దీన్ని **పెద్ద సంఖ్యల చట్టం** అంటారు.
## కోవేరియన్స్ మరియు సహసంబంధం
డేటా సైన్స్ చేసే పనుల్లో ఒకటి డేటా మధ్య సంబంధాలను కనుగొనడం. మనం రెండు వరుసలు **సహసంబంధం** కలిగి ఉన్నాయని అంటాము, అవి ఒకే సమయంలో సమాన ప్రవర్తన చూపిస్తే, అంటే అవి ఒకేసారి పెరుగుతాయి/తగ్గుతాయి, లేదా ఒకటి పెరిగినప్పుడు మరొకటి తగ్గుతుంది. అంటే, రెండు వరుసల మధ్య సంబంధం ఉందని అనిపిస్తుంది.
> సహసంబంధం తప్పనిసరిగా కారణ సంబంధాన్ని సూచించదు; కొన్ని సందర్భాల్లో రెండు వేరియబుల్స్ ఒక బాహ్య కారణంపై ఆధారపడి ఉండవచ్చు, లేదా ఇది కేవలం సంయోగం కావచ్చు. అయినప్పటికీ, బలమైన గణిత సహసంబంధం రెండు వేరియబుల్స్ ఏదో విధంగా అనుసంధానమై ఉన్నాయని సూచిస్తుంది.
గణితంగా, రెండు యాదృచ్ఛిక వేరియబుల్స్ మధ్య సంబంధాన్ని చూపే ప్రధాన భావన **కోవేరియన్స్**, ఇది ఇలా లెక్కించబడుతుంది: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. మనం రెండు వేరియబుల్స్ వారి సగటు విలువల నుండి వ్యత్యాసాలను లెక్కించి, ఆ వ్యత్యాసాల గుణాకారాన్ని తీసుకుంటాము. రెండు వేరియబుల్స్ కలిసి వ్యత్యాసం చూపిస్తే, గుణాకారం ఎప్పుడూ సానుకూలం అవుతుంది, ఇది సానుకూల కోవేరియన్స్‌ను కలిగిస్తుంది. రెండు వేరియబుల్స్ సమకాలీనంగా వ్యత్యాసం చూపించకపోతే (ఉదా. ఒకటి సగటు కంటే తక్కువగా ఉండగా మరొకటి ఎక్కువగా ఉంటే), మనం ఎప్పుడూ ప్రతికూల సంఖ్యలను పొందుతాము, అవి ప్రతికూల కోవేరియన్స్‌ను కలిగిస్తాయి. వ్యత్యాసాలు పరస్పరం ఆధారపడకపోతే, అవి సుమారు సున్నా అవుతాయి.
కోవేరియన్స్ యొక్క పరమాణు విలువ మనకు సహసంబంధం ఎంత బలంగా ఉందో చెప్పదు, ఎందుకంటే అది అసలు విలువల పరిమాణంపై ఆధారపడి ఉంటుంది. దీన్ని సాధారణీకరించడానికి, మనం కోవేరియన్స్‌ను రెండు వేరియబుల్స్ యొక్క ప్రామాణిక వ్యత్యాసాల ద్వారా భాగిస్తాము, దీని ద్వారా **సహసంబంధం** వస్తుంది. మంచి విషయం ఏమిటంటే, సహసంబంధం ఎప్పుడూ [-1,1] పరిధిలో ఉంటుంది, ఇక్కడ 1 బలమైన సానుకూల సహసంబంధం, -1 బలమైన ప్రతికూల సహసంబంధం, 0 - ఎలాంటి సహసంబంధం లేదు (వేరియబుల్స్ స్వతంత్రంగా ఉంటాయి) అని సూచిస్తుంది.
**ఉదాహరణ**: పై పేర్కొన్న బేస్‌బాల్ ఆటగాళ్ల డేటాసెట్ నుండి బరువు మరియు ఎత్తుల మధ్య సహసంబంధం లెక్కించవచ్చు:
```python
print(np.corrcoef(weights,heights))
```
ఫలితంగా, మనకు ఈ విధమైన **సహసంబంధ మ్యాట్రిక్స్** వస్తుంది:
```
array([[1. , 0.52959196],
[0.52959196, 1. ]])
```
> సహసంబంధ మ్యాట్రిక్స్ C ను ఎన్ని ఇన్‌పుట్ వరుసలు S<sub>1</sub>, ..., S<sub>n</sub> ఉన్నా లెక్కించవచ్చు. C<sub>ij</sub> విలువ S<sub>i</sub> మరియు S<sub>j</sub> మధ్య సహసంబంధం, మరియు డయాగనల్ మూలకాలు ఎప్పుడూ 1 (ఇది S<sub>i</sub> యొక్క స్వీయ సహసంబంధం).
మన సందర్భంలో, 0.53 విలువ వ్యక్తి బరువు మరియు ఎత్తు మధ్య కొంత సహసంబంధం ఉందని సూచిస్తుంది. మనం ఒక విలువను మరొకదానిపై స్కాటర్ ప్లాట్ కూడా చేయవచ్చు సంబంధాన్ని దృశ్యంగా చూడటానికి:
![బరువు మరియు ఎత్తు మధ్య సంబంధం](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.te.png)
> సహసంబంధం మరియు కోవేరియన్స్ పై మరిన్ని ఉదాహరణలు [సహాయక నోట్బుక్](notebook.ipynb) లో చూడవచ్చు.
## ముగింపు
ఈ విభాగంలో, మనం నేర్చుకున్నాం:
* డేటా యొక్క ప్రాథమిక గణాంక లక్షణాలు, ఉదా. సగటు, వ్యత్యాసం, మోడ్ మరియు క్వార్టైల్‌లు
* యాదృచ్ఛిక వేరియబుల్స్ యొక్క వివిధ పంపిణీలు, సహా సాధారణ పంపిణీ
* వివిధ లక్షణాల మధ్య సహసంబంధం ఎలా కనుగొనాలో
* గణితం మరియు గణాంకాల సరైన పరికరాలను ఉపయోగించి కొన్ని హైపోథిసిస్‌లను ఎలా నిరూపించాలో
* డేటా నమూనా ఇచ్చిన యాదృచ్ఛిక వేరియబుల్ కోసం విశ్వాస అంతరాలను ఎలా లెక్కించాలో
ఇవి ప్రాబబిలిటీ మరియు గణాంకాలలో ఉన్న అంశాల పూర్తి జాబితా కాదు, కానీ ఈ కోర్సులో మంచి ప్రారంభం ఇవ్వడానికి సరిపోతుంది.
## 🚀 సవాలు
నోట్బుక్‌లోని నమూనా కోడ్ ఉపయోగించి ఈ ఇతర హైపోథిసిస్‌లను పరీక్షించండి:
1. ఫస్ట్ బేస్మన్‌లు సెకండ్ బేస్మన్‌ల కంటే వయసు ఎక్కువవారు
2. ఫస్ట్ బేస్మన్‌లు థర్డ్ బేస్మన్‌ల కంటే ఎత్తుగా ఉంటారు
3. షార్ట్‌స్టాప్‌లు సెకండ్ బేస్మన్‌ల కంటే ఎత్తుగా ఉంటారు
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/7)
## సమీక్ష & స్వీయ అధ్యయనం
ప్రాబబిలిటీ మరియు గణాంకాలు చాలా విస్తృతమైన విషయం, కాబట్టి దీనికి ప్రత్యేక కోర్సు అవసరం. మీరు సిద్ధాంతంలో లోతుగా వెళ్లాలనుకుంటే, క్రింది పుస్తకాలను చదవడం కొనసాగించవచ్చు:
1. న్యూయార్క్ యూనివర్సిటీ నుండి [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) గారి గొప్ప లెక్చర్ నోట్స్ [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ఆన్‌లైన్‌లో అందుబాటులో)
1. [Peter and Andrew Bruce. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R లో నమూనా కోడ్](https://github.com/andrewgbruce/statistics-for-data-scientists)].
1. [James D. Miller. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[R లో నమూనా కోడ్](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
## అసైన్‌మెంట్
[చిన్న డయాబెటిస్ అధ్యయనం](assignment.md)
## క్రెడిట్స్
ఈ పాఠం ♥️ తో [Dmitry Soshnikov](http://soshnikov.com) రచించారు.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,264 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"## Introduction to Probability and Statistics\n",
"## Assignment\n",
"\n",
"ఈ అసైన్‌మెంట్‌లో, మేము [ఇక్కడి నుండి](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) తీసుకున్న మధుమేహ రోగుల డేటాసెట్‌ను ఉపయోగించబోతున్నాము.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 13,
"source": [
"import pandas as pd\n",
"import numpy as np\n",
"\n",
"df = pd.read_csv(\"../../data/diabetes.tsv\",sep='\\t')\n",
"df.head()"
],
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
" AGE SEX BMI BP S1 S2 S3 S4 S5 S6 Y\n",
"0 59 2 32.1 101.0 157 93.2 38.0 4.0 4.8598 87 151\n",
"1 48 1 21.6 87.0 183 103.2 70.0 3.0 3.8918 69 75\n",
"2 72 2 30.5 93.0 156 93.6 41.0 4.0 4.6728 85 141\n",
"3 24 1 25.3 84.0 198 131.4 40.0 5.0 4.8903 89 206\n",
"4 50 1 23.0 101.0 192 125.4 52.0 4.0 4.2905 80 135"
],
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>AGE</th>\n",
" <th>SEX</th>\n",
" <th>BMI</th>\n",
" <th>BP</th>\n",
" <th>S1</th>\n",
" <th>S2</th>\n",
" <th>S3</th>\n",
" <th>S4</th>\n",
" <th>S5</th>\n",
" <th>S6</th>\n",
" <th>Y</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>59</td>\n",
" <td>2</td>\n",
" <td>32.1</td>\n",
" <td>101.0</td>\n",
" <td>157</td>\n",
" <td>93.2</td>\n",
" <td>38.0</td>\n",
" <td>4.0</td>\n",
" <td>4.8598</td>\n",
" <td>87</td>\n",
" <td>151</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>48</td>\n",
" <td>1</td>\n",
" <td>21.6</td>\n",
" <td>87.0</td>\n",
" <td>183</td>\n",
" <td>103.2</td>\n",
" <td>70.0</td>\n",
" <td>3.0</td>\n",
" <td>3.8918</td>\n",
" <td>69</td>\n",
" <td>75</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>72</td>\n",
" <td>2</td>\n",
" <td>30.5</td>\n",
" <td>93.0</td>\n",
" <td>156</td>\n",
" <td>93.6</td>\n",
" <td>41.0</td>\n",
" <td>4.0</td>\n",
" <td>4.6728</td>\n",
" <td>85</td>\n",
" <td>141</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>24</td>\n",
" <td>1</td>\n",
" <td>25.3</td>\n",
" <td>84.0</td>\n",
" <td>198</td>\n",
" <td>131.4</td>\n",
" <td>40.0</td>\n",
" <td>5.0</td>\n",
" <td>4.8903</td>\n",
" <td>89</td>\n",
" <td>206</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>50</td>\n",
" <td>1</td>\n",
" <td>23.0</td>\n",
" <td>101.0</td>\n",
" <td>192</td>\n",
" <td>125.4</td>\n",
" <td>52.0</td>\n",
" <td>4.0</td>\n",
" <td>4.2905</td>\n",
" <td>80</td>\n",
" <td>135</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
]
},
"metadata": {},
"execution_count": 13
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ఈ డేటాసెట్‌లో, కాలమ్స్ క్రింది విధంగా ఉన్నాయి:\n",
"* వయస్సు మరియు లింగం స్వయంగా అర్థమయ్యే విషయాలు\n",
"* BMI అనగా శరీర ద్రవ్య సూచిక\n",
"* BP అనగా సగటు రక్తపోటు\n",
"* S1 నుండి S6 వరకు వివిధ రక్త కొలతలు\n",
"* Y అనగా ఒక సంవత్సర కాలంలో వ్యాధి పురోగతి యొక్క గుణాత్మక కొలత\n",
"\n",
"Probability మరియు statistics పద్ధతులను ఉపయోగించి ఈ డేటాసెట్‌ను అధ్యయనం చేద్దాం.\n",
"\n",
"### Task 1: అన్ని విలువల కోసం సగటు విలువలు మరియు వ్యత్యాసం లెక్కించండి\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### టాస్క్ 2: లింగం ఆధారంగా BMI, BP మరియు Y కోసం బాక్స్‌ప్లాట్లు చిత్రించండి\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### టాస్క్ 3: వయస్సు, లింగం, బిఎంఐ మరియు Y వేరియబుల్స్ యొక్క పంపిణీ ఏమిటి?\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 4: వివిధ వేరియబుల్స్ మరియు వ్యాధి పురోగతికి (Y) మధ్య సంబంధాన్ని పరీక్షించండి\n",
"\n",
"> **సూచన** సంబంధ మ్యాట్రిక్స్ మీకు ఏ విలువలు ఆధారపడి ఉన్నాయో అత్యంత ఉపయోగకరమైన సమాచారం ఇస్తుంది.\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### టాస్క్ 5: మగ మరియు ఆడల మధ్య మధుమేహ పురోగతి స్థాయి భిన్నమని హైపోథిసిస్‌ను పరీక్షించండి\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**అస్పష్టత**: \nఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వలన కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.8.8",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.8.8 64-bit (conda)"
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "6d945fd15163f60cb473dbfe04b2d100",
"translation_date": "2025-12-19T17:05:41+00:00",
"source_file": "1-Introduction/04-stats-and-probability/assignment.ipynb",
"language_code": "te"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "01d1b493e8b51a6ebb42524f6b1bcfff",
"translation_date": "2025-12-19T13:56:42+00:00",
"source_file": "1-Introduction/04-stats-and-probability/assignment.md",
"language_code": "te"
}
-->
# చిన్న మధుమేహ అధ్యయనం
ఈ అసైన్‌మెంట్‌లో, మేము [ఇక్కడ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) నుండి తీసుకున్న చిన్న మధుమేహ రోగుల డేటాసెట్‌తో పని చేస్తాము.
| | వయస్సు | లింగం | బిఎంఐ | బీపీ | S1 | S2 | S3 | S4 | S5 | S6 | Y |
|---|-----|-----|-----|----|----|----|----|----|----|----|----|
| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
## సూచనలు
* [అసైన్‌మెంట్ నోట్బుక్](assignment.ipynb) ను జూపిటర్ నోట్బుక్ వాతావరణంలో తెరవండి
* నోట్బుక్‌లో పేర్కొన్న అన్ని పనులను పూర్తి చేయండి, అవి:
* [ ] అన్ని విలువల కోసం సగటు విలువలు మరియు వ్యత్యాసం లెక్కించండి
* [ ] లింగం ఆధారంగా BMI, BP మరియు Y కోసం బాక్స్‌ప్లాట్లు చిత్రించండి
* [ ] వయస్సు, లింగం, BMI మరియు Y వేరియబుల్స్ పంపిణీ ఏమిటి?
* [ ] వివిధ వేరియబుల్స్ మరియు వ్యాధి పురోగతికి (Y) మధ్య సంబంధాన్ని పరీక్షించండి
* [ ] మగ మరియు ఆడల మధ్య మధుమేహ పురోగతి డిగ్రీ వేరుగా ఉందని హైపోథిసిస్‌ను పరీక్షించండి
## రూబ్రిక్
ఉదాహరణాత్మక | సరిపడిన | మెరుగుదల అవసరం
--- | --- | -- |
అన్ని అవసరమైన పనులు పూర్తి, గ్రాఫికల్‌గా వివరించబడ్డాయి మరియు వివరణ ఇచ్చబడ్డాయి | ఎక్కువ భాగం పనులు పూర్తి, గ్రాఫ్‌లు మరియు/లేదా పొందిన విలువల నుండి వివరణలు లేదా ముఖ్యాంశాలు లేవు | సగటు/వ్యత్యాస లెక్కింపు మరియు ప్రాథమిక ప్లాట్లు మాత్రమే పూర్తి, డేటా నుండి ఎలాంటి తేలికపాటి నిర్ణయాలు తీసుకోలేదు
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

@ -0,0 +1,33 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "696a8474a01054281704cbfb09148949",
"translation_date": "2025-12-19T13:22:49+00:00",
"source_file": "1-Introduction/README.md",
"language_code": "te"
}
-->
# డేటా సైన్స్ పరిచయం
![data in action](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.te.jpg)
> ఫోటో <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">స్టీఫెన్ డాసన్</a> ద్వారా <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">అన్స్ప్లాష్</a>లో
ఈ పాఠాలలో, మీరు డేటా సైన్స్ ఎలా నిర్వచించబడిందో తెలుసుకుంటారు మరియు డేటా శాస్త్రవేత్తలు పరిగణించవలసిన నైతిక అంశాలను తెలుసుకుంటారు. మీరు డేటా ఎలా నిర్వచించబడిందో తెలుసుకుంటారు మరియు డేటా సైన్స్ యొక్క ప్రాథమిక అకాడమిక్ విభాగాలు అయిన గణాంకాలు మరియు సంభావ్యత గురించి కొంత తెలుసుకుంటారు.
### విషయాలు
1. [డేటా సైన్స్ నిర్వచనం](01-defining-data-science/README.md)
2. [డేటా సైన్స్ నైతికత](02-ethics/README.md)
3. [డేటా నిర్వచనం](03-defining-data/README.md)
4. [గణాంకాలు మరియు సంభావ్యత పరిచయం](04-stats-and-probability/README.md)
### క్రెడిట్స్
ఈ పాఠాలు ❤️ తో [నిత్య నరసింహన్](https://twitter.com/nitya) మరియు [డ్మిత్రి సోష్నికోవ్](https://twitter.com/shwars) రాసారు.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,199 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "11739c7b40e7c6b16ad29e3df4e65862",
"translation_date": "2025-12-19T15:46:41+00:00",
"source_file": "2-Working-With-Data/05-relational-databases/README.md",
"language_code": "te"
}
-->
# Working with Data: Relational Databases
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/05-RelationalData.png)|
|:---:|
| Working With Data: Relational Databases - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
మీరు గతంలో సమాచారాన్ని నిల్వ చేయడానికి స్ప్రెడ్షీట్ ఉపయోగించిన అవకాశం ఉంది. మీకు వరుసలు మరియు కాలమ్స్ సెట్ ఉండేవి, అక్కడ వరుసలు సమాచారాన్ని (లేదా డేటాను) కలిగి ఉండేవి, మరియు కాలమ్స్ ఆ సమాచారాన్ని వివరించేవి (కొన్నిసార్లు మెటాడేటా అని పిలవబడుతుంది). ఒక రిలేషనల్ డేటాబేస్ ఈ కాలమ్స్ మరియు వరుసల ప్రాథమిక సూత్రంపై నిర్మించబడింది, ఇది మీకు సమాచారాన్ని అనేక పట్టికలలో విస్తరించడానికి అనుమతిస్తుంది. ఇది మీరు మరింత సంక్లిష్టమైన డేటాతో పని చేయడానికి, ప్రతిరూపణను నివారించడానికి, మరియు డేటాను అన్వేషించడంలో సౌలభ్యాన్ని కలిగిస్తుంది. relational database యొక్క సూత్రాలను పరిశీలిద్దాం.
## [Pre-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/8)
## It all starts with tables
ఒక relational database యొక్క ప్రాథమికంగా పట్టికలు ఉంటాయి. స్ప్రెడ్షీట్ లాగా, ఒక పట్టిక కాలమ్స్ మరియు వరుసల సమాహారం. వరుసలో మనం పని చేయదలచిన డేటా లేదా సమాచారం ఉంటుంది, ఉదాహరణకు ఒక నగర పేరు లేదా వర్షపాతం పరిమాణం. కాలమ్స్ వారు నిల్వ చేసే డేటాను వివరించును.
నగరాల గురించి సమాచారాన్ని నిల్వ చేయడానికి ఒక పట్టిక ప్రారంభిద్దాం. మనం వారి పేరు మరియు దేశం తో ప్రారంభించవచ్చు. మీరు దీన్ని క్రింది విధంగా పట్టికలో నిల్వ చేయవచ్చు:
| City | Country |
| -------- | ------------- |
| Tokyo | Japan |
| Atlanta | United States |
| Auckland | New Zealand |
**city**, **country** మరియు **population** అనే కాలమ్ పేర్లు నిల్వ చేస్తున్న డేటాను వివరించాయి, మరియు ప్రతి వరుస ఒక నగరానికి సంబంధించిన సమాచారాన్ని కలిగి ఉంది.
## The shortcomings of a single table approach
పైన ఉన్న పట్టిక మీకు సాపేక్షంగా పరిచితంగా అనిపించవచ్చు. మనం మన పెరుగుతున్న డేటాబేస్‌కు కొన్ని అదనపు డేటాను జోడిద్దాం - వార్షిక వర్షపాతం (మిల్లీమీటర్లలో). మనం 2018, 2019 మరియు 2020 సంవత్సరాలపై దృష్టి సారిద్దాం. టోక్యోకు జోడిస్తే, ఇది ఇలా ఉండవచ్చు:
| City | Country | Year | Amount |
| ----- | ------- | ---- | ------ |
| Tokyo | Japan | 2020 | 1690 |
| Tokyo | Japan | 2019 | 1874 |
| Tokyo | Japan | 2018 | 1445 |
మన పట్టిక గురించి మీరు ఏమి గమనిస్తారు? మీరు నగర పేరు మరియు దేశం పునరావృతం అవుతున్నట్లు గమనించవచ్చు. ఇది చాలా నిల్వను తీసుకోవచ్చు, మరియు అనవసరం గా అనేక కాపీలు ఉండటం అవసరం లేదు. చివరికి, టోక్యోకు మనం ఆసక్తి ఉన్న ఒకే పేరు ఉంది.
సరే, మరొకటి ప్రయత్నిద్దాం. ప్రతి సంవత్సరానికి కొత్త కాలమ్స్ జోడిద్దాం:
| City | Country | 2018 | 2019 | 2020 |
| -------- | ------------- | ---- | ---- | ---- |
| Tokyo | Japan | 1445 | 1874 | 1690 |
| Atlanta | United States | 1779 | 1111 | 1683 |
| Auckland | New Zealand | 1386 | 942 | 1176 |
ఇది వరుస పునరావృతాన్ని నివారిస్తుంది, కానీ కొన్ని ఇతర సవాళ్లను కలిగిస్తుంది. ప్రతి కొత్త సంవత్సరం వచ్చినప్పుడు మనం పట్టిక నిర్మాణాన్ని మార్చాలి. అదనంగా, మన డేటా పెరిగే కొద్దీ సంవత్సరాలను కాలమ్స్ గా ఉంచడం విలువలను పొందడం మరియు లెక్కించడం కష్టతరం చేస్తుంది.
కాబట్టి మనకు అనేక పట్టికలు మరియు సంబంధాలు అవసరం. మన డేటాను విడగొట్టి, పునరావృతాన్ని నివారించి, డేటాతో పని చేయడంలో మరింత సౌలభ్యం కలిగి ఉండవచ్చు.
## The concepts of relationships
మన డేటాకు తిరిగి వెళ్ళి, మనం దానిని ఎలా విభజించాలో నిర్ణయిద్దాం. మనం నగరాల పేరు మరియు దేశాన్ని నిల్వ చేయాలనుకుంటున్నాము, కాబట్టి ఇది ఒక పట్టికలో ఉత్తమంగా పనిచేస్తుంది.
| City | Country |
| -------- | ------------- |
| Tokyo | Japan |
| Atlanta | United States |
| Auckland | New Zealand |
కానీ తదుపరి పట్టికను సృష్టించే ముందు, ప్రతి నగరాన్ని ఎలా సూచించాలో తెలుసుకోవాలి. మనకు ఒక గుర్తింపు, ID లేదా (సాంకేతిక డేటాబేస్ పదజాలంలో) ప్రాథమిక కీ అవసరం. ప్రాథమిక కీ అనేది పట్టికలో ఒక నిర్దిష్ట వరుసను గుర్తించడానికి ఉపయోగించే విలువ. ఇది విలువ ఆధారంగా ఉండవచ్చు (ఉదాహరణకు నగర పేరు ఉపయోగించవచ్చు), కానీ ఇది సాధారణంగా సంఖ్య లేదా ఇతర గుర్తింపు ఉండాలి. ID ఎప్పుడూ మారకూడదు, ఎందుకంటే అది సంబంధాన్ని విరగడ చేస్తుంది. చాలా సందర్భాల్లో ప్రాథమిక కీ లేదా ID ఆటో-జనరేట్ అయిన సంఖ్యగా ఉంటుంది.
> ✅ Primary key is frequently abbreviated as PK
### cities
| city_id | City | Country |
| ------- | -------- | ------------- |
| 1 | Tokyo | Japan |
| 2 | Atlanta | United States |
| 3 | Auckland | New Zealand |
> ✅ మీరు ఈ పాఠంలో "id" మరియు "primary key" పదాలను మార్పిడి గా ఉపయోగిస్తున్నాము. ఇక్కడ ఉన్న సూత్రాలు DataFrames కు వర్తిస్తాయి, మీరు తరువాత అన్వేషిస్తారు. DataFrames "primary key" పదజాలం ఉపయోగించవు, కానీ అవి చాలా సమానంగా ప్రవర్తిస్తాయి.
మన cities పట్టిక సృష్టించిన తర్వాత, వర్షపాతం నిల్వ చేద్దాం. నగరంపై పూర్తి సమాచారాన్ని పునరావృతం చేయడం కాకుండా, మనం id ఉపయోగించవచ్చు. కొత్తగా సృష్టించిన పట్టికలో కూడా *id* కాలమ్ ఉండాలి, ఎందుకంటే అన్ని పట్టికలకు id లేదా ప్రాథమిక కీ ఉండాలి.
### rainfall
| rainfall_id | city_id | Year | Amount |
| ----------- | ------- | ---- | ------ |
| 1 | 1 | 2018 | 1445 |
| 2 | 1 | 2019 | 1874 |
| 3 | 1 | 2020 | 1690 |
| 4 | 2 | 2018 | 1779 |
| 5 | 2 | 2019 | 1111 |
| 6 | 2 | 2020 | 1683 |
| 7 | 3 | 2018 | 1386 |
| 8 | 3 | 2019 | 942 |
| 9 | 3 | 2020 | 1176 |
కొత్తగా సృష్టించిన **rainfall** పట్టికలో ఉన్న **city_id** కాలమ్ గమనించండి. ఈ కాలమ్ విలువలు **cities** పట్టికలోని IDs ను సూచిస్తాయి. సాంకేతిక relational data పదజాలంలో, దీనిని **foreign key** అంటారు; ఇది మరొక పట్టిక నుండి ప్రాథమిక కీ. మీరు దీన్ని ఒక సూచన లేదా పాయింటర్ గా భావించవచ్చు. **city_id** 1 టోక్యోను సూచిస్తుంది.
> [!NOTE]
> Foreign key is frequently abbreviated as FK
## Retrieving the data
మన డేటాను రెండు పట్టికలుగా విడగొట్టిన తర్వాత, దాన్ని ఎలా పొందాలో మీరు ఆశ్చర్యపోతున్నారా? మనం MySQL, SQL Server లేదా Oracle వంటి relational database ఉపయోగిస్తే, మనం Structured Query Language లేదా SQL అనే భాషను ఉపయోగించవచ్చు. SQL (కొన్నిసార్లు sequel అని ఉచ్చరించబడుతుంది) relational database లో డేటాను పొందడానికి మరియు మార్చడానికి ఉపయోగించే ప్రామాణిక భాష.
డేటాను పొందడానికి మీరు `SELECT` ఆజ్ఞను ఉపయోగిస్తారు. ప్రాథమికంగా, మీరు చూడదలచిన కాలమ్స్ ను **select** చేస్తారు మరియు అవి ఉన్న పట్టిక నుండి **from** చేస్తారు. మీరు నగరాల పేర్లను మాత్రమే ప్రదర్శించాలనుకుంటే, మీరు క్రింది విధంగా ఉపయోగించవచ్చు:
```sql
SELECT city
FROM cities;
-- Output:
-- Tokyo
-- Atlanta
-- Auckland
```
`SELECT` అనేది మీరు కాలమ్స్ జాబితా చేసే చోట, మరియు `FROM` అనేది మీరు పట్టికలను జాబితా చేసే చోట.
> [!NOTE]
> SQL సింటాక్స్ కేస్-ఇన్సెన్సిటివ్, అంటే `select` మరియు `SELECT` ఒకే అర్థం. అయితే, మీరు ఉపయోగిస్తున్న డేటాబేస్ రకం ఆధారంగా కాలమ్స్ మరియు పట్టికలు కేస్ సెన్సిటివ్ కావచ్చు. అందువల్ల, ప్రోగ్రామింగ్ లో ప్రతిదీ కేస్ సెన్సిటివ్ గా పరిగణించడం ఉత్తమ ఆచారం. SQL ప్రశ్నలు రాయేటప్పుడు సాధారణంగా కీవర్డ్స్ ను పెద్ద అక్షరాల్లో వ్రాయడం సాంప్రదాయం.
పై ప్రశ్న అన్ని నగరాలను ప్రదర్శిస్తుంది. మనం కేవలం న్యూజీలాండ్ లోని నగరాలను ప్రదర్శించాలనుకుంటే, మనకు ఒక ఫిల్టర్ అవసరం. దీనికి SQL కీవర్డ్ `WHERE`, లేదా "ఎక్కడ ఏదైనా నిజం" ఉపయోగిస్తారు.
```sql
SELECT city
FROM cities
WHERE country = 'New Zealand';
-- Output:
-- Auckland
```
## Joining data
ఇప్పటి వరకు మనం ఒకే పట్టిక నుండి డేటాను పొందాము. ఇప్పుడు మనం **cities** మరియు **rainfall** నుండి డేటాను కలపాలనుకుంటున్నాము. ఇది *joining* ద్వారా చేయబడుతుంది. మీరు రెండు పట్టికల మధ్య ఒక సీమ్ సృష్టించి, ప్రతి పట్టికలోని ఒక కాలమ్ విలువలను సరిపోల్చుతారు.
మన ఉదాహరణలో, మనం **rainfall** లోని **city_id** కాలమ్ ను **cities** లోని **city_id** కాలమ్ తో సరిపోల్చుతాము. ఇది వర్షపాతం విలువను దాని సంబంధిత నగరంతో సరిపోల్చుతుంది. మనం చేసే జాయిన్ రకం *inner* జాయిన్ అని పిలవబడుతుంది, అంటే ఎలాంటి వరుసలు ఇతర పట్టికలో ఏదైనా సరిపోలకపోతే అవి ప్రదర్శించబడవు. మన సందర్భంలో ప్రతి నగరానికి వర్షపాతం ఉంది, కాబట్టి అన్ని ప్రదర్శించబడతాయి.
2019 సంవత్సరానికి మన నగరాల వర్షపాతం పొందుదాం.
మనం దీన్ని దశలవారీగా చేస్తాము. మొదటి దశ డేటాను కలపడం, సీమ్ కోసం కాలమ్స్ సూచించడం - **city_id** మునుపటి విధంగా.
```sql
SELECT cities.city
rainfall.amount
FROM cities
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
```
మనం కావలసిన రెండు కాలమ్స్ మరియు పట్టికలను **city_id** ద్వారా కలపాలని హైలైట్ చేశాము. ఇప్పుడు మనం `WHERE` స్టేట్‌మెంట్ జోడించి కేవలం 2019 సంవత్సరాన్ని ఫిల్టర్ చేయవచ్చు.
```sql
SELECT cities.city
rainfall.amount
FROM cities
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
WHERE rainfall.year = 2019
-- Output
-- city | amount
-- -------- | ------
-- Tokyo | 1874
-- Atlanta | 1111
-- Auckland | 942
```
## Summary
Relational databases అనేవి సమాచారాన్ని అనేక పట్టికల మధ్య విభజించి, ప్రదర్శన మరియు విశ్లేషణ కోసం తిరిగి కలిపే విధానంపై ఆధారపడి ఉంటాయి. ఇది లెక్కింపులు చేయడానికి మరియు డేటాను మానిప్యులేట్ చేయడానికి అధిక స్థాయి సౌలభ్యాన్ని అందిస్తుంది. మీరు relational database యొక్క ప్రాథమిక సూత్రాలను మరియు రెండు పట్టికల మధ్య జాయిన్ ఎలా చేయాలో చూశారు.
## 🚀 Challenge
ఇంటర్నెట్ లో అనేక relational databases అందుబాటులో ఉన్నాయి. మీరు పై నేర్చుకున్న నైపుణ్యాలను ఉపయోగించి డేటాను అన్వేషించవచ్చు.
## Post-Lecture Quiz
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/9)
## Review & Self Study
SQL మరియు relational database సూత్రాలపై మీ అన్వేషణ కొనసాగించడానికి [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum) లో అనేక వనరులు అందుబాటులో ఉన్నాయి
- [Describe concepts of relational data](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-77958-bethanycheum)
- [Get Started Querying with Transact-SQL](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-77958-bethanycheum) (Transact-SQL అనేది SQL యొక్క ఒక వెర్షన్)
- [SQL content on Microsoft Learn](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-77958-bethanycheum)
## Assignment
[Displaying airport data](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకం వల్ల కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారుల బాధ్యత మేము తీసుకోము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,76 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "25b37acdfb2452917c1aa2e2ca44317a",
"translation_date": "2025-12-19T15:50:41+00:00",
"source_file": "2-Working-With-Data/05-relational-databases/assignment.md",
"language_code": "te"
}
-->
# విమానాశ్రయ డేటా ప్రదర్శన
మీకు విమానాశ్రయాల గురించి సమాచారం కలిగిన [డేటాబేస్](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) అందించబడింది, ఇది [SQLite](https://sqlite.org/index.html) పై నిర్మించబడింది. స్కీమా క్రింద చూపబడింది. మీరు [Visual Studio Code](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum)లో [SQLite విస్తరణ](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) ఉపయోగించి వివిధ నగరాల విమానాశ్రయాల గురించి సమాచారం ప్రదర్శించవచ్చు.
## సూచనలు
అసైన్‌మెంట్ ప్రారంభించడానికి, మీరు కొన్ని దశలను అనుసరించాలి. మీరు కొంత టూలింగ్ ఇన్‌స్టాల్ చేసి నమూనా డేటాబేస్‌ను డౌన్లోడ్ చేసుకోవాలి.
### మీ సిస్టమ్ సెటప్ చేయండి
మీరు Visual Studio Code మరియు SQLite విస్తరణను ఉపయోగించి డేటాబేస్‌తో ఇంటరాక్ట్ చేయవచ్చు.
1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum) కు వెళ్లి Visual Studio Code ఇన్‌స్టాల్ చేయడానికి సూచనలను అనుసరించండి
1. మార్కెట్‌ప్లేస్ పేజీలో సూచించినట్లుగా [SQLite విస్తరణ](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) ఇన్‌స్టాల్ చేయండి
### డేటాబేస్ డౌన్లోడ్ చేసి తెరవండి
తర్వాత మీరు డేటాబేస్‌ను డౌన్లోడ్ చేసి తెరవాలి.
1. [GitHub నుండి డేటాబేస్ ఫైల్ డౌన్లోడ్ చేయండి](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) మరియు దాన్ని ఒక డైరెక్టరీలో సేవ్ చేయండి
1. Visual Studio Code తెరవండి
1. **Ctl-Shift-P** (లేదా Mac లో **Cmd-Shift-P**) నొక్కి `SQLite: Open database` టైప్ చేసి SQLite విస్తరణలో డేటాబేస్ తెరవండి
1. **Choose database from file** ఎంచుకుని మీరు ముందుగా డౌన్లోడ్ చేసిన **airports.db** ఫైల్‌ను తెరవండి
1. డేటాబేస్ తెరవబడిన తర్వాత (స్క్రీన్‌లో అప్‌డేట్ కనిపించదు), కొత్త క్వెరీ విండో సృష్టించడానికి **Ctl-Shift-P** (లేదా Mac లో **Cmd-Shift-P**) నొక్కి `SQLite: New query` టైప్ చేయండి
ఒకసారి తెరవబడిన తర్వాత, కొత్త క్వెరీ విండోను డేటాబేస్‌పై SQL స్టేట్మెంట్లు నడపడానికి ఉపయోగించవచ్చు. డేటాబేస్‌పై క్వెరీలు నడపడానికి **Ctl-Shift-Q** (లేదా Mac లో **Cmd-Shift-Q**) ఆదేశాన్ని ఉపయోగించవచ్చు.
> [!NOTE]
> SQLite విస్తరణ గురించి మరింత సమాచారం కోసం, మీరు [డాక్యుమెంటేషన్](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) ను చూడవచ్చు
## డేటాబేస్ స్కీమా
డేటాబేస్ స్కీమా అనేది దాని పట్టిక రూపకల్పన మరియు నిర్మాణం. **airports** డేటాబేస్‌లో రెండు పట్టికలు ఉన్నాయి, `cities`, ఇది యునైటెడ్ కింగ్‌డమ్ మరియు ఐర్లాండ్‌లోని నగరాల జాబితాను కలిగి ఉంది, మరియు `airports`, ఇది అన్ని విమానాశ్రయాల జాబితాను కలిగి ఉంది. కొన్ని నగరాలకు బహుళ విమానాశ్రయాలు ఉండవచ్చు కాబట్టి, సమాచారం నిల్వ చేయడానికి రెండు పట్టికలు సృష్టించబడ్డాయి. ఈ వ్యాయామంలో మీరు వివిధ నగరాల సమాచారం ప్రదర్శించడానికి జాయిన్లను ఉపయోగిస్తారు.
| Cities |
| ---------------- |
| id (PK, integer) |
| city (text) |
| country (text) |
| Airports |
| -------------------------------- |
| id (PK, integer) |
| name (text) |
| code (text) |
| city_id (FK to id in **Cities**) |
## అసైన్‌మెంట్
క్రింది సమాచారాన్ని తిరిగి ఇవ్వడానికి క్వెరీలు సృష్టించండి:
1. `Cities` పట్టికలోని అన్ని నగరాల పేర్లు
1. `Cities` పట్టికలోని ఐర్లాండ్‌లోని అన్ని నగరాలు
1. వారి నగరం మరియు దేశంతో కూడిన అన్ని విమానాశ్రయాల పేర్లు
1. లండన్, యునైటెడ్ కింగ్‌డమ్‌లోని అన్ని విమానాశ్రయాలు
## రూబ్రిక్
| అద్భుతమైన | సరిపడిన | మెరుగుదల అవసరం |
| --------- | -------- | ----------------- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,160 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "c182e87f9f80be7e7cdffc7b40bbfccf",
"translation_date": "2025-12-19T15:37:55+00:00",
"source_file": "2-Working-With-Data/06-non-relational/README.md",
"language_code": "te"
}
-->
# డేటాతో పని చేయడం: నాన్-రిలేషనల్ డేటా
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../sketchnotes/06-NoSQL.png)|
|:---:|
|నోస్క్యూఎల్ డేటాతో పని చేయడం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/10)
డేటా రిలేషనల్ డేటాబేస్‌లకు పరిమితం కాదు. ఈ పాఠం నాన్-రిలేషనల్ డేటాపై దృష్టి సారించి, స్ప్రెడ్షీట్స్ మరియు నోస్క్యూఎల్ యొక్క ప్రాథమిక అంశాలను కవర్ చేస్తుంది.
## స్ప్రెడ్షీట్స్
స్ప్రెడ్షీట్స్ డేటాను నిల్వ చేయడానికి మరియు అన్వేషించడానికి ప్రాచుర్యం పొందిన మార్గం, ఎందుకంటే దీన్ని సెటప్ చేయడం మరియు ప్రారంభించడం తక్కువ పని అవసరం. ఈ పాఠంలో మీరు స్ప్రెడ్షీట్ యొక్క ప్రాథమిక భాగాలు, అలాగే ఫార్మూలాలు మరియు ఫంక్షన్లను నేర్చుకుంటారు. ఉదాహరణలు మైక్రోసాఫ్ట్ ఎక్సెల్‌తో చూపబడతాయి, కానీ చాలా భాగాలు మరియు విషయాలు ఇతర స్ప్రెడ్షీట్ సాఫ్ట్‌వేర్‌తో పోలిస్తే సమాన పేర్లు మరియు దశలను కలిగి ఉంటాయి.
![రెండు వర్క్‌షీట్లతో ఖాళీ మైక్రోసాఫ్ట్ ఎక్సెల్ వర్క్‌బుక్](../../../../translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.te.png)
స్ప్రెడ్షీట్ ఒక ఫైల్ మరియు కంప్యూటర్, పరికరం లేదా క్లౌడ్ ఆధారిత ఫైల్ సిస్టమ్‌లో అందుబాటులో ఉంటుంది. సాఫ్ట్‌వేర్ బ్రౌజర్ ఆధారితంగా ఉండవచ్చు లేదా కంప్యూటర్‌లో ఇన్‌స్టాల్ చేయాల్సిన అనువర్తనం లేదా యాప్‌గా డౌన్లోడ్ చేయవలసినది కావచ్చు. ఎక్సెల్‌లో ఈ ఫైళ్లను **వర్క్‌బుక్స్** అని కూడా నిర్వచిస్తారు మరియు ఈ పదజాలం ఈ పాఠం మిగిలిన భాగంలో ఉపయోగించబడుతుంది.
ఒక వర్క్‌బుక్ ఒకటి లేదా అంతకంటే ఎక్కువ **వర్క్‌షీట్లు** కలిగి ఉంటుంది, ప్రతి వర్క్‌షీట్ టాబ్‌ల ద్వారా లేబుల్ చేయబడుతుంది. వర్క్‌షీట్‌లో **సెల్స్** అనే చతురస్రాలు ఉంటాయి, ఇవి వాస్తవ డేటాను కలిగి ఉంటాయి. ఒక సెల్ ఒక వరుస మరియు కాలమ్ యొక్క సంధి, కాలమ్స్ అక్షరాల ద్వారా లేబుల్ చేయబడి, వరుసలు సంఖ్యల ద్వారా లేబుల్ చేయబడ్డాయి. కొన్ని స్ప్రెడ్షీట్స్ మొదటి కొన్ని వరుసల్లో హెడర్లు ఉంటాయి, ఇవి సెల్‌లోని డేటాను వివరించడానికి ఉపయోగిస్తారు.
ఈ ప్రాథమిక అంశాలతో, మైక్రోసాఫ్ట్ టెంప్లేట్స్ నుండి ఒక ఉదాహరణను ఉపయోగించి, ఇన్వెంటరీపై దృష్టి సారించి స్ప్రెడ్షీట్ యొక్క కొన్ని అదనపు భాగాలను పరిశీలిస్తాము.
### ఇన్వెంటరీ నిర్వహణ
"InventoryExample" అనే స్ప్రెడ్షీట్ ఫైల్ ఒక ఫార్మాట్ చేయబడిన ఇన్వెంటరీలోని అంశాల స్ప్రెడ్షీట్, ఇది మూడు వర్క్‌షీట్లను కలిగి ఉంటుంది, టాబ్‌లు "Inventory List", "Inventory Pick List" మరియు "Bin Lookup" అని లేబుల్ చేయబడ్డాయి. Inventory List వర్క్‌షీట్‌లో నాల్గవ వరుస హెడర్, ఇది హెడర్ కాలమ్‌లోని ప్రతి సెల్ విలువను వివరిస్తుంది.
![మైక్రోసాఫ్ట్ ఎక్సెల్‌లో ఉదాహరణ ఇన్వెంటరీ జాబితా నుండి హైలైట్ చేయబడిన ఫార్ములా](../../../../translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.te.png)
కొన్ని సందర్భాల్లో ఒక సెల్ విలువను ఉత్పత్తి చేయడానికి ఇతర సెల్స్ విలువలపై ఆధారపడి ఉంటుంది. ఇన్వెంటరీ జాబితా స్ప్రెడ్షీట్ తన ఇన్వెంటరీలోని ప్రతి అంశం యొక్క ఖర్చును ట్రాక్ చేస్తుంది, కానీ ఇన్వెంటరీలోని మొత్తం విలువ తెలుసుకోవాలంటే? [**ఫార్మూలాలు**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) సెల్ డేటాపై చర్యలు నిర్వహిస్తాయి మరియు ఈ ఉదాహరణలో ఇన్వెంటరీ ఖర్చును లెక్కించడానికి ఉపయోగిస్తారు. ఈ స్ప్రెడ్షీట్ ఇన్వెంటరీ విలువ కాలమ్‌లో ఫార్ములాను ఉపయోగించి ప్రతి అంశం విలువను లెక్కిస్తుంది, ఇది QTY హెడర్ కింద ఉన్న పరిమాణాన్ని COST హెడర్ కింద ఉన్న ఖర్చులతో గుణిస్తుంది. ఒక సెల్‌ను డబుల్ క్లిక్ చేయడం లేదా హైలైట్ చేయడం ద్వారా ఫార్ములా కనిపిస్తుంది. మీరు గమనిస్తారు ఫార్మూలాలు సమాన చిహ్నంతో ప్రారంభమవుతాయి, తరువాత లెక్కింపు లేదా ఆపరేషన్ ఉంటుంది.
![మైక్రోసాఫ్ట్ ఎక్సెల్‌లో ఉదాహరణ ఇన్వెంటరీ జాబితా నుండి హైలైట్ చేయబడిన ఫంక్షన్](../../../../translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.te.png)
మేము మరో ఫార్ములాను ఉపయోగించి ఇన్వెంటరీ విలువలన్నింటినీ కలిపి మొత్తం విలువను పొందవచ్చు. ప్రతి సెల్‌ను జోడించడం ద్వారా మొత్తం లెక్కించవచ్చు, కానీ అది కష్టమైన పని. ఎక్సెల్ [**ఫంక్షన్లు**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89) కలిగి ఉంది, ఇవి సెల్ విలువలపై లెక్కింపులు నిర్వహించడానికి ముందుగా నిర్వచించబడిన ఫార్మూలాలు. ఫంక్షన్లు ఆర్గ్యుమెంట్లను అవసరం చేస్తాయి, ఇవి లెక్కింపులు నిర్వహించడానికి అవసరమైన విలువలు. ఫంక్షన్లు ఒక కంటే ఎక్కువ ఆర్గ్యుమెంట్లు అవసరం అయితే, అవి నిర్దిష్ట క్రమంలో జాబితా చేయబడాలి లేకపోతే ఫంక్షన్ సరైన విలువను లెక్కించకపోవచ్చు. ఈ ఉదాహరణ SUM ఫంక్షన్‌ను ఉపయోగిస్తుంది, ఇది ఇన్వెంటరీ విలువల విలువలను ఆర్గ్యుమెంట్‌గా ఉపయోగించి వరుస 3, కాలమ్ B (B3 అని కూడా పిలవబడుతుంది) కింద మొత్తం లెక్కిస్తుంది.
## నోస్క్యూఎల్
నోస్క్యూఎల్ అనేది నాన్-రిలేషనల్ డేటాను నిల్వ చేయడానికి వివిధ మార్గాలకు umbrella పదం, దీన్ని "నాన్-ఎస్‌క్యూఎల్", "నాన్-రిలేషనల్" లేదా "నాట్ ఓన్లీ SQL" అని అర్థం చేసుకోవచ్చు. ఈ రకమైన డేటాబేస్ సిస్టమ్స్ 4 రకాలుగా వర్గీకరించబడతాయి.
![కీ-విలువ డేటా స్టోర్ యొక్క గ్రాఫికల్ ప్రాతినిధ్యం, 4 ప్రత్యేక సంఖ్యా కీలు 4 వివిధ విలువలతో అనుసంధానించబడ్డాయి](../../../../translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.te.png)
> మూలం [Michał Białecki Blog](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/)
[కీ-విలువ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) డేటాబేస్‌లు ప్రత్యేక కీలు, అంటే విలువతో అనుసంధానించబడిన ప్రత్యేక గుర్తింపును జతచేస్తాయి. ఈ జంటలు సరైన హాషింగ్ ఫంక్షన్‌తో [హాష్ టేబుల్](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) ఉపయోగించి నిల్వ చేయబడతాయి.
![గ్రాఫ్ డేటా స్టోర్ యొక్క గ్రాఫికల్ ప్రాతినిధ్యం, వ్యక్తులు, వారి ఆసక్తులు మరియు ప్రదేశాల మధ్య సంబంధాలను చూపిస్తుంది](../../../../translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.te.png)
> మూలం [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example)
[గ్రాఫ్](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) డేటాబేస్‌లు డేటాలో సంబంధాలను వివరించడానికి ఉపయోగిస్తారు మరియు నోడ్స్ మరియు ఎడ్జెస్ సేకరణగా ప్రాతినిధ్యం వహిస్తాయి. ఒక నోడ్ ఒక ఎంటిటీని సూచిస్తుంది, ఇది వాస్తవ ప్రపంచంలో ఉన్న ఏదైనా, ఉదాహరణకు ఒక విద్యార్థి లేదా బ్యాంక్ స్టేట్‌మెంట్. ఎడ్జెస్ రెండు ఎంటిటీల మధ్య సంబంధాన్ని సూచిస్తాయి. ప్రతి నోడ్ మరియు ఎడ్జ్‌కు అదనపు సమాచారం అందించే లక్షణాలు ఉంటాయి.
![కస్టమర్ డేటాబేస్‌తో కాలమ్నార్ డేటా స్టోర్ యొక్క గ్రాఫికల్ ప్రాతినిధ్యం, రెండు కాలమ్ ఫ్యామిలీలు Identity మరియు Contact Info పేర్లతో](../../../../translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.te.png)
[కాలమ్నార్](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) డేటా స్టోర్‌లు డేటాను కాలమ్స్ మరియు వరుసలుగా ఏర్పాటు చేస్తాయి, ఇది రిలేషనల్ డేటా నిర్మాణంలా ఉంటుంది, కానీ ప్రతి కాలమ్ కాలమ్ ఫ్యామిలీ అని పిలవబడే సమూహాలుగా విభజించబడుతుంది, ఒక కాలమ్ కింద ఉన్న అన్ని డేటా సంబంధితంగా ఉంటుంది మరియు ఒక యూనిట్‌గా పొందవచ్చు మరియు మార్చవచ్చు.
### Azure Cosmos DB తో డాక్యుమెంట్ డేటా స్టోర్‌లు
[డాక్యుమెంట్](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) డేటా స్టోర్‌లు కీ-విలువ డేటా స్టోర్ కాన్సెప్ట్‌పై ఆధారపడి, ఫీల్డ్స్ మరియు ఆబ్జెక్టుల సిరీస్‌తో తయారవుతాయి. ఈ విభాగం Cosmos DB ఎమ్యులేటర్‌తో డాక్యుమెంట్ డేటాబేస్‌లను అన్వేషిస్తుంది.
Cosmos DB డేటాబేస్ "నాట్ ఓన్లీ SQL" నిర్వచనానికి సరిపోతుంది, ఇక్కడ Cosmos DB యొక్క డాక్యుమెంట్ డేటాబేస్ డేటాను క్వెరీ చేయడానికి SQL పై ఆధారపడి ఉంటుంది. [మునుపటి పాఠం](../05-relational-databases/README.md) SQL యొక్క ప్రాథమిక అంశాలను కవర్ చేస్తుంది, మరియు ఇక్కడ డాక్యుమెంట్ డేటాబేస్‌కు కొన్ని అదే క్వెరీలను వర్తింపజేయగలము. మేము Cosmos DB ఎమ్యులేటర్‌ను ఉపయోగించబోతున్నాము, ఇది కంప్యూటర్‌లో స్థానికంగా డాక్యుమెంట్ డేటాబేస్‌ను సృష్టించి అన్వేషించడానికి అనుమతిస్తుంది. ఎమ్యులేటర్ గురించి మరింత చదవండి [ఇక్కడ](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21).
ఒక డాక్యుమెంట్ ఫీల్డ్స్ మరియు ఆబ్జెక్ట్ విలువల సేకరణ, ఫీల్డ్స్ ఆబ్జెక్ట్ విలువ ఏమిటి అనేది వివరిస్తాయి. క్రింద ఒక డాక్యుమెంట్ ఉదాహరణ ఉంది.
```json
{
"firstname": "Eva",
"age": 44,
"id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
"_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
"_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
"_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
"_attachments": "attachments/",
"_ts": 1630544034
}
```
ఈ డాక్యుమెంట్‌లో ఆసక్తి ఉన్న ఫీల్డ్స్: `firstname`, `id`, మరియు `age`. మిగతా అండర్‌స్కోర్ ఉన్న ఫీల్డ్స్ Cosmos DB ద్వారా ఉత్పత్తి చేయబడ్డాయి.
#### Cosmos DB ఎమ్యులేటర్‌తో డేటాను అన్వేషించడం
మీరు ఎమ్యులేటర్‌ను [విండోస్ కోసం ఇక్కడ డౌన్లోడ్ చేసి ఇన్‌స్టాల్ చేయవచ్చు](https://aka.ms/cosmosdb-emulator). macOS మరియు Linux కోసం ఎమ్యులేటర్‌ను ఎలా నడపాలో ఈ [డాక్యుమెంటేషన్](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) చూడండి.
ఎమ్యులేటర్ బ్రౌజర్ విండోను ప్రారంభిస్తుంది, ఇక్కడ ఎక్స్‌ప్లోరర్ వీక్షణ డాక్యుమెంట్లను అన్వేషించడానికి అనుమతిస్తుంది.
![Cosmos DB ఎమ్యులేటర్ యొక్క ఎక్స్‌ప్లోరర్ వీక్షణ](../../../../translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.te.png)
మీరు అనుసరిస్తున్నట్లయితే, "Start with Sample" క్లిక్ చేసి SampleDB అనే నమూనా డేటాబేస్‌ను సృష్టించండి. Sample DB ను ఎర్రో క్లిక్ చేసి విస్తరించండి, మీరు `Persons` అనే కంటైనర్‌ను కనుగొంటారు, కంటైనర్ ఒక అంశాల సేకరణను కలిగి ఉంటుంది, ఇవి కంటైనర్‌లోని డాక్యుమెంట్లు. మీరు `Items` కింద ఉన్న నాలుగు వ్యక్తిగత డాక్యుమెంట్లను అన్వేషించవచ్చు.
![Cosmos DB ఎమ్యులేటర్‌లో నమూనా డేటాను అన్వేషించడం](../../../../translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.te.png)
#### Cosmos DB ఎమ్యులేటర్‌తో డాక్యుమెంట్ డేటాను క్వెరీ చేయడం
మేము కొత్త SQL Query బటన్ (ఎడమ నుండి రెండవ బటన్) క్లిక్ చేసి నమూనా డేటాను కూడా క్వెరీ చేయవచ్చు.
`SELECT * FROM c` కంటైనర్‌లోని అన్ని డాక్యుమెంట్లను తిరిగి ఇస్తుంది. ఇప్పుడు ఒక where క్లాజ్ జోడించి 40 కంటే తక్కువ వయస్సు ఉన్న వారిని కనుగొనండి.
`SELECT * FROM c where c.age < 40`
![Cosmos DB ఎమ్యులేటర్‌లో SELECT క్వెరీ నడుపుతూ, వయస్సు 40 కంటే తక్కువ ఉన్న డాక్యుమెంట్లను కనుగొనడం](../../../../translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.te.png)
క్వెరీ రెండు డాక్యుమెంట్లను తిరిగి ఇస్తుంది, ప్రతి డాక్యుమెంట్ వయస్సు విలువ 40 కంటే తక్కువగా ఉంది.
#### JSON మరియు డాక్యుమెంట్లు
మీకు జావాస్క్రిప్ట్ ఆబ్జెక్ట్ నోటేషన్ (JSON) పరిచయం అయితే, డాక్యుమెంట్లు JSON లాగా కనిపిస్తాయి. ఈ డైరెక్టరీలో `PersonsData.json` ఫైల్ ఉంది, దీనిని మీరు ఎమ్యులేటర్‌లో Persons కంటైనర్‌కు `Upload Item` బటన్ ద్వారా అప్లోడ్ చేయవచ్చు.
అధిక భాగంలో, JSON డేటాను తిరిగి ఇచ్చే APIs డాక్యుమెంట్ డేటాబేస్‌లలో నేరుగా బదిలీ చేసి నిల్వ చేయవచ్చు. క్రింద మరో డాక్యుమెంట్ ఉంది, ఇది మైక్రోసాఫ్ట్ ట్విట్టర్ ఖాతా నుండి Twitter API ఉపయోగించి పొందిన ట్వీట్లను సూచిస్తుంది, తరువాత Cosmos DB లో చేర్చబడింది.
```json
{
"created_at": "2021-08-31T19:03:01.000Z",
"id": "1432780985872142341",
"text": "Blank slate. Like this tweet if youve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
"_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
"_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
"_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
"_attachments": "attachments/",
"_ts": 1630537000
```
ఈ డాక్యుమెంట్‌లో ఆసక్తి ఉన్న ఫీల్డ్స్: `created_at`, `id`, మరియు `text`.
## 🚀 సవాలు
SampleDB డేటాబేస్‌కు మీరు అప్లోడ్ చేయగల `TwitterData.json` ఫైల్ ఉంది. దాన్ని వేరే కంటైనర్‌లో జోడించడం సిఫార్సు చేయబడింది. ఇది ఇలా చేయవచ్చు:
1. పై కుడి మూలలో కొత్త కంటైనర్ బటన్ క్లిక్ చేయండి
1. ఉన్న డేటాబేస్ (SampleDB) ఎంచుకుని కంటైనర్ ID సృష్టించండి
1. పార్టిషన్ కీని `/id` గా సెట్ చేయండి
1. OK క్లిక్ చేయండి (ఈ వీక్షణలో మిగతా సమాచారాన్ని మీరు పక్కన పెట్టవచ్చు, ఇది మీ యంత్రంలో స్థానికంగా నడుస్తున్న చిన్న డేటాసెట్)
1. మీ కొత్త కంటైనర్ తెరవండి మరియు `Upload Item` బటన్‌తో Twitter Data ఫైల్‌ను అప్లోడ్ చేయండి
టెక్స్ట్ ఫీల్డ్‌లో Microsoft ఉన్న డాక్యుమెంట్లను కనుగొనడానికి కొన్ని SELECT క్వెరీలను నడపండి. సూచన: [LIKE కీవర్డ్](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) ఉపయోగించడానికి ప్రయత్నించండి
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/11)
## సమీక్ష & స్వీయ అధ్యయనం
- ఈ స్ప్రెడ్షీట్‌కు కొన్ని అదనపు ఫార్మాటింగ్ మరియు ఫీచర్లు జోడించబడ్డాయి, ఇవి ఈ పాఠం కవర్ చేయవు. మీరు మరింత తెలుసుకోవాలనుకుంటే మైక్రోసాఫ్ట్ వద్ద [విస్తృత డాక్యుమెంటేషన్ మరియు వీడియోల లైబ్రరీ](https://support.microsoft.com/excel) ఉంది.
- ఈ ఆర్కిటెక్చరల్ డాక్యుమెంటేషన్ వివిధ రకాల నాన్-రిలేషనల్ డేటా లక్షణాలను వివరించును: [నాన్-రిలేషనల్ డేటా మరియు నోస్క్యూఎల్](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data)
- Cosmos DB ఒక క్లౌడ్ ఆధారిత నాన్-రిలేషనల్ డేటాబేస్, ఇది ఈ పాఠంలో పేర్కొన్న వివిధ నోస్క్యూఎల్ రకాలను కూడా నిల్వ చేయగలదు. ఈ రకాల గురించి మరింత తెలుసుకోండి ఈ [Cosmos DB Microsoft Learn మాడ్యూల్](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/)
## అసైన్‌మెంట్
[Soda Profits](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,35 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "f824bfdb8b12d33293913f76f5c787c5",
"translation_date": "2025-12-19T15:40:41+00:00",
"source_file": "2-Working-With-Data/06-non-relational/assignment.md",
"language_code": "te"
}
-->
# సోడా లాభాలు
## సూచనలు
[Coca Cola Co స్ప్రెడ్షీట్](../../../../2-Working-With-Data/06-non-relational/CocaColaCo.xlsx) లో కొన్ని లెక్కింపులు లేవు. మీ పని:
1. FY '15, '16, '17, మరియు '18 యొక్క స్థూల లాభాలను లెక్కించండి
- స్థూల లాభం = నికర ఆపరేటింగ్ ఆదాయాలు - సరుకుల వ్యయం
1. అన్ని స్థూల లాభాల సగటును లెక్కించండి. దీన్ని ఒక ఫంక్షన్ తో చేయడానికి ప్రయత్నించండి.
- సగటు = స్థూల లాభాల మొత్తం భాగించబడిన ఆర్థిక సంవత్సరాల సంఖ్య (10)
- [AVERAGE ఫంక్షన్](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) పై డాక్యుమెంటేషన్
1. ఇది ఒక ఎక్సెల్ ఫైల్, కానీ ఏ స్ప్రెడ్షీట్ ప్లాట్‌ఫారమ్‌లోనైనా సవరించదగినది కావాలి
[డేటా మూలం క్రెడిట్ Yiyi Wang కు](https://www.kaggle.com/yiyiwang0826/cocacola-excel)
## రూబ్రిక్
ఉదాహరణాత్మక | తగినంత | మెరుగుదల అవసరం
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,295 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "7bfec050f4717dcc2dfd028aca9d21f3",
"translation_date": "2025-12-19T15:29:16+00:00",
"source_file": "2-Working-With-Data/07-python/README.md",
"language_code": "te"
}
-->
# డేటాతో పని చేయడం: పైథాన్ మరియు పాండాస్ లైబ్రరీ
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/07-WorkWithPython.png) |
| :-------------------------------------------------------------------------------------------------------: |
| Python తో పని చేయడం - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.te.png)](https://youtu.be/dZjWOGbsN4Y)
డేటాబేసులు డేటాను నిల్వ చేయడానికి మరియు క్వెరీ భాషలను ఉపయోగించి వాటిని క్వెరీ చేయడానికి చాలా సమర్థవంతమైన మార్గాలను అందించినప్పటికీ, డేటాను ప్రాసెస్ చేయడానికి అత్యంత అనుకూలమైన మార్గం మీ స్వంత ప్రోగ్రామ్ రాయడం. చాలా సందర్భాల్లో, డేటాబేస్ క్వెరీ చేయడం మరింత సమర్థవంతమైన మార్గం అవుతుంది. అయితే, కొన్ని సందర్భాల్లో, మరింత సంక్లిష్టమైన డేటా ప్రాసెసింగ్ అవసరం అయితే, అది SQL ఉపయోగించి సులభంగా చేయలేము.
డేటా ప్రాసెసింగ్ ఏ ప్రోగ్రామింగ్ భాషలోనైనా ప్రోగ్రామ్ చేయవచ్చు, కానీ డేటాతో పని చేయడంలో కొంతమంది భాషలు ఉన్నత స్థాయిలో ఉంటాయి. డేటా సైంటిస్టులు సాధారణంగా క్రింది భాషలలో ఒకదాన్ని ఇష్టపడతారు:
* **[Python](https://www.python.org/)**, ఒక సాధారణ ప్రయోజన ప్రోగ్రామింగ్ భాష, ఇది సులభత కారణంగా ప్రారంభకులకు ఉత్తమ ఎంపికలలో ఒకటిగా పరిగణించబడుతుంది. పైథాన్‌లో అనేక అదనపు లైబ్రరీలు ఉన్నాయి, ఇవి మీకు అనేక ప్రాక్టికల్ సమస్యలను పరిష్కరించడంలో సహాయపడతాయి, ఉదాహరణకు ZIP ఆర్కైవ్ నుండి డేటాను తీసుకోవడం లేదా చిత్రాన్ని గ్రేస్కేల్‌గా మార్చడం. డేటా సైన్స్‌కు అదనంగా, పైథాన్ వెబ్ డెవలప్‌మెంట్ కోసం కూడా తరచుగా ఉపయోగిస్తారు.
* **[R](https://www.r-project.org/)** ఒక సాంప్రదాయ టూల్‌బాక్స్, ఇది గణాంక డేటా ప్రాసెసింగ్ దృష్టితో అభివృద్ధి చేయబడింది. ఇది పెద్ద లైబ్రరీ రిపాజిటరీ (CRAN) కలిగి ఉంది, ఇది డేటా ప్రాసెసింగ్‌కు మంచి ఎంపిక. అయితే, R సాధారణ ప్రయోజన ప్రోగ్రామింగ్ భాష కాదు, మరియు డేటా సైన్స్ డొమైన్ వెలుపల అరుదుగా ఉపయోగిస్తారు.
* **[Julia](https://julialang.org/)** మరొక భాష, ఇది ప్రత్యేకంగా డేటా సైన్స్ కోసం అభివృద్ధి చేయబడింది. ఇది పైథాన్ కంటే మెరుగైన పనితీరు ఇవ్వడానికి ఉద్దేశించబడింది, ఇది శాస్త్రీయ ప్రయోగాలకు గొప్ప సాధనం.
ఈ పాఠంలో, మేము సులభమైన డేటా ప్రాసెసింగ్ కోసం పైథాన్ ఉపయోగంపై దృష్టి సారిస్తాము. భాషపై ప్రాథమిక పరిచయం ఉన్నట్లు భావిస్తాము. మీరు పైథాన్ లో మరింత లోతైన పర్యటన కోరుకుంటే, క్రింది వనరులలో ఒకదాన్ని చూడవచ్చు:
* [Learn Python in a Fun Way with Turtle Graphics and Fractals](https://github.com/shwars/pycourse) - GitHub ఆధారిత పైథాన్ ప్రోగ్రామింగ్ త్వరిత పరిచయ కోర్సు
* [Take your First Steps with Python](https://docs.microsoft.com/en-us/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum) లో లెర్నింగ్ పాత్
డేటా అనేక రూపాల్లో ఉండవచ్చు. ఈ పాఠంలో, మేము మూడు రూపాల డేటాను పరిగణిస్తాము - **టేబులర్ డేటా**, **పాఠ్యం** మరియు **చిత్రాలు**.
మేము డేటా ప్రాసెసింగ్ కొన్ని ఉదాహరణలపై దృష్టి సారిస్తాము, అన్ని సంబంధిత లైబ్రరీల పూర్తి అవలోకనం ఇవ్వకుండా. ఇది మీరు సాధ్యమైన ప్రధాన ఆలోచనను పొందడానికి మరియు మీకు అవసరమైనప్పుడు సమస్యలకు పరిష్కారాలు ఎక్కడ కనుగొనాలో అర్థం చేసుకోవడానికి సహాయపడుతుంది.
> **అత్యంత ఉపయోగకరమైన సలహా**. మీరు డేటాపై నిర్దిష్ట ఆపరేషన్ చేయాల్సిన అవసరం ఉన్నప్పుడు, మీరు ఎలా చేయాలో తెలియకపోతే, దాన్ని ఇంటర్నెట్‌లో శోధించండి. [Stackoverflow](https://stackoverflow.com/) సాధారణ పనుల కోసం పైథాన్‌లో చాలా ఉపయోగకరమైన కోడ్ నమూనాలను కలిగి ఉంటుంది.
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/12)
## టేబులర్ డేటా మరియు డేటాఫ్రేమ్స్
మేము రిలేషనల్ డేటాబేసుల గురించి మాట్లాడినప్పుడు మీరు ఇప్పటికే టేబులర్ డేటాను కలుసుకున్నారు. మీరు చాలా డేటా కలిగి ఉన్నప్పుడు, మరియు అది అనేక వేర్వేరు లింక్ చేసిన పట్టికల్లో ఉంటే, దానితో పని చేయడానికి SQL ఉపయోగించడం ఖచ్చితంగా అర్థం. అయితే, చాలా సందర్భాల్లో మాకు డేటా పట్టిక ఉంటే, మరియు ఆ డేటా గురించి కొన్ని **అర్థం** లేదా **అవగాహన** పొందాలి, ఉదాహరణకు పంపిణీ, విలువల మధ్య సంబంధం మొదలైనవి. డేటా సైన్స్‌లో, మాకు అసలు డేటాను కొన్ని మార్పులు చేయాల్సిన అవసరం ఉంటుంది, ఆ తర్వాత దాన్ని విజువలైజ్ చేయాలి. ఈ రెండు దశలను సులభంగా పైథాన్ ఉపయోగించి చేయవచ్చు.
పైథాన్‌లో టేబులర్ డేటాతో పని చేయడానికి రెండు అత్యంత ఉపయోగకరమైన లైబ్రరీలు ఉన్నాయి:
* **[Pandas](https://pandas.pydata.org/)** మీరు **డేటాఫ్రేమ్స్** అని పిలవబడే వాటిని నిర్వహించడానికి అనుమతిస్తుంది, ఇవి రిలేషనల్ పట్టికలకు సమానమైనవి. మీరు పేరుతో ఉన్న కాలమ్స్ కలిగి ఉండవచ్చు, మరియు వరుసలు, కాలమ్స్ మరియు డేటాఫ్రేమ్స్ పై వివిధ ఆపరేషన్లు చేయవచ్చు.
* **[Numpy](https://numpy.org/)** అనేది **టెన్సార్ల**తో పని చేయడానికి లైబ్రరీ, అంటే బహుముఖ్యమైన **అర్రేస్**. అర్రేలో ఒకే రకమైన విలువలు ఉంటాయి, ఇది డేటాఫ్రేమ్ కంటే సులభం, కానీ ఇది మరింత గణిత ఆపరేషన్లు అందిస్తుంది మరియు తక్కువ ఓవర్‌హెడ్ సృష్టిస్తుంది.
మరియు మీరు తెలుసుకోవలసిన కొన్ని ఇతర లైబ్రరీలు కూడా ఉన్నాయి:
* **[Matplotlib](https://matplotlib.org/)** డేటా విజువలైజేషన్ మరియు గ్రాఫ్‌లను ప్లాట్ చేయడానికి ఉపయోగించే లైబ్రరీ
* **[SciPy](https://www.scipy.org/)** కొన్ని అదనపు శాస్త్రీయ ఫంక్షన్లతో కూడిన లైబ్రరీ. probability మరియు statistics గురించి మాట్లాడినప్పుడు మేము ఇప్పటికే ఈ లైబ్రరీని చూశాము
ఇది మీరు సాధారణంగా మీ పైథాన్ ప్రోగ్రామ్ ప్రారంభంలో ఆ లైబ్రరీలను దిగుమతి చేసుకోవడానికి ఉపయోగించే కోడ్ భాగం:
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import ... # మీరు అవసరమైన ఖచ్చితమైన ఉప-ప్యాకేజీలను పేర్కొనాలి
```
పాండాస్ కొన్ని ప్రాథమిక భావనల చుట్టూ కేంద్రీకృతమైంది.
### సిరీస్
**సిరీస్** అనేది విలువల శ్రేణి, ఇది జాబితా లేదా నంపై అర్రేకు సమానంగా ఉంటుంది. ప్రధాన తేడా ఏమిటంటే సిరీస్‌కు కూడా ఒక **ఇండెక్స్** ఉంటుంది, మరియు మేము సిరీస్‌పై ఆపరేషన్ చేస్తే (ఉదా., వాటిని జోడించడం), ఇండెక్స్‌ను పరిగణలోకి తీసుకుంటుంది. ఇండెక్స్ సాధారణంగా పూర్తి సంఖ్య వరుస సంఖ్య (జాబితా లేదా అర్రే నుండి సిరీస్ సృష్టించినప్పుడు డిఫాల్ట్‌గా ఉపయోగించే ఇండెక్స్) కావచ్చు, లేదా అది సంక్లిష్ట నిర్మాణం కలిగి ఉండవచ్చు, ఉదా., తేదీ వ్యవధి.
> **గమనిక**: సహాయక నోట్బుక్ [`notebook.ipynb`](notebook.ipynb) లో కొంత పరిచయ పాండాస్ కోడ్ ఉంది. మేము ఇక్కడ కొన్ని ఉదాహరణలను మాత్రమే వివరించాము, మీరు పూర్తి నోట్బుక్‌ను తప్పకుండా చూడవచ్చు.
ఒక ఉదాహరణను పరిగణించండి: మేము మా ఐస్-క్రీమ్ స్థలంలో అమ్మకాలను విశ్లేషించాలనుకుంటున్నాము. కొంత కాలం పాటు రోజుకు అమ్మిన ఐటెమ్‌ల సంఖ్య సిరీస్‌ను సృష్టిద్దాం:
```python
start_date = "Jan 1, 2020"
end_date = "Mar 31, 2020"
idx = pd.date_range(start_date,end_date)
print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.te.png)
ఇప్పుడు ప్రతీ వారం మేము స్నేహితుల కోసం పార్టీ నిర్వహిస్తున్నాము, మరియు పార్టీ కోసం అదనంగా 10 ఐస్-క్రీమ్ ప్యాకెట్లు తీసుకుంటాము అనుకోండి. మేము వారానికి ఇండెక్స్ చేయబడిన మరో సిరీస్ సృష్టించవచ్చు, దీన్ని చూపించడానికి:
```python
additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"))
```
రెండు సిరీస్‌లను కలిపితే, మొత్తం సంఖ్య వస్తుంది:
```python
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.te.png)
> **గమనిక** మేము సాదారణ సింటాక్స్ `total_items+additional_items` ఉపయోగించట్లేదు. అలా చేస్తే, ఫలిత సిరీస్‌లో చాలా `NaN` (*Not a Number*) విలువలు వస్తాయి. ఇది ఎందుకంటే `additional_items` సిరీస్‌లో కొన్ని ఇండెక్స్ పాయింట్లకు విలువలు లేవు, మరియు `NaN` ను ఏదైనా విలువకు జోడిస్తే ఫలితం `NaN` అవుతుంది. అందువల్ల జోడింపు సమయంలో `fill_value` పారామీటర్‌ను నిర్దేశించాలి.
టైమ్ సిరీస్‌తో, మేము సిరీస్‌ను వేరే సమయ వ్యవధులతో **రీసాంపుల్** చేయవచ్చు. ఉదాహరణకు, మేము నెలవారీ సగటు అమ్మకాలను లెక్కించాలనుకుంటే, క్రింది కోడ్ ఉపయోగించవచ్చు:
```python
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.te.png)
### డేటాఫ్రేమ్
డేటాఫ్రేమ్ అనేది ఒకే ఇండెక్స్ కలిగిన సిరీస్‌ల సేకరణ. మేము అనేక సిరీస్‌లను కలిపి ఒక డేటాఫ్రేమ్ సృష్టించవచ్చు:
```python
a = pd.Series(range(1,10))
b = pd.Series(["I","like","to","play","games","and","will","not","change"],index=range(0,9))
df = pd.DataFrame([a,b])
```
ఇది ఈ విధంగా ఒక ఆడంబరమైన పట్టికను సృష్టిస్తుంది:
| | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| --- | --- | ---- | --- | --- | ------ | --- | ------ | ---- | ---- |
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 1 | I | like | to | use | Python | and | Pandas | very | much |
మేము సిరీస్‌లను కాలమ్స్‌గా కూడా ఉపయోగించవచ్చు, మరియు డిక్షనరీ ఉపయోగించి కాలమ్ పేర్లను నిర్దేశించవచ్చు:
```python
df = pd.DataFrame({ 'A' : a, 'B' : b })
```
ఇది ఈ విధంగా ఒక పట్టిక ఇస్తుంది:
| | A | B |
| --- | --- | ------ |
| 0 | 1 | I |
| 1 | 2 | like |
| 2 | 3 | to |
| 3 | 4 | use |
| 4 | 5 | Python |
| 5 | 6 | and |
| 6 | 7 | Pandas |
| 7 | 8 | very |
| 8 | 9 | much |
**గమనిక** మేము ఈ పట్టిక లేఅవుట్‌ను కూడా గత పట్టికను ట్రాన్స్‌పోజ్ చేయడం ద్వారా పొందవచ్చు, ఉదా., ఇలా రాయడం ద్వారా
```python
df = pd.DataFrame([a,b]).T..rename(columns={ 0 : 'A', 1 : 'B' })
```
ఇక్కడ `.T` అనేది డేటాఫ్రేమ్‌ను ట్రాన్స్‌పోజ్ చేయడం అంటే వరుసలు మరియు కాలమ్స్ మార్చడం ఆపరేషన్, మరియు `rename` ఆపరేషన్ మాకు కాలమ్‌లను గత ఉదాహరణకు సరిపడేలా పేరు మార్చడానికి అనుమతిస్తుంది.
ఇక్కడ డేటాఫ్రేమ్స్‌పై మేము చేయగల కొన్ని ముఖ్యమైన ఆపరేషన్లు ఉన్నాయి:
**కాలమ్ ఎంపిక**. మేము వ్యక్తిగత కాలమ్‌లను `df['A']` అని రాయడం ద్వారా ఎంచుకోవచ్చు - ఈ ఆపరేషన్ ఒక సిరీస్‌ను ఇస్తుంది. మేము `df[['B','A']]` అని రాయడం ద్వారా కాలమ్‌ల ఉపసమితిని మరో డేటాఫ్రేమ్‌గా ఎంచుకోవచ్చు - ఇది మరో డేటాఫ్రేమ్ ఇస్తుంది.
**నిర్దిష్ట వరుసలను ఫిల్టర్ చేయడం**. ఉదాహరణకు, కాలమ్ `A` విలువ 5 కంటే ఎక్కువ ఉన్న వరుసలను మాత్రమే ఉంచాలంటే, మేము `df[df['A']>5]` అని రాయవచ్చు.
> **గమనిక**: ఫిల్టరింగ్ ఎలా పనిచేస్తుందంటే, `df['A']<5` అనే వ్యక్తీకరణ ఒక బూలియన్ సిరీస్‌ను ఇస్తుంది, ఇది అసలు సిరీస్ `df['A']` లో ప్రతి అంశం కోసం వ్యక్తీకరణ `True` లేదా `False` అని సూచిస్తుంది. బూలియన్ సిరీస్‌ను ఇండెక్స్‌గా ఉపయోగిస్తే, అది డేటాఫ్రేమ్‌లోని వరుసల ఉపసమితిని ఇస్తుంది. అందువల్ల, సాధారణ పైథాన్ బూలియన్ వ్యక్తీకరణను ఉపయోగించడం సాధ్యం కాదు, ఉదా., `df[df['A']>5 and df['A']<7]` తప్పు. బదులుగా, మీరు బూలియన్ సిరీస్‌లపై ప్రత్యేక `&` ఆపరేషన్ ఉపయోగించాలి, ఇలా రాయాలి `df[(df['A']>5) & (df['A']<7)]` (*బ్రాకెట్లు ఇక్కడ ముఖ్యమైనవి*).
**కొత్త గణనీయమైన కాలమ్‌లను సృష్టించడం**. మేము సులభంగా కొత్త గణనీయమైన కాలమ్‌లను క్రింది వంటి సూటిగా అర్థమయ్యే వ్యక్తీకరణ ఉపయోగించి సృష్టించవచ్చు:
```python
df['DivA'] = df['A']-df['A'].mean()
```
ఈ ఉదాహరణ A యొక్క సగటు విలువ నుండి వ్యత్యాసాన్ని లెక్కిస్తుంది. ఇక్కడ నిజంగా జరుగుతున్నది ఏమిటంటే మేము ఒక సిరీస్‌ను లెక్కిస్తున్నాము, ఆ తర్వాత ఆ సిరీస్‌ను ఎడమవైపు కేటాయించడం ద్వారా మరో కాలమ్ సృష్టిస్తున్నాము. అందువల్ల, సిరీస్‌కు అనుకూలం కాని ఆపరేషన్లు ఉపయోగించలేము, ఉదా., క్రింది కోడ్ తప్పు:
```python
# తప్పు కోడ్ -> df['ADescr'] = "తక్కువ" if df['A'] < 5 else ""
df['LenB'] = len(df['B']) # <- ి
```
ఈ చివరి ఉదాహరణ, సింటాక్సు పరంగా సరైనదైనా, తప్పు ఫలితాన్ని ఇస్తుంది, ఎందుకంటే ఇది కాలమ్‌లోని అన్ని విలువలకు సిరీస్ `B` యొక్క పొడవును కేటాయిస్తుంది, మరియు మేము ఉద్దేశించినట్లుగా వ్యక్తిగత అంశాల పొడవును కాదు.
ఇలాంటి సంక్లిష్ట వ్యక్తీకరణలను లెక్కించాల్సిన అవసరం ఉంటే, మేము `apply` ఫంక్షన్ ఉపయోగించవచ్చు. చివరి ఉదాహరణను ఇలా రాయవచ్చు:
```python
df['LenB'] = df['B'].apply(lambda x : len(x))
# లేదా
df['LenB'] = df['B'].apply(len)
```
పై ఆపరేషన్ల తర్వాత, మేము క్రింది డేటాఫ్రేమ్‌ను పొందుతాము:
| | A | B | DivA | LenB |
| --- | --- | ------ | ---- | ---- |
| 0 | 1 | I | -4.0 | 1 |
| 1 | 2 | like | -3.0 | 4 |
| 2 | 3 | to | -2.0 | 2 |
| 3 | 4 | use | -1.0 | 3 |
| 4 | 5 | Python | 0.0 | 6 |
| 5 | 6 | and | 1.0 | 3 |
| 6 | 7 | Pandas | 2.0 | 6 |
| 7 | 8 | very | 3.0 | 4 |
| 8 | 9 | much | 4.0 | 4 |
**సంఖ్యల ఆధారంగా వరుసలను ఎంచుకోవడం** `iloc` నిర్మాణం ఉపయోగించి చేయవచ్చు. ఉదాహరణకు, డేటాఫ్రేమ్ నుండి మొదటి 5 వరుసలను ఎంచుకోవడానికి:
```python
df.iloc[:5]
```
**గ్రూపింగ్** తరచుగా Excel లోని *pivot tables* లాంటి ఫలితాన్ని పొందడానికి ఉపయోగిస్తారు. ఉదాహరణకు, మేము ప్రతి `LenB` సంఖ్య కోసం కాలమ్ `A` యొక్క సగటు విలువను లెక్కించాలనుకుంటే, మేము మా డేటాఫ్రేమ్‌ను `LenB` ద్వారా గ్రూప్ చేసి, `mean` పిలవవచ్చు:
```python
df.groupby(by='LenB')[['A','DivA']].mean()
```
మేము సగటు మరియు గ్రూప్‌లో అంశాల సంఖ్యను లెక్కించాలనుకుంటే, మరింత సంక్లిష్టమైన `aggregate` ఫంక్షన్ ఉపయోగించవచ్చు:
```python
df.groupby(by='LenB') \
.aggregate({ 'DivA' : len, 'A' : lambda x: x.mean() }) \
.rename(columns={ 'DivA' : 'Count', 'A' : 'Mean'})
```
ఇది క్రింది పట్టిక ఇస్తుంది:
| LenB | Count | Mean |
| ---- | ----- | -------- |
| 1 | 1 | 1.000000 |
| 2 | 1 | 3.000000 |
| 3 | 2 | 5.000000 |
| 4 | 3 | 6.333333 |
| 6 | 2 | 6.000000 |
### డేటా పొందడం
మనం Python ఆబ్జెక్టుల నుండి Series మరియు DataFrames ను సులభంగా నిర్మించగలమని చూశాము. అయితే, డేటా సాధారణంగా టెక్స్ట్ ఫైల్ లేదా Excel పట్టిక రూపంలో వస్తుంది. అదృష్టవశాత్తు, Pandas మాకు డిస్క్ నుండి డేటాను లోడ్ చేయడానికి ఒక సులభమైన మార్గాన్ని అందిస్తుంది. ఉదాహరణకు, CSV ఫైల్ చదవడం ఇలా సులభం:
```python
df = pd.read_csv('file.csv')
```
మనం "Challenge" విభాగంలో బాహ్య వెబ్ సైట్ల నుండి డేటాను పొందడం సహా మరిన్ని లోడింగ్ ఉదాహరణలను చూడబోతున్నాము
### ముద్రణ మరియు చిత్రీకరణ
డేటా సైంటిస్ట్ తరచుగా డేటాను అన్వేషించాల్సి ఉంటుంది, కాబట్టి దాన్ని దృశ్యరూపంలో చూడగలగడం ముఖ్యమైనది. DataFrame పెద్దదైతే, మనం చాలా సార్లు మొదటి కొన్ని వరుసలను ముద్రించి మనం సరిగ్గా పని చేస్తున్నామా అని నిర్ధారించుకోవాలనుకుంటాము. ఇది `df.head()` ను పిలవడం ద్వారా చేయవచ్చు. మీరు Jupyter Notebook నుండి దీన్ని నడుపుతున్నట్లయితే, అది DataFrame ను మంచి పట్టిక రూపంలో ముద్రిస్తుంది.
మనం కొన్ని కాలమ్స్ ను దృశ్యరూపంలో చూపించడానికి `plot` ఫంక్షన్ ఉపయోగించడం కూడా చూశాము. `plot` అనేది అనేక పనులకు చాలా ఉపయోగకరమైనది, మరియు `kind=` పారామీటర్ ద్వారా అనేక రకాల గ్రాఫ్‌లను మద్దతు ఇస్తుంది, మీరు ఎప్పుడైనా మరింత క్లిష్టమైనది చిత్రీకరించడానికి ముడి `matplotlib` లైబ్రరీని ఉపయోగించవచ్చు. డేటా విజువలైజేషన్‌ను ప్రత్యేక కోర్సు పాఠాలలో వివరంగా చర్చిస్తాము.
ఈ అవలోకనం Pandas యొక్క అత్యంత ముఖ్యమైన భావనలను కవర్ చేస్తుంది, అయితే, లైబ్రరీ చాలా సమృద్ధిగా ఉంది, మరియు మీరు దానితో చేయగలిగే పనులకు ఎలాంటి పరిమితి లేదు! ఇప్పుడు ఈ జ్ఞానాన్ని నిర్దిష్ట సమస్యను పరిష్కరించడానికి ఉపయోగిద్దాం.
## 🚀 ఛాలెంజ్ 1: COVID వ్యాప్తి విశ్లేషణ
మనం మొదట దృష్టి సారించబోయే సమస్య COVID-19 మహమ్మారి వ్యాప్తి మోడలింగ్. దీని కోసం, మనం వివిధ దేశాలలో సంక్రమితుల సంఖ్యపై డేటాను ఉపయోగిస్తాము, ఇది [Center for Systems Science and Engineering](https://systems.jhu.edu/) (CSSE) ద్వారా [Johns Hopkins University](https://jhu.edu/) అందజేస్తుంది. డేటాసెట్ [ఈ GitHub రిపాజిటరీ](https://github.com/CSSEGISandData/COVID-19)లో అందుబాటులో ఉంది.
మనం డేటాతో ఎలా వ్యవహరించాలో చూపించాలనుకుంటున్నందున, మీరు [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ను తెరిచి పై నుండి క్రింద వరకు చదవమని ఆహ్వానిస్తున్నాము. మీరు సెల్స్‌ను కూడా నడిపించవచ్చు, మరియు చివరలో మేము మీ కోసం వదిలిన కొన్ని ఛాలెంజ్‌లను చేయవచ్చు.
![COVID Spread](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.te.png)
> మీరు Jupyter Notebook లో కోడ్ ఎలా నడుపాలో తెలియకపోతే, [ఈ వ్యాసం](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)ను చూడండి.
## అసంఘటిత డేటాతో పని చేయడం
డేటా చాలా సార్లు పట్టిక రూపంలో వస్తుంది, కానీ కొన్ని సందర్భాల్లో మనం తక్కువ నిర్మాణాత్మక డేటాతో వ్యవహరించాల్సి ఉంటుంది, ఉదాహరణకు, టెక్స్ట్ లేదా చిత్రాలు. ఈ సందర్భంలో, పైగా చూచిన డేటా ప్రాసెసింగ్ సాంకేతికతలను వర్తింపజేయడానికి మనం ఏదో విధంగా నిర్మాణాత్మక డేటాను **ఎగుమతి** చేయాలి. కొన్ని ఉదాహరణలు:
* టెక్స్ట్ నుండి కీలకపదాలను ఎగుమతి చేసి, ఆ కీలకపదాలు ఎంతసార్లు కనిపిస్తాయో చూడటం
* చిత్రంలోని వస్తువుల గురించి సమాచారం పొందడానికి న్యూరల్ నెట్‌వర్క్‌లను ఉపయోగించడం
* వీడియో కెమెరా ఫీడ్‌లోని వ్యక్తుల భావోద్వేగాలపై సమాచారం పొందడం
## 🚀 ఛాలెంజ్ 2: COVID పేపర్ల విశ్లేషణ
ఈ ఛాలెంజ్‌లో, మనం COVID మహమ్మారి విషయంపై కొనసాగుతాము, మరియు ఈ విషయం పై శాస్త్రీయ పత్రాలను ప్రాసెస్ చేయడంపై దృష్టి సారిస్తాము. [CORD-19 Dataset](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge) COVID పై 7000 కంటే ఎక్కువ (రాయడుతున్న సమయంలో) పత్రాలతో అందుబాటులో ఉంది, మెటాడేటా మరియు సారాంశాలతో (మరియు వాటిలో సగానికి పూర్తి టెక్స్ట్ కూడా అందుబాటులో ఉంది).
[Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health/?WT.mc_id=academic-77958-bethanycheum) కాగ్నిటివ్ సర్వీస్ ఉపయోగించి ఈ డేటాసెట్‌ను విశ్లేషించే పూర్తి ఉదాహరణ [ఈ బ్లాగ్ పోస్ట్](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/)లో వివరించబడింది. మనం ఈ విశ్లేషణ యొక్క సరళీకృత సంస్కరణను చర్చిస్తాము.
> **NOTE**: ఈ రిపాజిటరీలో డేటాసెట్ కాపీని అందించము. మీరు ముందుగా [`metadata.csv`](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv) ఫైల్‌ను [Kaggleలోని ఈ డేటాసెట్](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge) నుండి డౌన్లోడ్ చేసుకోవాలి. Kaggleలో రిజిస్ట్రేషన్ అవసరం కావచ్చు. మీరు రిజిస్ట్రేషన్ లేకుండా [ఇక్కడ](https://ai2-semanticscholar-cord-19.s3-us-west-2.amazonaws.com/historical_releases.html) నుండి కూడా డేటాసెట్‌ను డౌన్లోడ్ చేసుకోవచ్చు, కానీ అది మెటాడేటా ఫైల్‌తో పాటు అన్ని పూర్తి టెక్స్ట్‌లను కూడా కలిగి ఉంటుంది.
[`notebook-papers.ipynb`](notebook-papers.ipynb) ను తెరిచి పై నుండి క్రింద వరకు చదవండి. మీరు సెల్స్‌ను కూడా నడిపించవచ్చు, మరియు చివరలో మేము మీ కోసం వదిలిన కొన్ని ఛాలెంజ్‌లను చేయవచ్చు.
![Covid Medical Treatment](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.te.png)
## చిత్ర డేటా ప్రాసెసింగ్
ఇటీవల, చిత్రాలను అర్థం చేసుకునే శక్తివంతమైన AI మోడల్స్ అభివృద్ధి చేయబడ్డాయి. ప్రీ-ట్రెయిన్డ్ న్యూరల్ నెట్‌వర్క్‌లు లేదా క్లౌడ్ సర్వీసులు ఉపయోగించి అనేక పనులను పరిష్కరించవచ్చు. కొన్ని ఉదాహరణలు:
* **చిత్ర వర్గీకరణ**, ఇది చిత్రాన్ని ముందుగా నిర్వచించిన వర్గాలలో ఒకటిగా వర్గీకరించడంలో సహాయపడుతుంది. మీరు [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) వంటి సర్వీసులను ఉపయోగించి మీ స్వంత చిత్ర వర్గీకరణలను సులభంగా శిక్షణ ఇవ్వవచ్చు
* **వస్తు గుర్తింపు** చిత్రంలో వివిధ వస్తువులను గుర్తించడానికి. [computer vision](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum) వంటి సర్వీసులు సాధారణ వస్తువులను గుర్తించగలవు, మరియు మీరు కొన్ని ప్రత్యేక వస్తువులను గుర్తించడానికి [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) మోడల్‌ను శిక్షణ ఇవ్వవచ్చు.
* **ముఖం గుర్తింపు**, వయస్సు, లింగం మరియు భావోద్వేగ గుర్తింపుతో సహా. ఇది [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum) ద్వారా చేయవచ్చు.
అన్ని ఆ క్లౌడ్ సర్వీసులను [Python SDKs](https://docs.microsoft.com/samples/azure-samples/cognitive-services-python-sdk-samples/cognitive-services-python-sdk-samples/?WT.mc_id=academic-77958-bethanycheum) ఉపయోగించి పిలవవచ్చు, కాబట్టి అవి మీ డేటా అన్వేషణ వర్క్‌ఫ్లోలో సులభంగా చేర్చుకోవచ్చు.
ఇక్కడ చిత్ర డేటా మూలాల నుండి డేటాను అన్వేషించే కొన్ని ఉదాహరణలు ఉన్నాయి:
* [How to Learn Data Science without Coding](https://soshnikov.com/azure/how-to-learn-data-science-without-coding/) అనే బ్లాగ్ పోస్ట్‌లో మనం Instagram ఫోటోలని అన్వేషించి, ఫోటోకు ఎక్కువ లైక్స్ రావడానికి కారణమేమిటో అర్థం చేసుకోవడానికి ప్రయత్నిస్తాము. మొదట [computer vision](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum) ఉపయోగించి చిత్రాల నుండి ఎక్కువ సమాచారం ఎగుమతి చేస్తాము, తరువాత [Azure Machine Learning AutoML](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml/?WT.mc_id=academic-77958-bethanycheum) ఉపయోగించి అర్థం చేసుకునే మోడల్‌ను నిర్మిస్తాము.
* [Facial Studies Workshop](https://github.com/CloudAdvocacy/FaceStudies)లో మనం [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum) ఉపయోగించి ఈవెంట్ల ఫోటోలలోని వ్యక్తుల భావోద్వేగాలను ఎగుమతి చేసి, ప్రజలను సంతోషంగా చేసే అంశాలను అర్థం చేసుకోవడానికి ప్రయత్నిస్తాము.
## ముగింపు
మీకు ఇప్పటికే నిర్మాణాత్మక లేదా అసంఘటిత డేటా ఉన్నా, Python ఉపయోగించి మీరు డేటా ప్రాసెసింగ్ మరియు అర్థం చేసుకోవడంలో సంబంధించిన అన్ని దశలను నిర్వహించవచ్చు. ఇది డేటా ప్రాసెసింగ్ యొక్క అత్యంత అనుకూలమైన మార్గం కావచ్చు, అందుకే చాలా మంది డేటా సైంటిస్ట్‌లు Python ను వారి ప్రాథమిక సాధనంగా ఉపయోగిస్తారు. మీరు మీ డేటా సైన్స్ ప్రయాణంలో గంభీరంగా ఉంటే Python లో లోతుగా నేర్చుకోవడం మంచి ఆలోచన!
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/13)
## సమీక్ష & స్వీయ అధ్యయనం
**పుస్తకాలు**
* [Wes McKinney. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython](https://www.amazon.com/gp/product/1491957662)
**ఆన్‌లైన్ వనరులు**
* అధికారిక [10 minutes to Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) ట్యుటోరియల్
* [Pandas Visualization పై డాక్యుమెంటేషన్](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)
**Python నేర్చుకోవడం**
* [Turtle Graphics మరియు Fractals తో సరదాగా Python నేర్చుకోండి](https://github.com/shwars/pycourse)
* [Python తో మీ మొదటి అడుగులు వేయండి](https://docs.microsoft.com/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum) లో లెర్నింగ్ పాత్
## అసైన్‌మెంట్
[పై ఛాలెంజ్‌ల కోసం మరింత వివరమైన డేటా అధ్యయనం చేయండి](assignment.md)
## క్రెడిట్స్
ఈ పాఠం ♥️ తో [Dmitry Soshnikov](http://soshnikov.com) రచించారు
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,39 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "dc8f035ce92e4eaa078ab19caa68267a",
"translation_date": "2025-12-19T15:36:44+00:00",
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "te"
}
-->
# Pythonలో డేటా ప్రాసెసింగ్ కోసం అసైన్‌మెంట్
ఈ అసైన్‌మెంట్‌లో, మేము మా ఛాలెంజ్‌లలో అభివృద్ధి చేయడం ప్రారంభించిన కోడ్‌పై మీరు వివరించమని అడుగుతాము. అసైన్‌మెంట్ రెండు భాగాలుగా ఉంటుంది:
## COVID-19 వ్యాప్తి మోడలింగ్
- [ ] 5-6 వేర్వేరు దేశాల *R<sub>t</sub>* గ్రాఫ్‌లను ఒక గ్రాఫ్‌లో సరిపోల్చడానికి లేదా పక్కపక్కనే ఉన్న అనేక గ్రాఫ్‌లను ఉపయోగించి ప్లాట్ చేయండి
- [ ] మరణాలు మరియు కోలుకున్న సంఖ్యలు సంక్రమిత కేసుల సంఖ్యతో ఎలా సంబంధం ఉన్నాయో చూడండి.
- [ ] ఒక సాధారణ వ్యాధి ఎంతకాలం ఉంటుంది అనేది సంక్రమణ రేటు మరియు మరణాల రేటును దృశ్యంగా సంబంధం పెట్టుకొని, కొన్ని అసాధారణతలను చూసి కనుగొనండి. మీరు ఆ విషయం తెలుసుకోవడానికి వేర్వేరు దేశాలను చూడవలసి ఉండవచ్చు.
- [ ] మరణాల రేటును లెక్కించండి మరియు అది కాలక్రమేణా ఎలా మారుతుందో చూడండి. *లెక్కింపులు చేయడానికి ముందు వ్యాధి కాలం రోజుల్లో తీసుకుని ఒక టైమ్ సిరీస్‌ను షిఫ్ట్ చేయవలసి ఉండవచ్చు*
## COVID-19 పేపర్లు విశ్లేషణ
- [ ] వేర్వేరు మందుల సహ-సంఘటన మ్యాట్రిక్స్‌ను నిర్మించండి, మరియు ఏ మందులు తరచుగా కలిసి ఉంటాయో చూడండి (అంటే ఒక సారాంశంలో పేర్కొనబడినవి). మందులు మరియు నిర్ధారణల కోసం సహ-సంఘటన మ్యాట్రిక్స్ నిర్మించడానికి కోడ్‌ను మీరు సవరించవచ్చు.
- [ ] ఈ మ్యాట్రిక్స్‌ను హీట్‌మ్యాప్ ఉపయోగించి దృశ్యీకరించండి.
- [ ] ఒక విస్తృత లక్ష్యంగా, మందుల సహ-సంఘటనను [చోర్డ్ డయాగ్రామ్](https://en.wikipedia.org/wiki/Chord_diagram) ఉపయోగించి దృశ్యీకరించండి. [ఈ లైబ్రరీ](https://pypi.org/project/chord/) చోర్డ్ డయాగ్రామ్ గీయడంలో మీకు సహాయపడవచ్చు.
- [ ] మరో విస్తృత లక్ష్యంగా, వేర్వేరు మందుల మోతాదులను (ఉదాహరణకు *take 400mg of chloroquine daily* లో **400mg**) రెగ్యులర్ ఎక్స్‌ప్రెషన్స్ ఉపయోగించి తీసుకోండి, మరియు వేర్వేరు మందుల కోసం వేర్వేరు మోతాదులను చూపించే డేటాఫ్రేమ్‌ను నిర్మించండి. **గమనిక**: మందు పేరుకు సమీపంలో ఉన్న సంఖ్యా విలువలను పరిగణించండి.
## రూబ్రిక్
ఉదాహరణగా | సరిపడా | మెరుగుదల అవసరం
--- | --- | -- |
అన్ని పనులు పూర్తయి, గ్రాఫికల్‌గా వివరించబడి, రెండు విస్తృత లక్ష్యాలలో కనీసం ఒకటి చేర్చబడింది | 5 కంటే ఎక్కువ పనులు పూర్తయి, విస్తృత లక్ష్యాలు ప్రయత్నించబడలేదు లేదా ఫలితాలు స్పష్టంగా లేవు | 5 కంటే తక్కువ (కానీ 3 కంటే ఎక్కువ) పనులు పూర్తయి, దృశ్యీకరణలు అంశాన్ని వివరించడంలో సహాయపడవు
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

@ -0,0 +1,350 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-12-19T15:41:26+00:00",
"source_file": "2-Working-With-Data/08-data-preparation/README.md",
"language_code": "te"
}
-->
# Working with Data: Data Preparation
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/08-DataPreparation.png)|
|:---:|
|డేటా ప్రిపరేషన్ - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/14)
దాని మూలం ఆధారంగా, రా డేటా కొన్ని అసంగతులను కలిగి ఉండవచ్చు, ఇవి విశ్లేషణ మరియు మోడలింగ్‌లో సవాళ్లను సృష్టిస్తాయి. మరొక మాటలో చెప్పాలంటే, ఈ డేటాను "గందరగోళంగా" వర్గీకరించవచ్చు మరియు దీన్ని శుభ్రం చేయాల్సి ఉంటుంది. ఈ పాఠం లోపాలు, తప్పు లేదా అసంపూర్ణ డేటా సవాళ్లను నిర్వహించడానికి డేటాను శుభ్రం చేయడం మరియు మార్చడం కోసం సాంకేతికతలపై దృష్టి సారిస్తుంది. ఈ పాఠంలో కవర్ చేయబడిన విషయాలు Python మరియు Pandas లైబ్రరీని ఉపయోగించి ఉంటాయి మరియు ఈ డైరెక్టరీలోని [నోట్‌బుక్‌లో ప్రదర్శించబడతాయి](notebook.ipynb).
## డేటాను శుభ్రం చేయడం యొక్క ప్రాముఖ్యత
- **వినియోగం మరియు పునర్వినియోగం సౌలభ్యం**: డేటా సక్రమంగా క్రమబద్ధీకరించబడినప్పుడు మరియు సాధారణీకరించబడినప్పుడు, దాన్ని శోధించడం, ఉపయోగించడం మరియు ఇతరులతో పంచుకోవడం సులభం అవుతుంది.
- **సమరూపత**: డేటా సైన్స్ తరచుగా ఒక కంటే ఎక్కువ డేటాసెట్‌లతో పని చేయాల్సి ఉంటుంది, వివిధ మూలాల నుండి డేటాసెట్‌లను కలపాల్సి ఉంటుంది. ప్రతి వ్యక్తిగత డేటా సెట్ సాధారణ ప్రమాణీకరణ కలిగి ఉండటం ద్వారా, అవి ఒకే డేటాసెట్‌గా విలీనం చేసినప్పుడు కూడా డేటా ఉపయోగకరంగా ఉంటుంది.
- **మోడల్ ఖచ్చితత్వం**: శుభ్రం చేయబడిన డేటా దానిపై ఆధారపడి ఉన్న మోడల్స్ యొక్క ఖచ్చితత్వాన్ని మెరుగుపరుస్తుంది.
## సాధారణ శుభ్రపరిచే లక్ష్యాలు మరియు వ్యూహాలు
- **డేటాసెట్‌ను అన్వేషించడం**: డేటా అన్వేషణ, ఇది [తరువాతి పాఠంలో](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing) కవర్ చేయబడింది, మీరు శుభ్రం చేయాల్సిన డేటాను కనుగొనడంలో సహాయపడుతుంది. డేటాసెట్‌లో విలువలను దృశ్యంగా పరిశీలించడం మిగిలిన భాగం ఎలా ఉంటుందో అంచనా వేయడానికి లేదా పరిష్కరించవలసిన సమస్యల గురించి ఆలోచన ఇవ్వవచ్చు. అన్వేషణలో ప్రాథమిక క్వెరీలు, దృశ్యీకరణలు మరియు నమూనాలు ఉండవచ్చు.
- **ఫార్మాటింగ్**: మూలం ఆధారంగా, డేటా ప్రదర్శనలో అసంగతులు ఉండవచ్చు. ఇది విలువను శోధించడంలో మరియు ప్రాతినిధ్యం వహించడంలో సమస్యలు సృష్టించవచ్చు, ఇది డేటాసెట్‌లో కనిపిస్తే కూడా దృశ్యీకరణలలో లేదా క్వెరీ ఫలితాలలో సరిగ్గా ప్రాతినిధ్యం ఇవ్వబడదు. సాధారణ ఫార్మాటింగ్ సమస్యలు స్పేస్, తేదీలు మరియు డేటా రకాల పరిష్కారాలను కలిగి ఉంటాయి. ఫార్మాటింగ్ సమస్యలను పరిష్కరించడం సాధారణంగా డేటాను ఉపయోగిస్తున్న వ్యక్తుల బాధ్యత. ఉదాహరణకు, తేదీలు మరియు సంఖ్యలు ఎలా ప్రదర్శించబడతాయో దేశం ప్రకారం భిన్నంగా ఉండవచ్చు.
- **నకిలీలు**: ఒక విలువకు ఒక కంటే ఎక్కువ సంభవాలు ఉంటే, అది తప్పు ఫలితాలను ఉత్పత్తి చేయవచ్చు మరియు సాధారణంగా తొలగించాలి. ఇది రెండు లేదా అంతకంటే ఎక్కువ డేటాసెట్‌లను కలపడం సమయంలో సాధారణం. అయితే, కలిపిన డేటాసెట్‌లలో నకిలీ భాగాలు అదనపు సమాచారాన్ని అందించవచ్చు మరియు వాటిని నిలుపుకోవాల్సి ఉండవచ్చు.
- **లేకపోయిన డేటా**: లేకపోయిన డేటా తప్పు మరియు బలహీన లేదా పక్షపాత ఫలితాలను కలిగించవచ్చు. కొన్ని సార్లు ఈ సమస్యలను డేటాను "రిలోడ్" చేయడం, లెక్కింపు మరియు కోడ్ (Python వంటి) తో లేకపోయిన విలువలను నింపడం లేదా విలువను మరియు సంబంధిత డేటాను తొలగించడం ద్వారా పరిష్కరించవచ్చు. డేటా ఎందుకు లేకపోయిందో మరియు ఎలా లేకపోయిందో ఆధారంగా ఈ విలువలను పరిష్కరించడానికి తీసుకునే చర్యలు మారవచ్చు.
## DataFrame సమాచారం అన్వేషణ
> **అభ్యాస లక్ష్యం:** ఈ ఉపవిభాగం చివరికి, pandas DataFrames లో నిల్వ ఉన్న డేటా గురించి సాధారణ సమాచారాన్ని కనుగొనడంలో మీరు సౌకర్యంగా ఉండాలి.
మీరు మీ డేటాను pandas లో లోడ్ చేసిన తర్వాత, అది ఎక్కువగా DataFrame లో ఉంటుంది (వివరణ కోసం గత [పాఠం](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/07-python#dataframe) చూడండి). అయితే, మీ DataFrame లో 60,000 వరుసలు మరియు 400 కాలమ్స్ ఉంటే, మీరు ఏం పని చేస్తున్నారో ఎలా అర్థం చేసుకోవాలి? అదృష్టవశాత్తు, [pandas](https://pandas.pydata.org/) DataFrame గురించి మొత్తం సమాచారం మరియు మొదటి మరియు చివరి కొన్ని వరుసలను త్వరగా చూడటానికి సౌకర్యవంతమైన సాధనాలను అందిస్తుంది.
ఈ ఫంక్షనాలిటీని అన్వేషించడానికి, Python scikit-learn లైబ్రరీని దిగుమతి చేసుకుని ఒక ప్రసిద్ధ డేటాసెట్: **Iris డేటా సెట్** ఉపయోగిస్తాము.
```python
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
```
| |sepal length (cm)|sepal width (cm)|petal length (cm)|petal width (cm)|
|----------------------------------------|-----------------|----------------|-----------------|----------------|
|0 |5.1 |3.5 |1.4 |0.2 |
|1 |4.9 |3.0 |1.4 |0.2 |
|2 |4.7 |3.2 |1.3 |0.2 |
|3 |4.6 |3.1 |1.5 |0.2 |
|4 |5.0 |3.6 |1.4 |0.2 |
- **DataFrame.info**: మొదలు పెట్టడానికి, `info()` పద్ధతి DataFrame లో ఉన్న కంటెంట్ యొక్క సారాంశాన్ని ప్రింట్ చేయడానికి ఉపయోగిస్తారు. ఈ డేటాసెట్‌ను చూద్దాం:
```python
iris_df.info()
```
```
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 sepal length (cm) 150 non-null float64
1 sepal width (cm) 150 non-null float64
2 petal length (cm) 150 non-null float64
3 petal width (cm) 150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB
```
ఇందులో, *Iris* డేటాసెట్ 150 ఎంట్రీలు నాలుగు కాలమ్స్ లో కలిగి ఉంది మరియు ఎటువంటి నల్ ఎంట్రీలు లేవు. అన్ని డేటా 64-బిట్ ఫ్లోటింగ్-పాయింట్ సంఖ్యలుగా నిల్వ చేయబడింది.
- **DataFrame.head()**: తరువాత, DataFrame యొక్క వాస్తవ కంటెంట్‌ను తనిఖీ చేయడానికి, `head()` పద్ధతిని ఉపయోగిస్తాము. మన `iris_df` మొదటి కొన్ని వరుసలు ఎలా ఉంటాయో చూద్దాం:
```python
iris_df.head()
```
```
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
```
- **DataFrame.tail()**: విరుద్ధంగా, DataFrame చివరి కొన్ని వరుసలను తనిఖీ చేయడానికి, `tail()` పద్ధతిని ఉపయోగిస్తాము:
```python
iris_df.tail()
```
```
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
145 6.7 3.0 5.2 2.3
146 6.3 2.5 5.0 1.9
147 6.5 3.0 5.2 2.0
148 6.2 3.4 5.4 2.3
149 5.9 3.0 5.1 1.8
```
> **సారాంశం:** DataFrame లో సమాచారం గురించి మెటాడేటాను లేదా మొదటి మరియు చివరి కొన్ని విలువలను చూసి కూడా, మీరు పని చేస్తున్న డేటా యొక్క పరిమాణం, ఆకారం మరియు కంటెంట్ గురించి తక్షణ ఆలోచన పొందవచ్చు.
## లేకపోయిన డేటాతో వ్యవహరించడం
> **అభ్యాస లక్ష్యం:** ఈ ఉపవిభాగం చివరికి, మీరు DataFrames నుండి నల్ విలువలను ఎలా మార్చాలి లేదా తొలగించాలో తెలుసుకోవాలి.
మీరు ఉపయోగించాలనుకునే (లేదా ఉపయోగించాల్సి ఉన్న) డేటాసెట్‌లలో ఎక్కువసార్లు లేకపోయిన విలువలు ఉంటాయి. లేకపోయిన డేటాను ఎలా నిర్వహించాలో నిర్ణయించడం మీ తుది విశ్లేషణ మరియు వాస్తవ ప్రపంచ ఫలితాలపై సున్నితమైన వ్యత్యాసాలను కలిగించవచ్చు.
Pandas రెండు విధాలుగా లేకపోయిన విలువలను నిర్వహిస్తుంది. మీరు గత సెక్షన్లలో చూసిన మొదటి: `NaN`, లేదా Not a Number. ఇది వాస్తవానికి IEEE ఫ్లోటింగ్-పాయింట్ స్పెసిఫికేషన్‌లో భాగమైన ప్రత్యేక విలువ మరియు ఇది కేవలం లేకపోయిన ఫ్లోటింగ్-పాయింట్ విలువలను సూచించడానికి ఉపయోగించబడుతుంది.
ఫ్లోట్స్ తప్ప మరొక విలువలకు pandas Python `None` ఆబ్జెక్ట్‌ను ఉపయోగిస్తుంది. మీరు రెండు వేర్వేరు రకాల విలువలను ఎదుర్కొంటారని ఆశ్చర్యపోవచ్చు, కానీ ఈ డిజైన్ ఎంపికకు ప్రోగ్రామాటిక్ కారణాలు ఉన్నాయి మరియు ప్రాక్టికల్‌గా, ఈ మార్గం pandas కు చాలా సందర్భాల్లో మంచి సమతుల్యతను అందిస్తుంది. అయినప్పటికీ, `None` మరియు `NaN` రెండూ ఉపయోగించడంలో పరిమితులు కలిగి ఉంటాయి, వాటిని ఎలా ఉపయోగించాలో జాగ్రత్తగా ఉండాలి.
`NaN` మరియు `None` గురించి మరింత తెలుసుకోండి [నోట్‌బుక్](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) నుండి!
- **నల్ విలువలను గుర్తించడం**: `pandas` లో, `isnull()` మరియు `notnull()` పద్ధతులు నల్ డేటాను గుర్తించడానికి ప్రధాన పద్ధతులు. ఇవి రెండూ మీ డేటాపై బూలియన్ మాస్క్‌లను ఇస్తాయి. `NaN` విలువల కోసం `numpy` ఉపయోగిస్తాము:
```python
import numpy as np
example1 = pd.Series([0, np.nan, '', None])
example1.isnull()
```
```
0 False
1 True
2 False
3 True
dtype: bool
```
ఫలితాన్ని జాగ్రత్తగా చూడండి. ఏదైనా ఆశ్చర్యంగా ఉందా? `0` గణిత నల్ అయినప్పటికీ, అది పూర్తిగా సరైన ఇంటిజర్ మరియు pandas దాన్ని అలానే పరిగణిస్తుంది. `''` కొంచెం సున్నితమైనది. సెక్షన్ 1 లో ఖాళీ స్ట్రింగ్ విలువను సూచించడానికి దీన్ని ఉపయోగించాము, కానీ pandas దృష్టిలో ఇది స్ట్రింగ్ ఆబ్జెక్ట్ మాత్రమే, నల్ ప్రాతినిధ్యం కాదు.
ఇప్పుడు, దీన్ని తిరగబెట్టుకుని, మీరు ప్రాక్టీస్‌లో ఉపయోగించే విధంగా ఈ పద్ధతులను ఉపయోగిద్దాం. మీరు బూలియన్ మాస్క్‌లను నేరుగా ``Series`` లేదా ``DataFrame`` సూచికగా ఉపయోగించవచ్చు, ఇది ప్రత్యేకంగా లేకపోయిన (లేదా ఉన్న) విలువలతో పని చేయడానికి ఉపయోగకరం.
> **సారాంశం**: `isnull()` మరియు `notnull()` పద్ధతులు DataFrame లలో ఉపయోగించినప్పుడు సమాన ఫలితాలను ఇస్తాయి: అవి ఫలితాలు మరియు వాటి సూచికలను చూపిస్తాయి, ఇది మీ డేటాతో పని చేసే సమయంలో చాలా సహాయపడుతుంది.
- **నల్ విలువలను తొలగించడం**: లేకపోయిన విలువలను గుర్తించడం మించి, pandas `Series` మరియు `DataFrame` నుండి నల్ విలువలను తొలగించడానికి సౌకర్యవంతమైన మార్గాన్ని అందిస్తుంది. (పెద్ద డేటాసెట్‌లలో, లేకపోయిన [NA] విలువలను విశ్లేషణ నుండి తొలగించడం మరింత సలహాదాయకం.) దీన్ని ప్రదర్శించడానికి, `example1` కు తిరిగి వెళ్దాం:
```python
example1 = example1.dropna()
example1
```
```
0 0
2
dtype: object
```
ఇది `example3[example3.notnull()]` నుండి మీ అవుట్పుట్‌లాగా కనిపించాలి. ఇక్కడ తేడా ఏమిటంటే, మాస్క్ చేసిన విలువలపై సూచిక వేయడం కాకుండా, `dropna` ఆ లేకపోయిన విలువలను `Series` `example1` నుండి తొలగించింది.
DataFrame లకు రెండు డైమెన్షన్లు ఉండటంతో, డేటాను తొలగించడానికి మరిన్ని ఎంపికలు ఉంటాయి.
```python
example2 = pd.DataFrame([[1, np.nan, 7],
[2, 5, 8],
[np.nan, 6, 9]])
example2
```
| | 0 | 1 | 2 |
|------|---|---|---|
|0 |1.0|NaN|7 |
|1 |2.0|5.0|8 |
|2 |NaN|6.0|9 |
(పాండాస్ `NaN`s ను అనుకూలించడానికి రెండు కాలమ్స్‌ను ఫ్లోట్స్‌గా అప్‌కాస్ట్ చేసినట్లు గమనించారా?)
DataFrame నుండి ఒకే విలువను తొలగించలేరు, కాబట్టి మీరు పూర్తి వరుసలు లేదా కాలమ్స్‌ను తొలగించాలి. మీరు ఏది చేయాలనుకుంటున్నారో ఆధారంగా, ఒకటి లేదా మరొకటి చేయవచ్చు, అందుకే pandas రెండు ఎంపికలను ఇస్తుంది. డేటా సైన్స్‌లో కాలమ్స్ సాధారణంగా వేరియబుల్స్‌ను సూచిస్తాయి మరియు వరుసలు పరిశీలనలను సూచిస్తాయి, కాబట్టి మీరు ఎక్కువగా డేటా వరుసలను తొలగిస్తారు; `dropna()` యొక్క డిఫాల్ట్ సెట్టింగ్ ఏదైనా నల్ విలువ ఉన్న అన్ని వరుసలను తొలగించడం:
```python
example2.dropna()
```
```
0 1 2
1 2.0 5.0 8
```
అవసరమైతే, కాలమ్స్ నుండి NA విలువలను తొలగించవచ్చు. దీని కోసం `axis=1` ఉపయోగించండి:
```python
example2.dropna(axis='columns')
```
```
2
0 7
1 8
2 9
```
ఇది మీరు నిలుపుకోవాలనుకునే చాలా డేటాను తొలగించవచ్చు, ముఖ్యంగా చిన్న డేటాసెట్‌లలో. మీరు కొన్ని లేదా అన్ని నల్ విలువలు ఉన్న వరుసలు లేదా కాలమ్స్ మాత్రమే తొలగించాలనుకుంటే? మీరు `dropna` లో `how` మరియు `thresh` పారామీటర్లతో ఆ సెట్టింగులను నిర్దేశించవచ్చు.
డిఫాల్ట్‌గా, `how='any'` (మీరు స్వయంగా తనిఖీ చేయాలనుకుంటే లేదా పద్ధతికి మరెన్ని పారామీటర్లు ఉన్నాయో చూడాలనుకుంటే, కోడ్ సెల్‌లో `example4.dropna?` నడపండి). మీరు ప్రత్యామ్నాయంగా `how='all'` ను నిర్దేశించవచ్చు, ఇది కేవలం అన్ని నల్ విలువలు ఉన్న వరుసలు లేదా కాలమ్స్ మాత్రమే తొలగిస్తుంది. దీన్ని ప్రదర్శించడానికి మన ఉదాహరణ DataFrame ను విస్తరిద్దాం.
```python
example2[3] = np.nan
example2
```
| |0 |1 |2 |3 |
|------|---|---|---|---|
|0 |1.0|NaN|7 |NaN|
|1 |2.0|5.0|8 |NaN|
|2 |NaN|6.0|9 |NaN|
`thresh` పారామీటర్ మీకు మరింత సూక్ష్మ నియంత్రణ ఇస్తుంది: ఒక వరుస లేదా కాలమ్ నిలుపుకోవడానికి అవసరమైన *నాన్-నల్* విలువల సంఖ్యను మీరు సెట్ చేస్తారు:
```python
example2.dropna(axis='rows', thresh=3)
```
```
0 1 2 3
1 2.0 5.0 8 NaN
```
ఇక్కడ, మొదటి మరియు చివరి వరుసలు తొలగించబడ్డాయి, ఎందుకంటే అవి కేవలం రెండు నాన్-నల్ విలువలు మాత్రమే కలిగి ఉన్నాయి.
- **నల్ విలువలను నింపడం**: మీ డేటాసెట్ ఆధారంగా, నల్ విలువలను తొలగించడంలోకి కాకుండా సరైన విలువలతో నింపడం మరింత అర్థవంతంగా ఉండవచ్చు. మీరు `isnull` ఉపయోగించి దీన్ని చేయవచ్చు, కానీ ఇది శ్రమగా ఉండవచ్చు, ముఖ్యంగా మీరు నింపాల్సిన విలువలు ఎక్కువగా ఉన్నప్పుడు. డేటా సైన్స్‌లో ఇది సాధారణ పని కావడంతో, pandas `fillna` ను అందిస్తుంది, ఇది మిస్సింగ్ విలువలను మీరు ఎంచుకున్న విలువతో మార్చిన `Series` లేదా `DataFrame` కాపీని ఇస్తుంది. ఇది ఎలా పనిచేస్తుందో చూడటానికి మరో ఉదాహరణ `Series` సృష్టిద్దాం.
```python
example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3
```
```
a 1.0
b NaN
c 2.0
d NaN
e 3.0
dtype: float64
```
మీరు అన్ని నల్ ఎంట్రీలను ఒకే విలువతో నింపవచ్చు, ఉదాహరణకు `0`:
```python
example3.fillna(0)
```
```
a 1.0
b 0.0
c 2.0
d 0.0
e 3.0
dtype: float64
```
మీరు **ఫార్వర్డ్-ఫిల్** చేయవచ్చు, అంటే చివరి సరైన విలువను ఉపయోగించి నల్ విలువను నింపడం:
```python
example3.fillna(method='ffill')
```
```
a 1.0
b 1.0
c 2.0
d 2.0
e 3.0
dtype: float64
```
మీరు **బ్యాక్-ఫిల్** కూడా చేయవచ్చు, అంటే తదుపరి సరైన విలువను వెనుకకు పంపించి నల్ విలువను నింపడం:
```python
example3.fillna(method='bfill')
```
```
a 1.0
b 2.0
c 2.0
d 3.0
e 3.0
dtype: float64
```
మీరు ఊహించగలిగినట్లుగా, ఇది DataFrame లతో కూడా అదే విధంగా పనిచేస్తుంది, కానీ మీరు నల్ విలువలను నింపడానికి ఒక `axis` ను కూడా నిర్దేశించవచ్చు. మునుపటి `example2` ను మళ్లీ తీసుకుందాం:
```python
example2.fillna(method='ffill', axis=1)
```
```
0 1 2 3
0 1.0 1.0 7.0 7.0
1 2.0 5.0 8.0 8.0
2 NaN 6.0 9.0 9.0
```
ఫార్వర్డ్-ఫిల్లింగ్ కోసం గత విలువ అందుబాటులో లేకపోతే, నల్ విలువ అలాగే ఉంటుంది అని గమనించండి.
> **Takeaway:** మీ డేటాసెట్‌లలో లేని విలువలతో వ్యవహరించడానికి అనేక మార్గాలు ఉన్నాయి. మీరు ఉపయోగించే నిర్దిష్ట వ్యూహం (వాటిని తొలగించడం, మార్చడం లేదా మీరు వాటిని ఎలా మార్చుతారో) ఆ డేటా యొక్క ప్రత్యేకతల ద్వారా నిర్ణయించబడాలి. మీరు డేటాసెట్‌లను ఎక్కువగా నిర్వహించగలిగే మరియు వాటితో పరస్పరం చేయగలిగే కొద్దీ లేని విలువలతో ఎలా వ్యవహరించాలో మీరు మెరుగైన అవగాహనను అభివృద్ధి చేస్తారు.
## డూప్లికేట్ డేటాను తొలగించడం
> **Learning goal:** ఈ ఉపవిభాగం చివరికి, మీరు డేటాఫ్రేమ్‌ల నుండి డూప్లికేట్ విలువలను గుర్తించి తొలగించడంలో సౌకర్యంగా ఉండాలి.
లేని డేటా తో పాటు, మీరు నిజమైన ప్రపంచ డేటాసెట్‌లలో తరచుగా డూప్లికేట్ డేటాను కూడా ఎదుర్కొంటారు. అదృష్టవశాత్తు, `pandas` డూప్లికేట్ ఎంట్రీలను గుర్తించడం మరియు తొలగించడం కోసం సులభమైన మార్గాన్ని అందిస్తుంది.
- **డూప్లికేట్‌లను గుర్తించడం: `duplicated`**: మీరు pandasలోని `duplicated` పద్ధతిని ఉపయోగించి డూప్లికేట్ విలువలను సులభంగా గుర్తించవచ్చు, ఇది ఒక `DataFrame`లోని ఎంట్రీ ఒక ముందటి ఎంట్రీకు డూప్లికేట్ అయిందా అనే విషయాన్ని సూచించే బూలియన్ మాస్క్‌ను ఇస్తుంది. దీన్ని ప్రదర్శించడానికి మరొక ఉదాహరణ `DataFrame`ను సృష్టిద్దాం.
```python
example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
'numbers': [1, 2, 1, 3, 3]})
example4
```
| |letters|numbers|
|------|-------|-------|
|0 |A |1 |
|1 |B |2 |
|2 |A |1 |
|3 |B |3 |
|4 |B |3 |
```python
example4.duplicated()
```
```
0 False
1 False
2 True
3 False
4 True
dtype: bool
```
- **డూప్లికేట్‌లను తొలగించడం: `drop_duplicates`:** ఇది సాదారణంగా `duplicated` విలువలు `False` అయిన డేటా యొక్క కాపీని తిరిగి ఇస్తుంది:
```python
example4.drop_duplicates()
```
```
letters numbers
0 A 1
1 B 2
3 B 3
```
`duplicated` మరియు `drop_duplicates` రెండూ డిఫాల్ట్‌గా అన్ని కాలమ్స్‌ను పరిగణలోకి తీసుకుంటాయి కానీ మీరు మీ `DataFrame`లోని కాలమ్స్ ఉపసమితి మాత్రమే పరిశీలించమని పేర్కొనవచ్చు:
```python
example4.drop_duplicates(['letters'])
```
```
letters numbers
0 A 1
1 B 2
```
> **Takeaway:** డూప్లికేట్ డేటాను తొలగించడం ప్రతి డేటా-సైన్స్ ప్రాజెక్ట్‌లో ఒక ముఖ్యమైన భాగం. డూప్లికేట్ డేటా మీ విశ్లేషణల ఫలితాలను మార్చవచ్చు మరియు మీకు తప్పు ఫలితాలను ఇస్తుంది!
## 🚀 సవాలు
చర్చించిన అన్ని విషయాలు [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb)గా అందుబాటులో ఉన్నాయి. అదనంగా, ప్రతి విభాగం తర్వాత వ్యాయామాలు ఉన్నాయి, వాటిని ప్రయత్నించండి!
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/15)
## సమీక్ష & స్వీయ అధ్యయనం
మీ డేటాను విశ్లేషణ మరియు మోడలింగ్ కోసం సిద్ధం చేయడాన్ని కనుగొనడానికి మరియు దానికి చేరుకోవడానికి అనేక మార్గాలు ఉన్నాయి మరియు డేటాను శుభ్రపరచడం ఒక ముఖ్యమైన దశ, ఇది "ప్రాక్టికల్" అనుభవం. ఈ పాఠం కవర్ చేయని సాంకేతికతలను అన్వేషించడానికి Kaggle నుండి ఈ సవాళ్లను ప్రయత్నించండి.
- [డేటా శుభ్రపరిచే సవాలు: తేదీలను పార్స్ చేయడం](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)
- [డేటా శుభ్రపరిచే సవాలు: డేటాను స్కేల్ చేయడం మరియు సాధారణీకరించడం](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)
## అసైన్‌మెంట్
[ఫారమ్ నుండి డేటాను మూల్యాంకనం](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,30 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "f9d5a7275e046223fa6474477674b810",
"translation_date": "2025-12-19T15:45:14+00:00",
"source_file": "2-Working-With-Data/08-data-preparation/assignment.md",
"language_code": "te"
}
-->
# ఫారమ్ నుండి డేటాను మూల్యాంకనం చేయడం
ఒక క్లయింట్ తమ క్లయింట్-బేస్ గురించి కొన్ని ప్రాథమిక డేటాను సేకరించడానికి [చిన్న ఫారమ్](../../../../2-Working-With-Data/08-data-preparation/index.html) ను పరీక్షిస్తున్నారు. వారు సేకరించిన డేటాను మీరు ధృవీకరించడానికి వారి కనుగొనుటలను మీకు తీసుకువచ్చారు. మీరు ఫారమ్‌ను చూడటానికి బ్రౌజర్‌లో `index.html` పేజీని తెరవవచ్చు.
మీకు ఫారమ్ నుండి వచ్చిన ఎంట్రీలను మరియు కొన్ని ప్రాథమిక విజువలైజేషన్లను కలిగిన [csv రికార్డుల డేటాసెట్](../../../../data/form.csv) అందించబడింది. క్లయింట్ కొన్ని విజువలైజేషన్లు తప్పుగా కనిపిస్తున్నాయని సూచించారు కానీ వాటిని ఎలా పరిష్కరించాలో తెలియదు. మీరు దీన్ని [అసైన్‌మెంట్ నోట్‌బుక్](assignment.ipynb) లో అన్వేషించవచ్చు.
## సూచనలు
ఫారమ్ సరిగ్గా మరియు సुसంగతమైన సమాచారాన్ని సేకరించేందుకు ఈ పాఠంలో ఉన్న సాంకేతికతలను ఉపయోగించి సిఫార్సులు చేయండి.
## రూబ్రిక్
ఉదాహరణాత్మక | తగినంత | మెరుగుదల అవసరం
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "abc3309ab41bc5a7846f70ee1a055838",
"translation_date": "2025-12-19T13:29:19+00:00",
"source_file": "2-Working-With-Data/README.md",
"language_code": "te"
}
-->
# డేటాతో పని చేయడం
![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.te.jpg)
> ఫోటో <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> ద్వారా <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>లో
ఈ పాఠాలలో, డేటాను ఎలా నిర్వహించవచ్చు, మార్చవచ్చు మరియు అనువర్తనాలలో ఉపయోగించవచ్చు అనే కొన్ని మార్గాలను మీరు నేర్చుకుంటారు. మీరు సంబంధిత మరియు అసంబంధిత డేటాబేస్‌ల గురించి మరియు వాటిలో డేటాను ఎలా నిల్వ చేయవచ్చో తెలుసుకుంటారు. డేటాను నిర్వహించడానికి Pythonతో పని చేసే ప్రాథమిక అంశాలను మీరు నేర్చుకుంటారు, మరియు Pythonతో డేటాను నిర్వహించడానికి మరియు తవ్వడానికి మీరు ఉపయోగించగల అనేక మార్గాలను మీరు కనుగొంటారు.
### విషయాలు
1. [సంబంధిత డేటాబేస్‌లు](05-relational-databases/README.md)
2. [అసంబంధిత డేటాబేస్‌లు](06-non-relational/README.md)
3. [Pythonతో పని చేయడం](07-python/README.md)
4. [డేటా సిద్ధం చేయడం](08-data-preparation/README.md)
### క్రెడిట్స్
ఈ పాఠాలు ❤️తో రాసినవి [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) మరియు [Jasmine Greenaway](https://twitter.com/paladique)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,221 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a49d78e32e280c410f04e5f2a2068e77",
"translation_date": "2025-12-19T16:12:50+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/README.md",
"language_code": "te"
}
-->
# పరిమాణాలను దృశ్యీకరించడం
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../sketchnotes/09-Visualizing-Quantities.png)|
|:---:|
| పరిమాణాలను దృశ్యీకరించడం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
ఈ పాఠంలో మీరు పరిమాణం అనే భావన చుట్టూ ఆసక్తికరమైన దృశ్యీకరణలను సృష్టించడం ఎలా అనేది నేర్చుకోవడానికి అందుబాటులో ఉన్న అనేక Python లైబ్రరీలలో ఒకదాన్ని ఉపయోగించడం ఎలా అనేది అన్వేషించబోతున్నారు. మినెసోటా పక్షుల గురించి శుభ్రపరిచిన డేటాసెట్ ఉపయోగించి, మీరు స్థానిక వన్యజీవుల గురించి అనేక ఆసక్తికరమైన విషయాలను తెలుసుకోవచ్చు.
## [పాఠం ముందు క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/16)
## Matplotlib తో రెక్కల వ్యాప్తిని పరిశీలించండి
వివిధ రకాల సులభమైన మరియు సున్నితమైన ప్లాట్లు మరియు చార్ట్లను సృష్టించడానికి అద్భుతమైన లైబ్రరీ [Matplotlib](https://matplotlib.org/stable/index.html). సాధారణంగా, ఈ లైబ్రరీలను ఉపయోగించి డేటాను ప్లాట్ చేయడం అనేది మీ డేటాఫ్రేమ్‌లో మీరు లక్ష్యంగా పెట్టుకోవాలనుకునే భాగాలను గుర్తించడం, ఆ డేటాపై అవసరమైన మార్పులు చేయడం, దాని x మరియు y అక్ష విలువలను కేటాయించడం, ఏ రకమైన ప్లాట్ చూపించాలో నిర్ణయించడం, మరియు ఆ ప్లాట్‌ను చూపించడం అనే ప్రక్రియ. Matplotlib అనేక రకాల దృశ్యీకరణలను అందిస్తుంది, కానీ ఈ పాఠం కోసం, పరిమాణాన్ని దృశ్యీకరించడానికి అత్యంత అనుకూలమైన వాటిపై దృష్టి పెట్టుదాం: లైన్ చార్ట్లు, స్కాటర్‌ప్లాట్లు, మరియు బార్ ప్లాట్లు.
> ✅ మీ డేటా నిర్మాణానికి మరియు మీరు చెప్పదలచుకున్న కథకు సరిపోయే ఉత్తమ చార్ట్‌ను ఉపయోగించండి.
> - కాలానుగుణ ధోరణులను విశ్లేషించడానికి: లైన్
> - విలువలను పోల్చడానికి: బార్, కాలమ్, పై, స్కాటర్‌ప్లాట్
> - భాగాలు మొత్తం తో ఎలా సంబంధించాయో చూపించడానికి: పై
> - డేటా పంపిణీని చూపించడానికి: స్కాటర్‌ప్లాట్, బార్
> - ధోరణులను చూపించడానికి: లైన్, కాలమ్
> - విలువల మధ్య సంబంధాలను చూపించడానికి: లైన్, స్కాటర్‌ప్లాట్, బబుల్
మీ వద్ద ఒక డేటాసెట్ ఉంటే మరియు ఒక నిర్దిష్ట అంశం ఎంతగా ఉన్నదో కనుగొనాల్సిన అవసరం ఉంటే, మొదటి పనుల్లో ఒకటి దాని విలువలను పరిశీలించడం అవుతుంది.
✅ Matplotlib కోసం చాలా మంచి 'చీట్ షీట్లు' [ఇక్కడ](https://matplotlib.org/cheatsheets/cheatsheets.pdf) అందుబాటులో ఉన్నాయి.
## పక్షుల రెక్కల వ్యాప్తి విలువల గురించి లైన్ ప్లాట్ నిర్మించండి
ఈ పాఠం ఫోల్డర్ రూట్‌లో ఉన్న `notebook.ipynb` ఫైల్‌ను తెరవండి మరియు ఒక సెల్ జోడించండి.
> గమనిక: డేటా ఈ రిపో యొక్క రూట్‌లోని `/data` ఫోల్డర్‌లో నిల్వ చేయబడింది.
```python
import pandas as pd
import matplotlib.pyplot as plt
birds = pd.read_csv('../../data/birds.csv')
birds.head()
```
ఈ డేటా టెక్స్ట్ మరియు సంఖ్యల మిశ్రమం:
| | పేరు | శాస్త్రీయపేరు | వర్గం | ఆర్డర్ | కుటుంబం | జెనస్ | సంరక్షణ స్థితి | కనిష్ఠ పొడవు | గరిష్ఠ పొడవు | కనిష్ఠ శరీర బరువు | గరిష్ఠ శరీర బరువు | కనిష్ఠ రెక్కల వ్యాప్తి | గరిష్ఠ రెక్కల వ్యాప్తి |
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
| 0 | బ్లాక్-బెల్లీడ్ విసిలింగ్-డక్ | Dendrocygna autumnalis | డక్స్/గీస్స్/వాటర్‌ఫౌల్ | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
| 1 | ఫుల్వస్ విసిలింగ్-డక్ | Dendrocygna bicolor | డక్స్/గీస్స్/వాటర్‌ఫౌల్ | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
| 2 | స్నో గూస్ | Anser caerulescens | డక్స్/గీస్స్/వాటర్‌ఫౌల్ | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
| 3 | రాస్ గూస్ | Anser rossii | డక్స్/గీస్స్/వాటర్‌ఫౌల్ | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
| 4 | గ్రేటర్ వైట్-ఫ్రంట్ గూస్ | Anser albifrons | డక్స్/గీస్స్/వాటర్‌ఫౌల్ | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
కొన్ని సంఖ్యా డేటాను ప్రాథమిక లైన్ ప్లాట్ ఉపయోగించి ప్లాట్ చేయడం ప్రారంభిద్దాం. మీరు ఈ ఆసక్తికరమైన పక్షుల గరిష్ఠ రెక్కల వ్యాప్తి యొక్క దృశ్యాన్ని కావాలనుకుంటే.
```python
wingspan = birds['MaxWingspan']
wingspan.plot()
```
![గరిష్ఠ రెక్కల వ్యాప్తి](../../../../translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.te.png)
మీకు వెంటనే ఏమి కనిపిస్తుంది? కనీసం ఒక అవుట్లయర్ ఉన్నట్లు కనిపిస్తోంది - అది చాలా పెద్ద రెక్కల వ్యాప్తి! 2300 సెంటీమీటర్ల రెక్కల వ్యాప్తి అంటే 23 మీటర్లు - మినెసోటాలో ప్టెరోడాక్టిల్స్ తిరుగుతున్నారా? పరిశీలిద్దాం.
మీరు అవుట్లయర్లను కనుగొనడానికి Excel లో త్వరితంగా సార్ట్ చేయవచ్చు, అవి తప్పులే కావచ్చు, కానీ ప్లాట్లోనే పని కొనసాగించి దృశ్యీకరణ ప్రక్రియను కొనసాగించండి.
x-అక్షకు లేబుల్స్ జోడించి ఏ రకమైన పక్షులు ఉన్నాయో చూపించండి:
```
plt.title('Max Wingspan in Centimeters')
plt.ylabel('Wingspan (CM)')
plt.xlabel('Birds')
plt.xticks(rotation=45)
x = birds['Name']
y = birds['MaxWingspan']
plt.plot(x, y)
plt.show()
```
![లేబుల్స్ తో రెక్కల వ్యాప్తి](../../../../translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.te.png)
లేబుల్స్ 45 డిగ్రీల కోణంలో తిప్పినా కూడా చదవడానికి చాలా ఉన్నాయి. వేరే వ్యూహం ప్రయత్నిద్దాం: అవుట్లయర్లకు మాత్రమే లేబుల్స్ ఇవ్వండి మరియు లేబుల్స్‌ను చార్ట్ లోపల ఉంచండి. లేబలింగ్ కోసం మరింత స్థలం కోసం స్కాటర్ చార్ట్ ఉపయోగించవచ్చు:
```python
plt.title('Max Wingspan in Centimeters')
plt.ylabel('Wingspan (CM)')
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
for i in range(len(birds)):
x = birds['Name'][i]
y = birds['MaxWingspan'][i]
plt.plot(x, y, 'bo')
if birds['MaxWingspan'][i] > 500:
plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
plt.show()
```
ఇక్కడ ఏమి జరుగుతోంది? మీరు `tick_params` ఉపయోగించి దిగువ లేబుల్స్‌ను దాచారు మరియు మీ పక్షుల డేటాసెట్ పై లూప్ సృష్టించారు. `bo` ఉపయోగించి చిన్న నీలి బిందువులతో చార్ట్ ప్లాట్ చేసి, గరిష్ఠ రెక్కల వ్యాప్తి 500 కంటే ఎక్కువ ఉన్న పక్షుల కోసం వారి పేరు బిందువు పక్కన ప్రదర్శించారు. మీరు y అక్షం పై లేబుల్స్ కొంచెం ఆఫ్‌సెట్ చేశారు (`y * (1 - 0.05)`) మరియు పక్షి పేరును లేబుల్ గా ఉపయోగించారు.
మీరు ఏమి కనుగొన్నారు?
![అవుట్లయర్లు](../../../../translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.te.png)
## మీ డేటాను ఫిల్టర్ చేయండి
బాల్డ్ ఈగిల్ మరియు ప్రేరి ఫాల్కన్, చాలా పెద్ద పక్షులు కావచ్చు, గరిష్ఠ రెక్కల వ్యాప్తికి అదనపు `0` తప్పుగా జోడించబడినట్లు కనిపిస్తున్నాయి. 25 మీటర్ల రెక్కల వ్యాప్తి ఉన్న బాల్డ్ ఈగిల్‌ను మీరు కలుసుకోవడం అసాధ్యమే, అయితే ఉంటే, దయచేసి మాకు తెలియజేయండి! ఆ రెండు అవుట్లయర్లను తీసేసి కొత్త డేటాఫ్రేమ్ సృష్టిద్దాం:
```python
plt.title('Max Wingspan in Centimeters')
plt.ylabel('Wingspan (CM)')
plt.xlabel('Birds')
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
for i in range(len(birds)):
x = birds['Name'][i]
y = birds['MaxWingspan'][i]
if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
plt.plot(x, y, 'bo')
plt.show()
```
అవుట్లయర్లను ఫిల్టర్ చేయడం ద్వారా, మీ డేటా ఇప్పుడు మరింత సమగ్రంగా మరియు అర్థమయ్యేలా మారింది.
![రెక్కల వ్యాప్తుల స్కాటర్‌ప్లాట్](../../../../translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.te.png)
ఇప్పుడు రెక్కల వ్యాప్తి పరంగా కనీసం శుభ్రమైన డేటాసెట్ ఉన్నందున, ఈ పక్షుల గురించి మరింత తెలుసుకుందాం.
లైన్ మరియు స్కాటర్ ప్లాట్లు డేటా విలువలు మరియు వాటి పంపిణీ గురించి సమాచారం చూపించగలవు, కానీ ఈ డేటాసెట్‌లో ఉన్న విలువల గురించి ఆలోచించాలి. మీరు ఈ పరిమాణం గురించి క్రింది ప్రశ్నలకు జవాబుల కోసం దృశ్యీకరణలు సృష్టించవచ్చు:
> పక్షుల ఎన్ని వర్గాలు ఉన్నాయి, వాటి సంఖ్యలు ఎంత?
> ఎన్ని పక్షులు అంతరించిపోయాయి, ప్రమాదంలో ఉన్నవి, అరుదైనవి లేదా సాధారణమైనవి?
> లినియస్ యొక్క పదజాలంలో వివిధ జెనస్ మరియు ఆర్డర్లలో ఎన్ని ఉన్నాయి?
## బార్ చార్ట్లను అన్వేషించండి
డేటా గుంపులను చూపించాల్సినప్పుడు బార్ చార్ట్లు ఉపయోగకరంగా ఉంటాయి. ఈ డేటాసెట్‌లో ఉన్న పక్షుల వర్గాలను అన్వేషించి ఏది సంఖ్యలో అత్యధికమో చూడండి.
నోట్‌బుక్ ఫైల్‌లో ప్రాథమిక బార్ చార్ట్ సృష్టించండి
✅ గమనిక, మీరు గత సెక్షన్‌లో గుర్తించిన రెండు అవుట్లయర్ పక్షులను ఫిల్టర్ చేయవచ్చు, వారి రెక్కల వ్యాప్తిలో తప్పును సరిచేయవచ్చు, లేదా రెక్కల వ్యాప్తి విలువలపై ఆధారపడని ఈ వ్యాయామాల కోసం వాటిని ఉంచవచ్చు.
మీరు బార్ చార్ట్ సృష్టించాలనుకుంటే, మీరు దృష్టి పెట్టదలచుకున్న డేటాను ఎంచుకోవచ్చు. బార్ చార్ట్లు రా డేటా నుండి సృష్టించవచ్చు:
```python
birds.plot(x='Category',
kind='bar',
stacked=True,
title='Birds of Minnesota')
```
![పూర్తి డేటా బార్ చార్ట్](../../../../translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.te.png)
ఈ బార్ చార్ట్ చదవలేనిది ఎందుకంటే చాలా ఎక్కువ గుంపు కాని డేటా ఉంది. మీరు ప్లాట్ చేయదలచుకున్న డేటాను మాత్రమే ఎంచుకోవాలి, కాబట్టి పక్షుల పొడవును వారి వర్గం ఆధారంగా చూద్దాం.
మీ డేటాను పక్షుల వర్గం మాత్రమే కలిగి ఉండేలా ఫిల్టర్ చేయండి.
✅ మీరు డేటాను నిర్వహించడానికి Pandas ఉపయోగిస్తారని గమనించండి, తరువాత Matplotlib చార్టింగ్ చేస్తుంది.
చాలా వర్గాలు ఉన్నందున, మీరు ఈ చార్ట్‌ను నిలువుగా ప్రదర్శించి అందరి డేటా కోసం ఎత్తును సర్దుబాటు చేయవచ్చు:
```python
category_count = birds.value_counts(birds['Category'].values, sort=True)
plt.rcParams['figure.figsize'] = [6, 12]
category_count.plot.barh()
```
![వర్గం మరియు సంఖ్య](../../../../translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.te.png)
ఈ బార్ చార్ట్ ప్రతి వర్గంలో పక్షుల సంఖ్యను బాగా చూపిస్తుంది. ఒక చూపులోనే, ఈ ప్రాంతంలో అత్యధిక సంఖ్యలో పక్షులు డక్స్/గీస్స్/వాటర్‌ఫౌల్ వర్గంలో ఉన్నాయని మీరు చూడవచ్చు. మినెసోటా '10,000 సరస్సుల భూమి' కాబట్టి ఇది ఆశ్చర్యకరం కాదు!
✅ ఈ డేటాసెట్‌పై మరిన్ని లెక్కింపులు ప్రయత్నించండి. ఏదైనా ఆశ్చర్యంగా ఉందా?
## డేటాను పోల్చడం
మీరు కొత్త అక్షాలను సృష్టించి గుంపు డేటా యొక్క వివిధ పోలికలను ప్రయత్నించవచ్చు. పక్షి యొక్క వర్గం ఆధారంగా గరిష్ఠ పొడవు (MaxLength) పోలికను ప్రయత్నించండి:
```python
maxlength = birds['MaxLength']
plt.barh(y=birds['Category'], width=maxlength)
plt.rcParams['figure.figsize'] = [6, 12]
plt.show()
```
![డేటా పోలిక](../../../../translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.te.png)
ఇక్కడ ఏ ఆశ్చర్యం లేదు: హమ్మింగ్‌బర్డ్స్ పెలికాన్స్ లేదా గీస్స్ కంటే తక్కువ MaxLength కలిగి ఉంటాయి. డేటా తార్కికంగా అర్థం కావడం మంచిది!
మీరు బార్ చార్ట్ల మరింత ఆసక్తికరమైన దృశ్యీకరణలను సృష్టించవచ్చు డేటాను సూపర్ ఇంపోజ్ చేయడం ద్వారా. ఒక నిర్దిష్ట పక్షి వర్గంపై కనిష్ఠ మరియు గరిష్ఠ పొడవును సూపర్ ఇంపోజ్ చేద్దాం:
```python
minLength = birds['MinLength']
maxLength = birds['MaxLength']
category = birds['Category']
plt.barh(category, maxLength)
plt.barh(category, minLength)
plt.show()
```
ఈ ప్లాట్‌లో, మీరు పక్షి వర్గం ప్రకారం కనిష్ఠ పొడవు మరియు గరిష్ఠ పొడవు పరిధిని చూడవచ్చు. ఈ డేటా ప్రకారం, పక్షి పెద్దదైతే, దాని పొడవు పరిధి కూడా పెద్దదని మీరు సురక్షితంగా చెప్పవచ్చు. ఆసక్తికరం!
![సూపర్ ఇంపోజ్ చేసిన విలువలు](../../../../translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.te.png)
## 🚀 సవాలు
ఈ పక్షుల డేటాసెట్ ఒక నిర్దిష్ట పర్యావరణ వ్యవస్థలోని వివిధ రకాల పక్షుల గురించి సమృద్ధి సమాచారం అందిస్తుంది. ఇంటర్నెట్‌లో వెతకండి మరియు ఇతర పక్షుల డేటాసెట్లను కనుగొనగలరా చూడండి. ఈ పక్షుల చుట్టూ చార్ట్లు మరియు గ్రాఫ్‌లను నిర్మించడం సాధన చేయండి, మీరు తెలియని విషయాలను కనుగొనండి.
## [పాఠం తర్వాత క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/17)
## సమీక్ష & స్వీయ అధ్యయనం
ఈ మొదటి పాఠం Matplotlib ఉపయోగించి పరిమాణాలను దృశ్యీకరించడం గురించి కొంత సమాచారం ఇచ్చింది. దృశ్యీకరణ కోసం డేటాసెట్లతో పని చేసే ఇతర మార్గాల గురించి పరిశోధన చేయండి. [Plotly](https://github.com/plotly/plotly.py) ఒకటి, ఇది ఈ పాఠాల్లో కవర్ చేయబడదు, కాబట్టి అది ఏమి అందించగలదో చూడండి.
## అసైన్‌మెంట్
[లైన్లు, స్కాటర్స్, మరియు బార్లు](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "ad163c4fda72c8278280b61cad317ff4",
"translation_date": "2025-12-19T16:17:01+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/assignment.md",
"language_code": "te"
}
-->
# లైన్లు, స్కాటర్స్ మరియు బార్లు
## సూచనలు
ఈ పాఠంలో, మీరు లైన్ చార్ట్లు, స్కాటర్ప్లాట్లు, మరియు బార్ చార్ట్లతో ఈ డేటాసెట్ గురించి ఆసక్తికరమైన వాస్తవాలను చూపించారు. ఈ అసైన్‌మెంట్‌లో, ఒక నిర్దిష్ట పక్షి రకం గురించి ఒక వాస్తవాన్ని కనుగొనడానికి డేటాసెట్‌ను మరింత లోతుగా పరిశీలించండి. ఉదాహరణకు, స్నో గీస్ల గురించి మీరు కనుగొనగల అన్ని ఆసక్తికరమైన డేటాను విజువలైజ్ చేసే ఒక నోట్‌బుక్ సృష్టించండి. మీ నోట్‌బుక్‌లో కథ చెప్పడానికి పై మూడు ప్లాట్లను ఉపయోగించండి.
## రూబ్రిక్
ఉదాహరణగా | సరిపోతుంది | మెరుగుదల అవసరం
--- | --- | -- |
మంచి వ్యాఖ్యానాలు, బలమైన కథనం, ఆకర్షణీయమైన గ్రాఫ్‌లతో కూడిన నోట్‌బుక్ అందించబడింది | ఈ అంశాలలో ఒకటి లేకపోవడం | ఈ అంశాలలో రెండు లేకపోవడం
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకం వల్ల కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,48 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# పక్షుల గురించి తెలుసుకుందాం\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**అస్పష్టత**: \nఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.7.0",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.7.0 64-bit"
},
"interpreter": {
"hash": "70b38d7a306a849643e446cd70466270a13445e5987dfa1344ef2b127438fa4d"
},
"coopTranslator": {
"original_hash": "33e5c5d3f0630388e20f2e161bd4cdf3",
"translation_date": "2025-12-19T17:36:37+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/notebook.ipynb",
"language_code": "te"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

@ -0,0 +1,219 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "80a20467e046d312809d008395051fc7",
"translation_date": "2025-12-19T15:52:59+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/README.md",
"language_code": "te"
}
-->
# పంపిణీలను దృశ్యీకరించడం
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/10-Visualizing-Distributions.png)|
|:---:|
| పంపిణీలను దృశ్యీకరించడం - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
మునుపటి పాఠంలో, మీరు మినెసోటా పక్షుల గురించి ఒక డేటాసెట్ గురించి కొన్ని ఆసక్తికరమైన విషయాలను నేర్చుకున్నారు. మీరు అవుట్లయర్లను దృశ్యీకరించడం ద్వారా కొన్ని తప్పు డేటాను కనుగొన్నారు మరియు పక్షుల వర్గాల మధ్య గరిష్ట పొడవు ద్వారా తేడాలను పరిశీలించారు.
## [పాఠం ముందు క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/18)
## పక్షుల డేటాసెట్‌ను అన్వేషించండి
డేటాను లోతుగా పరిశీలించే మరో మార్గం దాని పంపిణీని చూడటం, లేదా డేటా ఒక అక్షం మీద ఎలా ఏర్పాటు చేయబడిందో చూడటం. ఉదాహరణకు, మీరు ఈ డేటాసెట్ కోసం మినెసోటా పక్షుల గరిష్ట రెక్కపట్టు లేదా గరిష్ట శరీర ద్రవ్యరాశి యొక్క సాధారణ పంపిణీ గురించి తెలుసుకోవాలనుకోవచ్చు.
ఈ డేటాసెట్‌లో డేటా పంపిణీల గురించి కొన్ని విషయాలను కనుగొనండి. ఈ పాఠం ఫోల్డర్ రూట్‌లో ఉన్న _notebook.ipynb_ ఫైల్‌లో, Pandas, Matplotlib మరియు మీ డేటాను దిగుమతి చేసుకోండి:
```python
import pandas as pd
import matplotlib.pyplot as plt
birds = pd.read_csv('../../data/birds.csv')
birds.head()
```
| | Name | ScientificName | Category | Order | Family | Genus | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
| 0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
| 1 | Fulvous whistling-duck | Dendrocygna bicolor | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
| 2 | Snow goose | Anser caerulescens | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
| 3 | Ross's goose | Anser rossii | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
| 4 | Greater white-fronted goose | Anser albifrons | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
సాధారణంగా, మీరు డేటా ఎలా పంపిణీ చేయబడిందో త్వరగా చూడటానికి మునుపటి పాఠంలో చేసినట్లుగా స్కాటర్ ప్లాట్ ఉపయోగించవచ్చు:
```python
birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
plt.title('Max Length per Order')
plt.ylabel('Order')
plt.xlabel('Max Length')
plt.show()
```
![max length per order](../../../../translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.te.png)
ఇది పక్షుల ఆర్డర్ ప్రకారం శరీర పొడవు యొక్క సాధారణ పంపిణీకి అవలోకనం ఇస్తుంది, కానీ ఇది నిజమైన పంపిణీలను ప్రదర్శించడానికి ఉత్తమ మార్గం కాదు. ఆ పని సాధారణంగా హిస్టోగ్రామ్ సృష్టించడం ద్వారా నిర్వహించబడుతుంది.
## హిస్టోగ్రామ్‌లతో పని చేయడం
Matplotlib డేటా పంపిణీని హిస్టోగ్రామ్‌లను ఉపయోగించి దృశ్యీకరించడానికి చాలా మంచి మార్గాలను అందిస్తుంది. ఈ రకమైన చార్ట్ ఒక బార్ చార్ట్ లాంటిది, ఇక్కడ పంపిణీని బార్ల పెరుగుదల మరియు తగ్గుదల ద్వారా చూడవచ్చు. హిస్టోగ్రామ్ నిర్మించడానికి, మీరు సంఖ్యాత్మక డేటా అవసరం. హిస్టోగ్రామ్ నిర్మించడానికి, మీరు 'hist' అనే కింద చార్ట్‌ను ప్లాట్ చేయవచ్చు. ఈ చార్ట్ మొత్తం డేటాసెట్ యొక్క సంఖ్యాత్మక డేటా పరిధి కోసం MaxBodyMass పంపిణీని చూపిస్తుంది. డేటా శ్రేణిని చిన్న బిన్లుగా విభజించడం ద్వారా, ఇది డేటా విలువల పంపిణీని ప్రదర్శించగలదు:
```python
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset](../../../../translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.te.png)
మీరు చూడగలిగినట్లుగా, ఈ డేటాసెట్‌లో 400+ పక్షులలో ఎక్కువ భాగం వారి గరిష్ట శరీర ద్రవ్యరాశి 2000 కంటే తక్కువ పరిధిలో ఉంటాయి. `bins` పారామీటర్‌ను 30 లాంటి ఎక్కువ సంఖ్యకు మార్చి డేటా గురించి మరింత అవగాహన పొందండి:
```python
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset with larger bins param](../../../../translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.te.png)
ఈ చార్ట్ మరింత సూక్ష్మంగా పంపిణీని చూపిస్తుంది. ఎడమవైపు తక్కువ వంకరగా ఉన్న చార్ట్‌ను మీరు ఒక నిర్దిష్ట పరిధిలో మాత్రమే డేటాను ఎంచుకోవడం ద్వారా సృష్టించవచ్చు:
మీ డేటాను ఫిల్టర్ చేసి శరీర ద్రవ్యరాశి 60 కంటే తక్కువ ఉన్న పక్షులను మాత్రమే తీసుకోండి, మరియు 40 `bins` చూపించండి:
```python
filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
plt.show()
```
![filtered histogram](../../../../translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.te.png)
✅ మరిన్ని ఫిల్టర్లు మరియు డేటా పాయింట్లను ప్రయత్నించండి. డేటా యొక్క పూర్తి పంపిణీని చూడటానికి, `['MaxBodyMass']` ఫిల్టర్‌ను తీసివేయండి మరియు లేబుల్ చేసిన పంపిణీలను చూపించండి.
హిస్టోగ్రామ్ కొన్ని మంచి రంగు మరియు లేబులింగ్ మెరుగుదలలను కూడా అందిస్తుంది:
రెండు పంపిణీల మధ్య సంబంధాన్ని పోల్చడానికి 2D హిస్టోగ్రామ్ సృష్టించండి. `MaxBodyMass` మరియు `MaxLength` ను పోల్చుకుందాం. Matplotlib ప్రకాశవంతమైన రంగులను ఉపయోగించి సమీకరణాన్ని చూపడానికి ఒక బిల్ట్-ఇన్ మార్గాన్ని అందిస్తుంది:
```python
x = filteredBirds['MaxBodyMass']
y = filteredBirds['MaxLength']
fig, ax = plt.subplots(tight_layout=True)
hist = ax.hist2d(x, y)
```
ఈ రెండు అంశాల మధ్య ఒక అంచనా సంబంధం కనిపిస్తుంది, ఒక ప్రత్యేకంగా బలమైన సమీకరణ బిందువు తో:
![2D plot](../../../../translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.te.png)
హిస్టోగ్రామ్‌లు సంఖ్యాత్మక డేటాకు డిఫాల్ట్‌గా బాగా పనిచేస్తాయి. మీరు టెక్స్ట్ డేటా ప్రకారం పంపిణీలను చూడాలనుకుంటే ఏమవుతుంది?
## టెక్స్ట్ డేటా ఉపయోగించి పంపిణీల కోసం డేటాసెట్‌ను అన్వేషించండి
ఈ డేటాసెట్‌లో పక్షుల వర్గం, జనస్, జాతి, కుటుంబం మరియు సంరక్షణ స్థితి గురించి మంచి సమాచారం కూడా ఉంది. ఈ సంరక్షణ సమాచారాన్ని లోతుగా పరిశీలిద్దాం. పక్షులు వారి సంరక్షణ స్థితి ప్రకారం ఎలా పంపిణీ అవుతాయి?
> ✅ డేటాసెట్‌లో, సంరక్షణ స్థితిని వివరించడానికి కొన్ని సంక్షిప్త రూపాలు ఉపయోగించబడ్డాయి. ఈ సంక్షిప్త రూపాలు [IUCN రెడ్ లిస్ట్ కేటగిరీలు](https://www.iucnredlist.org/) నుండి వచ్చాయి, ఇది జాతుల స్థితిని నమోదు చేసే సంస్థ.
>
> - CR: తీవ్రంగా ప్రమాదంలో ఉన్నది
> - EN: ప్రమాదంలో ఉన్నది
> - EX: అంతరించిపోయింది
> - LC: తక్కువ ఆందోళన
> - NT: సమీప ప్రమాదంలో ఉన్నది
> - VU: సున్నితమైనది
ఇవి టెక్స్ట్ ఆధారిత విలువలు కాబట్టి మీరు హిస్టోగ్రామ్ సృష్టించడానికి ట్రాన్స్‌ఫార్మ్ చేయాలి. filteredBirds డేటాఫ్రేమ్ ఉపయోగించి, దాని సంరక్షణ స్థితిని మరియు కనిష్ట రెక్కపట్టును ప్రదర్శించండి. మీరు ఏమి చూస్తారు?
```python
x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
kwargs = dict(alpha=0.5, bins=20)
plt.hist(x1, **kwargs, color='red', label='Extinct')
plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
plt.hist(x3, **kwargs, color='yellow', label='Endangered')
plt.hist(x4, **kwargs, color='green', label='Near Threatened')
plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
plt.hist(x6, **kwargs, color='gray', label='Least Concern')
plt.gca().set(title='Conservation Status', ylabel='Min Wingspan')
plt.legend();
```
![wingspan and conservation collation](../../../../translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.te.png)
కనిష్ట రెక్కపట్టు మరియు సంరక్షణ స్థితి మధ్య మంచి సంబంధం కనిపించడం లేదు. ఈ పద్ధతిని ఉపయోగించి డేటాసెట్ యొక్క ఇతర అంశాలను పరీక్షించండి. మీరు ఏదైనా సంబంధం కనుగొంటారా?
## డెన్సిటీ ప్లాట్లు
ముందు చూసిన హిస్టోగ్రామ్‌లు 'స్టెప్ప్డ్' లాగా ఉంటాయి మరియు మృదువుగా వంకరగా ప్రవహించవు. మరింత మృదువైన డెన్సిటీ చార్ట్ చూపించడానికి, మీరు డెన్సిటీ ప్లాట్ ప్రయత్నించవచ్చు.
డెన్సిటీ ప్లాట్లతో పని చేయడానికి, మీరు కొత్త ప్లాటింగ్ లైబ్రరీ అయిన [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) ను పరిచయం చేసుకోండి.
Seaborn లోడ్ చేసి, ఒక ప్రాథమిక డెన్సిటీ ప్లాట్ ప్రయత్నించండి:
```python
import seaborn as sns
import matplotlib.pyplot as plt
sns.kdeplot(filteredBirds['MinWingspan'])
plt.show()
```
![Density plot](../../../../translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.te.png)
మీరు చూడవచ్చు, ఈ ప్లాట్ కనిష్ట రెక్కపట్టు డేటాకు ముందు ప్లాట్‌ను ప్రతిధ్వనిస్తుంది; ఇది కేవలం కొంచెం మృదువుగా ఉంటుంది. Seaborn డాక్యుమెంటేషన్ ప్రకారం, "హిస్టోగ్రామ్‌తో పోలిస్తే, KDE ఒక ప్లాట్‌ను తక్కువ గందరగోళంగా మరియు మరింత అర్థం చేసుకునేలా ఉత్పత్తి చేయగలదు, ముఖ్యంగా బహుళ పంపిణీలను డ్రా చేస్తున్నప్పుడు. కానీ ఇది ప్రాథమిక పంపిణీ పరిమితమైన లేదా మృదువుగా లేనప్పుడు వక్రీకరణలను పరిచయం చేసే అవకాశం ఉంది. హిస్టోగ్రామ్ లాగా, ప్రాతినిధ్యం నాణ్యత కూడా మంచి స్మూతింగ్ పారామీటర్ల ఎంపికపై ఆధారపడి ఉంటుంది." [మూలం](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) అంటే, అవుట్లయర్లు ఎప్పుడూ మీ చార్ట్లను చెడగొడతాయి.
మీరు రెండవ చార్ట్‌లో ఉన్న ఆ జాగెడ్ MaxBodyMass లైన్‌ను తిరిగి చూడాలనుకుంటే, ఈ పద్ధతిని ఉపయోగించి దాన్ని బాగా మృదువుగా చేయవచ్చు:
```python
sns.kdeplot(filteredBirds['MaxBodyMass'])
plt.show()
```
![smooth bodymass line](../../../../translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.te.png)
మీకు మృదువైనది కావాలి కానీ చాలా మృదువైనది కాదు అనుకుంటే, `bw_adjust` పారామీటర్‌ను సవరించండి:
```python
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
plt.show()
```
![less smooth bodymass line](../../../../translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.te.png)
✅ ఈ రకమైన ప్లాట్ కోసం అందుబాటులో ఉన్న పారామీటర్ల గురించి చదవండి మరియు ప్రయోగాలు చేయండి!
ఈ రకమైన చార్ట్ అందమైన వివరణాత్మక దృశ్యీకరణలను అందిస్తుంది. కొన్ని కోడ్ లైన్లతో, ఉదాహరణకు, మీరు పక్షుల ఆర్డర్ ప్రకారం గరిష్ట శరీర ద్రవ్యరాశి డెన్సిటీని చూపించవచ్చు:
```python
sns.kdeplot(
data=filteredBirds, x="MaxBodyMass", hue="Order",
fill=True, common_norm=False, palette="crest",
alpha=.5, linewidth=0,
)
```
![bodymass per order](../../../../translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.te.png)
మీరు ఒకే చార్ట్‌లో అనేక వేరియబుల్స్ డెన్సిటీని కూడా మ్యాప్ చేయవచ్చు. పక్షుల గరిష్ట పొడవు మరియు కనిష్ట పొడవును వారి సంరక్షణ స్థితితో పోల్చండి:
```python
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
```
![multiple densities, superimposed](../../../../translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.te.png)
వозможно, 'Vulnerable' పక్షుల పొడవుల ప్రకారం క్లస్టర్ అర్థవంతమో లేదో పరిశోధించడం విలువైనది.
## 🚀 సవాలు
హిస్టోగ్రామ్‌లు ప్రాథమిక స్కాటర్‌ప్లాట్లు, బార్ చార్ట్లు లేదా లైన్ చార్ట్ల కంటే మరింత సాంకేతిక రకమైన చార్ట్లు. ఇంటర్నెట్‌లో హిస్టోగ్రామ్‌ల ఉపయోగానికి మంచి ఉదాహరణలను వెతకండి. అవి ఎలా ఉపయోగిస్తారు, ఏమి చూపిస్తాయి, మరియు ఏ రంగాలలో లేదా పరిశోధనా ప్రాంతాలలో ఎక్కువగా ఉపయోగిస్తారు?
## [పాఠం తర్వాత క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/19)
## సమీక్ష & స్వీయ అధ్యయనం
ఈ పాఠంలో, మీరు Matplotlib ఉపయోగించి Seaborn తో మరింత సాంకేతిక చార్ట్లను చూపడం ప్రారంభించారు. Seaborn లో `kdeplot` గురించి కొంత పరిశోధన చేయండి, ఇది "ఒక లేదా ఎక్కువ కొలతలలో నిరంతర సంభావ్యత డెన్సిటీ వక్రరేఖ". ఇది ఎలా పనిచేస్తుందో అర్థం చేసుకోవడానికి [డాక్యుమెంటేషన్](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) చదవండి.
## అసైన్‌మెంట్
[మీ నైపుణ్యాలను వర్తించండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "40eeb9b9f94009c537c7811f9f27f037",
"translation_date": "2025-12-19T15:56:44+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/assignment.md",
"language_code": "te"
}
-->
# మీ నైపుణ్యాలను వర్తింపజేయండి
## సూచనలు
ఇప్పటివరకు, మీరు మిన్నెసోటా పక్షుల డేటాసెట్‌తో పని చేసి పక్షుల సంఖ్య మరియు జనాభా సాంద్రత గురించి సమాచారం కనుగొన్నారు. ఈ సాంకేతికతలను వేరే డేటాసెట్‌తో ప్రయోగించండి, ఉదాహరణకు [Kaggle](https://www.kaggle.com/) నుండి పొందినది కావచ్చు. ఈ డేటాసెట్ గురించి కథ చెప్పడానికి ఒక నోట్‌బుక్ తయారు చేయండి, మరియు దానిని చర్చించే సమయంలో హిస్టోగ్రామ్లను ఉపయోగించండి.
## రూబ్రిక్
ఉదాహరణాత్మకంగా | సరిపడా | మెరుగుదల అవసరం
--- | --- | -- |
ఈ డేటాసెట్ యొక్క మూలం సహా వ్యాఖ్యానాలతో కూడిన నోట్‌బుక్ అందించబడింది, మరియు డేటా గురించి నిజాలు కనుగొనడానికి కనీసం 5 హిస్టోగ్రామ్లను ఉపయోగిస్తుంది. | అసంపూర్ణ వ్యాఖ్యానాలు లేదా బగ్స్ ఉన్న నోట్‌బుక్ అందించబడింది. | వ్యాఖ్యానాలు లేకుండా మరియు బగ్స్ ఉన్న నోట్‌బుక్ అందించబడింది.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# పక్షుల పంపిణీలు\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**అస్పష్టత**: \nఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "e5272cbcbffd1ddcc09e44d3d8e7e8cd",
"translation_date": "2025-12-19T17:35:11+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/notebook.ipynb",
"language_code": "te"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,207 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "42119bcc97bee88254e381156d770f3c",
"translation_date": "2025-12-19T16:01:05+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/README.md",
"language_code": "te"
}
-->
# భాగాలను దృశ్యీకరించడం
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/11-Visualizing-Proportions.png)|
|:---:|
|భాగాలను దృశ్యీకరించడం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
ఈ పాఠంలో, మీరు మష్రూమ్‌ల గురించి ఒక dataset లోని విభిన్న రకాల ఫంగస్ ఎంతమేరకు ఉన్నాయో భాగాలను దృశ్యీకరించడానికి వేరే ప్రకృతి-కేంద్రీకృత dataset ఉపయోగిస్తారు. Audubon నుండి పొందిన 23 రకాల గిల్లెడ్ మష్రూమ్‌ల వివరాలు ఉన్న Agaricus మరియు Lepiota కుటుంబాల dataset ఉపయోగించి ఈ ఆసక్తికరమైన ఫంగస్‌లను పరిశీలిద్దాం. మీరు ఈ రుచికరమైన దృశ్యీకరణలతో ప్రయోగం చేయబోతున్నారు:
- పై చార్ట్లు 🥧
- డోనట్ చార్ట్లు 🍩
- వాఫిల్ చార్ట్లు 🧇
> 💡 Microsoft Research నుండి [Charticulator](https://charticulator.com) అనే చాలా ఆసక్తికరమైన ప్రాజెక్ట్ ఉచిత డ్రాగ్ అండ్ డ్రాప్ ఇంటర్‌ఫేస్‌ను డేటా దృశ్యీకరణల కోసం అందిస్తుంది. వారి ట్యుటోరియల్స్‌లో ఒకటిలో కూడా ఈ మష్రూమ్ dataset ఉపయోగిస్తారు! కాబట్టి మీరు డేటాను అన్వేషించి లైబ్రరీని ఒకేసారి నేర్చుకోవచ్చు: [Charticulator ట్యుటోరియల్](https://charticulator.com/tutorials/tutorial4.html).
## [పాఠం ముందు క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/20)
## మీ మష్రూమ్‌లను తెలుసుకోండి 🍄
మష్రూమ్‌లు చాలా ఆసక్తికరమైనవి. వాటిని అధ్యయనం చేయడానికి ఒక dataset ను దిగుమతి చేద్దాం:
```python
import pandas as pd
import matplotlib.pyplot as plt
mushrooms = pd.read_csv('../../data/mushrooms.csv')
mushrooms.head()
```
ఒక పట్టిక విశ్లేషణకు మంచి డేటాతో ముద్రించబడింది:
| class | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | stalk-root | stalk-surface-above-ring | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
| --------- | --------- | ----------- | --------- | ------- | ------- | --------------- | ------------ | --------- | ---------- | ----------- | ---------- | ------------------------ | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
| Poisonous | Convex | Smooth | Brown | Bruises | Pungent | Free | Close | Narrow | Black | Enlarging | Equal | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Scattered | Urban |
| Edible | Convex | Smooth | Yellow | Bruises | Almond | Free | Close | Broad | Black | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Brown | Numerous | Grasses |
| Edible | Bell | Smooth | White | Bruises | Anise | Free | Close | Broad | Brown | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Brown | Numerous | Meadows |
| Poisonous | Convex | Scaly | White | Bruises | Pungent | Free | Close | Narrow | Brown | Enlarging | Equal | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Scattered | Urban |
తక్షణమే, మీరు గమనిస్తారు అన్ని డేటా వచనాత్మకంగా ఉంది. మీరు ఈ డేటాను చార్ట్‌లో ఉపయోగించడానికి మార్చుకోవాలి. నిజానికి, ఎక్కువ భాగం డేటా ఒక ఆబ్జెక్ట్‌గా ప్రదర్శించబడింది:
```python
print(mushrooms.select_dtypes(["object"]).columns)
```
ఫలితం:
```output
Index(['class', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor',
'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color',
'stalk-shape', 'stalk-root', 'stalk-surface-above-ring',
'stalk-surface-below-ring', 'stalk-color-above-ring',
'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number',
'ring-type', 'spore-print-color', 'population', 'habitat'],
dtype='object')
```
ఈ డేటాను తీసుకుని 'class' కాలమ్‌ను category గా మార్చండి:
```python
cols = mushrooms.select_dtypes(["object"]).columns
mushrooms[cols] = mushrooms[cols].astype('category')
```
```python
edibleclass=mushrooms.groupby(['class']).count()
edibleclass
```
ఇప్పుడు, మీరు మష్రూమ్ డేటాను ముద్రిస్తే, అది poisonous/edible క్లాస్ ప్రకారం వర్గీకరించబడిందని చూడవచ్చు:
| | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | ... | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
| --------- | --------- | ----------- | --------- | ------- | ---- | --------------- | ------------ | --------- | ---------- | ----------- | --- | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
| class | | | | | | | | | | | | | | | | | | | | | |
| Edible | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | ... | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 |
| Poisonous | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | ... | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 |
ఈ పట్టికలో చూపించిన క్రమాన్ని అనుసరించి మీ class category లేబుల్స్ సృష్టిస్తే, మీరు పై చార్ట్ తయారు చేయవచ్చు:
## పై!
```python
labels=['Edible','Poisonous']
plt.pie(edibleclass['population'],labels=labels,autopct='%.1f %%')
plt.title('Edible?')
plt.show()
```
ఇది, ఈ రెండు మష్రూమ్ తరగతుల ప్రకారం ఈ డేటా భాగాలను చూపించే పై చార్ట్. లేబుల్స్ క్రమం సరిగ్గా ఉండటం చాలా ముఖ్యం, కాబట్టి లేబుల్ అర్రే ఎలా నిర్మించబడిందో నిర్ధారించుకోండి!
![pie chart](../../../../translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.te.png)
## డోనట్స్!
కొంతమేర దృశ్యంగా ఆసక్తికరమైన పై చార్ట్ డోనట్ చార్ట్, ఇది మధ్యలో రంధ్రం ఉన్న పై చార్ట్. ఈ పద్ధతిని ఉపయోగించి మన డేటాను చూద్దాం.
మష్రూమ్‌లు పెరుగుతున్న వివిధ వాతావరణాలను పరిశీలించండి:
```python
habitat=mushrooms.groupby(['habitat']).count()
habitat
```
ఇక్కడ, మీరు మీ డేటాను వాతావరణం ప్రకారం వర్గీకరిస్తున్నారు. 7 వాతావరణాలు ఉన్నాయి, కాబట్టి వాటిని మీ డోనట్ చార్ట్ లేబుల్స్‌గా ఉపయోగించండి:
```python
labels=['Grasses','Leaves','Meadows','Paths','Urban','Waste','Wood']
plt.pie(habitat['class'], labels=labels,
autopct='%1.1f%%', pctdistance=0.85)
center_circle = plt.Circle((0, 0), 0.40, fc='white')
fig = plt.gcf()
fig.gca().add_artist(center_circle)
plt.title('Mushroom Habitats')
plt.show()
```
![donut chart](../../../../translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.te.png)
ఈ కోడ్ ఒక చార్ట్ మరియు మధ్యలో ఒక వృత్తాన్ని గీయడం, ఆ మధ్య వృత్తాన్ని చార్ట్‌లో చేర్చడం చేస్తుంది. మధ్య వృత్తం వెడల్పును మార్చడానికి `0.40` ను మరొక విలువగా మార్చండి.
డోనట్ చార్ట్లను లేబుల్స్ మార్చడానికి అనేక విధాలుగా సవరించవచ్చు. ముఖ్యంగా లేబుల్స్ పఠనీయత కోసం హైలైట్ చేయవచ్చు. మరింత తెలుసుకోండి [డాక్స్](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut).
ఇప్పుడు మీరు మీ డేటాను వర్గీకరించి దాన్ని పై లేదా డోనట్‌గా ప్రదర్శించడం ఎలా చేయాలో తెలుసుకున్నారంటే, మీరు ఇతర రకాల చార్ట్లను అన్వేషించవచ్చు. వాఫిల్ చార్ట్ ప్రయత్నించండి, ఇది కేవలం పరిమాణాన్ని అన్వేషించే వేరే విధానం.
## వాఫిల్స్!
'వాఫిల్' రకం చార్ట్ అనేది పరిమాణాలను 2D చతురస్రాల అర్రేగా దృశ్యీకరించే వేరే విధానం. ఈ dataset లోని మష్రూమ్ క్యాప్ రంగుల విభిన్న పరిమాణాలను దృశ్యీకరించడానికి ప్రయత్నించండి. దీని కోసం, మీరు [PyWaffle](https://pypi.org/project/pywaffle/) అనే సహాయక లైబ్రరీని ఇన్‌స్టాల్ చేసి Matplotlib ఉపయోగించాలి:
```python
pip install pywaffle
```
మీ డేటా ఒక భాగాన్ని ఎంచుకోండి:
```python
capcolor=mushrooms.groupby(['cap-color']).count()
capcolor
```
లేబుల్స్ సృష్టించి డేటాను వర్గీకరించి వాఫిల్ చార్ట్ సృష్టించండి:
```python
import pandas as pd
import matplotlib.pyplot as plt
from pywaffle import Waffle
data ={'color': ['brown', 'buff', 'cinnamon', 'green', 'pink', 'purple', 'red', 'white', 'yellow'],
'amount': capcolor['class']
}
df = pd.DataFrame(data)
fig = plt.figure(
FigureClass = Waffle,
rows = 100,
values = df.amount,
labels = list(df.color),
figsize = (30,30),
colors=["brown", "tan", "maroon", "green", "pink", "purple", "red", "whitesmoke", "yellow"],
)
```
వాఫిల్ చార్ట్ ఉపయోగించి, మీరు ఈ మష్రూమ్ dataset క్యాప్ రంగుల భాగాలను స్పష్టంగా చూడవచ్చు. ఆసక్తికరంగా, చాలా గ్రీన్-క్యాప్ మష్రూమ్‌లు ఉన్నాయి!
![waffle chart](../../../../translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.te.png)
✅ Pywaffle చార్ట్లలో [Font Awesome](https://fontawesome.com/)లో అందుబాటులో ఉన్న ఏ ఐకాన్ అయినా ఉపయోగించగలదు. చతురస్రాల స్థానంలో ఐకాన్లను ఉపయోగించి మరింత ఆసక్తికరమైన వాఫిల్ చార్ట్ సృష్టించడానికి ప్రయోగాలు చేయండి.
ఈ పాఠంలో, మీరు భాగాలను దృశ్యీకరించే మూడు మార్గాలను నేర్చుకున్నారు. మొదట, మీ డేటాను వర్గాలుగా వర్గీకరించాలి, ఆపై డేటాను ప్రదర్శించడానికి ఉత్తమ మార్గం - పై, డోనట్ లేదా వాఫిల్ ఎంచుకోవాలి. ఇవన్నీ రుచికరమైనవి మరియు dataset యొక్క తక్షణ స్నాప్‌షాట్‌ను వినియోగదారునికి అందిస్తాయి.
## 🚀 సవాలు
ఈ రుచికరమైన చార్ట్లను [Charticulator](https://charticulator.com) లో పునఃసృష్టించడానికి ప్రయత్నించండి.
## [పాఠం తర్వాత క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/21)
## సమీక్ష & స్వీయ అధ్యయనం
ఎప్పుడైతే పై, డోనట్ లేదా వాఫిల్ చార్ట్ ఉపయోగించాలో స్పష్టంగా తెలియదు. ఈ విషయంపై చదవడానికి కొన్ని వ్యాసాలు:
https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart
https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce
https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm
https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402
ఈ క్లిష్ట నిర్ణయం గురించి మరింత సమాచారం కోసం పరిశోధన చేయండి.
## అసైన్‌మెంట్
[Excel లో ప్రయత్నించండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం చేయించుకోవడం మంచిది. ఈ అనువాదం వలన కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారుల బాధ్యత మేము తీసుకోము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1e00fe6a244c2f8f9a794c862661dd4f",
"translation_date": "2025-12-19T16:04:55+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/assignment.md",
"language_code": "te"
}
-->
# Excelలో ప్రయత్నించండి
## సూచనలు
మీరు Excelలో డోనట్, పై, మరియు వాఫిల్ చార్ట్లు సృష్టించగలరని తెలుసా? మీ ఇష్టమైన డేటాసెట్ ఉపయోగించి, ఈ మూడు చార్ట్లను Excel స్ప్రెడ్షీట్‌లోనే సృష్టించండి.
## రూబ్రిక్
| అద్భుతమైనది | సరిపడినది | మెరుగుదల అవసరం |
| ------------------------------------------------------- | ------------------------------------------------- | ------------------------------------------------------ |
| అన్ని మూడు చార్ట్లతో కూడిన Excel స్ప్రెడ్షీట్ అందించబడింది | రెండు చార్ట్లతో కూడిన Excel స్ప్రెడ్షీట్ అందించబడింది | ఒకే ఒక చార్ట్‌తో కూడిన Excel స్ప్రెడ్షీట్ అందించబడింది |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# 🍄 మష్రూమ్ నిష్పత్తులు\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**అస్పష్టత**: \nఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకం వల్ల కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "397e9bbc0743761dbf72e5f16b7043e6",
"translation_date": "2025-12-19T17:35:45+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/notebook.ipynb",
"language_code": "te"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

@ -0,0 +1,190 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "0764fd4077f3f04a1d968ec371227744",
"translation_date": "2025-12-19T15:57:25+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/README.md",
"language_code": "te"
}
-->
# సంబంధాలను దృశ్యీకరించడం: తేనె గురించి అన్ని 🍯
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../sketchnotes/12-Visualizing-Relationships.png)|
|:---:|
|సంబంధాలను దృశ్యీకరించడం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
మా పరిశోధనలో ప్రకృతి దృష్టిని కొనసాగిస్తూ, [యునైటెడ్ స్టేట్స్ డిపార్ట్‌మెంట్ ఆఫ్ అగ్రికల్చర్](https://www.nass.usda.gov/About_NASS/index.php) నుండి పొందిన డేటాసెట్ ఆధారంగా వివిధ రకాల తేనె మధ్య సంబంధాలను చూపించే ఆసక్తికరమైన దృశ్యీకరణలను కనుగొనుకుందాం.
ఈ సుమారు 600 అంశాల డేటాసెట్ అనేక యుఎస్ రాష్ట్రాలలో తేనె ఉత్పత్తిని ప్రదర్శిస్తుంది. ఉదాహరణకు, మీరు కాలనీల సంఖ్య, కాలనీకి ఉత్పత్తి, మొత్తం ఉత్పత్తి, నిల్వలు, పౌండ్‌కు ధర, మరియు 1998-2012 మధ్య ప్రతి రాష్ట్రంలో ఉత్పత్తి విలువను సంవత్సరానికి ఒక వరుసగా చూడవచ్చు.
ఒక రాష్ట్రం యొక్క సంవత్సరానికి ఉత్పత్తి మరియు ఆ రాష్ట్రంలో తేనె ధర మధ్య సంబంధాన్ని దృశ్యీకరించడం ఆసక్తికరం. లేదా, రాష్ట్రాల తేనె ఉత్పత్తి కాలనీకి మధ్య సంబంధాన్ని చూపవచ్చు. ఈ సంవత్సరాల వ్యవధి 2006లో మొదటగా కనిపించిన 'CCD' లేదా 'కాలనీ కాలాప్స్ డిసార్డర్' (http://npic.orst.edu/envir/ccd.html) ను కవర్ చేస్తుంది, కాబట్టి ఇది అధ్యయనం చేయడానికి భావోద్వేగమైన డేటాసెట్.
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/22)
ఈ పాఠంలో, మీరు ముందుగా ఉపయోగించిన Seaborn ను వేరియబుల్స్ మధ్య సంబంధాలను దృశ్యీకరించడానికి మంచి లైబ్రరీగా ఉపయోగించవచ్చు. ప్రత్యేకంగా, Seaborn యొక్క `relplot` ఫంక్షన్ ఉపయోగించడం ఆసక్తికరం, ఇది స్కాటర్ ప్లాట్లు మరియు లైన్ ప్లాట్లను త్వరగా '[సాంఖ్యిక సంబంధాలు](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)' చూపించడానికి అనుమతిస్తుంది, ఇది డేటా శాస్త్రవేత్తకు వేరియబుల్స్ ఎలా సంబంధించాయో మెరుగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.
## స్కాటర్ ప్లాట్లు
ప్రతి రాష్ట్రానికి సంవత్సరానికి తేనె ధర ఎలా మారిందో చూపించడానికి స్కాటర్ ప్లాట్ ఉపయోగించండి. Seaborn, `relplot` ఉపయోగించి, రాష్ట్ర డేటాను సమూహీకరించి, వర్గీకృత మరియు సంఖ్యాత్మక డేటా కోసం డేటా పాయింట్లను ప్రదర్శిస్తుంది.
ముందుగా డేటా మరియు Seaborn ను దిగుమతి చేసుకుందాం:
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
honey = pd.read_csv('../../data/honey.csv')
honey.head()
```
మీరు గమనిస్తారు తేనె డేటాలో సంవత్సరము మరియు పౌండ్‌కు ధర వంటి కొన్ని ఆసక్తికరమైన కాలమ్స్ ఉన్నాయి. ఈ డేటాను యుఎస్ రాష్ట్రాల వారీగా సమూహీకరించి పరిశీలిద్దాం:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 |
| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 |
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
తేనె ధర మరియు దాని ఉత్పత్తి రాష్ట్రం మధ్య సంబంధాన్ని చూపించడానికి ఒక ప్రాథమిక స్కాటర్ ప్లాట్ సృష్టించండి. అన్ని రాష్ట్రాలు ప్రదర్శించడానికి `y` అక్షాన్ని పొడవుగా చేయండి:
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.te.png)
ఇప్పుడు, తేనె రంగు ప్యాలెట్ ఉపయోగించి అదే డేటాను చూపించండి, సంవత్సరాల వారీగా ధర ఎలా మారిందో చూపించడానికి. మీరు 'hue' పారామీటర్ జోడించడం ద్వారా సంవత్సరాల మార్పును చూపవచ్చు:
> ✅ Seaborn లో మీరు ఉపయోగించగల [రంగు ప్యాలెట్ల గురించి మరింత తెలుసుకోండి](https://seaborn.pydata.org/tutorial/color_palettes.html) - అందమైన రైన్బో రంగు ప్యాలెట్ ప్రయత్నించండి!
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.te.png)
ఈ రంగు ప్యాలెట్ మార్పుతో, తేనె ధరలో సంవత్సరాల వారీగా స్పష్టమైన పెరుగుదల ఉందని మీరు చూడవచ్చు. నిజంగా, డేటాలో ఒక ఉదాహరణ రాష్ట్రం (ఉదాహరణకు అరిజోనా) తీసుకుని పరిశీలిస్తే, సంవత్సరాల వారీగా ధర పెరుగుదల ఒక నమూనా కనిపిస్తుంది, కొన్ని తప్పులతో:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 |
| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 |
| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 |
| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 |
| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 |
| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 |
| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 |
| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 |
| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 |
| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 |
| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 |
| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 |
| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 |
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
రంగు బదులుగా పరిమాణం ఉపయోగించి ఈ పెరుగుదలని చూపించవచ్చు. రంగు దృష్టి లోపం ఉన్న వినియోగదారులకు ఇది మంచి ఎంపిక కావచ్చు. డాట్ వ్యాసార్థం పెరుగుదలతో ధర పెరుగుదలని చూపించడానికి మీ దృశ్యీకరణను సవరించండి:
```python
sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
```
డాట్ల పరిమాణం క్రమంగా పెరుగుతున్నట్లు మీరు చూడవచ్చు.
![scatterplot 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.te.png)
ఇది సరళమైన సరఫరా మరియు డిమాండ్ కేసా కాదా? వాతావరణ మార్పు మరియు కాలనీ కాలాప్స్ వంటి కారణాల వల్ల, సంవత్సరాల వారీగా తేనె కొరకు అందుబాటు తగ్గుతుందా, అందువల్ల ధర పెరుగుతుందా?
ఈ డేటాసెట్ లోని కొన్ని వేరియబుల్స్ మధ్య సంబంధాన్ని కనుగొనడానికి, కొన్ని లైన్ చార్ట్లను పరిశీలిద్దాం.
## లైన్ చార్ట్లు
ప్రశ్న: తేనె ధర సంవత్సరాల వారీగా స్పష్టంగా పెరుగుతుందా? మీరు ఒకే లైన్ చార్ట్ సృష్టించడం ద్వారా ఇది సులభంగా కనుగొనవచ్చు:
```python
sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
జవాబు: అవును, 2003 సంవత్సరానికి చుట్టూ కొన్ని తప్పులతో:
![line chart 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.te.png)
✅ Seaborn ఒకే లైన్ చుట్టూ డేటాను సమీకరించడంతో, "ప్రతి x విలువ వద్ద బహుళ కొలతలను సగటు మరియు సగటు చుట్టూ 95% విశ్వాస అంతరాన్ని ప్లాట్ చేస్తుంది". [మూలం](https://seaborn.pydata.org/tutorial/relational.html). ఈ సమయం తీసుకునే ప్రవర్తనను `ci=None` జోడించడం ద్వారా నిలిపివేయవచ్చు.
ప్రశ్న: 2003లో తేనె సరఫరాలో కూడా పెరుగుదల కనిపిస్తుందా? సంవత్సరాల వారీగా మొత్తం ఉత్పత్తిని చూస్తే?
```python
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.te.png)
జవాబు: అంతగా కాదు. మొత్తం ఉత్పత్తిని చూస్తే, ఆ ప్రత్యేక సంవత్సరంలో పెరిగినట్లు కనిపిస్తుంది, అయితే సాధారణంగా ఈ సంవత్సరాలలో తేనె ఉత్పత్తి తగ్గుతోంది.
ప్రశ్న: ఆ సందర్భంలో, 2003లో తేనె ధర పెరుగుదలకు కారణం ఏమిటి?
దీన్ని కనుగొనడానికి, మీరు ఫేసెట్ గ్రిడ్ ను పరిశీలించవచ్చు.
## ఫేసెట్ గ్రిడ్లు
ఫేసెట్ గ్రిడ్లు మీ డేటాసెట్ యొక్క ఒక ఫేసెట్ తీసుకుంటాయి (మా సందర్భంలో, మీరు 'సంవత్సరం' ఎంచుకుని చాలా ఫేసెట్లు ఉత్పత్తి కాకుండా చేయవచ్చు). Seaborn ఆ ఫేసెట్ల కోసం మీ ఎంచుకున్న x మరియు y కోఆర్డినేట్లతో ప్రతి ఫేసెట్ కోసం ప్లాట్ తయారు చేస్తుంది, ఇది సులభమైన దృశ్య తులన కోసం. 2003 ఈ రకమైన తులనలో ప్రత్యేకంగా కనిపిస్తుందా?
[Seaborn డాక్యుమెంటేషన్](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid) సూచించినట్లుగా `relplot` ఉపయోగించి ఫేసెట్ గ్రిడ్ సృష్టించండి.
```python
sns.relplot(
data=honey,
x="yieldpercol", y="numcol",
col="year",
col_wrap=3,
kind="line"
)
```
ఈ దృశ్యీకరణలో, మీరు సంవత్సరాల వారీగా కాలనీకి ఉత్పత్తి మరియు కాలనీల సంఖ్యను పక్కపక్కనే 3 కాలమ్స్ లో ర్యాప్ సెట్ తో పోల్చవచ్చు:
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.te.png)
ఈ డేటాసెట్ కోసం, కాలనీల సంఖ్య మరియు వారి ఉత్పత్తి విషయంలో సంవత్సరాల వారీగా మరియు రాష్ట్రాల వారీగా ప్రత్యేకంగా ఏమీ కనిపించదు. ఈ రెండు వేరియబుల్స్ మధ్య సంబంధం కనుగొనడానికి వేరే దృశ్య పద్ధతి ఉందా?
## డ్యూయల్-లైన్ ప్లాట్లు
రెండు లైన్ ప్లాట్లను ఒకదానిపై మరొకటి ఉంచి, Seaborn యొక్క 'despine' ఉపయోగించి పై మరియు కుడి స్పైన్లను తీసివేసి, `ax.twinx` [Matplotlib నుండి](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html) తీసుకుని మల్టిలైన్ ప్లాట్ ప్రయత్నించండి. Twinx ఒక చార్ట్ x అక్షాన్ని పంచుకుని రెండు y అక్షాలను ప్రదర్శించడానికి అనుమతిస్తుంది. కాబట్టి, కాలనీకి ఉత్పత్తి మరియు కాలనీల సంఖ్యను సూపరింపోజ్ చేయండి:
```python
fig, ax = plt.subplots(figsize=(12,6))
lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey,
label = 'Number of bee colonies', legend=False)
sns.despine()
plt.ylabel('# colonies')
plt.title('Honey Production Year over Year');
ax2 = ax.twinx()
lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r",
label ='Yield per colony', legend=False)
sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.te.png)
2003 సంవత్సరానికి చుట్టూ ఏదీ ప్రత్యేకంగా కనిపించకపోయినా, ఈ పాఠాన్ని కొంత సంతోషకరమైన నోటుతో ముగించడానికి ఇది సహాయపడుతుంది: మొత్తం కాలనీల సంఖ్య తగ్గుతున్నప్పటికీ, వారి ఉత్పత్తి తగ్గుతున్నా కాలనీల సంఖ్య స్థిరపడుతోంది.
పోరు, తేనెలు, పోరు!
🐝❤️
## 🚀 సవాలు
ఈ పాఠంలో, మీరు స్కాటర్ ప్లాట్లు మరియు లైన్ గ్రిడ్లు, ఫేసెట్ గ్రిడ్లు వంటి ఇతర ఉపయోగాల గురించి కొంత తెలుసుకున్నారు. మీరు ఈ పాఠాల ముందు ఉపయోగించిన వేరే డేటాసెట్ ఉపయోగించి ఫేసెట్ గ్రిడ్ సృష్టించడానికి సవాలు చేయండి. అవి సృష్టించడానికి ఎంత సమయం పడుతుందో గమనించండి మరియు ఈ సాంకేతికతలతో మీరు ఎంత గ్రిడ్లు డ్రా చేయాలో జాగ్రత్తగా ఉండాల్సిన అవసరం గురించి గమనించండి.
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/23)
## సమీక్ష & స్వీయ అధ్యయనం
లైన్ ప్లాట్లు సులభంగా లేదా చాలా సంక్లిష్టంగా ఉండవచ్చు. మీరు వాటిని ఎలా నిర్మించవచ్చో [Seaborn డాక్యుమెంటేషన్](https://seaborn.pydata.org/generated/seaborn.lineplot.html) లో కొంత చదవండి. ఈ పాఠంలో మీరు నిర్మించిన లైన్ చార్ట్లను డాక్స్ లో సూచించిన ఇతర పద్ధతులతో మెరుగుపరచడానికి ప్రయత్నించండి.
## అసైన్‌మెంట్
[తేనెగుళ్లలోకి డైవ్ చేయండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "680419753c086eef51be86607c623945",
"translation_date": "2025-12-19T15:59:48+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/assignment.md",
"language_code": "te"
}
-->
# తేనెతోటలోకి డైవ్ చేయండి
## సూచనలు
ఈ పాఠంలో మీరు తేనెలు మరియు వాటి తేనె ఉత్పత్తి గురించి ఒక డేటాసెట్‌ను పరిశీలించడం ప్రారంభించారు, ఇది మొత్తం తేనెతోట జనాభాలో నష్టాలను చూసింది. ఈ డేటాసెట్‌ను మరింత లోతుగా పరిశీలించి, రాష్ట్రం వారీగా మరియు సంవత్సరం వారీగా తేనెతోట జనాభా ఆరోగ్య కథను చెప్పగల నోట్‌బుక్‌ను నిర్మించండి. ఈ డేటాసెట్ గురించి మీరు ఏదైనా ఆసక్తికరమైనది కనుగొన్నారా?
## రూబ్రిక్
| అద్భుతమైనది | సరిపోతుంది | మెరుగుదల అవసరం |
| ------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------- | ---------------------------------------- |
| డేటాసెట్ యొక్క అంశాలను చూపించే కనీసం మూడు వేర్వేరు చార్ట్లతో కథతో కూడిన నోట్‌బుక్ ఒకటి సమర్పించబడింది, రాష్ట్రం వారీగా మరియు సంవత్సరం వారీగా | నోట్‌బుక్ ఈ అంశాలలో ఒకదాన్ని欠缺ం | నోట్‌బుక్ ఈ అంశాలలో రెండు欠缺ం |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# తేనె ఉత్పత్తి దృశ్యీకరణ 🍯 🐝\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**అస్పష్టత**: \nఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం చేయించుకోవడం మంచిది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారులు కోసం మేము బాధ్యత వహించము.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "0f988634b7192626d91cc33b4b6388c5",
"translation_date": "2025-12-19T17:35:28+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/notebook.ipynb",
"language_code": "te"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,184 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "cfb068050337a36e348debaa502a24fa",
"translation_date": "2025-12-19T16:06:38+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/README.md",
"language_code": "te"
}
-->
# అర్థవంతమైన విజువలైజేషన్లు చేయడం
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../sketchnotes/13-MeaningfulViz.png)|
|:---:|
| అర్థవంతమైన విజువలైజేషన్లు - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
> "మీరు డేటాను ఎంతకాలం పీడిస్తే, అది ఏదైనా ఒప్పుకుంటుంది" -- [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase)
డేటా సైంటిస్ట్ యొక్క ప్రాథమిక నైపుణ్యాలలో ఒకటి, మీరు కలిగి ఉండవచ్చునని అనుకునే ప్రశ్నలకు సహాయం చేసే అర్థవంతమైన డేటా విజువలైజేషన్ సృష్టించే సామర్థ్యం. మీ డేటాను విజువలైజ్ చేయడానికి ముందు, మీరు గత పాఠాలలో చేసినట్లుగా అది శుభ్రపరచబడినదిగా మరియు సిద్ధంగా ఉందని నిర్ధారించుకోవాలి. ఆ తర్వాత, మీరు డేటాను ఎలా ఉత్తమంగా ప్రదర్శించాలో నిర్ణయించుకోవచ్చు.
ఈ పాఠంలో, మీరు సమీక్షించబోతున్నారు:
1. సరైన చార్ట్ రకాన్ని ఎలా ఎంచుకోవాలి
2. మోసపూరిత చార్టింగ్‌ను ఎలా నివారించాలి
3. రంగులతో ఎలా పని చేయాలి
4. చదవడానికి సులభంగా మీ చార్టులను ఎలా స్టైల్ చేయాలి
5. యానిమేటెడ్ లేదా 3D చార్టింగ్ పరిష్కారాలను ఎలా నిర్మించాలి
6. సృజనాత్మక విజువలైజేషన్‌ను ఎలా నిర్మించాలి
## [ప్రీ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/24)
## సరైన చార్ట్ రకాన్ని ఎంచుకోండి
మునుపటి పాఠాలలో, మీరు Matplotlib మరియు Seaborn ఉపయోగించి అన్ని రకాల ఆసక్తికరమైన డేటా విజువలైజేషన్లను నిర్మించడంలో ప్రయోగించారు. సాధారణంగా, మీరు అడుగుతున్న ప్రశ్నకు సరిపోయే [సరైన రకమైన చార్ట్](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) ను ఈ పట్టిక ఉపయోగించి ఎంచుకోవచ్చు:
| మీరు చేయాలి: | మీరు ఉపయోగించాలి: |
| -------------------------- | ------------------------------- |
| సమయానుగుణంగా డేటా ధోరణులను చూపించండి | లైన్ |
| వర్గాలను పోల్చండి | బార్, పై |
| మొత్తం మొత్తాలను పోల్చండి | పై, స్టాక్డ్ బార్ |
| సంబంధాలను చూపించండి | స్కాటర్, లైన్, ఫేసెట్, డ్యూయల్ లైన్ |
| పంపిణీలను చూపించండి | స్కాటర్, హిస్టోగ్రామ్, బాక్స్ |
| భాగాలను చూపించండి | పై, డోనట్, వాఫుల్ |
> ✅ మీ డేటా నిర్మాణం ఆధారంగా, మీరు ఒక నిర్దిష్ట చార్ట్‌కు మద్దతు ఇవ్వడానికి దాన్ని టెక్స్ట్ నుండి సంఖ్యాత్మకంగా మార్చుకోవాల్సి ఉండవచ్చు.
## మోసాన్ని నివారించండి
డేటా సైంటిస్ట్ సరైన డేటాకు సరైన చార్ట్ ఎంచుకోవడంలో జాగ్రత్తగా ఉన్నా కూడా, డేటాను ఒక పాయింట్ నిరూపించడానికి ప్రదర్శించే అనేక మార్గాలు ఉన్నాయి, తరచుగా డేటాను తక్కువగా చూపించే ఖర్చుతో. మోసపూరిత చార్టులు మరియు ఇన్ఫోగ్రాఫిక్స్ అనేక ఉదాహరణలు ఉన్నాయి!
[![అల్బెర్టో కైరో ద్వారా "హౌ చార్ట్స్ లై"](../../../../translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.te.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 మోసపూరిత చార్టుల గురించి కాన్ఫరెన్స్ టాక్ కోసం పై చిత్రం క్లిక్ చేయండి
ఈ చార్ట్ X అక్షాన్ని తిరగబెడుతుంది, తేదీ ఆధారంగా నిజానికి వ్యతిరేకంగా చూపించడానికి:
![తప్పు చార్ట్ 1](../../../../translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.te.png)
[ఈ చార్ట్](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) మరింత మోసపూరితంగా ఉంది, కళ్ళు కుడి వైపు ఆకర్షించబడి, కాలక్రమేణా COVID కేసులు వివిధ కౌంటీలలో తగ్గాయని తేల్చుకుంటుంది. నిజానికి, తేదీలను జాగ్రత్తగా పరిశీలిస్తే, అవి మోసపూరిత దిగువ ధోరణిని ఇవ్వడానికి తిరగబడినట్లు కనుగొంటారు.
![తప్పు చార్ట్ 2](../../../../translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.te.jpg)
ఈ ప్రసిద్ధ ఉదాహరణ రంగు మరియు తిరగబడిన Y అక్షాన్ని ఉపయోగించి మోసం చేస్తుంది: తుపాకీ మిత్ర చట్టం ఆమోదం తర్వాత తుపాకీ మరణాలు పెరిగాయని తేల్చుకోవడం కాకుండా, కళ్ళు వ్యతిరేకం నిజమని భావించడానికి మోసం చేస్తాయి:
![తప్పు చార్ట్ 3](../../../../translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.te.jpg)
ఈ విచిత్ర చార్ట్ భాగస్వామ్యాన్ని ఎలా మోసం చేయవచ్చో హాస్యాస్పదంగా చూపిస్తుంది:
![తప్పు చార్ట్ 4](../../../../translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.te.jpg)
అసమానమైన వాటిని పోల్చడం మరొక మోసపూరిత ట్రిక్. 'స్పూరియస్ కారెలేషన్స్' గురించి ఒక [అద్భుతమైన వెబ్ సైట్](https://tylervigen.com/spurious-correlations) ఉంది, ఇది మైన్లో విడాకుల రేటు మరియు మార్జరిన్ వినియోగం వంటి విషయాలను కలిపి 'వాస్తవాలు' చూపిస్తుంది. Reddit గ్రూప్ కూడా డేటా యొక్క [అందం లేని ఉపయోగాలను](https://www.reddit.com/r/dataisugly/top/?t=all) సేకరిస్తుంది.
మోసపూరిత చార్టుల ద్వారా కళ్ళు ఎంత సులభంగా మోసపోయే అవకాశం ఉందో అర్థం చేసుకోవడం ముఖ్యం. డేటా సైంటిస్ట్ ఉద్దేశ్యం మంచిదైనా, చాలా వర్గాలను చూపించే పై చార్ట్ వంటి చెడు రకమైన చార్ట్ ఎంపిక మోసపూరితంగా ఉండవచ్చు.
## రంగు
పై 'ఫ్లోరిడా తుపాకీ హింస' చార్ట్‌లో మీరు చూసినట్లుగా, రంగు చార్టులకు అదనపు అర్థాన్ని అందిస్తుంది, ముఖ్యంగా Matplotlib మరియు Seaborn వంటి లైబ్రరీలు ఉపయోగించని చార్టులకు, ఇవి వివిధ ధృవీకరించబడిన రంగు లైబ్రరీలు మరియు ప్యాలెట్లతో వస్తాయి. మీరు చేతితో చార్ట్ తయారు చేస్తుంటే, [రంగు సిద్ధాంతం](https://colormatters.com/color-and-design/basic-color-theory) గురించి కొంత అధ్యయనం చేయండి
> ✅ చార్టులను డిజైన్ చేసే సమయంలో, విజువలైజేషన్‌లో ప్రాప్యత ఒక ముఖ్యమైన అంశం అని గుర్తుంచుకోండి. మీ వినియోగదారుల్లో కొంతమంది రంగు దృష్టి లోపం కలిగి ఉండవచ్చు - మీ చార్ట్ దృష్టి లోపం ఉన్న వినియోగదారులకు బాగా ప్రదర్శించబడుతుందా?
మీ చార్ట్ కోసం రంగులను ఎంచుకునేటప్పుడు జాగ్రత్త వహించండి, ఎందుకంటే రంగు మీరు ఉద్దేశించని అర్థాన్ని కూడా వ్యక్తం చేయవచ్చు. పై 'ఎత్తు' చార్ట్‌లో 'పింక్ లేడీస్' స్పష్టంగా 'స్త్రీలింగ' అర్థాన్ని వ్యక్తం చేస్తాయి, ఇది చార్ట్ యొక్క విచిత్రతకు మరింత జోడిస్తుంది.
[రంగు అర్థం](https://colormatters.com/color-symbolism/the-meanings-of-colors) ప్రపంచంలోని వివిధ భాగాల్లో భిన్నంగా ఉండవచ్చు, మరియు వాటి షేడ్ల ప్రకారం అర్థం మారవచ్చు. సాధారణంగా, రంగుల అర్థాలు:
| రంగు | అర్థం |
| ------ | ------------------- |
| ఎరుపు | శక్తి |
| నీలం | నమ్మకం, విశ్వాసం |
| పసుపు | సంతోషం, జాగ్రత్త |
| ఆకుపచ్చ | పర్యావరణం, అదృష్టం, ఈర్ష్య |
| గులాబీ | సంతోషం |
| కమలం | ఉత్సాహం |
మీకు కస్టమ్ రంగులతో చార్ట్ నిర్మించమని బాధ్యత ఉంటే, మీ చార్టులు ప్రాప్యత కలిగి ఉండాలని మరియు మీరు వ్యక్తం చేయదలచిన అర్థంతో రంగు సరిపోవాలని నిర్ధారించుకోండి.
## చదవడానికి సులభంగా మీ చార్టులను స్టైల్ చేయడం
చార్టులు చదవడానికి సులభంగా లేకపోతే అర్థవంతంగా ఉండవు! మీ డేటాతో బాగా సరిపడేలా మీ చార్ట్ యొక్క వెడల్పు మరియు ఎత్తును స్టైల్ చేయడానికి కొంత సమయం తీసుకోండి. ఒక వేరియబుల్ (ఉదాహరణకు అన్ని 50 రాష్ట్రాలు) ప్రదర్శించాల్సిన అవసరం ఉంటే, అవి Y అక్షంపై నిలువుగా చూపించండి, తద్వారా ఆడంబరంగా స్క్రోల్ అయ్యే చార్ట్ తప్పించవచ్చు.
మీ అక్షాలను లేబుల్ చేయండి, అవసరమైతే లెజెండ్ ఇవ్వండి, మరియు డేటా మెరుగైన అవగాహన కోసం టూల్‌టిప్స్ అందించండి.
మీ డేటా X అక్షంపై వర్ణనాత్మకంగా ఉంటే, చదవడానికి మెరుగ్గా ఉండేందుకు టెక్స్ట్‌ను కోణంలో చూపించవచ్చు. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) 3D ప్లాటింగ్ అందిస్తుంది, మీ డేటా మద్దతు ఇస్తే. సున్నితమైన డేటా విజువలైజేషన్లు `mpl_toolkits.mplot3d` ఉపయోగించి తయారు చేయవచ్చు.
![3D ప్లాట్లు](../../../../translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.te.png)
## యానిమేషన్ మరియు 3D చార్ట్ ప్రదర్శన
ఈ రోజుల్లో కొన్ని ఉత్తమ డేటా విజువలైజేషన్లు యానిమేటెడ్ ఉంటాయి. షిర్లీ వూ D3 తో అద్భుతమైనవి చేసింది, ఉదాహరణకు '[ఫిల్మ్ ఫ్లవర్స్](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ఇందులో ప్రతి పువ్వు ఒక సినిమా విజువలైజేషన్. గార్డియన్ కోసం మరో ఉదాహరణ 'బస్స్డ్ అవుట్', ఇది గ్రీన్సాక్ మరియు D3 తో విజువలైజేషన్లను కలిపి స్క్రోలిటెల్లింగ్ ఆర్టికల్ ఫార్మాట్‌లో ఇంటరాక్టివ్ అనుభవం, NYC తన హోంలెస్ సమస్యను నగరానికి బయటికి బస్సు ద్వారా ఎలా నిర్వహిస్తుందో చూపిస్తుంది.
![బస్సింగ్](../../../../translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.te.png)
> "బస్స్డ్ అవుట్: హౌ అమెరికా మూవ్స్ ఇట్ హోంలెస్" [గార్డియన్](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) నుండి. విజువలైజేషన్లు: నాడీహ్ బ్రెమర్ & షిర్లీ వూ
ఈ పాఠం ఈ శక్తివంతమైన విజువలైజేషన్ లైబ్రరీలను లోతుగా నేర్పడానికి తగినంత కాదు, Vue.js యాప్‌లో D3 తో ప్రయత్నించండి, "Dangerous Liaisons" పుస్తకాన్ని యానిమేటెడ్ సోషల్ నెట్‌వర్క్‌గా ప్రదర్శించడానికి లైబ్రరీ ఉపయోగించి.
> "Les Liaisons Dangereuses" అనేది ఎపిస్టోలరీ నవల, లేదా లేఖల సిరీస్‌గా ప్రదర్శించబడిన నవల. 1782లో చోడర్లోస్ డి లాక్లోస్ రాసినది, ఇది 18వ శతాబ్దం చివరలో ఫ్రెంచ్ అరిస్టోక్రసీ యొక్క రెండు ప్రత్యర్థుల, వికోంట్ డి వాల్మోంట్ మరియు మార్క్విస్ డి మెర్టోయిల్ యొక్క దుర్మార్గ, నైతికంగా పాడైన సామాజిక వ్యూహాల కథను చెపుతుంది. ఇద్దరూ చివరికి మరణిస్తారు కానీ చాలా సామాజిక నష్టం కలిగిస్తారు. నవల వివిధ వ్యక్తులకు రాసిన లేఖల సిరీస్‌గా విస్తరించబడుతుంది, ప్రతీకారం కోసం లేదా కేవలం సమస్య సృష్టించడానికి. ఈ లేఖల విజువలైజేషన్ సృష్టించి కథలో ప్రధాన పాత్రధారులను దృశ్యమానంగా కనుగొనండి.
మీరు ఈ సోషల్ నెట్‌వర్క్ యొక్క యానిమేటెడ్ వీక్షణను ప్రదర్శించే వెబ్ యాప్‌ను పూర్తి చేస్తారు. ఇది Vue.js మరియు D3 ఉపయోగించి [నెట్‌వర్క్ విజువల్](https://github.com/emiliorizzo/vue-d3-network) సృష్టించడానికి రూపొందించిన లైబ్రరీని ఉపయోగిస్తుంది. యాప్ నడుస్తున్నప్పుడు, మీరు స్క్రీన్‌పై నోడ్లను తీయవచ్చు, డేటాను తిరగరాయడానికి.
![లియాజన్స్](../../../../translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.te.png)
## ప్రాజెక్ట్: D3.js ఉపయోగించి నెట్‌వర్క్ చూపించే చార్ట్ నిర్మించండి
> ఈ పాఠం ఫోల్డర్‌లో `solution` ఫోల్డర్ ఉంది, మీరు పూర్తి చేసిన ప్రాజెక్ట్‌ను మీ సూచన కోసం చూడవచ్చు.
1. స్టార్టర్ ఫోల్డర్ రూట్‌లో ఉన్న README.md ఫైల్‌లో సూచనలను అనుసరించండి. మీ మెషీన్‌లో NPM మరియు Node.js నడుస్తున్నాయని నిర్ధారించుకోండి, ఆపై ప్రాజెక్ట్ డిపెండెన్సీలను ఇన్‌స్టాల్ చేయండి.
2. `starter/src` ఫోల్డర్‌ను తెరవండి. అక్కడ మీరు నవల నుండి అన్ని లేఖలతో కూడిన .json ఫైల్ ఉన్న `assets` ఫోల్డర్‌ను కనుగొంటారు, సంఖ్యలతో, 'to' మరియు 'from' అనోటేషన్‌తో.
3. `components/Nodes.vue` లో కోడ్‌ను పూర్తి చేయండి, విజువలైజేషన్‌ను సక్రియం చేయడానికి. `createLinks()` అనే మెథడ్‌ను వెతకండి మరియు క్రింది నెస్టెడ్ లూప్‌ను జోడించండి.
.json ఆబ్జెక్ట్ ద్వారా లూప్ చేసి లేఖల 'to' మరియు 'from' డేటాను పట్టుకోండి మరియు `links` ఆబ్జెక్టును నిర్మించండి, తద్వారా విజువలైజేషన్ లైబ్రరీ దాన్ని వినియోగించగలదు:
```javascript
//అక్షరాల ద్వారా లూప్ చేయండి
let f = 0;
let t = 0;
for (var i = 0; i < letters.length; i++) {
for (var j = 0; j < characters.length; j++) {
if (characters[j] == letters[i].from) {
f = j;
}
if (characters[j] == letters[i].to) {
t = j;
}
}
this.links.push({ sid: f, tid: t });
}
```
టెర్మినల్ నుండి మీ యాప్‌ను నడపండి (npm run serve) మరియు విజువలైజేషన్‌ను ఆస్వాదించండి!
## 🚀 సవాలు
ఇంటర్నెట్‌లో మోసపూరిత విజువలైజేషన్లను కనుగొనండి. రచయిత ఎలా వినియోగదారుని మోసం చేస్తాడు, అది ఉద్దేశపూర్వకమా? విజువలైజేషన్లను సరిచేసి అవి ఎలా ఉండాలో చూపించండి.
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/25)
## సమీక్ష & స్వీయ అధ్యయనం
ఇక్కడ మోసపూరిత డేటా విజువలైజేషన్ గురించి చదవడానికి కొన్ని వ్యాసాలు ఉన్నాయి:
https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
చరిత్రాత్మక ఆస్తులు మరియు కళాఖండాల కోసం ఈ ఆసక్తికరమైన విజువలైజేషన్లను చూడండి:
https://handbook.pubpub.org/
యానిమేషన్ మీ విజువలైజేషన్లను ఎలా మెరుగుపరుస్తుందో ఈ వ్యాసం ద్వారా తెలుసుకోండి:
https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
## అసైన్‌మెంట్
[మీ స్వంత కస్టమ్ విజువలైజేషన్‌ను నిర్మించండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ డాక్యుమెంట్‌ను AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు డాక్యుమెంట్ దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,26 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "e56df4c0f49357e30ac8fc77aa439dd4",
"translation_date": "2025-12-19T16:11:11+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/assignment.md",
"language_code": "te"
}
-->
# మీ స్వంత కస్టమ్ విజ్ నిర్మించండి
## సూచనలు
ఈ ప్రాజెక్టులోని కోడ్ నమూనాను ఉపయోగించి ఒక సోషల్ నెట్‌వర్క్ సృష్టించండి, మీ స్వంత సామాజిక పరస్పర చర్యల డేటాను మాక్ చేయండి. మీరు సోషల్ మీడియా వినియోగాన్ని మ్యాప్ చేయవచ్చు లేదా మీ కుటుంబ సభ్యుల డయాగ్రామ్ తయారు చేయవచ్చు. ఒక ప్రత్యేకమైన సోషల్ నెట్‌వర్క్ విజువలైజేషన్ చూపించే ఆసక్తికరమైన వెబ్ యాప్ సృష్టించండి.
## రూబ్రిక్
ఉదాహరణాత్మక | తగినంత | మెరుగుదల అవసరం
--- | --- | -- |
కోడ్ సరిగ్గా నడిచే GitHub రిపో ప్రదర్శించబడింది (దాన్ని స్థిర వెబ్ యాప్‌గా డిప్లాయ్ చేయడానికి ప్రయత్నించండి) మరియు ప్రాజెక్టును వివరించే READMEతో ఉంది | రిపో సరిగ్గా నడవదు లేదా బాగా డాక్యుమెంట్ చేయబడలేదు | రిపో సరిగ్గా నడవదు మరియు బాగా డాక్యుమెంట్ చేయబడలేదు
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "5c51a54dd89075a7a362890117b7ed9e",
"translation_date": "2025-12-19T16:18:38+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/solution/README.md",
"language_code": "te"
}
-->
# Dangerous Liaisons డేటా విజువలైజేషన్ ప్రాజెక్ట్
ప్రారంభించడానికి, మీ మెషీన్‌లో NPM మరియు Node నడుస్తున్నాయని నిర్ధారించుకోవాలి. డిపెండెన్సీలను ఇన్‌స్టాల్ చేయండి (npm install) మరియు ఆపై ప్రాజెక్ట్‌ను లోకల్‌గా నడపండి (npm run serve):
## ప్రాజెక్ట్ సెటప్
```
npm install
```
### అభివృద్ధికి కంపైల్ చేసి హాట్-రిలోడ్ చేస్తుంది
```
npm run serve
```
### ఉత్పత్తికి కంపైల్ చేసి మినిఫై చేస్తుంది
```
npm run build
```
### ఫైళ్లను లింట్ చేసి సరిచేస్తుంది
```
npm run lint
```
### కాన్ఫిగరేషన్‌ను అనుకూలీకరించండి
[Configuration Reference](https://cli.vuejs.org/config/) ను చూడండి.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం చేయించుకోవడం మంచిది. ఈ అనువాదం వలన కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారుల బాధ్యత మేము తీసుకోము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "5c51a54dd89075a7a362890117b7ed9e",
"translation_date": "2025-12-19T16:17:51+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/starter/README.md",
"language_code": "te"
}
-->
# Dangerous Liaisons డేటా విజువలైజేషన్ ప్రాజెక్ట్
ప్రారంభించడానికి, మీ మెషీన్‌లో NPM మరియు Node నడుస్తున్నాయని నిర్ధారించుకోవాలి. డిపెండెన్సీలను ఇన్‌స్టాల్ చేయండి (npm install) మరియు ఆపై ప్రాజెక్ట్‌ను లోకల్‌గా నడపండి (npm run serve):
## ప్రాజెక్ట్ సెటప్
```
npm install
```
### అభివృద్ధికి కంపైల్ చేసి హాట్-రిలోడ్ చేస్తుంది
```
npm run serve
```
### ఉత్పత్తికి కంపైల్ చేసి మినిఫై చేస్తుంది
```
npm run build
```
### ఫైళ్లను లింట్ చేసి సరిచేస్తుంది
```
npm run lint
```
### కాన్ఫిగరేషన్‌ను అనుకూలీకరించండి
[Configuration Reference](https://cli.vuejs.org/config/) చూడండి.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలో ఉన్నది అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారులు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,233 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "22acf28f518a4769ea14fa42f4734b9f",
"translation_date": "2025-12-19T16:30:58+00:00",
"source_file": "3-Data-Visualization/R/09-visualization-quantities/README.md",
"language_code": "te"
}
-->
# పరిమాణాలను దృశ్యీకరించడం
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/sketchnotes/09-Visualizing-Quantities.png)|
|:---:|
| పరిమాణాలను దృశ్యీకరించడం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
ఈ పాఠంలో మీరు పరిమాణం అనే భావన చుట్టూ ఆసక్తికరమైన దృశ్యీకరణలను సృష్టించడానికి అందుబాటులో ఉన్న అనేక R ప్యాకేజీలు మరియు లైబ్రరీలను ఎలా ఉపయోగించాలో తెలుసుకుంటారు. మినెసోటా పక్షుల గురించి శుభ్రపరిచిన డేటాసెట్ ఉపయోగించి, మీరు స్థానిక వన్యజీవుల గురించి అనేక ఆసక్తికరమైన విషయాలను తెలుసుకోవచ్చు.
## [పాఠం ముందు క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16)
## ggplot2 తో రెక్కల వ్యాప్తిని పరిశీలించండి
వివిధ రకాల సాదా మరియు సున్నితమైన ప్లాట్లు మరియు చార్ట్లను సృష్టించడానికి అద్భుతమైన లైబ్రరీ [ggplot2](https://cran.r-project.org/web/packages/ggplot2/index.html). సాధారణంగా, ఈ లైబ్రరీలను ఉపయోగించి డేటాను ప్లాట్ చేయడం అనేది మీ డేటాఫ్రేమ్‌లో మీరు లక్ష్యంగా పెట్టుకున్న భాగాలను గుర్తించడం, ఆ డేటాపై అవసరమైన మార్పులు చేయడం, దాని x మరియు y అక్ష విలువలను కేటాయించడం, ఏ రకమైన ప్లాట్ చూపించాలో నిర్ణయించడం, మరియు ఆ తర్వాత ప్లాట్ చూపించడం అనే ప్రక్రియ.
`ggplot2` అనేది The Grammar of Graphics ఆధారంగా గ్రాఫిక్స్‌ను ప్రకటనాత్మకంగా సృష్టించడానికి ఒక వ్యవస్థ. [The Grammar of Graphics](https://en.wikipedia.org/wiki/Ggplot2) అనేది డేటా దృశ్యీకరణకు సాధారణ పద్ధతి, ఇది గ్రాఫ్‌లను స్కేల్స్ మరియు లేయర్స్ వంటి సారాంశ భాగాలుగా విభజిస్తుంది. అంటే, తక్కువ కోడ్‌తో ఒకవైపు లేదా బహువైపు డేటా కోసం ప్లాట్లు మరియు గ్రాఫ్‌లను సృష్టించడం సులభం కావడం వలన `ggplot2` R లో దృశ్యీకరణలకు అత్యంత ప్రాచుర్యం పొందిన ప్యాకేజీ. వినియోగదారు `ggplot2`కి వేరియబుల్స్‌ను ఎస్టెటిక్స్‌కు ఎలా మ్యాప్ చేయాలో, గ్రాఫికల్ ప్రిమిటివ్స్‌ను ఎలా ఉపయోగించాలో చెబుతారు, మిగతా పనిని `ggplot2` చూసుకుంటుంది.
> ✅ ప్లాట్ = డేటా + ఎస్టెటిక్స్ + జ్యామితి
> - డేటా అంటే డేటాసెట్
> - ఎస్టెటిక్స్ అంటే అధ్యయనం చేయవలసిన వేరియబుల్స్ (x మరియు y వేరియబుల్స్)
> - జ్యామితి అంటే ప్లాట్ రకం (లైన్ ప్లాట్, బార్ ప్లాట్, మొదలైనవి)
మీ డేటా మరియు మీరు చెప్పదలచుకున్న కథ ప్రకారం ఉత్తమ జ్యామితిని (ప్లాట్ రకం) ఎంచుకోండి.
> - ధోరణులను విశ్లేషించడానికి: లైన్, కాలమ్
> - విలువలను పోల్చడానికి: బార్, కాలమ్, పై, స్కాటర్‌ప్లాట్
> - భాగాలు మొత్తం తో ఎలా సంబంధించాయో చూపించడానికి: పై
> - డేటా పంపిణీని చూపించడానికి: స్కాటర్‌ప్లాట్, బార్
> - విలువల మధ్య సంబంధాలను చూపించడానికి: లైన్, స్కాటర్‌ప్లాట్, బబుల్
✅ మీరు ggplot2 కోసం ఈ వివరణాత్మక [చీట్‌షీట్](https://nyu-cdsc.github.io/learningr/assets/data-visualization-2.1.pdf) కూడా చూడవచ్చు.
## పక్షుల రెక్కల వ్యాప్తి విలువలపై లైన్ ప్లాట్ నిర్మించండి
R కన్సోల్ తెరవండి మరియు డేటాసెట్‌ను దిగుమతి చేసుకోండి.
> గమనిక: డేటాసెట్ ఈ రిపో యొక్క రూట్‌లోని `/data` ఫోల్డర్‌లో నిల్వ చేయబడింది.
డేటాసెట్‌ను దిగుమతి చేసుకుని డేటా యొక్క హెడ్ను (పై 5 వరుసలు) పరిశీలిద్దాం.
```r
birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM")
head(birds)
```
డేటా యొక్క హెడ్లో టెక్స్ట్ మరియు సంఖ్యల మిశ్రమం ఉంది:
| | Name | ScientificName | Category | Order | Family | Genus | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
| 0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
| 1 | Fulvous whistling-duck | Dendrocygna bicolor | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
| 2 | Snow goose | Anser caerulescens | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
| 3 | Ross's goose | Anser rossii | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
| 4 | Greater white-fronted goose | Anser albifrons | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
కొన్ని సంఖ్యా డేటాను ప్రాథమిక లైన్ ప్లాట్ ఉపయోగించి ప్లాట్ చేయడం ప్రారంభిద్దాం. ఈ ఆసక్తికరమైన పక్షుల గరిష్ట రెక్కల వ్యాప్తి యొక్క దృశ్యాన్ని మీరు కావాలనుకుంటే.
```r
install.packages("ggplot2")
library("ggplot2")
ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
geom_line()
```
ఇక్కడ, మీరు `ggplot2` ప్యాకేజీని ఇన్‌స్టాల్ చేసి, తరువాత `library("ggplot2")` కమాండ్ ఉపయోగించి వర్క్‌స్పేస్‌లో దిగుమతి చేసుకుంటారు. ggplot లో ఏదైనా ప్లాట్ చేయడానికి `ggplot()` ఫంక్షన్ ఉపయోగిస్తారు మరియు డేటాసెట్, x మరియు y వేరియబుల్స్‌ను లక్షణాలుగా పేర్కొంటారు. ఈ సందర్భంలో, లైన్ ప్లాట్ చేయాలనుకున్నందున `geom_line()` ఫంక్షన్ ఉపయోగిస్తారు.
![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.te.png)
మీకు వెంటనే ఏమి కనిపిస్తుంది? కనీసం ఒక అవుట్లయర్ ఉన్నట్లు కనిపిస్తోంది - అది చాలా పెద్ద రెక్కల వ్యాప్తి! 2000+ సెంటీమీటర్ల రెక్కల వ్యాప్తి అంటే 20 మీటర్లకు పైగా - మినెసోటాలో ప్టెరోడాక్టిల్స్ తిరుగుతున్నారా? పరిశీలిద్దాం.
మీరు అవుట్లయర్లను కనుగొనడానికి ఎక్సెల్‌లో త్వరితంగా సార్ట్ చేయవచ్చు, అవి తప్పులే కావచ్చు, కానీ ప్లాట్ నుండి పని కొనసాగించి దృశ్యీకరణ ప్రక్రియ కొనసాగించండి.
x-అక్షకు లేబుల్స్ జోడించి ఏ రకమైన పక్షులు ఉన్నాయో చూపించండి:
```r
ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
geom_line() +
theme(axis.text.x = element_text(angle = 45, hjust=1))+
xlab("Birds") +
ylab("Wingspan (CM)") +
ggtitle("Max Wingspan in Centimeters")
```
`theme` లో కోణాన్ని పేర్కొంటాము మరియు `xlab()` మరియు `ylab()` లో వరుసగా x మరియు y అక్ష లేబుల్స్‌ను పేర్కొంటాము. `ggtitle()` గ్రాఫ్/ప్లాట్‌కు పేరు ఇస్తుంది.
![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.te.png)
లేబుల్స్ 45 డిగ్రీల కోణంలో తిరిగినా, చదవడానికి చాలా ఉన్నాయి. వేరే వ్యూహం ప్రయత్నిద్దాం: అవుట్లయర్లకు మాత్రమే లేబుల్స్ ఇవ్వండి మరియు లేబుల్స్‌ను చార్ట్ లోపల సెట్ చేయండి. లేబులింగ్‌కు మరింత స్థలం కోసం స్కాటర్ చార్ట్ ఉపయోగించవచ్చు:
```r
ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
geom_point() +
geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) +
theme(axis.title.x=element_blank(), axis.text.x=element_blank(), axis.ticks.x=element_blank())
ylab("Wingspan (CM)") +
ggtitle("Max Wingspan in Centimeters") +
```
ఇక్కడ ఏమి జరుగుతోంది? మీరు `geom_point()` ఫంక్షన్ ఉపయోగించి స్కాటర్ పాయింట్లను ప్లాట్ చేశారు. దీని ద్వారా, `MaxWingspan > 500` ఉన్న పక్షులకు లేబుల్స్ జోడించారు మరియు ప్లాట్‌ను క్లట్టర్ చేయకుండా x అక్ష上的 లేబుల్స్‌ను దాచారు.
మీరు ఏమి కనుగొంటారు?
![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.te.png)
## మీ డేటాను ఫిల్టర్ చేయండి
బాల్డ్ ఈగిల్ మరియు ప్రేరి ఫాల్కన్, చాలా పెద్ద పక్షులు కావచ్చు, గరిష్ట రెక్కల వ్యాప్తికి అదనంగా 0 తప్పుగా జోడించబడినట్లు కనిపిస్తున్నాయి. 25 మీటర్ల రెక్కల వ్యాప్తి ఉన్న బాల్డ్ ఈగిల్‌ను మీరు కలుసుకోవడం అసాధ్యమే, అయితే ఉంటే దయచేసి మాకు తెలియజేయండి! ఆ రెండు అవుట్లయర్లను తీసేసి కొత్త డేటాఫ్రేమ్ సృష్టిద్దాం:
```r
birds_filtered <- subset(birds, MaxWingspan < 500)
ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
geom_point() +
ylab("Wingspan (CM)") +
xlab("Birds") +
ggtitle("Max Wingspan in Centimeters") +
geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) +
theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())
```
మేము కొత్త డేటాఫ్రేమ్ `birds_filtered` సృష్టించి స్కాటర్ ప్లాట్ చేశాము. అవుట్లయర్లను తీసివేసిన తర్వాత, మీ డేటా మరింత సమగ్రమైనది మరియు అర్థమయ్యేలా మారింది.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.te.png)
ఇప్పుడు రెక్కల వ్యాప్తి పరంగా కనీసం శుభ్రమైన డేటాసెట్ ఉన్నందున, ఈ పక్షుల గురించి మరింత తెలుసుకుందాం.
లైన్ మరియు స్కాటర్ ప్లాట్లు డేటా విలువలు మరియు వాటి పంపిణీ గురించి సమాచారం చూపించగలవు, కానీ ఈ డేటాసెట్‌లోని విలువలను మనం ఆలోచించాలి. మీరు ఈ ప్రశ్నలకు సమాధానాలు కనుగొనడానికి దృశ్యీకరణలు సృష్టించవచ్చు:
> పక్షుల ఎన్ని వర్గాలు ఉన్నాయి, వాటి సంఖ్య ఎంత?
> ఎన్ని పక్షులు అంతరించిపోయినవి, ప్రమాదంలో ఉన్నవి, అరుదైనవి లేదా సాధారణమైనవి?
> లినియస్ యొక్క పదజాలంలో వివిధ జెనస్ మరియు ఆర్డర్స్ ఎన్ని?
## బార్ చార్ట్లను అన్వేషించండి
డేటా సమూహాలను చూపించడానికి బార్ చార్ట్లు ఉపయోగకరంగా ఉంటాయి. ఈ డేటాసెట్‌లో ఉన్న పక్షుల వర్గాలను పరిశీలించి ఏది సంఖ్యలో ఎక్కువగా ఉందో చూద్దాం. ఫిల్టర్ చేసిన డేటాపై బార్ చార్ట్ సృష్టిద్దాం.
```r
install.packages("dplyr")
install.packages("tidyverse")
library(lubridate)
library(scales)
library(dplyr)
library(ggplot2)
library(tidyverse)
birds_filtered %>% group_by(Category) %>%
summarise(n=n(),
MinLength = mean(MinLength),
MaxLength = mean(MaxLength),
MinBodyMass = mean(MinBodyMass),
MaxBodyMass = mean(MaxBodyMass),
MinWingspan=mean(MinWingspan),
MaxWingspan=mean(MaxWingspan)) %>%
gather("key", "value", - c(Category, n)) %>%
ggplot(aes(x = Category, y = value, group = key, fill = key)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = c("#D62728", "#FF7F0E", "#8C564B","#2CA02C", "#1F77B4", "#9467BD")) +
xlab("Category")+ggtitle("Birds of Minnesota")
```
తదుపరి కోడ్‌లో, డేటాను మానిప్యులేట్ చేసి గ్రూప్ చేయడానికి సహాయపడే [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) మరియు [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) ప్యాకేజీలను ఇన్‌స్టాల్ చేస్తారు. మొదట, పక్షుల `Category` ప్రకారం డేటాను గ్రూప్ చేసి, `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` కాలమ్స్‌ను సమ్మరీ చేస్తారు. తరువాత, `ggplot2` ప్యాకేజీ ఉపయోగించి బార్ చార్ట్ ప్లాట్ చేసి వేర్వేరు వర్గాల రంగులు మరియు లేబుల్స్‌ను పేర్కొంటారు.
![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.te.png)
ఈ బార్ చార్ట్ చదవడానికి కష్టమైనది ఎందుకంటే చాలా డేటా గ్రూప్ చేయబడలేదు. మీరు ప్లాట్ చేయదలచుకున్న డేటాను మాత్రమే ఎంచుకోవాలి, కాబట్టి పక్షుల వర్గం ఆధారంగా వారి పొడవును చూద్దాం.
మీ డేటాను పక్షుల వర్గం మాత్రమే కలిగి ఉండేలా ఫిల్టర్ చేయండి.
చాలా వర్గాలు ఉన్నందున, ఈ చార్ట్‌ను నిలువుగా ప్రదర్శించి అందరి డేటా కోసం ఎత్తును సర్దుబాటు చేయవచ్చు:
```r
birds_count<-dplyr::count(birds_filtered, Category, sort = TRUE)
birds_count$Category <- factor(birds_count$Category, levels = birds_count$Category)
ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
ముందుగా `Category` కాలమ్‌లోని ప్రత్యేక విలువలను లెక్కించి, వాటిని కొత్త డేటాఫ్రేమ్ `birds_count` లో సర్దుబాటు చేస్తారు. ఈ సర్దుబాటు చేసిన డేటాను అదే స్థాయిలో ఫ్యాక్టర్ చేసి, సర్దుబాటు చేసిన విధంగా ప్లాట్ చేయబడుతుంది. `ggplot2` ఉపయోగించి బార్ చార్ట్ ప్లాట్ చేస్తారు. `coord_flip()` హారిజాంటల్ బార్లను ప్లాట్ చేస్తుంది.
![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.te.png)
ఈ బార్ చార్ట్ ప్రతి వర్గంలో పక్షుల సంఖ్యను బాగా చూపిస్తుంది. ఒక చూపులోనే, ఈ ప్రాంతంలో అత్యధిక సంఖ్యలో పక్షులు Ducks/Geese/Waterfowl వర్గంలో ఉన్నాయని మీరు చూడవచ్చు. మినెసోటా '10,000 సరస్సుల భూమి' కాబట్టి ఇది ఆశ్చర్యకరం కాదు!
✅ ఈ డేటాసెట్‌పై మరిన్ని లెక్కింపులు ప్రయత్నించండి. ఏదైనా ఆశ్చర్యంగా ఉందా?
## డేటాను పోల్చడం
మీరు గ్రూప్ చేసిన డేటాను వేరే అక్షాలతో పోల్చడం ప్రయత్నించవచ్చు. పక్షుల వర్గం ఆధారంగా గరిష్ట పొడవు (MaxLength) పోలిక ప్రయత్నించండి:
```r
birds_grouped <- birds_filtered %>%
group_by(Category) %>%
summarise(
MaxLength = max(MaxLength, na.rm = T),
MinLength = max(MinLength, na.rm = T)
) %>%
arrange(Category)
ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_flip()
```
`birds_filtered` డేటాను `Category` ప్రకారం గ్రూప్ చేసి బార్ గ్రాఫ్ ప్లాట్ చేస్తారు.
![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.te.png)
ఇక్కడ ఏ ఆశ్చర్యం లేదు: హమ్మింగ్‌బర్డ్స్‌కు పెలికాన్స్ లేదా గీస్లతో పోలిస్తే తక్కువ MaxLength ఉంటుంది. డేటా తార్కికంగా అర్థమయ్యేలా ఉండటం మంచిది!
మీరు మరింత ఆసక్తికరమైన బార్ చార్ట్లను సృష్టించవచ్చు, డేటాను సూపరింపోజ్ చేసి. ఒక పక్షుల వర్గంపై కనిష్ట మరియు గరిష్ట పొడవును సూపరింపోజ్ చేద్దాం:
```r
ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MaxLength), stat="identity", position ="identity", fill='blue') +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.te.png)
## 🚀 సవాలు
ఈ పక్షుల డేటాసెట్ ఒక ప్రత్యేక పర్యావరణ వ్యవస్థలోని వివిధ రకాల పక్షుల గురించి సమృద్ధిగా సమాచారం అందిస్తుంది. ఇంటర్నెట్‌లో వెతకండి మరియు ఇతర పక్షుల డేటాసెట్లను కనుగొనండి. ఈ పక్షుల చుట్టూ చార్ట్లు మరియు గ్రాఫ్‌లను నిర్మించడం సాధన చేయండి, మీరు తెలియని విషయాలను కనుగొనండి.
## [పాఠం తర్వాత క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17)
## సమీక్ష & స్వీయ అధ్యయనం
ఈ మొదటి పాఠం `ggplot2` ఉపయోగించి పరిమాణాలను ఎలా దృశ్యీకరించాలో కొంత సమాచారం ఇచ్చింది. దృశ్యీకరణ కోసం డేటాసెట్లతో పని చేసే ఇతర మార్గాల గురించి పరిశోధన చేయండి. [Lattice](https://stat.ethz.ch/R-manual/R-devel/library/lattice/html/Lattice.html) మరియు [Plotly](https://github.com/plotly/plotly.R#readme) వంటి ఇతర ప్యాకేజీలను ఉపయోగించి మీరు దృశ్యీకరించగల డేటాసెట్లను వెతకండి.
## అసైన్‌మెంట్
[లైన్లు, స్కాటర్స్, మరియు బార్లు](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "0ea21b6513df5ade7419c6b7d65f10b1",
"translation_date": "2025-12-19T16:34:28+00:00",
"source_file": "3-Data-Visualization/R/09-visualization-quantities/assignment.md",
"language_code": "te"
}
-->
# లైన్లు, స్కాటర్స్ మరియు బార్లు
## సూచనలు
ఈ పాఠంలో, మీరు లైన్ చార్ట్లు, స్కాటర్ప్లాట్లు మరియు బార్ చార్ట్లతో ఈ డేటాసెట్ గురించి ఆసక్తికరమైన వాస్తవాలను చూపించారు. ఈ అసైన్‌మెంట్‌లో, ఒక నిర్దిష్ట పక్షి రకం గురించి ఒక వాస్తవాన్ని కనుగొనడానికి డేటాసెట్‌లో మరింత లోతుగా పరిశీలించండి. ఉదాహరణకు, స్నో గీస్ల గురించి మీరు కనుగొనగలిగిన అన్ని ఆసక్తికరమైన డేటాను విజువలైజ్ చేసే స్క్రిప్ట్‌ను సృష్టించండి. మీ నోట్‌బుక్‌లో కథ చెప్పడానికి పై మూడు ప్లాట్లను ఉపయోగించండి.
## రూబ్రిక్
ఉదాహరణ | సరిపోతుంది | మెరుగుదల అవసరం
--- | --- | -- |
మంచి వ్యాఖ్యానాలు, బలమైన కథనం మరియు ఆకర్షణీయమైన గ్రాఫ్‌లతో ఒక స్క్రిప్ట్ అందించబడింది | ఈ అంశాలలో ఒకటి స్క్రిప్ట్‌లో లేదు | ఈ అంశాలలో రెండు స్క్రిప్ట్‌లో లేవు
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,185 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "ea67c0c40808fd723594de6896c37ccf",
"translation_date": "2025-12-19T16:19:56+00:00",
"source_file": "3-Data-Visualization/R/10-visualization-distributions/README.md",
"language_code": "te"
}
-->
# పంపిణీలను దృశ్యీకరించడం
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/sketchnotes/10-Visualizing-Distributions.png)|
|:---:|
| పంపిణీలను దృశ్యీకరించడం - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
మునుపటి పాఠంలో, మీరు మినెసోటా పక్షుల గురించి ఒక డేటాసెట్ గురించి కొన్ని ఆసక్తికరమైన విషయాలను నేర్చుకున్నారు. మీరు అవుట్లయర్లను దృశ్యీకరించడం ద్వారా కొన్ని తప్పు డేటాను కనుగొన్నారు మరియు పక్షుల వర్గాల మధ్య గరిష్ట పొడవు ద్వారా తేడాలను పరిశీలించారు.
## [పాఠం ముందు క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18)
## పక్షుల డేటాసెట్‌ను అన్వేషించండి
డేటాను లోతుగా పరిశీలించే మరో మార్గం దాని పంపిణీని చూడటం, లేదా డేటా ఒక అక్షం మీద ఎలా ఏర్పాటు చేయబడిందో చూడటం. ఉదాహరణకు, మీరు మినెసోటా పక్షుల గరిష్ట రెక్కపట్టు లేదా గరిష్ట శరీర ద్రవ్యరాశి యొక్క సాధారణ పంపిణీ గురించి తెలుసుకోవాలనుకోవచ్చు.
ఈ డేటాసెట్‌లో డేటా పంపిణీల గురించి కొన్ని విషయాలను కనుగొనండి. మీ R కన్సోల్‌లో `ggplot2` మరియు డేటాబేస్‌ను దిగుమతి చేసుకోండి. మునుపటి అంశంలో చేసినట్లుగా అవుట్లయర్లను డేటాబేస్ నుండి తీసివేయండి.
```r
library(ggplot2)
birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM")
birds_filtered <- subset(birds, MaxWingspan < 500)
head(birds_filtered)
```
| | Name | ScientificName | Category | Order | Family | Genus | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
| 0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
| 1 | Fulvous whistling-duck | Dendrocygna bicolor | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
| 2 | Snow goose | Anser caerulescens | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
| 3 | Ross's goose | Anser rossii | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
| 4 | Greater white-fronted goose | Anser albifrons | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
సాధారణంగా, మీరు మునుపటి పాఠంలో చేసినట్లుగా స్కాటర్ ప్లాట్ ఉపయోగించి డేటా ఎలా పంపిణీ చేయబడిందో త్వరగా చూడవచ్చు:
```r
ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.te.png)
ఇది పక్షుల ఆర్డర్ ప్రకారం శరీర పొడవు యొక్క సాధారణ పంపిణీకి అవలోకనం ఇస్తుంది, కానీ ఇది నిజమైన పంపిణీలను ప్రదర్శించడానికి ఉత్తమ మార్గం కాదు. ఆ పని సాధారణంగా హిస్టోగ్రామ్ సృష్టించడం ద్వారా నిర్వహించబడుతుంది.
## హిస్టోగ్రామ్లతో పని చేయడం
`ggplot2` హిస్టోగ్రామ్లను ఉపయోగించి డేటా పంపిణీని దృశ్యీకరించడానికి చాలా మంచి మార్గాలను అందిస్తుంది. ఈ రకమైన చార్ట్ ఒక బార్ చార్ట్ లాగా ఉంటుంది, ఇక్కడ బార్ల పెరుగుదల మరియు తగ్గుదల ద్వారా పంపిణీ కనిపిస్తుంది. హిస్టోగ్రామ్ నిర్మించడానికి, మీకు సంఖ్యాత్మక డేటా అవసరం. హిస్టోగ్రామ్ నిర్మించడానికి, మీరు చార్ట్‌ను 'hist' రకంగా నిర్వచించి ప్లాట్ చేయవచ్చు. ఈ చార్ట్ మొత్తం డేటాసెట్ యొక్క సంఖ్యాత్మక డేటా పరిధిలో MaxBodyMass పంపిణీని చూపిస్తుంది. డేటా శ్రేణిని చిన్న బిన్లుగా విభజించడం ద్వారా, ఇది డేటా విలువల పంపిణీని ప్రదర్శించగలదు:
```r
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.te.png)
మీరు చూడగలిగినట్లుగా, ఈ డేటాసెట్‌లో 400+ పక్షులలో ఎక్కువ భాగం వారి గరిష్ట శరీర ద్రవ్యరాశి 2000 కంటే తక్కువ పరిధిలో ఉంటాయి. `bins` పారామీటర్‌ను 30 లాంటి ఎక్కువ సంఖ్యకు మార్చి డేటా గురించి మరింత అవగాహన పొందండి:
```r
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.te.png)
ఈ చార్ట్ పంపిణీని మరింత సూక్ష్మంగా చూపిస్తుంది. ఎడమవైపు తక్కువ వంకరగా ఉన్న చార్ట్‌ను మీరు ఇచ్చిన పరిధిలో మాత్రమే డేటాను ఎంచుకోవడం ద్వారా సృష్టించవచ్చు:
మీ డేటాను ఫిల్టర్ చేసి శరీర ద్రవ్యరాశి 60 కంటే తక్కువ ఉన్న పక్షులను మాత్రమే తీసుకోండి, మరియు 30 `bins` చూపించండి:
```r
birds_filtered_1 <- subset(birds_filtered, MaxBodyMass > 1 & MaxBodyMass < 60)
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.te.png)
✅ మరిన్ని ఫిల్టర్లు మరియు డేటా పాయింట్లను ప్రయత్నించండి. డేటా యొక్క పూర్తి పంపిణీని చూడటానికి, లేబుల్ చేయబడిన పంపిణీలను చూపించడానికి `['MaxBodyMass']` ఫిల్టర్‌ను తీసివేయండి.
హిస్టోగ్రామ్ కొన్ని మంచి రంగు మరియు లేబులింగ్ మెరుగుదలలను కూడా అందిస్తుంది:
రెండు పంపిణీల మధ్య సంబంధాన్ని పోల్చడానికి 2D హిస్టోగ్రామ్ సృష్టించండి. `MaxBodyMass` మరియు `MaxLength` ను పోల్చుకుందాం. `ggplot2` ప్రకాశవంతమైన రంగులను ఉపయోగించి సమీకరణాన్ని చూపించే అంతర్గత మార్గాన్ని అందిస్తుంది:
```r
ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
geom_bin2d() +scale_fill_continuous(type = "viridis")
```
ఈ రెండు అంశాల మధ్య అంచనా వేయదగిన సంబంధం కనిపిస్తుంది, ఒక ప్రత్యేకంగా బలమైన సమీకరణ బిందువు తో:
![2d plot](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.te.png)
హిస్టోగ్రామ్లు సంఖ్యాత్మక డేటాకు డిఫాల్ట్‌గా బాగా పనిచేస్తాయి. మీరు టెక్స్ట్ డేటా ప్రకారం పంపిణీలను చూడాలనుకుంటే ఏమవుతుంది?
## టెక్స్ట్ డేటా ఉపయోగించి పంపిణీలను అన్వేషించండి
ఈ డేటాసెట్ పక్షుల వర్గం, జనస్, జాతి, కుటుంబం మరియు సంరక్షణ స్థితి గురించి మంచి సమాచారం కూడా కలిగి ఉంది. ఈ సంరక్షణ సమాచారాన్ని లోతుగా పరిశీలిద్దాం. పక్షులు వారి సంరక్షణ స్థితి ప్రకారం ఎలా పంపిణీ చేయబడ్డాయి?
> ✅ డేటాసెట్‌లో, సంరక్షణ స్థితిని వివరించడానికి కొన్ని సంక్షిప్త రూపాలు ఉపయోగించబడ్డాయి. ఈ సంక్షిప్త రూపాలు [IUCN రెడ్ లిస్ట్ వర్గాలు](https://www.iucnredlist.org/) నుండి వచ్చాయి, ఇది జాతుల స్థితిని నమోదు చేసే సంస్థ.
>
> - CR: తీవ్రంగా ప్రమాదంలో ఉన్నది
> - EN: ప్రమాదంలో ఉన్నది
> - EX: అంతరించిపోయింది
> - LC: తక్కువ ఆందోళన
> - NT: సమీప ప్రమాదంలో ఉన్నది
> - VU: ప్రమాదంలో ఉన్నది
ఇవి టెక్స్ట్ ఆధారిత విలువలు కాబట్టి మీరు హిస్టోగ్రామ్ సృష్టించడానికి ట్రాన్స్‌ఫార్మ్ చేయాలి. filteredBirds డేటాఫ్రేమ్ ఉపయోగించి, దాని సంరక్షణ స్థితిని మరియు కనిష్ట రెక్కపట్టును ప్రదర్శించండి. మీరు ఏమి చూస్తారు?
```r
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EX'] <- 'x1'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'CR'] <- 'x2'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EN'] <- 'x3'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'NT'] <- 'x4'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'VU'] <- 'x5'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'LC'] <- 'x6'
ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
geom_histogram(position = "identity", alpha = 0.4, bins = 20) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.te.png)
కనిష్ట రెక్కపట్టు మరియు సంరక్షణ స్థితి మధ్య మంచి సంబంధం కనిపించట్లేదు. ఈ పద్ధతిని ఉపయోగించి డేటాసెట్ యొక్క ఇతర అంశాలను పరీక్షించండి. మీరు ఏదైనా సంబంధం కనుగొంటారా?
## డెన్సిటీ ప్లాట్లు
ముందు చూసిన హిస్టోగ్రామ్లు 'స్టెప్ప్డ్' లాగా ఉంటాయి మరియు మృదువుగా వంకరగా ప్రవహించవు. మరింత మృదువైన డెన్సిటీ చార్ట్ చూపించడానికి, మీరు డెన్సిటీ ప్లాట్ ప్రయత్నించవచ్చు.
ఇప్పుడు డెన్సిటీ ప్లాట్లతో పని చేద్దాం!
```r
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.te.png)
మీరు చూడగలరు, ఈ ప్లాట్ కనిష్ట రెక్కపట్టు డేటాకు ముందు ప్లాట్‌ను ప్రతిధ్వనిస్తుంది; ఇది కేవలం కొంచెం మృదువుగా ఉంటుంది. మీరు రెండవ చార్ట్‌లో ఉన్న ఆ జాగ్గీడ్ MaxBodyMass లైన్‌ను మృదువుగా చేయాలనుకుంటే, ఈ పద్ధతిని ఉపయోగించి దాన్ని బాగా సృష్టించవచ్చు:
```r
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.te.png)
మీకు చాలా మృదువుగా కాకుండా కొంత మృదువుగా ఉండే లైన్ కావాలంటే, `adjust` పారామీటర్‌ను సవరించండి:
```r
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.te.png)
✅ ఈ రకమైన ప్లాట్ కోసం అందుబాటులో ఉన్న పారామీటర్ల గురించి చదవండి మరియు ప్రయోగాలు చేయండి!
ఈ రకమైన చార్ట్ అందమైన వివరణాత్మక దృశ్యీకరణలను అందిస్తుంది. కొన్ని కోడ్ లైన్లతో, ఉదాహరణకు, మీరు పక్షుల ఆర్డర్ ప్రకారం గరిష్ట శరీర ద్రవ్యరాశి డెన్సిటీని చూపించవచ్చు:
```r
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.te.png)
## 🚀 సవాలు
హిస్టోగ్రామ్లు ప్రాథమిక స్కాటర్‌ప్లాట్లు, బార్ చార్ట్లు లేదా లైన్ చార్ట్ల కంటే మరింత సాంకేతికమైన చార్ట్ రకం. ఇంటర్నెట్‌లో హిస్టోగ్రామ్ల ఉపయోగానికి మంచి ఉదాహరణలను వెతకండి. అవి ఎలా ఉపయోగిస్తారు, ఏమి చూపిస్తాయి, మరియు ఏ రంగాలలో లేదా పరిశోధనా ప్రాంతాలలో ఎక్కువగా ఉపయోగిస్తారు?
## [పాఠం తర్వాత క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19)
## సమీక్ష & స్వీయ అధ్యయనం
ఈ పాఠంలో, మీరు `ggplot2` ఉపయోగించి మరింత సాంకేతికమైన చార్ట్లను చూపించడం ప్రారంభించారు. `geom_density_2d()` గురించి కొంత పరిశోధన చేయండి, ఇది "ఒక లేదా ఎక్కువ కొలతలలో నిరంతర సంభావ్యతా సాంద్రత వక్రరేఖ". ఇది ఎలా పనిచేస్తుందో అర్థం చేసుకోవడానికి [డాక్యుమెంటేషన్](https://ggplot2.tidyverse.org/reference/geom_density_2d.html) చదవండి.
## అసైన్‌మెంట్
[మీ నైపుణ్యాలను వర్తించండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారులు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a233d542512136c4dd29aad38ca0175f",
"translation_date": "2025-12-19T16:23:22+00:00",
"source_file": "3-Data-Visualization/R/10-visualization-distributions/assignment.md",
"language_code": "te"
}
-->
# మీ నైపుణ్యాలను వర్తింపజేయండి
## సూచనలు
ఇప్పటివరకు, మీరు మిన్నెసోటా పక్షుల డేటాసెట్‌తో పని చేసి పక్షుల సంఖ్యలు మరియు జనాభా సాంద్రత గురించి సమాచారం కనుగొన్నారు. ఈ సాంకేతికతలను వేరే డేటాసెట్‌తో ప్రయోగించండి, ఉదాహరణకు [Kaggle](https://www.kaggle.com/) నుండి పొందినది కావచ్చు. ఈ డేటాసెట్ గురించి కథ చెప్పడానికి R స్క్రిప్ట్‌ను నిర్మించండి, మరియు దానిని చర్చించే సమయంలో హిస్టోగ్రామ్లను ఉపయోగించండి.
## రూబ్రిక్
ఉదాహరణగా | సరిపోతుంది | మెరుగుదల అవసరం
--- | --- | -- |
ఈ డేటాసెట్ గురించి, దాని మూలం సహా వ్యాఖ్యానాలతో కూడిన స్క్రిప్ట్ అందించబడింది, మరియు డేటా గురించి నిజాలు కనుగొనడానికి కనీసం 5 హిస్టోగ్రామ్లను ఉపయోగిస్తుంది. | అసంపూర్ణ వ్యాఖ్యానాలు లేదా బగ్స్ ఉన్న స్క్రిప్ట్ అందించబడింది. | వ్యాఖ్యానాలు లేకుండా మరియు బగ్స్ ఉన్న స్క్రిప్ట్ అందించబడింది.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,204 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "47028abaaafa2bcb1079702d20569066",
"translation_date": "2025-12-19T16:27:02+00:00",
"source_file": "3-Data-Visualization/R/11-visualization-proportions/README.md",
"language_code": "te"
}
-->
# Visualizing Proportions
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/11-Visualizing-Proportions.png)|
|:---:|
|Visualizing Proportions - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
ఈ పాఠంలో, మీరు మష్రూమ్స్ గురించి ఒక dataset లోని వివిధ రకాల ఫంగి ఎంతమేరలో ఉన్నాయో చూడటానికి ప్రకృతి-కేంద్రీకృత dataset ను ఉపయోగిస్తారు. Audubon నుండి తీసుకున్న 23 రకాల గిల్లెడ్ మష్రూమ్స్ గురించి వివరాలు ఉన్న dataset ను ఉపయోగించి ఈ ఆసక్తికరమైన ఫంగీలను పరిశీలిద్దాం. మీరు ఈ రుచికరమైన విజువలైజేషన్లతో ప్రయోగం చేయబోతున్నారు:
- పై చార్ట్లు 🥧
- డోనట్ చార్ట్లు 🍩
- వాఫిల్ చార్ట్లు 🧇
> 💡 Microsoft Research నుండి వచ్చిన [Charticulator](https://charticulator.com) అనే చాలా ఆసక్తికరమైన ప్రాజెక్ట్ డేటా విజువలైజేషన్ల కోసం ఉచిత డ్రాగ్ అండ్ డ్రాప్ ఇంటర్‌ఫేస్ అందిస్తుంది. వారి ట్యుటోరియల్స్ లో ఒకటిలో కూడా ఈ మష్రూమ్ dataset ఉపయోగించారు! కాబట్టి మీరు డేటాను అన్వేషించి లైబ్రరీని ఒకేసారి నేర్చుకోవచ్చు: [Charticulator tutorial](https://charticulator.com/tutorials/tutorial4.html).
## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/20)
## మీ మష్రూమ్స్ ను తెలుసుకోండి 🍄
మష్రూమ్స్ చాలా ఆసక్తికరమైనవి. వాటిని అధ్యయనం చేయడానికి ఒక dataset ను దిగుమతి చేద్దాం:
```r
mushrooms = read.csv('../../data/mushrooms.csv')
head(mushrooms)
```
ఒక పట్టిక విశ్లేషణకు మంచి డేటాతో ప్రింట్ అవుతుంది:
| class | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | stalk-root | stalk-surface-above-ring | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
| --------- | --------- | ----------- | --------- | ------- | ------- | --------------- | ------------ | --------- | ---------- | ----------- | ---------- | ------------------------ | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
| Poisonous | Convex | Smooth | Brown | Bruises | Pungent | Free | Close | Narrow | Black | Enlarging | Equal | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Scattered | Urban |
| Edible | Convex | Smooth | Yellow | Bruises | Almond | Free | Close | Broad | Black | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Brown | Numerous | Grasses |
| Edible | Bell | Smooth | White | Bruises | Anise | Free | Close | Broad | Brown | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Brown | Numerous | Meadows |
| Poisonous | Convex | Scaly | White | Bruises | Pungent | Free | Close | Narrow | Brown | Enlarging | Equal | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Scattered | Urban
| Edible | Convex |Smooth | Green | No Bruises| None |Free | Crowded | Broad | Black | Tapering | Equal | Smooth | Smooth | White | White | Partial | White | One | Evanescent | Brown | Abundant | Grasses
|Edible | Convex | Scaly | Yellow | Bruises | Almond | Free | Close | Broad | Brown | Enlarging | Club | Smooth | Smooth | White | White | Partial | White | One | Pendant | Black | Numerous | Grasses
తక్షణమే, మీరు గమనిస్తారు అన్ని డేటా వచన రూపంలో ఉంది. మీరు ఈ డేటాను చార్ట్ లో ఉపయోగించడానికి మార్చుకోవాలి. చాలా డేటా వాస్తవానికి ఒక ఆబ్జెక్ట్ రూపంలో ఉంటుంది:
```r
names(mushrooms)
```
ఫలితం:
```output
[1] "class" "cap.shape"
[3] "cap.surface" "cap.color"
[5] "bruises" "odor"
[7] "gill.attachment" "gill.spacing"
[9] "gill.size" "gill.color"
[11] "stalk.shape" "stalk.root"
[13] "stalk.surface.above.ring" "stalk.surface.below.ring"
[15] "stalk.color.above.ring" "stalk.color.below.ring"
[17] "veil.type" "veil.color"
[19] "ring.number" "ring.type"
[21] "spore.print.color" "population"
[23] "habitat"
```
ఈ డేటాను తీసుకుని 'class' కాలమ్ ను category గా మార్చండి:
```r
library(dplyr)
grouped=mushrooms %>%
group_by(class) %>%
summarise(count=n())
```
ఇప్పుడు, మీరు మష్రూమ్స్ డేటాను ప్రింట్ చేస్తే, అది poisonous/edible క్లాస్ ప్రకారం వర్గీకరించబడిందని చూడవచ్చు:
```r
View(grouped)
```
| class | count |
| --------- | --------- |
| Edible | 4208 |
| Poisonous| 3916 |
ఈ పట్టికలో చూపించిన క్రమాన్ని అనుసరించి మీ class category లేబుల్స్ సృష్టిస్తే, మీరు పై చార్ట్ తయారు చేయవచ్చు.
## పై!
```r
pie(grouped$count,grouped$class, main="Edible?")
```
ఇది, ఈ రెండు మష్రూమ్ తరగతుల ప్రకారం డేటా యొక్క నిష్పత్తులను చూపించే పై చార్ట్. లేబుల్స్ క్రమం సరిగ్గా ఉండటం చాలా ముఖ్యం, కాబట్టి లేబుల్ అర్రే ఎలా తయారవుతుందో నిర్ధారించుకోండి!
![pie chart](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.te.png)
## డోనట్స్!
కొంతమేర విజువల్ గా ఆసక్తికరమైన పై చార్ట్ డోనట్ చార్ట్, ఇది మధ్యలో రంధ్రం ఉన్న పై చార్ట్. ఈ పద్ధతిని ఉపయోగించి మన డేటాను చూద్దాం.
మష్రూమ్స్ పెరుగుతున్న వివిధ వాతావరణాలను చూడండి:
```r
library(dplyr)
habitat=mushrooms %>%
group_by(habitat) %>%
summarise(count=n())
View(habitat)
```
ఫలితం:
| habitat| count |
| --------- | --------- |
| Grasses | 2148 |
| Leaves| 832 |
| Meadows | 292 |
| Paths| 1144 |
| Urban | 368 |
| Waste| 192 |
| Wood| 3148 |
ఇక్కడ, మీరు డేటాను habitat ప్రకారం వర్గీకరిస్తున్నారు. 7 వర్గాలు ఉన్నాయి, కాబట్టి వాటిని డోనట్ చార్ట్ లేబుల్స్ గా ఉపయోగించండి:
```r
library(ggplot2)
library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.te.png)
ఈ కోడ్ రెండు లైబ్రరీలు - ggplot2 మరియు webr ఉపయోగిస్తుంది. webr లైబ్రరీలో PieDonut ఫంక్షన్ ఉపయోగించి, డోనట్ చార్ట్ సులభంగా సృష్టించవచ్చు!
R లో డోనట్ చార్ట్లు ggplot2 లైబ్రరీ మాత్రమే ఉపయోగించి కూడా చేయవచ్చు. మీరు దీని గురించి మరింత తెలుసుకోవచ్చు [ఇక్కడ](https://www.r-graph-gallery.com/128-ring-or-donut-plot.html) మరియు స్వయంగా ప్రయత్నించండి.
ఇప్పుడు మీరు డేటాను వర్గీకరించి, దాన్ని పై లేదా డోనట్ గా ప్రదర్శించడం ఎలా చేయాలో తెలుసుకున్నారంటే, ఇతర రకాల చార్ట్లను అన్వేషించవచ్చు. వాఫిల్ చార్ట్ ప్రయత్నించండి, ఇది క్వాంటిటీని అన్వేషించడానికి వేరే విధానం.
## వాఫిల్స్!
'వాఫిల్' రకం చార్ట్ అనేది పరిమాణాలను 2D స్క్వేర్ అర్రే రూపంలో చూపించే వేరే విధానం. ఈ dataset లోని మష్రూమ్ క్యాప్ రంగుల వివిధ పరిమాణాలను విజువలైజ్ చేయండి. దీని కోసం, మీరు [waffle](https://cran.r-project.org/web/packages/waffle/waffle.pdf) అనే సహాయక లైబ్రరీని ఇన్‌స్టాల్ చేసి, దానిని ఉపయోగించి విజువలైజేషన్ సృష్టించాలి:
```r
install.packages("waffle", repos = "https://cinc.rud.is")
```
మీ డేటా నుండి ఒక భాగాన్ని ఎంచుకోండి:
```r
library(dplyr)
cap_color=mushrooms %>%
group_by(cap.color) %>%
summarise(count=n())
View(cap_color)
```
లేబుల్స్ సృష్టించి, డేటాను వర్గీకరించి వాఫిల్ చార్ట్ సృష్టించండి:
```r
library(waffle)
names(cap_color$count) = paste0(cap_color$cap.color)
waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual(values=c("brown", "#F0DC82", "#D2691E", "green",
"pink", "purple", "red", "grey",
"yellow","white"))
```
వాఫిల్ చార్ట్ ఉపయోగించి, ఈ మష్రూమ్ dataset లో క్యాప్ రంగుల నిష్పత్తులను స్పష్టంగా చూడవచ్చు. ఆసక్తికరంగా, చాలా గ్రీన్ క్యాప్ మష్రూమ్స్ ఉన్నాయి!
![waffle chart](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.te.png)
ఈ పాఠంలో, మీరు నిష్పత్తులను విజువలైజ్ చేయడానికి మూడు మార్గాలు నేర్చుకున్నారు. మొదట, డేటాను వర్గాలుగా వర్గీకరించి, ఆ తర్వాత డేటాను ప్రదర్శించడానికి ఉత్తమ మార్గం - పై, డోనట్ లేదా వాఫిల్ ఎంచుకోవాలి. ఇవన్నీ రుచికరమైనవి మరియు dataset యొక్క తక్షణ స్నాప్‌షాట్ తో వినియోగదారుని సంతృప్తి పరుస్తాయి.
## 🚀 సవాలు
ఈ రుచికరమైన చార్ట్లను [Charticulator](https://charticulator.com) లో మళ్లీ సృష్టించడానికి ప్రయత్నించండి.
## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/21)
## సమీక్ష & స్వీయ అధ్యయనం
ఎప్పుడు పై, డోనట్ లేదా వాఫిల్ చార్ట్ ఉపయోగించాలో ఎప్పుడూ స్పష్టంగా ఉండదు. ఈ విషయంపై చదవడానికి కొన్ని వ్యాసాలు:
https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart
https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce
https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm
https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402
ఈ క్లిష్ట నిర్ణయం గురించి మరింత సమాచారం కోసం పరిశోధన చేయండి.
## అసైన్‌మెంట్
[Excel లో ప్రయత్నించండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకం వల్ల కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,179 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a33c5d4b4156a2b41788d8720b6f724c",
"translation_date": "2025-12-19T16:24:03+00:00",
"source_file": "3-Data-Visualization/R/12-visualization-relationships/README.md",
"language_code": "te"
}
-->
# సంబంధాలను దృశ్యీకరించడం: తేనె గురించి అన్ని విషయాలు 🍯
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../../sketchnotes/12-Visualizing-Relationships.png)|
|:---:|
|సంబంధాలను దృశ్యీకరించడం - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
మా పరిశోధనలో ప్రకృతి దృష్టిని కొనసాగిస్తూ, [యునైటెడ్ స్టేట్స్ డిపార్ట్‌మెంట్ ఆఫ్ అగ్రికల్చర్](https://www.nass.usda.gov/About_NASS/index.php) నుండి పొందిన డేటాసెట్ ఆధారంగా వివిధ రకాల తేనె మధ్య సంబంధాలను చూపించే ఆసక్తికరమైన దృశ్యీకరణలను కనుగొనుకుందాం.
ఈ సుమారు 600 అంశాల డేటాసెట్ అనేక యుఎస్ రాష్ట్రాలలో తేనె ఉత్పత్తిని ప్రదర్శిస్తుంది. ఉదాహరణకు, మీరు ప్రతి రాష్ట్రం నుండి 1998-2012 మధ్య సంవత్సరానికి ఒక వరుసగా కాలనీల సంఖ్య, కాలనీకి ఉత్పత్తి, మొత్తం ఉత్పత్తి, నిల్వలు, పౌండ్‌కు ధర మరియు ఉత్పత్తి విలువను చూడవచ్చు.
ఒక రాష్ట్రం యొక్క సంవత్సరానికి ఉత్పత్తి మరియు ఆ రాష్ట్రంలో తేనె ధర మధ్య సంబంధాన్ని దృశ్యీకరించడం ఆసక్తికరం. లేదా, రాష్ట్రాల తేనె ఉత్పత్తి కాలనీకి మధ్య సంబంధాన్ని చూపవచ్చు. ఈ సంవత్సరాల వ్యవధి 2006లో మొదటగా కనిపించిన 'CCD' లేదా 'కాలనీ కాలపనితీరు వ్యాధి' (http://npic.orst.edu/envir/ccd.html) ను కవర్ చేస్తుంది, కాబట్టి ఇది అధ్యయనానికి భావోద్వేగమైన డేటాసెట్. 🐝
## [పూర్వ-ఉపన్యాస క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22)
ఈ పాఠంలో, మీరు ముందుగా ఉపయోగించిన ggplot2 ను వేరియబుల్స్ మధ్య సంబంధాలను దృశ్యీకరించడానికి మంచి లైబ్రరీగా ఉపయోగించవచ్చు. ప్రత్యేకంగా ggplot2 యొక్క `geom_point` మరియు `qplot` ఫంక్షన్ ఉపయోగించి స్కాటర్ ప్లాట్లు మరియు లైన్ ప్లాట్లను త్వరగా '[సాంఖ్యిక సంబంధాలు](https://ggplot2.tidyverse.org/)' చూపించడానికి ఉపయోగిస్తారు, ఇది డేటా శాస్త్రవేత్తకు వేరియబుల్స్ ఎలా సంబంధం కలిగి ఉన్నాయో మెరుగ్గా అర్థం చేసుకోవడంలో సహాయపడుతుంది.
## స్కాటర్ ప్లాట్లు
ప్రతి రాష్ట్రానికి సంవత్సరానికి తేనె ధర ఎలా మారిందో చూపించడానికి స్కాటర్ ప్లాట్ ఉపయోగించండి. ggplot2, `ggplot` మరియు `geom_point` ఉపయోగించి, రాష్ట్ర డేటాను సమూహీకరించి, వర్గీకృత మరియు సంఖ్యాత్మక డేటా కోసం డేటా పాయింట్లను ప్రదర్శిస్తుంది.
ముందుగా డేటాను మరియు Seaborn ను దిగుమతి చేసుకుందాం:
```r
honey=read.csv('../../data/honey.csv')
head(honey)
```
మీరు గమనిస్తారు తేనె డేటాలో సంవత్సరము మరియు పౌండ్‌కు ధర వంటి కొన్ని ఆసక్తికరమైన కాలమ్స్ ఉన్నాయి. ఈ డేటాను యుఎస్ రాష్ట్రాల వారీగా సమూహీకరించి పరిశీలిద్దాం:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 |
| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 |
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
| FL | 230000 | 98 |22540000 | 4508000 | 0.64 | 14426000 | 1998 |
తేనె ధర మరియు దాని ఉత్పత్తి రాష్ట్రం మధ్య సంబంధాన్ని చూపించడానికి ఒక ప్రాథమిక స్కాటర్ ప్లాట్ సృష్టించండి. అన్ని రాష్ట్రాలు ప్రదర్శించడానికి `y` అక్షాన్ని పొడవుగా చేయండి:
```r
library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.te.png)
ఇప్పుడు, అదే డేటాను తేనె రంగు స్కీమ్‌తో చూపించి, సంవత్సరాల వారీగా ధర ఎలా మారిందో చూపించండి. మీరు 'scale_color_gradientn' పారామీటర్ జోడించడం ద్వారా సంవత్సరాల మార్పును చూపవచ్చు:
> ✅ [scale_color_gradientn](https://www.rdocumentation.org/packages/ggplot2/versions/0.9.1/topics/scale_colour_gradientn) గురించి మరింత తెలుసుకోండి - అందమైన రైన్బో రంగు స్కీమ్ ప్రయత్నించండి!
```r
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.te.png)
ఈ రంగు స్కీమ్ మార్పుతో, తేనె ధరలో సంవత్సరాల వారీగా స్పష్టమైన పెరుగుదల ఉందని మీరు చూడవచ్చు. నిజంగా, డేటాలో ఒక నమూనా సెట్ (ఉదాహరణకు అరిజోనా రాష్ట్రం) పరిశీలిస్తే, కొన్నిసార్లు తప్పులు ఉన్నా, ధర సంవత్సరాల వారీగా పెరుగుతుందని కనిపిస్తుంది:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 |
| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 |
| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 |
| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 |
| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 |
| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 |
| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 |
| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 |
| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 |
| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 |
| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 |
| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 |
| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 |
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
రంగు బదులుగా పరిమాణం ఉపయోగించి ఈ పెరుగుదలని చూపించవచ్చు. రంగు దృష్టి లోపం ఉన్న వినియోగదారులకు ఇది మంచి ఎంపిక కావచ్చు. డాట్ వ్యాసార్థం పెరుగుదలతో ధర పెరుగుదలని చూపించడానికి మీ దృశ్యీకరణను సవరించండి:
```r
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(aes(size = year),colour = "blue") +
scale_size_continuous(range = c(0.25, 3))
```
డాట్ల పరిమాణం క్రమంగా పెరుగుతున్నట్లు మీరు చూడవచ్చు.
![scatterplot 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.te.png)
ఇది సరఫరా మరియు డిమాండ్ యొక్క సాదారణ ఉదాహరణనా? వాతావరణ మార్పులు మరియు కాలనీ కాలపనితీరు వంటి కారణాల వల్ల, సంవత్సరాల వారీగా తేనె కొంత తక్కువగా అందుబాటులో ఉండి, అందువల్ల ధర పెరుగుతుందా?
ఈ డేటాసెట్ లోని కొన్ని వేరియబుల్స్ మధ్య సంబంధాన్ని కనుగొనడానికి, కొన్ని లైన్ చార్ట్లను పరిశీలిద్దాం.
## లైన్ చార్ట్లు
ప్రశ్న: తేనె ధర సంవత్సరాల వారీగా స్పష్టంగా పెరుగుతుందా? మీరు ఒకే లైన్ చార్ట్ సృష్టించడం ద్వారా ఇది సులభంగా కనుగొనవచ్చు:
```r
qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab = "priceperlb")
```
జవాబు: అవును, 2003 సంవత్సరానికి చుట్టూ కొన్ని మినహాయింపులతో:
![line chart 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.te.png)
ప్రశ్న: 2003లో తేనె సరఫరాలో కూడా పెరుగుదల కనిపిస్తుందా? సంవత్సరాల వారీగా మొత్తం ఉత్పత్తిని చూస్తే?
```python
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.te.png)
జవాబు: అంతగా కాదు. మొత్తం ఉత్పత్తిని చూస్తే, ఆ ప్రత్యేక సంవత్సరంలో పెరిగినట్లు కనిపిస్తుంది, అయితే సాధారణంగా ఈ సంవత్సరాలలో తేనె ఉత్పత్తి తగ్గుతోంది.
ప్రశ్న: ఆ సందర్భంలో, 2003లో తేనె ధర పెరుగుదలకు కారణం ఏమిటి?
దీనిని కనుగొనడానికి, మీరు ఫేసెట్ గ్రిడ్‌ను అన్వేషించవచ్చు.
## ఫేసెట్ గ్రిడ్లు
ఫేసెట్ గ్రిడ్లు మీ డేటాసెట్ యొక్క ఒక ఫేసెట్ తీసుకుంటాయి (మా సందర్భంలో, మీరు 'సంవత్సరం' ఎంచుకుని చాలా ఫేసెట్లు ఉత్పత్తి కాకుండా ఉండవచ్చు). Seaborn ఆ ఫేసెట్ల కోసం మీ ఎంచుకున్న x మరియు y కోఆర్డినేట్లతో ప్రతి ఫేసెట్ కోసం ప్లాట్ తయారు చేస్తుంది, ఇది సులభమైన దృశ్య తులన కోసం. 2003 ఈ రకమైన తులనలో ప్రత్యేకంగా కనిపిస్తుందా?
[ggplot2 డాక్యుమెంటేషన్](https://ggplot2.tidyverse.org/reference/facet_wrap.html) సిఫారసు చేసినట్లుగా `facet_wrap` ఉపయోగించి ఫేసెట్ గ్రిడ్ సృష్టించండి.
```r
ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
geom_line() + facet_wrap(vars(year))
```
ఈ దృశ్యీకరణలో, మీరు కాలనీకి ఉత్పత్తి మరియు కాలనీల సంఖ్యను సంవత్సరాల వారీగా, 3 కాలమ్స్‌తో wrap సెట్‌తో పక్కపక్కనే పోల్చవచ్చు:
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.te.png)
ఈ డేటాసెట్ కోసం, కాలనీల సంఖ్య మరియు వాటి ఉత్పత్తి విషయంలో సంవత్సరాల వారీగా మరియు రాష్ట్రాల వారీగా ప్రత్యేకంగా ఏమీ కనిపించదు. ఈ రెండు వేరియబుల్స్ మధ్య సంబంధం కనుగొనడానికి వేరే దృశ్య పద్ధతి ఉందా?
## ద్విభుజ లైన్ ప్లాట్లు
R యొక్క `par` మరియు `plot` ఫంక్షన్ ఉపయోగించి రెండు లైన్ ప్లాట్లను ఒకదానిపై ఒకటి ఉంచి మల్టిలైన్ ప్లాట్ ప్రయత్నించండి. x అక్షంలో సంవత్సరం ప్రదర్శించి, రెండు y అక్షాలను చూపండి. కాబట్టి, కాలనీకి ఉత్పత్తి మరియు కాలనీల సంఖ్యను ఒకదానిపై ఒకటి ఉంచి ప్రదర్శించండి:
```r
par(mar = c(5, 4, 4, 4) + 0.3)
plot(honey$year, honey$numcol, pch = 16, col = 2,type="l")
par(new = TRUE)
plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axes = FALSE, xlab = "", ylab = "",type="l")
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.te.png)
2003 సంవత్సరానికి చుట్టూ ఏదీ స్పష్టంగా కనిపించకపోయినా, ఈ పాఠాన్ని కొంత సంతోషకరంగా ముగించడానికి ఇది సహాయపడుతుంది: మొత్తం కాలనీల సంఖ్య తగ్గుతున్నప్పటికీ, వాటి ఉత్పత్తి తగ్గుతున్నా, కాలనీల సంఖ్య స్థిరపడుతోంది.
పోరు, తేనెలు, పోరు!
🐝❤️
## 🚀 సవాలు
ఈ పాఠంలో, మీరు స్కాటర్ ప్లాట్లు మరియు లైన్ గ్రిడ్ల ఇతర ఉపయోగాల గురించి కొంత తెలుసుకున్నారు, ఫేసెట్ గ్రిడ్లు సహా. మీరు ఈ పాఠాల ముందు ఉపయోగించిన వేరే డేటాసెట్ ఉపయోగించి ఫేసెట్ గ్రిడ్ సృష్టించడానికి సవాలు చేయండి. అవి సృష్టించడానికి ఎంత సమయం పడుతుందో, మరియు ఈ సాంకేతికతలతో మీరు ఎంత గ్రిడ్లు డ్రా చేయాలో జాగ్రత్తగా ఉండాల్సిన అవసరం గురించి గమనించండి.
## [ఉపన్యాసం తర్వాత క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23)
## సమీక్ష & స్వీయ అధ్యయనం
లైన్ ప్లాట్లు సులభంగా లేదా చాలా సంక్లిష్టంగా ఉండవచ్చు. మీరు [ggplot2 డాక్యుమెంటేషన్](https://ggplot2.tidyverse.org/reference/geom_path.html#:~:text=geom_line()%20connects%20them%20in,which%20cases%20are%20connected%20together) లో వివిధ రకాలుగా వాటిని ఎలా నిర్మించాలో కొంత చదవండి. ఈ పాఠంలో మీరు నిర్మించిన లైన్ చార్ట్లను డాక్స్‌లో సూచించిన ఇతర పద్ధతులతో మెరుగుపరచడానికి ప్రయత్నించండి.
## అసైన్‌మెంట్
[తేనెగుళ్లలోకి డైవ్ చేయండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వలన కలిగే ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,184 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "b4039f1c76548d144a0aee0bf28304ec",
"translation_date": "2025-12-19T16:36:05+00:00",
"source_file": "3-Data-Visualization/R/13-meaningful-vizualizations/README.md",
"language_code": "te"
}
-->
# అర్థవంతమైన విజువలైజేషన్లు చేయడం
|![ స్కెచ్ నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../../sketchnotes/13-MeaningfulViz.png)|
|:---:|
| అర్థవంతమైన విజువలైజేషన్లు - _స్కెచ్ నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
> "మీరు డేటాను చాలాసేపు పీడిస్తే, అది ఏదైనా ఒప్పుకుంటుంది" -- [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase)
డేటా సైంటిస్ట్ యొక్క ప్రాథమిక నైపుణ్యాలలో ఒకటి, మీరు కలిగి ఉండవచ్చునని అనుకునే ప్రశ్నలకు సహాయం చేసే అర్థవంతమైన డేటా విజువలైజేషన్ సృష్టించే సామర్థ్యం. మీ డేటాను విజువలైజ్ చేయడానికి ముందు, మీరు గత పాఠాలలో చేసినట్లుగా అది శుభ్రపరచబడినదిగా మరియు సిద్ధంగా ఉందని నిర్ధారించుకోవాలి. ఆ తర్వాత, మీరు డేటాను ఎలా ఉత్తమంగా ప్రదర్శించాలో నిర్ణయించవచ్చు.
ఈ పాఠంలో, మీరు సమీక్షించబోతున్నది:
1. సరైన చార్ట్ రకాన్ని ఎలా ఎంచుకోవాలి
2. మోసపూరిత చార్టింగ్‌ను ఎలా నివారించాలి
3. రంగులతో ఎలా పని చేయాలి
4. చదవడానికి సులభంగా మీ చార్టులను ఎలా స్టైల్ చేయాలి
5. యానిమేటెడ్ లేదా 3D చార్టింగ్ పరిష్కారాలను ఎలా నిర్మించాలి
6. సృజనాత్మక విజువలైజేషన్‌ను ఎలా నిర్మించాలి
## [ప్రీ-లెక్చర్ క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/24)
## సరైన చార్ట్ రకాన్ని ఎంచుకోండి
మునుపటి పాఠాలలో, మీరు Matplotlib మరియు Seaborn ఉపయోగించి అన్ని రకాల ఆసక్తికరమైన డేటా విజువలైజేషన్లను నిర్మించడంలో ప్రయోగించారు. సాధారణంగా, మీరు అడుగుతున్న ప్రశ్నకు సరిపోయే [సరైన రకమైన చార్ట్](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/)ను ఈ పట్టిక ఉపయోగించి ఎంచుకోవచ్చు:
| మీరు చేయవలసినది: | మీరు ఉపయోగించవలసింది: |
| -------------------------- | ------------------------------- |
| సమయానుగుణంగా డేటా ధోరణులను చూపించండి | లైన్ |
| వర్గాలను పోల్చండి | బార్, పై |
| మొత్తం మొత్తాలను పోల్చండి | పై, స్టాక్డ్ బార్ |
| సంబంధాలను చూపించండి | స్కాటర్, లైన్, ఫేసెట్, డ్యూయల్ లైన్ |
| పంపిణీలను చూపించండి | స్కాటర్, హిస్టోగ్రామ్, బాక్స్ |
| భాగాలను చూపించండి | పై, డోనట్, వాఫుల్ |
> ✅ మీ డేటా నిర్మాణం ఆధారంగా, మీరు ఒక నిర్దిష్ట చార్ట్‌కు మద్దతు ఇవ్వడానికి దాన్ని టెక్స్ట్ నుండి సంఖ్యాత్మకంగా మార్చుకోవాల్సి ఉండవచ్చు.
## మోసాన్ని నివారించండి
డేటా సైంటిస్ట్ సరైన డేటాకు సరైన చార్ట్ ఎంచుకోవడానికి జాగ్రత్తగా ఉన్నా కూడా, డేటాను ఒక పాయింట్ నిరూపించడానికి ప్రదర్శించే అనేక మార్గాలు ఉన్నాయి, ఇది తరచుగా డేటాను తక్కువగా చూపించడంలో దోషం కలిగిస్తుంది. మోసపూరిత చార్టులు మరియు ఇన్ఫోగ్రాఫిక్స్ యొక్క అనేక ఉదాహరణలు ఉన్నాయి!
[![అల్బెర్టో కైరో ద్వారా How Charts Lie](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.te.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 మోసపూరిత చార్టుల గురించి కాన్ఫరెన్స్ టాక్ కోసం పై చిత్రాన్ని క్లిక్ చేయండి
ఈ చార్ట్ X అక్షాన్ని తిరగబెడుతుంది, నిజానికి వ్యతిరేకంగా చూపించడానికి, తేదీ ఆధారంగా:
![తప్పు చార్ట్ 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.te.png)
[ఈ చార్ట్](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) మరింత మోసపూరితంగా ఉంది, కళ్ళు కుడి వైపు ఆకర్షించబడి, కాలక్రమేణా వివిధ కౌంటీలలో COVID కేసులు తగ్గాయని తేల్చుకుంటుంది. నిజానికి, తేదీలను జాగ్రత్తగా పరిశీలిస్తే, అవి మోసపూరిత దిగువ ధోరణిని ఇవ్వడానికి తిరగబడినట్లు కనబడతాయి.
![తప్పు చార్ట్ 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.te.jpg)
ఈ ప్రసిద్ధ ఉదాహరణ రంగు మరియు తిరగబడిన Y అక్షాన్ని ఉపయోగించి మోసం చేస్తుంది: తుపాకీ మిత్ర చట్టం ఆమోదం తర్వాత తుపాకీ మరణాలు పెరిగాయని తేల్చుకోవడం కాకుండా, కళ్ళు వ్యతిరేకం నిజమని భావించడానికి మోసం చేస్తాయి:
![తప్పు చార్ట్ 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.te.jpg)
ఈ విచిత్ర చార్ట్ భాగస్వామ్యాన్ని ఎలా మోసం చేయవచ్చో హాస్యాస్పదంగా చూపిస్తుంది:
![తప్పు చార్ట్ 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.te.jpg)
సమానమైన వాటిని పోల్చడం మరొక అన్యాయమైన ట్రిక్. 'స్పూరియస్ కారెలేషన్స్' గురించి ఒక [అద్భుతమైన వెబ్ సైట్](https://tylervigen.com/spurious-correlations) ఉంది, ఇది మైన్లో విడాకుల రేటు మరియు మార్జరిన్ వినియోగం వంటి విషయాలను కలిపి 'వాస్తవాలు' చూపిస్తుంది. Reddit గ్రూప్ కూడా డేటా యొక్క [అందం లేని ఉపయోగాలను](https://www.reddit.com/r/dataisugly/top/?t=all) సేకరిస్తుంది.
మోసపూరిత చార్టుల ద్వారా కళ్ళు ఎంత సులభంగా మోసపోయే అవకాశం ఉందో అర్థం చేసుకోవడం ముఖ్యం. డేటా సైంటిస్ట్ ఉద్దేశ్యం మంచిదైనా, చాలా వర్గాలను చూపించే పై చార్ట్ వంటి చెడు రకమైన చార్ట్ ఎంపిక మోసపూరితంగా ఉండవచ్చు.
## రంగు
మీరు పై 'ఫ్లోరిడా తుపాకీ హింస' చార్ట్‌లో రంగు చార్టులకు అదనపు అర్థాన్ని ఎలా అందించగలదో చూశారు, ముఖ్యంగా ggplot2 మరియు RColorBrewer వంటి లైబ్రరీలు ఉపయోగించని చార్టులలో, ఇవి వివిధ ధృవీకరించబడిన రంగు లైబ్రరీలు మరియు ప్యాలెట్లతో వస్తాయి. మీరు చేతితో చార్ట్ తయారు చేస్తుంటే, [రంగు సిద్ధాంతం](https://colormatters.com/color-and-design/basic-color-theory) కొంత అధ్యయనం చేయండి.
> ✅ చార్టులను డిజైన్ చేసే సమయంలో, విజువలైజేషన్‌లో ప్రాప్యత ఒక ముఖ్యమైన అంశం అని గుర్తుంచుకోండి. మీ వినియోగదారుల్లో కొంతమంది రంగు దృష్టి లోపం కలిగి ఉండవచ్చు - మీ చార్ట్ దృష్టి లోపం ఉన్న వినియోగదారులకు బాగా ప్రదర్శించబడుతుందా?
మీ చార్ట్ కోసం రంగులను ఎంచుకునేటప్పుడు జాగ్రత్తగా ఉండండి, ఎందుకంటే రంగు మీరు ఉద్దేశించని అర్థాన్ని కూడా వ్యక్తం చేయవచ్చు. పై 'ఎత్తు' చార్ట్‌లో 'పింక్ లేడీస్' స్పష్టంగా 'స్త్రీలింగ' అర్థాన్ని కలిగి ఉండటం చార్ట్ యొక్క విచిత్రతను పెంచుతుంది.
[రంగు అర్థం](https://colormatters.com/color-symbolism/the-meanings-of-colors) ప్రపంచంలోని వివిధ భాగాల్లో భిన్నంగా ఉండవచ్చు, మరియు వాటి షేడ్ల ప్రకారం అర్థం మారవచ్చు. సాధారణంగా, రంగుల అర్థాలు:
| రంగు | అర్థం |
| ------ | ------------------- |
| ఎరుపు | శక్తి |
| నీలం | నమ్మకం, విశ్వాసం |
| పసుపు | సంతోషం, జాగ్రత్త |
| ఆకుపచ్చ | పర్యావరణం, అదృష్టం, అసూయ |
| గులాబీ | సంతోషం |
| నారింజ | ఉత్సాహం |
మీకు కస్టమ్ రంగులతో చార్ట్ నిర్మించమని బాధ్యత ఉంటే, మీ చార్టులు ప్రాప్యత కలిగి ఉండాలని మరియు మీరు వ్యక్తం చేయదలచిన అర్థంతో రంగు సరిపోవాలని నిర్ధారించుకోండి.
## చదవడానికి సులభంగా మీ చార్టులను స్టైల్ చేయడం
చార్టులు చదవడానికి సులభంగా లేకపోతే అర్థవంతంగా ఉండవు! మీ డేటాతో బాగా సరిపడేలా మీ చార్ట్ యొక్క వెడల్పు మరియు ఎత్తును స్టైల్ చేయడానికి కొంత సమయం తీసుకోండి. ఒక వేరియబుల్ (ఉదాహరణకు అన్ని 50 రాష్ట్రాలు) ప్రదర్శించాల్సిన అవసరం ఉంటే, వీటిని Y అక్షంపై నిలువుగా చూపించండి, తద్వారా ఆడంబరంగా స్క్రోల్ అయ్యే చార్ట్ తప్పించవచ్చు.
మీ అక్షాలను లేబుల్ చేయండి, అవసరమైతే లెజెండ్ ఇవ్వండి, మరియు డేటా మెరుగైన అవగాహన కోసం టూల్‌టిప్స్ అందించండి.
మీ డేటా X అక్షంపై వర్ణనాత్మకంగా ఉంటే, చదవడానికి మెరుగ్గా ఉండేందుకు టెక్స్ట్‌ను కోణంలో చూపించవచ్చు. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D ప్లాటింగ్ అందిస్తుంది, మీ డేటా దీనికి మద్దతు ఇస్తే. దీని ద్వారా సున్నితమైన డేటా విజువలైజేషన్లు తయారు చేయవచ్చు.
![3D ప్లాట్లు](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.te.png)
## యానిమేషన్ మరియు 3D చార్ట్ ప్రదర్శన
ఈ రోజుల్లో కొన్ని ఉత్తమ డేటా విజువలైజేషన్లు యానిమేటెడ్ ఉంటాయి. షిర్లీ వూ D3తో అద్భుతమైనవి చేసింది, ఉదాహరణకు '[ఫిల్మ్ ఫ్లవర్స్](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ఇందులో ప్రతి పువ్వు ఒక సినిమా విజువలైజేషన్. గార్డియన్ కోసం మరో ఉదాహరణ 'బస్స్డ్ అవుట్', ఇది విజువలైజేషన్లను Greensock మరియు D3తో కలిపి NYC తన హోంలెస్ సమస్యను నగరానికి బయటికి బస్సు ద్వారా ఎలా నిర్వహిస్తుందో చూపించే స్క్రోలిటెల్లింగ్ ఆర్టికల్ ఫార్మాట్.
![బస్సింగ్](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.te.png)
> "Bussed Out: How America Moves its Homeless" [గార్డియన్](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) నుండి. విజువలైజేషన్లు: నాడీహ్ బ్రెమర్ & షిర్లీ వూ
ఈ పాఠం ఈ శక్తివంతమైన విజువలైజేషన్ లైబ్రరీలను లోతుగా నేర్పడానికి తగినంత కాదు, Vue.js యాప్‌లో D3తో ప్రయత్నించండి, "Dangerous Liaisons" పుస్తకాన్ని యానిమేటెడ్ సోషల్ నెట్‌వర్క్‌గా ప్రదర్శించడానికి లైబ్రరీ ఉపయోగించి.
> "Les Liaisons Dangereuses" అనేది ఎపిస్టోలరీ నవల, లేదా లేఖల సిరీస్‌గా ప్రదర్శించబడిన నవల. 1782లో చోడర్లోస్ డి లాక్లోస్ రాసినది, ఇది 18వ శతాబ్దం చివరలో ఫ్రెంచ్ అరిస్టోక్రసీ యొక్క రెండు ద్వంద్వ పాత్రధారుల, వికోంట్ డి వాల్మోంట్ మరియు మార్క్విస్ డి మెర్టోయిల్ యొక్క దుర్మార్గ, నైతికంగా దుర్బలమైన సామాజిక వ్యూహాల కథ. వారు చివరికి మరణిస్తారు కానీ పెద్ద సామాజిక నష్టం కలిగిస్తారు. నవల వివిధ వ్యక్తులకు రాసిన లేఖల సిరీస్‌గా విస్తరించబడుతుంది, ప్రతీకారం కోసం లేదా కేవలం సమస్యలు సృష్టించడానికి. ఈ లేఖల విజువలైజేషన్ సృష్టించి కథలో ప్రధాన పాత్రధారులను దృశ్యమానంగా కనుగొనండి.
మీరు ఈ సోషల్ నెట్‌వర్క్ యొక్క యానిమేటెడ్ వీక్షణను ప్రదర్శించే వెబ్ యాప్‌ను పూర్తి చేస్తారు. ఇది Vue.js మరియు D3 ఉపయోగించి [నెట్‌వర్క్ విజువలైజేషన్](https://github.com/emiliorizzo/vue-d3-network) సృష్టించడానికి రూపొందించిన లైబ్రరీని ఉపయోగిస్తుంది. యాప్ నడుస్తున్నప్పుడు, మీరు స్క్రీన్‌పై నోడ్లను తీయవచ్చు, డేటాను తిరగరాయడానికి.
![లియాజన్స్](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.te.png)
## ప్రాజెక్ట్: D3.js ఉపయోగించి నెట్‌వర్క్ చూపించే చార్ట్ నిర్మించండి
> ఈ పాఠం ఫోల్డర్‌లో `solution` ఫోల్డర్ ఉంది, మీరు పూర్తి చేసిన ప్రాజెక్టును మీ సూచన కోసం చూడవచ్చు.
1. స్టార్టర్ ఫోల్డర్ రూట్‌లో ఉన్న README.md ఫైల్‌లో సూచనలను అనుసరించండి. మీ మెషీన్‌లో NPM మరియు Node.js నడుస్తున్నాయని నిర్ధారించుకోండి, ఆపై ప్రాజెక్ట్ డిపెండెన్సీలను ఇన్‌స్టాల్ చేయండి.
2. `starter/src` ఫోల్డర్‌ను తెరవండి. అక్కడ మీరు నవల నుండి అన్ని లేఖలతో కూడిన .json ఫైల్ ఉన్న `assets` ఫోల్డర్‌ను కనుగొంటారు, సంఖ్యలతో, 'to' మరియు 'from' అనోటేషన్‌తో.
3. `components/Nodes.vue` లోని కోడ్‌ను పూర్తి చేయండి, విజువలైజేషన్‌ను సక్రియం చేయడానికి. `createLinks()` అనే పద్ధతిని వెతకండి మరియు క్రింది నెస్టెడ్ లూప్‌ను జోడించండి.
.json ఆబ్జెక్ట్‌లోని లేఖల 'to' మరియు 'from' డేటాను పట్టుకుని `links` ఆబ్జెక్టును నిర్మించండి, తద్వారా విజువలైజేషన్ లైబ్రరీ దాన్ని ఉపయోగించగలదు:
```javascript
//అక్షరాల ద్వారా లూప్ చేయండి
let f = 0;
let t = 0;
for (var i = 0; i < letters.length; i++) {
for (var j = 0; j < characters.length; j++) {
if (characters[j] == letters[i].from) {
f = j;
}
if (characters[j] == letters[i].to) {
t = j;
}
}
this.links.push({ sid: f, tid: t });
}
```
టెర్మినల్ నుండి మీ యాప్‌ను నడపండి (npm run serve) మరియు విజువలైజేషన్‌ను ఆస్వాదించండి!
## 🚀 సవాలు
ఇంటర్నెట్‌లో మోసపూరిత విజువలైజేషన్లను కనుగొనండి. రచయిత ఎలా వినియోగదారుని మోసం చేస్తాడు, అది ఉద్దేశపూర్వకమా? ఆ విజువలైజేషన్లను సరిచేసి అవి ఎలా ఉండాలో చూపించండి.
## [పోస్ట్-లెక్చర్ క్విజ్](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/25)
## సమీక్ష & స్వీయ అధ్యయనం
ఇక్కడ మోసపూరిత డేటా విజువలైజేషన్ గురించి చదవడానికి కొన్ని వ్యాసాలు ఉన్నాయి:
https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
చరిత్రాత్మక ఆస్తులు మరియు కళాఖండాల కోసం ఈ ఆసక్తికరమైన విజువలైజేషన్లను చూడండి:
https://handbook.pubpub.org/
యానిమేషన్ మీ విజువలైజేషన్లను ఎలా మెరుగుపరుస్తుందో ఈ వ్యాసాన్ని చూడండి:
https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
## అసైన్‌మెంట్
[మీ స్వంత కస్టమ్ విజువలైజేషన్‌ను నిర్మించండి](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,45 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1441550a0d789796b2821e04f7f4cc94",
"translation_date": "2025-12-19T13:34:37+00:00",
"source_file": "3-Data-Visualization/README.md",
"language_code": "te"
}
-->
# విజువలైజేషన్లు
![a bee on a lavender flower](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.te.jpg)
> ఫోటో <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">జెన్నా లీ</a> చేత <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">అన్స్ప్లాష్</a> లో
డేటాను విజువలైజ్ చేయడం డేటా సైంటిస్ట్ యొక్క అత్యంత ముఖ్యమైన పనులలో ఒకటి. చిత్రాలు 1000 పదాల విలువ కలిగి ఉంటాయి, మరియు ఒక విజువలైజేషన్ మీ డేటాలోని స్పైక్స్, అవుట్లయర్స్, గ్రూపింగ్స్, ధోరణులు మరియు మరిన్ని వంటి అన్ని రకాల ఆసక్తికరమైన భాగాలను గుర్తించడంలో సహాయపడుతుంది, ఇది మీ డేటా చెప్పదలచుకున్న కథను అర్థం చేసుకోవడంలో సహాయపడుతుంది.
ఈ ఐదు పాఠాలలో, మీరు ప్రకృతి నుండి సేకరించిన డేటాను అన్వేషించి వివిధ సాంకేతికతలను ఉపయోగించి ఆసక్తికరమైన మరియు అందమైన విజువలైజేషన్లను సృష్టిస్తారు.
| టాపిక్ నంబర్ | టాపిక్ | లింక్ చేసిన పాఠం | రచయిత |
| :-----------: | :--: | :-----------: | :----: |
| 1. | పరిమాణాలను విజువలైజ్ చేయడం | <ul> <li> [Python](09-visualization-quantities/README.md)</li> <li>[R](../../../3-Data-Visualization/R/09-visualization-quantities) </li> </ul>|<ul> <li> [జెన్ లూపర్](https://twitter.com/jenlooper)</li><li> [విదుషి గుప్త](https://github.com/Vidushi-Gupta)</li> <li>[జస్లీన్ సొంధి](https://github.com/jasleen101010)</li></ul> |
| 2. | పంపిణీని విజువలైజ్ చేయడం | <ul> <li> [Python](10-visualization-distributions/README.md)</li> <li>[R](../../../3-Data-Visualization/R/10-visualization-distributions) </li> </ul>|<ul> <li> [జెన్ లూపర్](https://twitter.com/jenlooper)</li><li> [విదుషి గుప్త](https://github.com/Vidushi-Gupta)</li> <li>[జస్లీన్ సొంధి](https://github.com/jasleen101010)</li></ul> |
| 3. | నిష్పత్తులను విజువలైజ్ చేయడం | <ul> <li> [Python](11-visualization-proportions/README.md)</li> <li>[R](../../../3-Data-Visualization) </li> </ul>|<ul> <li> [జెన్ లూపర్](https://twitter.com/jenlooper)</li><li> [విదుషి గుప్త](https://github.com/Vidushi-Gupta)</li> <li>[జస్లీన్ సొంధి](https://github.com/jasleen101010)</li></ul> |
| 4. | సంబంధాలను విజువలైజ్ చేయడం | <ul> <li> [Python](12-visualization-relationships/README.md)</li> <li>[R](../../../3-Data-Visualization) </li> </ul>|<ul> <li> [జెన్ లూపర్](https://twitter.com/jenlooper)</li><li> [విదుషి గుప్త](https://github.com/Vidushi-Gupta)</li> <li>[జస్లీన్ సొంధి](https://github.com/jasleen101010)</li></ul> |
| 5. | అర్థవంతమైన విజువలైజేషన్లు చేయడం | <ul> <li> [Python](13-meaningful-visualizations/README.md)</li> <li>[R](../../../3-Data-Visualization) </li> </ul>|<ul> <li> [జెన్ లూపర్](https://twitter.com/jenlooper)</li><li> [విదుషి గుప్త](https://github.com/Vidushi-Gupta)</li> <li>[జస్లీన్ సొంధి](https://github.com/jasleen101010)</li></ul> |
### క్రెడిట్స్
ఈ విజువలైజేషన్ పాఠాలు 🌸 తో రాయబడ్డాయి [జెన్ లూపర్](https://twitter.com/jenlooper), [జస్లీన్ సొంధి](https://github.com/jasleen101010) మరియు [విదుషి గుప్త](https://github.com/Vidushi-Gupta) చేత.
🍯 US హనీ ప్రొడక్షన్ కోసం డేటా జెస్సికా లీ ప్రాజెక్ట్ నుండి [Kaggle](https://www.kaggle.com/jessicali9530/honey-production) లో సేకరించబడింది. [డేటా](https://usda.library.cornell.edu/concern/publications/rn301137d) [యునైటెడ్ స్టేట్స్ డిపార్ట్‌మెంట్ ఆఫ్ అగ్రికల్చర్](https://www.nass.usda.gov/About_NASS/index.php) నుండి తీసుకోబడింది.
🍄 మష్రూమ్ కోసం డేటా కూడా [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset) నుండి సేకరించబడింది, హాటరాస్ డంటన్ ద్వారా సవరించబడింది. ఈ డేటాసెట్ 23 జాతుల గిల్లెడ్ మష్రూమ్స్ యొక్క హైపోథెటికల్ నమూనాల వివరణలను కలిగి ఉంది, ఇవి అగరికస్ మరియు లేపియోటా కుటుంబానికి చెందుతాయి. మష్రూమ్ ఆడుబోన్ సొసైటీ ఫీల్డ్ గైడ్ టు నార్త్ అమెరికన్ మష్రూమ్స్ (1981) నుండి తీసుకోబడింది. ఈ డేటాసెట్ 1987 లో UCI ML 27 కు దానం చేయబడింది.
🦆 మిన్నెసోటా పక్షుల డేటా [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) నుండి సేకరించబడింది, [వికీపీడియా](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) నుండి హన్నా కాలిన్స్ ద్వారా స్క్రాప్ చేయబడింది.
ఈ అన్ని డేటాసెట్లు [CC0: క్రియేటివ్ కామన్స్](https://creativecommons.org/publicdomain/zero/1.0/) లైసెన్స్ కింద ఉన్నాయి.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,122 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "07e12a25d20b8f191e3cb651c27fdb2b",
"translation_date": "2025-12-19T15:26:27+00:00",
"source_file": "4-Data-Science-Lifecycle/14-Introduction/README.md",
"language_code": "te"
}
-->
# డేటా సైన్స్ లైఫ్‌సైకిల్ పరిచయం
|![ స్కెచ్‌నోట్ [(@sketchthedocs)](https://sketchthedocs.dev) ద్వారా ](../../sketchnotes/14-DataScience-Lifecycle.png)|
|:---:|
| డేటా సైన్స్ లైఫ్‌సైకిల్ పరిచయం - _స్కెచ్నోట్ [@nitya](https://twitter.com/nitya) ద్వారా_ |
## [పూర్వ-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/26)
ఈ సమయంలో మీరు డేటా సైన్స్ ఒక ప్రక్రియ అని గ్రహించినట్లయితే, ఈ ప్రక్రియను 5 దశలుగా విభజించవచ్చు:
- సేకరణ
- ప్రాసెసింగ్
- విశ్లేషణ
- కమ్యూనికేషన్
- నిర్వహణ
ఈ పాఠం లైఫ్‌సైకిల్ యొక్క 3 భాగాలపై దృష్టి సారిస్తుంది: సేకరణ, ప్రాసెసింగ్ మరియు నిర్వహణ.
![డేటా సైన్స్ లైఫ్‌సైకిల్ యొక్క డయాగ్రామ్](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.te.jpg)
> ఫోటో [బర్క్లీ స్కూల్ ఆఫ్ ఇన్ఫర్మేషన్](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) ద్వారా
## సేకరణ
లైఫ్‌సైకిల్ యొక్క మొదటి దశ చాలా ముఖ్యమైనది ఎందుకంటే తదుపరి దశలు దీని మీద ఆధారపడి ఉంటాయి. ఇది వాస్తవానికి రెండు దశలను కలిపినది: డేటాను పొందడం మరియు పరిష్కరించాల్సిన సమస్యలు మరియు ఉద్దేశ్యాన్ని నిర్వచించడం.
ప్రాజెక్ట్ లక్ష్యాలను నిర్వచించడం సమస్య లేదా ప్రశ్నలో లోతైన సందర్భాన్ని అవసరం చేస్తుంది. మొదట, సమస్య పరిష్కారం కావలసిన వారిని గుర్తించి పొందాలి. వీరు వ్యాపారంలో స్టేక్‌హోల్డర్లు లేదా ప్రాజెక్ట్ స్పాన్సర్లు కావచ్చు, వారు ఈ ప్రాజెక్ట్ ద్వారా ఎవరు లేదా ఏమి లాభపడతారో, మరియు ఎందుకు అవసరమో గుర్తించడంలో సహాయం చేస్తారు. బాగా నిర్వచించిన లక్ష్యం కొలవదగినది మరియు అంగీకారమైన ఫలితాన్ని నిర్వచించడానికి పరిమాణాత్మకంగా ఉండాలి.
డేటా సైంటిస్ట్ అడగవచ్చు:
- ఈ సమస్యకు ముందు దృష్టి పెట్టారా? ఏమి కనుగొనబడింది?
- ఉద్దేశ్యం మరియు లక్ష్యం అందరికీ అర్థమయ్యాయా?
- అస్పష్టత ఉందా? దాన్ని ఎలా తగ్గించాలి?
- పరిమితులు ఏమిటి?
- తుది ఫలితం ఎలా ఉండవచ్చు?
- ఎంత వనరులు (సమయం, వ్యక్తులు, కంప్యూటేషనల్) అందుబాటులో ఉన్నాయి?
తర్వాత, నిర్వచించిన లక్ష్యాలను సాధించడానికి అవసరమైన డేటాను గుర్తించడం, సేకరించడం, మరియు చివరగా అన్వేషించడం జరుగుతుంది. సేకరణ దశలో, డేటా సైంటిస్ట్‌లు డేటా పరిమాణం మరియు నాణ్యతను కూడా అంచనా వేయాలి. ఇది కొంత డేటా అన్వేషణను అవసరం చేస్తుంది, ఎందుకంటే పొందిన డేటా కావలసిన ఫలితాన్ని అందించగలదని నిర్ధారించుకోవాలి.
డేటా గురించి డేటా సైంటిస్ట్ అడగవచ్చు:
- నాకు ఇప్పటికే ఏ డేటా అందుబాటులో ఉంది?
- ఈ డేటా యజమాని ఎవరు?
- గోప్యతా సమస్యలు ఏమిటి?
- ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
- ఈ సమస్యకు డేటా నాణ్యత సరిపోతుందా?
- ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, లక్ష్యాలను మార్చడం లేదా పునః నిర్వచించడం అవసరమా?
## ప్రాసెసింగ్
లైఫ్‌సైకిల్ యొక్క ప్రాసెసింగ్ దశ డేటాలో నమూనాలను కనుగొనడంపై మరియు మోడలింగ్‌పై దృష్టి సారిస్తుంది. ప్రాసెసింగ్ దశలో ఉపయోగించే కొన్ని సాంకేతికతలు నమూనాలను కనుగొనడానికి గణాంక పద్ధతులను అవసరం చేస్తాయి. సాధారణంగా, పెద్ద డేటా సెట్‌తో ఇది మానవుని కోసం కష్టమైన పని అవుతుంది మరియు ప్రక్రియను వేగవంతం చేయడానికి కంప్యూటర్లపై ఆధారపడుతుంది. ఈ దశలో డేటా సైన్స్ మరియు మెషీన్ లెర్నింగ్ కలుస్తాయి. మీరు మొదటి పాఠంలో నేర్చుకున్నట్లుగా, మెషీన్ లెర్నింగ్ అనేది డేటాను అర్థం చేసుకోవడానికి మోడల్స్ నిర్మించే ప్రక్రియ. మోడల్స్ అనేవి డేటాలో వేరియబుల్స్ మధ్య సంబంధాన్ని ప్రతిబింబిస్తాయి, ఇవి ఫలితాలను అంచనా వేయడంలో సహాయపడతాయి.
ఈ దశలో సాధారణంగా ఉపయోగించే సాంకేతికతలు ML for Beginners పాఠ్యాంశంలో ఉన్నాయి. వాటిని తెలుసుకోవడానికి లింకులను అనుసరించండి:
- [వర్గీకరణ](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): డేటాను సమర్థవంతంగా ఉపయోగించడానికి వర్గాలుగా ఏర్పాటు చేయడం.
- [క్లస్టరింగ్](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): డేటాను సమానమైన సమూహాలుగా గుంపు చేయడం.
- [రెగ్రెషన్](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): విలువలను అంచనా వేయడానికి వేరియబుల్స్ మధ్య సంబంధాలను నిర్ణయించడం.
## నిర్వహణ
లైఫ్‌సైకిల్ డయాగ్రామ్‌లో, మీరు గమనించవచ్చు నిర్వహణ సేకరణ మరియు ప్రాసెసింగ్ మధ్యలో ఉంటుంది. నిర్వహణ అనేది ప్రాజెక్ట్ మొత్తం ప్రక్రియలో డేటాను నిర్వహించడం, నిల్వ చేయడం మరియు భద్రపరచడం యొక్క నిరంతర ప్రక్రియ మరియు ప్రాజెక్ట్ మొత్తం కాలంలో దృష్టిలో ఉంచుకోవాలి.
### డేటా నిల్వ
డేటా ఎలా మరియు ఎక్కడ నిల్వ చేయబడుతుందో అనే విషయాలు నిల్వ ఖర్చు మరియు డేటా యాక్సెస్ వేగం పనితీరును ప్రభావితం చేయవచ్చు. ఇలాంటి నిర్ణయాలు సాధారణంగా డేటా సైంటిస్ట్ మాత్రమే తీసుకోరు, కానీ వారు డేటా నిల్వ విధానాల ఆధారంగా డేటాతో ఎలా పని చేయాలో నిర్ణయాలు తీసుకోవచ్చు.
ఇక్కడ ఆధునిక డేటా నిల్వ వ్యవస్థల కొన్ని అంశాలు ఉన్నాయి, ఇవి ఈ నిర్ణయాలను ప్రభావితం చేస్తాయి:
**ఆన్-ప్రెమైస్ vs ఆఫ్-ప్రెమైస్ vs పబ్లిక్ లేదా ప్రైవేట్ క్లౌడ్**
ఆన్-ప్రెమైస్ అంటే మీ స్వంత పరికరాలపై డేటాను నిర్వహించడం, ఉదాహరణకు డేటాను నిల్వ చేసే హార్డ్ డ్రైవ్‌లతో సర్వర్ కలిగి ఉండటం. ఆఫ్-ప్రెమైస్ అంటే మీరు యజమాని కాని పరికరాలపై ఆధారపడటం, ఉదాహరణకు డేటా సెంటర్. పబ్లిక్ క్లౌడ్ అనేది డేటా ఎక్కడ మరియు ఎలా నిల్వ చేయబడుతుందో తెలియకుండానే డేటాను నిల్వ చేయడానికి ప్రాచుర్యం పొందిన ఎంపిక, ఇక్కడ పబ్లిక్ అంటే క్లౌడ్ ఉపయోగించే అందరికీ పంచుకునే ఒక ఏకీకృత మౌలిక సదుపాయం. కొన్ని సంస్థలకు కఠిన భద్రతా విధానాలు ఉంటాయి, వారు డేటా నిల్వ చేసే పరికరాలపై పూర్తి యాక్సెస్ కలిగి ఉండాలని కోరుకుంటారు, అందుకే వారు తమ స్వంత క్లౌడ్ సేవలను అందించే ప్రైవేట్ క్లౌడ్‌పై ఆధారపడతారు. మీరు [తరువాతి పాఠాల్లో](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud) క్లౌడ్‌లో డేటా గురించి మరింత తెలుసుకుంటారు.
**కోల్డ్ vs హాట్ డేటా**
మీ మోడల్స్‌ను శిక్షణ ఇవ్వడానికి మీరు ఎక్కువ శిక్షణ డేటా అవసరం కావచ్చు. మీ మోడల్‌తో సంతృప్తిగా ఉంటే, మరిన్ని డేటా వస్తుంది, మోడల్ తన ఉద్దేశ్యాన్ని సేవ్ చేయడానికి. ఏ సందర్భంలోనైనా, డేటాను నిల్వ చేయడం మరియు యాక్సెస్ చేయడం ఖర్చు పెరుగుతుంది. అరుదుగా ఉపయోగించే డేటాను (కోల్డ్ డేటా) తరచుగా యాక్సెస్ చేసే హాట్ డేటా నుండి వేరు చేయడం హార్డ్‌వేర్ లేదా సాఫ్ట్‌వేర్ సేవల ద్వారా తక్కువ ఖర్చుతో డేటా నిల్వ ఎంపిక కావచ్చు. కోల్డ్ డేటాను యాక్సెస్ చేయాల్సినప్పుడు, హాట్ డేటాతో పోలిస్తే కొంత ఎక్కువ సమయం పట్టవచ్చు.
### డేటా నిర్వహణ
డేటాతో పని చేస్తూ, మీరు కొన్ని డేటాను శుభ్రపరచాల్సి ఉండవచ్చు, ఇది [డేటా ప్రిపరేషన్](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) పాఠంలో కవర్ చేసిన సాంకేతికతలతో చేయవచ్చు, తద్వారా ఖచ్చితమైన మోడల్స్ నిర్మించవచ్చు. కొత్త డేటా వచ్చినప్పుడు, నాణ్యతలో సారూప్యతను నిర్వహించడానికి అదే విధమైన అప్లికేషన్లు అవసరం. కొన్ని ప్రాజెక్టులు డేటాను తుది స్థలానికి తరలించే ముందు శుభ్రపరిచే, సమాహరించే, మరియు కంప్రెస్ చేసే ఆటోమేటెడ్ టూల్ ఉపయోగిస్తాయి. Azure Data Factory ఈ టూల్స్‌లో ఒక ఉదాహరణ.
### డేటా భద్రత
డేటాను భద్రపరచడంలో ప్రధాన లక్ష్యం, దానితో పని చేసే వారు ఏది సేకరించబడిందో మరియు దాన్ని ఏ సందర్భంలో ఉపయోగిస్తున్నారో నియంత్రణలో ఉండటం. డేటాను భద్రపరచడం అంటే అవసరమైన వారికే యాక్సెస్ పరిమితం చేయడం, స్థానిక చట్టాలు మరియు నియమాలను పాటించడం, అలాగే [నైతిక ప్రమాణాలు](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics)ను నిర్వహించడం.
భద్రత దృష్ట్యా ఒక టీమ్ చేయగలిగే కొన్ని చర్యలు:
- అన్ని డేటా ఎన్‌క్రిప్ట్ చేయబడిందని నిర్ధారించుకోవడం
- కస్టమర్లకు వారి డేటా ఎలా ఉపయోగించబడుతుందో సమాచారం అందించడం
- ప్రాజెక్ట్ నుండి వెళ్లిపోయిన వారిని డేటా యాక్సెస్ నుండి తొలగించడం
- ప్రాజెక్ట్ సభ్యులలో కొంతమందికే డేటాను మార్చే అనుమతి ఇవ్వడం
## 🚀 సవాలు
డేటా సైన్స్ లైఫ్‌సైకిల్ అనేక వెర్షన్లు ఉన్నాయి, ప్రతి దశకు వేరే పేర్లు మరియు దశల సంఖ్య ఉండవచ్చు కానీ ఈ పాఠంలో చెప్పిన అదే ప్రక్రియలు ఉంటాయి.
[టీమ్ డేటా సైన్స్ ప్రాసెస్ లైఫ్‌సైకిల్](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) మరియు [క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్](https://www.datascience-pm.com/crisp-dm-2/) ను అన్వేషించండి. వీరిద్దరి మధ్య 3 సారూప్యాలు మరియు తేడాలు చెప్పండి.
|టీమ్ డేటా సైన్స్ ప్రాసెస్ (TDSP)|క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ (CRISP-DM)|
|--|--|
|![టీమ్ డేటా సైన్స్ లైఫ్‌సైకిల్](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.te.png) | ![డేటా సైన్స్ ప్రాసెస్ అలయన్స్ చిత్రం](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.te.png) |
| చిత్రం [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) ద్వారా | చిత్రం [డేటా సైన్స్ ప్రాసెస్ అలయన్స్](https://www.datascience-pm.com/crisp-dm-2/) ద్వారా |
## [పోస్ట్-లెక్చర్ క్విజ్](https://ff-quizzes.netlify.app/en/ds/quiz/27)
## సమీక్ష & స్వీయ అధ్యయనం
డేటా సైన్స్ లైఫ్‌సైకిల్‌ను వర్తింపజేయడం అనేక పాత్రలు మరియు పనులను కలిగి ఉంటుంది, వాటిలో కొంతమంది ప్రతి దశలోని ప్రత్యేక భాగాలపై దృష్టి సారించవచ్చు. టీమ్ డేటా సైన్స్ ప్రాసెస్ ప్రాజెక్టులో ఎవరు ఏ పాత్రలు మరియు పనులు చేయవచ్చో వివరిస్తూ కొన్ని వనరులను అందిస్తుంది.
* [టీమ్ డేటా సైన్స్ ప్రాసెస్ పాత్రలు మరియు పనులు](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
* [డేటా సైన్స్ పనులను అమలు చేయడం: అన్వేషణ, మోడలింగ్, మరియు డిప్లాయ్‌మెంట్](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
## అసైన్‌మెంట్
[డేటాసెట్‌ను అంచనా వేయడం](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,39 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "564445c39ad29a491abcb9356fc4d47d",
"translation_date": "2025-12-19T15:28:32+00:00",
"source_file": "4-Data-Science-Lifecycle/14-Introduction/assignment.md",
"language_code": "te"
}
-->
# డేటాసెట్‌ను అంచనా వేయడం
ఒక క్లయింట్ మీ బృందాన్ని న్యూయార్క్ సిటీలో టాక్సీ ప్రయాణికుల సీజనల్ ఖర్చుల అలవాట్లను పరిశీలించడంలో సహాయం కోసం సంప్రదించారు.
వారు తెలుసుకోవాలనుకుంటున్నారు: **న్యూయార్క్ సిటీలో పసుపు టాక్సీ ప్రయాణికులు శీతాకాలంలో లేదా వేసవిలో డ్రైవర్లకు ఎక్కువ టిప్ ఇస్తారా?**
మీ బృందం డేటా సైన్స్ లైఫ్‌సైకిల్ యొక్క [క్యాప్చరింగ్](Readme.md#Capturing) దశలో ఉంది మరియు మీరు డేటాసెట్‌ను నిర్వహించే బాధ్యత వహిస్తున్నారు. మీరు అన్వేషించడానికి ఒక నోట్‌బుక్ మరియు [డేటా](../../../../data/taxi.csv) అందజేయబడ్డాయి.
ఈ డైరెక్టరీలో [నోట్‌బుక్](notebook.ipynb) ఉంది, ఇది పాథాన్ ఉపయోగించి [NYC టాక్సీ & లిమోసిన్ కమిషన్](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets) నుండి పసుపు టాక్సీ ట్రిప్ డేటాను లోడ్ చేస్తుంది.
మీరు టాక్సీ డేటా ఫైల్‌ను టెక్స్ట్ ఎడిటర్ లేదా ఎక్సెల్ వంటి స్ప్రెడ్షీట్ సాఫ్ట్‌వేర్‌లో కూడా తెరవవచ్చు.
## సూచనలు
- ఈ డేటాసెట్‌లోని డేటా ప్రశ్నకు సమాధానం ఇవ్వగలదా లేదా కాదా అని అంచనా వేయండి.
- [NYC ఓపెన్ డేటా క్యాటలాగ్](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93) ను అన్వేషించండి. క్లయింట్ ప్రశ్నకు సమాధానం ఇవ్వడంలో సహాయపడగల మరో డేటాసెట్‌ను గుర్తించండి.
- సమస్యను మరింత స్పష్టంగా అర్థం చేసుకోవడానికి మరియు క్లారిఫికేషన్ కోసం మీరు క్లయింట్‌కు అడగదలచుకున్న 3 ప్రశ్నలను రాయండి.
డేటా గురించి మరింత సమాచారం కోసం [డేటాసెట్ డిక్షనరీ](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) మరియు [యూజర్ గైడ్](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf) ను చూడండి.
## రూబ్రిక్
ఉదాహరణాత్మకంగా | సరిపడా | మెరుగుదల అవసరం
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**అస్పష్టత**:
ఈ పత్రాన్ని AI అనువాద సేవ [Co-op Translator](https://github.com/Azure/co-op-translator) ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
Loading…
Cancel
Save