chore(i18n): sync translations with latest source changes (chunk 7/10, 100 files)

pull/720/head
localizeflow[bot] 5 days ago
parent 999dcb840a
commit 2a56f44f51

@ -0,0 +1,178 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "43212cc1ac137b7bb1dcfb37ca06b0f4",
"translation_date": "2025-12-19T13:39:07+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವುದು
| ![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವುದು - _[@nitya](https://twitter.com/nitya) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್_ |
---
[![ಡೇಟಾ ಸೈನ್ಸ್ ವ್ಯಾಖ್ಯಾನಿಸುವ ವೀಡಿಯೊ](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.kn.png)](https://youtu.be/beZ7Mb_oz9I)
## [ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/0)
## ಡೇಟಾ ಎಂದರೆ ಏನು?
ನಮ್ಮ ದೈನಂದಿನ ಜೀವನದಲ್ಲಿ, ನಾವು ನಿರಂತರವಾಗಿ ಡೇಟಾದಿಂದ ಸುತ್ತುವರಿದಿದ್ದೇವೆ. ನೀವು ಈಗ ಓದುತ್ತಿರುವ ಪಠ್ಯವು ಡೇಟಾಗೆ ಸೇರಿದೆ. ನಿಮ್ಮ ಸ್ನೇಹಿತರ ಫೋನ್ ಸಂಖ್ಯೆಗಳ ಪಟ್ಟಿ ನಿಮ್ಮ ಸ್ಮಾರ್ಟ್‌ಫೋನಿನಲ್ಲಿ ಡೇಟಾಗೆ ಸೇರಿದೆ, ಹಾಗೆಯೇ ನಿಮ್ಮ ಗಡಿಯಾರದಲ್ಲಿ ತೋರಿಸಲಾಗುತ್ತಿರುವ ಪ್ರಸ್ತುತ ಸಮಯವೂ ಡೇಟಾಗೆ ಸೇರಿದೆ. ಮಾನವರಾಗಿ, ನಾವು ಸಹಜವಾಗಿ ಹಣ ಎಣಿಸುವ ಮೂಲಕ ಅಥವಾ ಸ್ನೇಹಿತರಿಗೆ ಪತ್ರ ಬರೆಯುವ ಮೂಲಕ ಡೇಟಾ ಜೊತೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತೇವೆ.
ಆದರೆ, ಕಂಪ್ಯೂಟರ್‌ಗಳ ಸೃಷ್ಟಿಯೊಂದಿಗೆ ಡೇಟಾ ಬಹಳ ಮುಖ್ಯವಾಗಿತು. ಕಂಪ್ಯೂಟರ್‌ಗಳ ಪ್ರಮುಖ ಪಾತ್ರ ಗಣನೆಗಳನ್ನು ನಿರ್ವಹಿಸುವುದು, ಆದರೆ ಅವು ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಡೇಟಾ ಬೇಕಾಗುತ್ತದೆ. ಆದ್ದರಿಂದ, ನಾವು ಕಂಪ್ಯೂಟರ್‌ಗಳು ಡೇಟಾವನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸುತ್ತವೆ ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕಾಗಿದೆ.
ಇಂಟರ್ನೆಟ್ ಉದಯದೊಂದಿಗೆ, ಕಂಪ್ಯೂಟರ್‌ಗಳ ಡೇಟಾ ನಿರ್ವಹಣಾ ಸಾಧನಗಳಾಗಿ ಪಾತ್ರ ಹೆಚ್ಚಾಯಿತು. ನೀವು ಯೋಚಿಸಿದರೆ, ನಾವು ಈಗ ಗಣನೆಗಳಿಗಿಂತ ಹೆಚ್ಚು ಡೇಟಾ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಸಂವಹನಕ್ಕಾಗಿ ಕಂಪ್ಯೂಟರ್‌ಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದೇವೆ. ನಾವು ಸ್ನೇಹಿತರಿಗೆ ಇ-ಮೇಲ್ ಬರೆಯುವಾಗ ಅಥವಾ ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಮಾಹಿತಿ ಹುಡುಕುವಾಗ - ನಾವು ಮೂಲತಃ ಡೇಟಾವನ್ನು ರಚಿಸುತ್ತೇವೆ, ಸಂಗ್ರಹಿಸುತ್ತೇವೆ, ಪ್ರಸಾರ ಮಾಡುತ್ತೇವೆ ಮತ್ತು ಪರಿಷ್ಕರಿಸುತ್ತೇವೆ.
> ನೀವು ಕೊನೆಯ ಬಾರಿ ಕಂಪ್ಯೂಟರ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನಿಜವಾಗಿಯೂ ಏನಾದರೂ ಗಣನೆ ಮಾಡಿದ ಸಮಯವನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳಬಹುದೇ?
## ಡೇಟಾ ಸೈನ್ಸ್ ಎಂದರೆ ಏನು?
[ವಿಕಿಪೀಡಿಯಾ](https://en.wikipedia.org/wiki/Data_science) ಪ್ರಕಾರ, **ಡೇಟಾ ಸೈನ್ಸ್** ಅನ್ನು *ಸಂರಚಿತ ಮತ್ತು ಅಸಂರಚಿತ ಡೇಟಾದಿಂದ ಜ್ಞಾನ ಮತ್ತು ಒಳನೋಟಗಳನ್ನು ಹೊರತೆಗೆಯಲು ವೈಜ್ಞಾನಿಕ ವಿಧಾನಗಳನ್ನು ಬಳಸುವ ವೈಜ್ಞಾನಿಕ ಕ್ಷೇತ್ರ ಮತ್ತು ಡೇಟಾದಿಂದ ಜ್ಞಾನ ಮತ್ತು ಕಾರ್ಯನಿರ್ವಹಣೀಯ ಒಳನೋಟಗಳನ್ನು ವ್ಯಾಪಕ ಅನ್ವಯ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಅನ್ವಯಿಸುವುದು* ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ.
ಈ ವ್ಯಾಖ್ಯಾನವು ಡೇಟಾ ಸೈನ್ಸ್‌ನ ಪ್ರಮುಖ ಅಂಶಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ:
* ಡೇಟಾ ಸೈನ್ಸ್‌ನ ಮುಖ್ಯ ಗುರಿ ಡೇಟಾದಿಂದ **ಜ್ಞಾನವನ್ನು ಹೊರತೆಗೆಯುವುದು**, ಅಂದರೆ - ಡೇಟಾವನ್ನು **ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು**, ಕೆಲವು ಅಡಗಿದ ಸಂಬಂಧಗಳನ್ನು ಕಂಡುಹಿಡಿದು **ಮಾದರಿಯನ್ನು** ನಿರ್ಮಿಸುವುದು.
* ಡೇಟಾ ಸೈನ್ಸ್ **ವೈಜ್ಞಾನಿಕ ವಿಧಾನಗಳನ್ನು** ಬಳಸುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಸಾಧ್ಯತೆ ಮತ್ತು ಸಂಖ್ಯಾಶಾಸ್ತ್ರ. ವಾಸ್ತವದಲ್ಲಿ, *ಡೇಟಾ ಸೈನ್ಸ್* ಪದವನ್ನು ಮೊದಲ ಬಾರಿಗೆ ಪರಿಚಯಿಸಿದಾಗ, ಕೆಲವರು ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ನು ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ಹೊಸ ಫ್ಯಾನ್ಸಿ ಹೆಸರು ಎಂದು ವಾದಿಸಿದ್ದರು. ಇಂದಿನ ದಿನಗಳಲ್ಲಿ ಈ ಕ್ಷೇತ್ರವು ಬಹಳ ವಿಶಾಲವಾಗಿದೆ ಎಂಬುದು ಸ್ಪಷ್ಟವಾಗಿದೆ.
* ಪಡೆದ ಜ್ಞಾನವನ್ನು ಕೆಲವು **ಕಾರ್ಯನಿರ್ವಹಣೀಯ ಒಳನೋಟಗಳನ್ನು** ಉತ್ಪಾದಿಸಲು ಅನ್ವಯಿಸಬೇಕು, ಅಂದರೆ ನೈಜ ವ್ಯವಹಾರ ಪರಿಸ್ಥಿತಿಗಳಿಗೆ ಅನ್ವಯಿಸಬಹುದಾದ ಪ್ರಾಯೋಗಿಕ ಒಳನೋಟಗಳು.
* ನಾವು **ಸಂರಚಿತ** ಮತ್ತು **ಅಸಂರಚಿತ** ಡೇಟಾ ಎರಡರ ಮೇಲೂ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಾಗಬೇಕು. ನಾವು ಕೋರ್ಸ್‌ನಲ್ಲಿ ನಂತರ ಡೇಟಾ ವಿವಿಧ ಪ್ರಕಾರಗಳನ್ನು ಚರ್ಚಿಸುವೆವು.
* **ಅನ್ವಯ ಕ್ಷೇತ್ರ** ಒಂದು ಪ್ರಮುಖ ಕಲ್ಪನೆ, ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರದಲ್ಲಿ ಕನಿಷ್ಠ ಕೆಲವು ಪರಿಣಿತಿಯನ್ನು ಹೊಂದಿರಬೇಕು, ಉದಾಹರಣೆಗೆ: ಹಣಕಾಸು, ವೈದ್ಯಕೀಯ, ಮಾರ್ಕೆಟಿಂಗ್ ಇತ್ಯಾದಿ.
> ಡೇಟಾ ಸೈನ್ಸ್‌ನ ಮತ್ತೊಂದು ಪ್ರಮುಖ ಅಂಶವೆಂದರೆ, ಅದು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದು, ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಕಂಪ್ಯೂಟರ್‌ಗಳ ಬಳಕೆ ಮೂಲಕ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತದೆ. ಸಂಖ್ಯಾಶಾಸ್ತ್ರವು ಗಣಿತೀಯ ಆಧಾರಗಳನ್ನು ನೀಡುತ್ತದೆ, ಆದರೆ ಡೇಟಾ ಸೈನ್ಸ್ ಗಣಿತೀಯ ಕಲ್ಪನೆಗಳನ್ನು ಡೇಟಾದಿಂದ ಒಳನೋಟಗಳನ್ನು ಪಡೆಯಲು ಅನ್ವಯಿಸುತ್ತದೆ.
ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ನು ನೋಡಲು ಒಂದು ವಿಧಾನ ([ಜಿಮ್ ಗ್ರೇ](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) ಅವರಿಗೆ ನಂಬಿಕೆ) ಒಂದು ವಿಭಿನ್ನ ವೈಜ್ಞಾನಿಕ ಪರಿಕಲ್ಪನೆಯಾಗಿ ಪರಿಗಣಿಸುವುದು:
* **ಪ್ರಾಯೋಗಿಕ**, ಇಲ್ಲಿ ನಾವು ಮುಖ್ಯವಾಗಿ ವೀಕ್ಷಣೆಗಳು ಮತ್ತು ಪ್ರಯೋಗಗಳ ಫಲಿತಾಂಶಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದ್ದೇವೆ
* **ಸಿದ್ಧಾಂತಾತ್ಮಕ**, ಇಲ್ಲಿ ಹೊಸ ಕಲ್ಪನೆಗಳು ಇತ್ತೀಚಿನ ವೈಜ್ಞಾನಿಕ ಜ್ಞಾನದಿಂದ ಉದ್ಭವಿಸುತ್ತವೆ
* **ಗಣನಾತ್ಮಕ**, ಇಲ್ಲಿ ನಾವು ಕೆಲವು ಗಣನಾತ್ಮಕ ಪ್ರಯೋಗಗಳ ಆಧಾರದ ಮೇಲೆ ಹೊಸ ಸಿದ್ಧಾಂತಗಳನ್ನು ಕಂಡುಹಿಡಿಯುತ್ತೇವೆ
* **ಡೇಟಾ ಚಾಲಿತ**, ಡೇಟಾದಲ್ಲಿನ ಸಂಬಂಧಗಳು ಮತ್ತು ಮಾದರಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವ ಆಧಾರದ ಮೇಲೆ
## ಇತರ ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳು
ಡೇಟಾ ಎಲ್ಲೆಡೆ ಇರುವುದರಿಂದ, ಡೇಟಾ ಸೈನ್ಸ್ ಕೂಡ ಒಂದು ವಿಶಾಲ ಕ್ಷೇತ್ರವಾಗಿದ್ದು, ಅನೇಕ ಇತರ ಶಾಖೆಗಳನ್ನು ಸ್ಪರ್ಶಿಸುತ್ತದೆ.
<dl>
<dt>ಡೇಟಾಬೇಸ್‌ಗಳು</dt>
<dd>
ಮುಖ್ಯವಾದ ವಿಚಾರವೆಂದರೆ ಡೇಟಾವನ್ನು <b>ಹೇಗೆ ಸಂಗ್ರಹಿಸುವುದು</b>, ಅಂದರೆ ಅದನ್ನು ವೇಗವಾಗಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಅನುಕೂಲವಾಗುವ ರೀತಿಯಲ್ಲಿ ಹೇಗೆ ರಚಿಸುವುದು. ಸಂರಚಿತ ಮತ್ತು ಅಸಂರಚಿತ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ವಿವಿಧ ರೀತಿಯ ಡೇಟಾಬೇಸ್‌ಗಳಿವೆ, ಅವುಗಳನ್ನು <a href="../../2-Working-With-Data/README.md">ನಮ್ಮ ಕೋರ್ಸ್‌ನಲ್ಲಿ ಪರಿಗಣಿಸುವೆವು</a>.
</dd>
<dt>ಬಿಗ್ ಡೇಟಾ</dt>
<dd>
ಬಹುಮಾನವಾಗಿ ಸರಳ ರಚನೆಯೊಂದಿಗೆ ಬಹಳ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಅಗತ್ಯವಿರುತ್ತದೆ. ಕಂಪ್ಯೂಟರ್ ಕ್ಲಸ್ಟರ್‌ನಲ್ಲಿ ವಿತರಿತ ರೀತಿಯಲ್ಲಿ ಆ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ವಿಶೇಷ ವಿಧಾನಗಳು ಮತ್ತು ಸಾಧನಗಳಿವೆ.
</dd>
<dt>ಮಷೀನ್ ಲರ್ನಿಂಗ್</dt>
<dd>
ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಒಂದು ವಿಧಾನವೆಂದರೆ ಬಯಸಿದ ಫಲಿತಾಂಶವನ್ನು ಭವಿಷ್ಯವಾಣಿ ಮಾಡಲು ಸಾಧ್ಯವಾಗುವ <b>ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸುವುದು</b>. ಡೇಟಾದಿಂದ ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವುದನ್ನು <b>ಮಷೀನ್ ಲರ್ನಿಂಗ್</b> ಎಂದು ಕರೆಯುತ್ತಾರೆ. ಇದರ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ನಮ್ಮ <a href="https://aka.ms/ml-beginners">ಮಷೀನ್ ಲರ್ನಿಂಗ್ ಫಾರ್ ಬಿಗಿನರ್ಸ್</a> ಪಠ್ಯಕ್ರಮವನ್ನು ನೋಡಬಹುದು.
</dd>
<dt>ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ</dt>
<dd>
ಮಷೀನ್ ಲರ್ನಿಂಗ್‌ನ ಒಂದು ಕ್ಷೇತ್ರವಾದ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ (AI) ಕೂಡ ಡೇಟಾವನ್ನು ಅವಲಂಬಿಸಿದೆ ಮತ್ತು ಮಾನವ ಚಿಂತನೆ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಅನುಕರಿಸುವ ಉನ್ನತ ಸಂಕೀರ್ಣ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸುವುದನ್ನು ಒಳಗೊಂಡಿದೆ. AI ವಿಧಾನಗಳು ಅಸಂರಚಿತ ಡೇಟಾವನ್ನು (ಉದಾ: ನೈಸರ್ಗಿಕ ಭಾಷೆ) ಸಂರಚಿತ ಒಳನೋಟಗಳಾಗಿ ಪರಿವರ್ತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.
</dd>
<dt>ದೃಶ್ಯೀಕರಣ</dt>
<dd>
ಬಹಳ ಪ್ರಮಾಣದ ಡೇಟಾ ಮಾನವರಿಗೆ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಕಷ್ಟಕರವಾಗಿರುತ್ತದೆ, ಆದರೆ ನಾವು ಆ ಡೇಟಾವನ್ನು ಉಪಯುಕ್ತ ದೃಶ್ಯೀಕರಣಗಳಾಗಿ ರೂಪಿಸಿದಾಗ, ನಾವು ಡೇಟಾದ ಅರ್ಥವನ್ನು ಹೆಚ್ಚು ಚೆನ್ನಾಗಿ ಗ್ರಹಿಸಬಹುದು ಮತ್ತು ಕೆಲವು ನಿರ್ಣಯಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಆದ್ದರಿಂದ, ಮಾಹಿತಿಯನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಅನೇಕ ವಿಧಾನಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳುವುದು ಮುಖ್ಯ, ಇದು ನಮ್ಮ ಕೋರ್ಸ್‌ನ <a href="../../3-Data-Visualization/README.md">ಭಾಗ 3</a>ರಲ್ಲಿ ಒಳಗೊಂಡಿದೆ. ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ <b>ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್</b> ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ <b>ಮಾನವ-ಕಂಪ್ಯೂಟರ್ ಸಂವಹನ</b> ಕೂಡ ಸೇರಿವೆ.
</dd>
</dl>
## ಡೇಟಾ ಪ್ರಕಾರಗಳು
ನಾವು ಈಗಾಗಲೇ ಉಲ್ಲೇಖಿಸಿದಂತೆ, ಡೇಟಾ ಎಲ್ಲೆಡೆ ಇದೆ. ಅದನ್ನು ಸರಿಯಾದ ರೀತಿಯಲ್ಲಿ ಹಿಡಿಯಬೇಕಾಗುತ್ತದೆ! **ಸಂರಚಿತ** ಮತ್ತು **ಅಸಂರಚಿತ** ಡೇಟಾ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ತಿಳಿದುಕೊಳ್ಳುವುದು ಉಪಯುಕ್ತ. ಮೊದಲನೆಯದು ಸಾಮಾನ್ಯವಾಗಿ ಚೆನ್ನಾಗಿ ರಚಿಸಲಾದ ರೂಪದಲ್ಲಿ, ಬಹುಮಾನವಾಗಿ ಟೇಬಲ್ ಅಥವಾ ಟೇಬಲ್ಗಳಾಗಿ ಪ್ರತಿನಿಧಿಸಲಾಗುತ್ತದೆ, ಆದರೆ ಎರಡನೆಯದು ಫೈಲ್‌ಗಳ ಸಂಗ್ರಹವಾಗಿದೆ. ಕೆಲವೊಮ್ಮೆ ನಾವು **ಅರ್ಧ-ಸಂರಚಿತ** ಡೇಟಾ ಬಗ್ಗೆ ಕೂಡ ಮಾತನಾಡಬಹುದು, ಅದರಲ್ಲಿ ಕೆಲವು ರೀತಿಯ ರಚನೆ ಇರುತ್ತದೆ ಆದರೆ ಅದು ಬಹಳ ಬದಲಾಗಬಹುದು.
| ಸಂರಚಿತ | ಅರ್ಧ-ಸಂರಚಿತ | ಅಸಂರಚಿತ |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| ಜನರ ಫೋನ್ ಸಂಖ್ಯೆಗಳ ಪಟ್ಟಿ | ಲಿಂಕ್‌ಗಳೊಂದಿಗೆ ವಿಕಿಪೀಡಿಯಾ ಪುಟಗಳು | ಎನ್ಸೈಕ್ಲೋಪೀಡಿಯಾ ಬ್ರಿಟಾನಿಕಾದ ಪಠ್ಯ |
| ಕಳೆದ 20 ವರ್ಷಗಳ ಕಾಲ ಪ್ರತಿಯೊಂದು ನಿಮಿಷಕ್ಕೂ ಕಟ್ಟಡದ ಎಲ್ಲಾ ಕೊಠಡಿಗಳ ತಾಪಮಾನ | ಲೇಖಕರ, ಪ್ರಕಟಣೆಯ ದಿನಾಂಕ ಮತ್ತು ಸಾರಾಂಶದೊಂದಿಗೆ JSON ಸ್ವರೂಪದ ವೈಜ್ಞಾನಿಕ ಪತ್ರಗಳ ಸಂಗ್ರಹ | ಕಾರ್ಪೊರೇಟ್ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳ ಫೈಲ್ ಹಂಚಿಕೆ |
| ಕಟ್ಟಡಕ್ಕೆ ಪ್ರವೇಶಿಸುವ ಎಲ್ಲಾ ಜನರ ವಯಸ್ಸು ಮತ್ತು ಲಿಂಗದ ಡೇಟಾ | ಇಂಟರ್ನೆಟ್ ಪುಟಗಳು | ನಿಗಾ ಕ್ಯಾಮೆರಾದಿಂದ ಕಚ್ಚಾ ವೀಡಿಯೊ ಫೀಡ್ |
## ಡೇಟಾ ಪಡೆಯಲು ಎಲ್ಲಿ
ಡೇಟಾ ಪಡೆಯಲು ಅನೇಕ ಸಾಧ್ಯವಾದ ಮೂಲಗಳಿವೆ, ಮತ್ತು ಅವುಗಳೆಲ್ಲವನ್ನು ಪಟ್ಟಿ ಮಾಡುವುದು ಅಸಾಧ್ಯ! ಆದಾಗ್ಯೂ, ನೀವು ಡೇಟಾ ಪಡೆಯಬಹುದಾದ ಕೆಲವು ಸಾಮಾನ್ಯ ಸ್ಥಳಗಳನ್ನು ಇಲ್ಲಿ ಉಲ್ಲೇಖಿಸೋಣ:
* **ಸಂರಚಿತ**
- **ಇಂಟರ್ನೆಟ್ ಆಫ್ ಥಿಂಗ್ಸ್** (IoT), ವಿವಿಧ ಸೆನ್ಸಾರ್‌ಗಳಿಂದ, ಉದಾಹರಣೆಗೆ ತಾಪಮಾನ ಅಥವಾ ಒತ್ತಡ ಸೆನ್ಸಾರ್‌ಗಳಿಂದ ಡೇಟಾ ಒದಗಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಒಂದು ಕಚೇರಿ ಕಟ್ಟಡವು IoT ಸೆನ್ಸಾರ್‌ಗಳಿಂದ ಸಜ್ಜಾಗಿದ್ದರೆ, ನಾವು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಬಿಸಿಲು ಮತ್ತು ಬೆಳಕನ್ನು ನಿಯಂತ್ರಿಸಿ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡಬಹುದು.
- **ಸರ್ವೇಗಳು** ನಾವು ಬಳಕೆದಾರರಿಗೆ ಖರೀದಿಯ ನಂತರ ಅಥವಾ ವೆಬ್‌ಸೈಟ್ ಭೇಟಿ ಮಾಡಿದ ನಂತರ ಪೂರ್ಣಗೊಳಿಸಲು ಕೇಳುತ್ತೇವೆ.
- **ನಡವಳಿಕೆಯ ವಿಶ್ಲೇಷಣೆ** ಉದಾಹರಣೆಗೆ, ಬಳಕೆದಾರನು ಒಂದು ಸೈಟ್‌ನಲ್ಲಿ ಎಷ್ಟು ಆಳವಾಗಿ ಹೋಗುತ್ತಾನೆ ಮತ್ತು ಸೈಟ್ ಬಿಟ್ಟುಹೋಗುವ ಸಾಮಾನ್ಯ ಕಾರಣವೇನು ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡಬಹುದು.
* **ಅಸಂರಚಿತ**
- **ಪಠ್ಯಗಳು** ಒಳನೋಟಗಳ ಶ್ರೀಮಂತ ಮೂಲವಾಗಬಹುದು, ಉದಾಹರಣೆಗೆ ಒಟ್ಟು **ಭಾವನಾತ್ಮಕ ಅಂಕೆ** ಅಥವಾ ಪ್ರಮುಖ ಪದಗಳು ಮತ್ತು ಅರ್ಥವನ್ನು ಹೊರತೆಗೆಯುವುದು.
- **ಚಿತ್ರಗಳು** ಅಥವಾ **ವೀಡಿಯೊ**. ನಿಗಾ ಕ್ಯಾಮೆರಾದ ವೀಡಿಯೊ ರಸ್ತೆ上的 ಟ್ರಾಫಿಕ್ ಅಂದಾಜಿಸಲು ಮತ್ತು ಜನರಿಗೆ ಸಂಭಾವ್ಯ ಟ್ರಾಫಿಕ್ ಜಾಮ್‌ಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿ ನೀಡಲು ಬಳಸಬಹುದು.
- ವೆಬ್ ಸರ್ವರ್ **ಲಾಗ್‌ಗಳು** ನಮ್ಮ ಸೈಟ್‌ನ ಯಾವ ಪುಟಗಳು ಹೆಚ್ಚು ಭೇಟಿ ನೀಡಲ್ಪಡುತ್ತವೆ ಮತ್ತು ಎಷ್ಟು ಸಮಯಕ್ಕೆಂದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಬಳಸಬಹುದು.
* ಅರ್ಧ-ಸಂರಚಿತ
- **ಸಾಮಾಜಿಕ ಜಾಲತಾಣ** ಗ್ರಾಫ್‌ಗಳು ಬಳಕೆದಾರರ ವ್ಯಕ್ತಿತ್ವಗಳು ಮತ್ತು ಮಾಹಿತಿ ಹರಡುವ ಪರಿಣಾಮಕಾರಿತ್ವದ ಬಗ್ಗೆ ಉತ್ತಮ ಮೂಲಗಳಾಗಬಹುದು.
- ನಾವು ಒಂದು ಪಾರ್ಟಿಯಿಂದ ಫೋಟೋಗಳ ಗುಂಪು ಹೊಂದಿದ್ದಾಗ, ನಾವು ಪರಸ್ಪರ ಫೋಟೋ ತೆಗೆದುಕೊಳ್ಳುತ್ತಿರುವ ಜನರ ಗ್ರಾಫ್ ನಿರ್ಮಿಸುವ ಮೂಲಕ **ಗುಂಪು ಗತಿಶೀಲತೆ** ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯಬಹುದು.
ವಿವಿಧ ಸಾಧ್ಯವಾದ ಡೇಟಾ ಮೂಲಗಳನ್ನು ತಿಳಿದುಕೊಂಡು, ನೀವು ಡೇಟಾ ಸೈನ್ಸ್ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸಲು ವಿವಿಧ ಸಂದರ್ಭಗಳನ್ನು ಯೋಚಿಸಬಹುದು, ಪರಿಸ್ಥಿತಿಯನ್ನು ಉತ್ತಮವಾಗಿ ತಿಳಿದುಕೊಳ್ಳಲು ಮತ್ತು ವ್ಯವಹಾರ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಸುಧಾರಿಸಲು.
## ಡೇಟಾ ಜೊತೆ ನೀವು ಏನು ಮಾಡಬಹುದು
ಡೇಟಾ ಸೈನ್ಸ್‌ನಲ್ಲಿ, ನಾವು ಡೇಟಾ ಪ್ರಯಾಣದ ಕೆಳಗಿನ ಹಂತಗಳ ಮೇಲೆ ಗಮನಹರಿಸುತ್ತೇವೆ:
<dl>
<dt>1) ಡೇಟಾ ಸಂಗ್ರಹಣೆ</dt>
<dd>
ಮೊದಲ ಹಂತ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದು. ಬಹುಮಾನವಾಗಿ ಇದು ಸರಳ ಪ್ರಕ್ರಿಯೆಯಾಗಿರಬಹುದು, ಉದಾಹರಣೆಗೆ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್‌ನಿಂದ ಡೇಟಾ ಡೇಟಾಬೇಸ್‌ಗೆ ಬರುತ್ತದೆ, ಆದರೆ ಕೆಲವೊಮ್ಮೆ ವಿಶೇಷ ತಂತ್ರಗಳನ್ನು ಬಳಸಬೇಕಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, IoT ಸೆನ್ಸಾರ್‌ಗಳಿಂದ ಡೇಟಾ ತುಂಬಾ ಪ್ರಮಾಣದಲ್ಲಿ ಬರುತ್ತದೆ, ಮತ್ತು ಮುಂದಿನ ಪ್ರಕ್ರಿಯೆಗೆ ಮೊದಲು ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು IoT ಹಬ್ ಮುಂತಾದ ಬಫರಿಂಗ್ ಎಂಡ್‌ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಬಳಸುವುದು ಉತ್ತಮ ಅಭ್ಯಾಸ.
</dd>
<dt>2) ಡೇಟಾ ಸಂಗ್ರಹಣೆ</dt>
<dd>
ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಸವಾಲಾಗಬಹುದು, ವಿಶೇಷವಾಗಿ ಬಿಗ್ ಡೇಟಾ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತಿದ್ದಾಗ. ಡೇಟಾವನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸುವುದನ್ನು ನಿರ್ಧರಿಸುವಾಗ, ಭವಿಷ್ಯದಲ್ಲಿ ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಪ್ರಶ್ನಿಸುವಿರಿ ಎಂಬುದನ್ನು ಊಹಿಸುವುದು ಸೂಕ್ತ. ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ಹಲವು ವಿಧಾನಗಳಿವೆ:
<ul>
<li>ಒಂದು ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ ಟೇಬಲ್ಗಳ ಸಂಗ್ರಹವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಪ್ರಶ್ನಿಸಲು SQL ಎಂಬ ವಿಶೇಷ ಭಾಷೆಯನ್ನು ಬಳಸುತ್ತದೆ. ಸಾಮಾನ್ಯವಾಗಿ, ಟೇಬಲ್ಗಳು ವಿಭಿನ್ನ ಗುಂಪುಗಳಾಗಿ (ಸ್ಕೀಮಾಗಳಾಗಿ) ಸಂಘಟಿತವಾಗಿರುತ್ತವೆ. ಬಹುಮಾನವಾಗಿ, ಮೂಲ ರೂಪದಿಂದ ಡೇಟಾವನ್ನು ಸ್ಕೀಮೆಗೆ ಹೊಂದಿಸಲು ಪರಿವರ್ತನೆ ಮಾಡಬೇಕಾಗುತ್ತದೆ.</li>
<li><a href="https://en.wikipedia.org/wiki/NoSQL">ನೋSQL</a> ಡೇಟಾಬೇಸ್, ಉದಾಹರಣೆಗೆ <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, ಡೇಟಾದ ಮೇಲೆ ಸ್ಕೀಮಾಗಳನ್ನು ಜಾರಿಗೊಳಿಸುವುದಿಲ್ಲ ಮತ್ತು ಹೆಚ್ಚು ಸಂಕೀರ್ಣ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ಅನುಮತಿಸುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಹೈರಾರ್ಕಿಕಲ್ JSON ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು ಅಥವಾ ಗ್ರಾಫ್‌ಗಳು. ಆದಾಗ್ಯೂ, ನೋSQL ಡೇಟಾಬೇಸ್‌ಗಳಿಗೆ SQL ರಿಚ್ ಪ್ರಶ್ನಿಸುವ ಸಾಮರ್ಥ್ಯವಿಲ್ಲ ಮತ್ತು ರೆಫರೆನ್ಷಿಯಲ್ ಇಂಟಿಗ್ರಿಟಿಯನ್ನು ಜಾರಿಗೊಳಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಅಂದರೆ ಟೇಬಲ್ಗಳಲ್ಲಿ ಡೇಟಾ ಹೇಗೆ ರಚಿಸಲಾಗಿದೆ ಮತ್ತು ಟೇಬಲ್ಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳನ್ನು ನಿಯಂತ್ರಿಸುವ ನಿಯಮಗಳು.</li>
<li><a href="https://en.wikipedia.org/wiki/Data_lake">ಡೇಟಾ ಲೇಕ್</a> ಸಂಗ್ರಹಣೆ ಕಚ್ಚಾ, ಅಸಂರಚಿತ ರೂಪದಲ್ಲಿ ದೊಡ್ಡ ಡೇಟಾ ಸಂಗ್ರಹಗಳಿಗೆ ಬಳಸಲಾಗುತ್ತದೆ. ಡೇಟಾ ಲೇಕ್‌ಗಳು ಬಹುಮಾನವಾಗಿ ಬಿಗ್ ಡೇಟಾ ಜೊತೆಗೆ ಬಳಸಲಾಗುತ್ತವೆ, ಎಲ್ಲ ಡೇಟಾ ಒಂದು ಯಂತ್ರದಲ್ಲಿ ಹೊಂದಲು ಸಾಧ್ಯವಿಲ್ಲ ಮತ್ತು ಸರ್ವರ್ ಕ್ಲಸ್ಟರ್ ಮೂಲಕ ಸಂಗ್ರಹಿಸಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಬೇಕಾಗುತ್ತದೆ. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">ಪಾರ್ಕೆಟ್</a> ಬಿಗ್ ಡೇಟಾ ಜೊತೆಗೆ ಸಾಮಾನ್ಯವಾಗಿ ಬಳಸುವ ಡೇಟಾ ಸ್ವರೂಪವಾಗಿದೆ.</li>
</ul>
</dd>
<dt>3) ಡೇಟಾ ಪ್ರಕ್ರಿಯೆ</dt>
<dd>
ಇದು ಡೇಟಾ ಪ್ರಯಾಣದ ಅತ್ಯಂತ ರೋಚಕ ಭಾಗ, ಇದು ಮೂಲ ರೂಪದಿಂದ ದೃಶ್ಯೀಕರಣ/ಮಾದರಿ ತರಬೇತಿಗೆ ಬಳಸಬಹುದಾದ ರೂಪಕ್ಕೆ ಡೇಟಾವನ್ನು ಪರಿವರ್ತಿಸುವುದನ್ನು ಒಳಗೊಂಡಿದೆ. ಪಠ್ಯ ಅಥವಾ ಚಿತ್ರಗಳಂತಹ ಅಸಂರಚಿತ ಡೇಟಾ ಜೊತೆ ಕೆಲಸ ಮಾಡುವಾಗ, ನಾವು ಡೇಟಾದಿಂದ <b>ಲಕ್ಷಣಗಳನ್ನು</b> ಹೊರತೆಗೆಯಲು ಕೆಲವು AI ತಂತ್ರಗಳನ್ನು ಬಳಸಬೇಕಾಗಬಹುದು, ಹೀಗಾಗಿ ಅದನ್ನು ಸಂರಚಿತ ರೂಪಕ್ಕೆ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ.
</dd>
<dt>4) ದೃಶ್ಯೀಕರಣ / ಮಾನವ ಒಳನೋಟಗಳು</dt>
<dd>
ಬಹುಮಾನವಾಗಿ, ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ಅದನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಅಗತ್ಯವಿರುತ್ತದೆ. ನಮ್ಮ ಸಾಧನಸಂಚಯದಲ್ಲಿ ಅನೇಕ ವಿಭಿನ್ನ ದೃಶ್ಯೀಕರಣ ತಂತ್ರಗಳು ಇದ್ದಾಗ, ನಾವು ಒಳನೋಟ ಪಡೆಯಲು ಸರಿಯಾದ ದೃಶ್ಯವನ್ನು ಕಂಡುಹಿಡಿಯಬಹುದು. ಬಹುಮಾನವಾಗಿ, ಡೇಟಾ ವಿಜ್ಞಾನಿ "ಡೇಟಾ ಜೊತೆ ಆಟವಾಡಬೇಕು", ಅದನ್ನು ಹಲವಾರು ಬಾರಿ ದೃಶ್ಯೀಕರಿಸಿ ಕೆಲವು ಸಂಬಂಧಗಳನ್ನು ಹುಡುಕುತ್ತಾನೆ. ಜೊತೆಗೆ, ನಾವು ಅಂದಾಜುಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಅಥವಾ ಡೇಟಾದ ವಿಭಿನ್ನ ತುಂಡುಗಳ ನಡುವೆ ಸಂಬಂಧವನ್ನು ಸಾಬೀತುಪಡಿಸಲು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ತಂತ್ರಗಳನ್ನು ಬಳಸಬಹುದು.
</dd>
<dt>5) ಭವಿಷ್ಯವಾಣಿ ಮಾದರಿಯನ್ನು ತರಬೇತುಗೊಳಿಸುವುದು</dt>
<dd>
ಡೇಟಾ ಸೈನ್ಸ್‌ನ ಅಂತಿಮ ಗುರಿ ಡೇಟಾದ ಆಧಾರದ ಮೇಲೆ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಸಾಧ್ಯವಾಗುವುದು, ಆದ್ದರಿಂದ ನಾವು <a href="http://github.com/microsoft/ml-for-beginners">ಮಷೀನ್ ಲರ್ನಿಂಗ್</a> ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಭವಿಷ್ಯವಾಣಿ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಬಹುದು. ನಂತರ ನಾವು ಇದನ್ನು ಹೊಸ, ಸಮಾನ ರಚನೆಯ ಡೇಟಾ ಸೆಟ್‌ಗಳೊಂದಿಗೆ ಭವಿಷ್ಯವಾಣಿಗಳನ್ನು ಮಾಡಲು ಬಳಸಬಹುದು.
</dd>
</dl>
ನಿಜವಾದ ಡೇಟಾದ ಮೇಲೆ ಅವಲಂಬಿಸಿ, ಕೆಲವು ಹಂತಗಳು ಇಲ್ಲದಿರಬಹುದು (ಉದಾ: ನಾವು ಈಗಾಗಲೇ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಡೇಟಾ ಹೊಂದಿದ್ದಾಗ, ಅಥವಾ ಮಾದರಿ ತರಬೇತಿಗೆ ಅಗತ್ಯವಿಲ್ಲದಿದ್ದಾಗ), ಅಥವಾ ಕೆಲವು ಹಂತಗಳು ಹಲವಾರು ಬಾರಿ ಪುನರಾವರ್ತಿತವಾಗಬಹುದು (ಉದಾ: ಡೇಟಾ ಪ್ರಕ್ರಿಯೆ).
## ಡಿಜಿಟಲೀಕರಣ ಮತ್ತು ಡಿಜಿಟಲ್ ಪರಿವರ್ತನೆ
ಕಳೆದ ದಶಕದಲ್ಲಿ, ಅನೇಕ ವ್ಯವಹಾರಗಳು ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವಾಗ ಡೇಟಾದ ಮಹತ್ವವನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡಿವೆ. ವ್ಯವಹಾರವನ್ನು ನಡೆಸಲು ಡೇಟಾ ಸೈನ್ಸ್ ತತ್ವಗಳನ್ನು ಅನ್ವಯಿಸಲು, ಮೊದಲು ಕೆಲವು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬೇಕು, ಅಂದರೆ ವ್ಯವಹಾರ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಡಿಜಿಟಲ್ ರೂಪಕ್ಕೆ ಅನುವಾದಿಸಬೇಕು. ಇದನ್ನು **ಡಿಜಿಟಲೀಕರಣ** ಎಂದು ಕರೆಯುತ್ತಾರೆ. ಈ ಡೇಟಾದ ಮೇಲೆ ಡೇಟಾ ಸೈನ್ಸ್ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸಿ ನಿರ್ಧಾರಗಳನ್ನು ಮಾರ್ಗದರ್ಶನ ಮಾಡುವುದು **ಡಿಜಿಟಲ್ ಪರಿವರ್ತನೆ** ಎಂದು ಕರೆಯಲ್ಪಡುತ್ತದೆ, ಇದು ಉತ್ಪಾದಕತೆಯಲ್ಲಿ ಮಹತ್ವದ ಏರಿಕೆಗೆ (ಅಥವಾ ವ್ಯವಹಾರದ ತಿರುವಿಗೆ) ಕಾರಣವಾಗಬಹುದು.
ಒಂದು ಉದಾಹರಣೆಯನ್ನು ಪರಿಗಣಿಸೋಣ. ನಾವು ಒಂದು ಡೇಟಾ ಸೈನ್ಸ್ ಕೋರ್ಸ್ (ಇಂತಹದು) ಹೊಂದಿದ್ದೇವೆ, ಅದನ್ನು ಆನ್‌ಲೈನ್‌ನಲ್ಲಿ ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ನೀಡುತ್ತೇವೆ, ಮತ್ತು ಅದನ್ನು ಸುಧಾರಿಸಲು ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ನು ಬಳಸಲು ಬಯಸುತ್ತೇವೆ. ನಾವು ಇದನ್ನು ಹೇಗೆ ಮಾಡಬಹುದು?
ನಾವು "ಏನು ಡಿಜಿಟ್ ಆಗಬಹುದು?" ಎಂದು ಕೇಳುವುದರಿಂದ ಪ್ರಾರಂಭಿಸಬಹುದು. ಸರಳ ವಿಧಾನವೆಂದರೆ ಪ್ರತಿ ವಿದ್ಯಾರ್ಥಿ ಪ್ರತಿ ಘಟಕವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ತೆಗೆದುಕೊಳ್ಳುವ ಸಮಯವನ್ನು ಅಳೆಯುವುದು ಮತ್ತು ಪ್ರತಿ ಘಟಕದ ಕೊನೆಯಲ್ಲಿ ಬಹು ಆಯ್ಕೆ ಪ್ರಶ್ನೋತ್ತರ ಪರೀಕ್ಷೆಯನ್ನು ನೀಡಿ ಪಡೆದ ಜ್ಞಾನವನ್ನು ಅಳೆಯುವುದು. ಎಲ್ಲಾ ವಿದ್ಯಾರ್ಥಿಗಳ ಸಮಯ-ಪೂರ್ಣಗೊಳಿಸುವ ಸರಾಸರಿಯನ್ನು ಲೆಕ್ಕಹಾಕಿ, ಯಾವ ಘಟಕಗಳು ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ಹೆಚ್ಚು ಕಷ್ಟವನ್ನು ಉಂಟುಮಾಡುತ್ತವೆ ಎಂದು ಕಂಡುಹಿಡಿದು ಅವುಗಳನ್ನು ಸರಳಗೊಳಿಸುವುದಾಗಿ ಕೆಲಸ ಮಾಡಬಹುದು.
> ನೀವು ಈ ವಿಧಾನವು ಆದರ್ಶವಲ್ಲ ಎಂದು ವಾದಿಸಬಹುದು, ಏಕೆಂದರೆ ಮಡ್ಯೂಲುಗಳು ವಿಭಿನ್ನ ಉದ್ದಗಳಾಗಿರಬಹುದು. ಮಡ್ಯೂಲಿನ ಉದ್ದ (ಅಕ್ಷರಗಳ ಸಂಖ್ಯೆಯಲ್ಲಿ) ಮೂಲಕ ಸಮಯವನ್ನು ಹಂಚುವುದು ಹೆಚ್ಚು ನ್ಯಾಯಸಮ್ಮತವಾಗಿರಬಹುದು, ಮತ್ತು ಆ ಮೌಲ್ಯಗಳನ್ನು ಹೋಲಿಸಬಹುದು.
ನಾವು ಬಹು ಆಯ್ಕೆ ಪರೀಕ್ಷೆಗಳ ಫಲಿತಾಂಶಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಪ್ರಾರಂಭಿಸಿದಾಗ, ವಿದ್ಯಾರ್ಥಿಗಳು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಕಷ್ಟಪಡುವ ತತ್ವಗಳನ್ನು ನಿರ್ಧರಿಸಲು ಪ್ರಯತ್ನಿಸಬಹುದು, ಮತ್ತು ಆ ಮಾಹಿತಿಯನ್ನು ವಿಷಯವನ್ನು ಸುಧಾರಿಸಲು ಬಳಸಬಹುದು. ಅದನ್ನು ಮಾಡಲು, ನಾವು ಪರೀಕ್ಷೆಗಳನ್ನು ಇಂತಹ ರೀತಿಯಲ್ಲಿ ವಿನ್ಯಾಸಗೊಳಿಸಬೇಕು, ಪ್ರತಿಯೊಂದು ಪ್ರಶ್ನೆ ಒಂದು ನಿರ್ದಿಷ್ಟ ತತ್ವ ಅಥವಾ ಜ್ಞಾನದ ತುಂಡಿಗೆ ನಕ್ಷೆ ಮಾಡುತ್ತದೆ.
ನಾವು ಇನ್ನಷ್ಟು ಸಂಕೀರ್ಣಗೊಳ್ಳಲು ಬಯಸಿದರೆ, ನಾವು ಪ್ರತಿ ಮಡ್ಯೂಲಿಗೆ ತೆಗೆದುಕೊಂಡ ಸಮಯವನ್ನು ವಿದ್ಯಾರ್ಥಿಗಳ ವಯೋ ವರ್ಗದ ವಿರುದ್ಧ ಚಿತ್ರಿಸಬಹುದು. ಕೆಲವು ವಯೋ ವರ್ಗಗಳಿಗೆ ಮಡ್ಯೂಲನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಅತಿಯಾದ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಅಥವಾ ವಿದ್ಯಾರ್ಥಿಗಳು ಪೂರ್ಣಗೊಳಿಸುವ ಮೊದಲು ಬಿಟ್ಟುಹೋಗುತ್ತಾರೆ ಎಂದು ನಾವು ಕಂಡುಹಿಡಿಯಬಹುದು. ಇದು ನಮಗೆ ಮಡ್ಯೂಲಿಗೆ ವಯೋ ಶಿಫಾರಸುಗಳನ್ನು ನೀಡಲು ಸಹಾಯ ಮಾಡಬಹುದು, ಮತ್ತು ತಪ್ಪಾದ ನಿರೀಕ್ಷೆಗಳಿಂದ ಜನರ ಅಸಮಾಧಾನವನ್ನು ಕಡಿಮೆ ಮಾಡಬಹುದು.
## 🚀 ಸವಾಲು
ಈ ಸವಾಲಿನಲ್ಲಿ, ನಾವು ಪಠ್ಯಗಳನ್ನು ನೋಡಿ ಡೇಟಾ ಸೈನ್ಸ್ ಕ್ಷೇತ್ರಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ತತ್ವಗಳನ್ನು ಹುಡುಕಲು ಪ್ರಯತ್ನಿಸುವೆವು. ನಾವು ಡೇಟಾ ಸೈನ್ಸ್ ಕುರಿತು ವಿಕಿಪೀಡಿಯ ಲೇಖನವನ್ನು ತೆಗೆದು, ಪಠ್ಯವನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಿ, ನಂತರ ಈ ರೀತಿಯ ಪದ ಮೋಡವನ್ನು ನಿರ್ಮಿಸುವೆವು:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.kn.png)
ಕೋಡ್ ಓದಲು [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ಗೆ ಭೇಟಿ ನೀಡಿ. ನೀವು ಕೋಡ್ ಅನ್ನು ಚಲಾಯಿಸಬಹುದು ಮತ್ತು ಅದು ಎಲ್ಲಾ ಡೇಟಾ ಪರಿವರ್ತನೆಗಳನ್ನು ನೈಜ ಸಮಯದಲ್ಲಿ ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ನೋಡಬಹುದು.
> ನೀವು ಜುಪೈಟರ್ ನೋಟ್ಬುಕ್‌ನಲ್ಲಿ ಕೋಡ್ ಅನ್ನು ಹೇಗೆ ಚಲಾಯಿಸುವುದು ಎಂದು ತಿಳಿಯದಿದ್ದರೆ, [ಈ ಲೇಖನ](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ಅನ್ನು ನೋಡಿ.
## [ಪಾಠದ ನಂತರದ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/1)
## ನಿಯೋಜನೆಗಳು
* **ಕಾರ್ಯ 1**: ಮೇಲಿನ ಕೋಡ್ ಅನ್ನು ಬದಲಾಯಿಸಿ ಮತ್ತು **ಬಿಗ್ ಡೇಟಾ** ಮತ್ತು **ಮಷೀನ್ ಲರ್ನಿಂಗ್** ಕ್ಷೇತ್ರಗಳಿಗೆ ಸಂಬಂಧಿಸಿದ ತತ್ವಗಳನ್ನು ಕಂಡುಹಿಡಿಯಿರಿ
* **ಕಾರ್ಯ 2**: [ಡೇಟಾ ಸೈನ್ಸ್ ದೃಶ್ಯಾವಳಿಗಳನ್ನು ಕುರಿತು ಯೋಚಿಸಿ](assignment.md)
## ಕ್ರೆಡಿಟ್ಸ್
ಈ ಪಾಠವನ್ನು ♥️ ಸಹಿತ [ಡ್ಮಿತ್ರಿ ಸೋಶ್ನಿಕೋವ್](http://soshnikov.com) ರವರು ರಚಿಸಿದ್ದಾರೆ
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,48 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "4e0f1773b9bee1be3b28f9fe2c71b3de",
"translation_date": "2025-12-19T13:46:19+00:00",
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "kn"
}
-->
# ನಿಯೋಜನೆ: ಡೇಟಾ ಸೈನ್ಸ್ ದೃಶ್ಯಗಳು
ಈ ಮೊದಲ ನಿಯೋಜನೆಯಲ್ಲಿ, ನಾವು ನಿಮಗೆ ವಿವಿಧ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಕೆಲವು ನೈಜ ಜೀವನ ಪ್ರಕ್ರಿಯೆ ಅಥವಾ ಸಮಸ್ಯೆಯನ್ನು ಕುರಿತು ಯೋಚಿಸಲು ಕೇಳುತ್ತೇವೆ, ಮತ್ತು ನೀವು ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಅದನ್ನು ಹೇಗೆ ಸುಧಾರಿಸಬಹುದು ಎಂದು. ಕೆಳಗಿನ ವಿಷಯಗಳನ್ನು ಯೋಚಿಸಿ:
1. ನೀವು ಯಾವ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬಹುದು?
1. ಅದನ್ನು ನೀವು ಹೇಗೆ ಸಂಗ್ರಹಿಸುವಿರಿ?
1. ಡೇಟಾವನ್ನು ನೀವು ಹೇಗೆ ಸಂಗ್ರಹಿಸುವಿರಿ? ಡೇಟಾ ಎಷ್ಟು ದೊಡ್ಡದಾಗಿರಬಹುದು?
1. ಈ ಡೇಟಾದಿಂದ ನೀವು ಯಾವ洞察ಗಳನ್ನು ಪಡೆಯಬಹುದು? ಡೇಟಾದ ಆಧಾರದ ಮೇಲೆ ನಾವು ಯಾವ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು?
ಮೂರು ವಿಭಿನ್ನ ಸಮಸ್ಯೆಗಳು/ಪ್ರಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಿ ಮತ್ತು ಮೇಲಿನ ಪ್ರತಿಯೊಂದು ಅಂಶವನ್ನು ಪ್ರತಿ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಕ್ಕೆ ವಿವರಿಸಿ.
ನಿಮಗೆ ಯೋಚಿಸಲು ಪ್ರಾರಂಭಿಸಲು ಕೆಲವು ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳು ಇಲ್ಲಿವೆ:
1. ಶಾಲೆಗಳಲ್ಲಿ ಮಕ್ಕಳ ಶಿಕ್ಷಣ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸುಧಾರಿಸಲು ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು?
1. ಮಹಾಮಾರಿಯ ಸಮಯದಲ್ಲಿ ಲಸಿಕೆ ನಿಯಂತ್ರಣಕ್ಕೆ ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು?
1. ಕೆಲಸದಲ್ಲಿ ನೀವು ಉತ್ಪಾದಕತೆಯಲ್ಲಿದ್ದೀರಾ ಎಂದು ಖಚಿತಪಡಿಸಲು ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು?
## ಸೂಚನೆಗಳು
ಕೆಳಗಿನ ಪಟ್ಟಿಯನ್ನು ಭರ್ತಿ ಮಾಡಿ (ನಿಮ್ಮ ಅಗತ್ಯಕ್ಕೆ ತಕ್ಕಂತೆ ಸೂಚಿಸಲಾದ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳನ್ನು ನಿಮ್ಮದೇ ಕ್ಷೇತ್ರಗಳಿಗೆ ಬದಲಾಯಿಸಬಹುದು):
| ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರ | ಸಮಸ್ಯೆ | ಯಾವ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬೇಕು | ಡೇಟಾವನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸಬೇಕು | ನಾವು ಯಾವ洞察ಗಳು/ನಿರ್ಧಾರಗಳನ್ನು ಮಾಡಬಹುದು |
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
| ಶಿಕ್ಷಣ | | | | |
| ಲಸಿಕೆ | | | | |
| ಉತ್ಪಾದಕತೆ | | | | |
## ಮೌಲ್ಯಮಾಪನ
ಉದಾಹರಣೆಯಾದ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ
--- | --- | -- |
ಎಲ್ಲಾ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳಿಗೆ ಯುಕ್ತ ಡೇಟಾ ಮೂಲಗಳು, ಡೇಟಾ ಸಂಗ್ರಹಣೆಯ ವಿಧಾನಗಳು ಮತ್ತು ಸಾಧ್ಯ ನಿರ್ಧಾರಗಳು/洞察ಗಳನ್ನು ಗುರುತಿಸಲು ಸಾಧ್ಯವಾಯಿತು | ಪರಿಹಾರದ ಕೆಲವು ಅಂಶಗಳು ವಿವರಿಸಲ್ಪಟ್ಟಿಲ್ಲ, ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಚರ್ಚಿಸಲ್ಪಟ್ಟಿಲ್ಲ, ಕನಿಷ್ಠ 2 ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳು ವಿವರಿಸಲ್ಪಟ್ಟಿವೆ | ಡೇಟಾ ಪರಿಹಾರದ ಭಾಗಗಳು ಮಾತ್ರ ವಿವರಿಸಲ್ಪಟ್ಟಿವೆ, ಕೇವಲ ಒಂದು ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರವನ್ನು ಪರಿಗಣಿಸಲಾಗಿದೆ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,50 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-12-19T14:40:03+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "kn"
}
-->
# ನಿಯೋಜನೆ: ಡೇಟಾ ಸೈನ್ಸ್ ದೃಶ್ಯಗಳು
ಈ ಮೊದಲ ನಿಯೋಜನೆಯಲ್ಲಿ, ನಾವು ನಿಮಗೆ ವಿವಿಧ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಕೆಲವು ನೈಜ ಜೀವನ ಪ್ರಕ್ರಿಯೆ ಅಥವಾ ಸಮಸ್ಯೆಯನ್ನು ಕುರಿತು ಯೋಚಿಸಲು ಕೇಳುತ್ತೇವೆ, ಮತ್ತು ನೀವು ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಅದನ್ನು ಹೇಗೆ ಸುಧಾರಿಸಬಹುದು ಎಂದು. ಕೆಳಗಿನ ವಿಷಯಗಳನ್ನು ಯೋಚಿಸಿ:
1. ನೀವು ಯಾವ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬಹುದು?
1. ಅದನ್ನು ನೀವು ಹೇಗೆ ಸಂಗ್ರಹಿಸುವಿರಿ?
1. ಡೇಟಾವನ್ನು ನೀವು ಹೇಗೆ ಸಂಗ್ರಹಿಸುವಿರಿ? ಡೇಟಾ ಎಷ್ಟು ದೊಡ್ಡದಾಗಿರಬಹುದು?
1. ಈ ಡೇಟಾದಿಂದ ನೀವು ಯಾವ洞察ಗಳನ್ನು ಪಡೆಯಬಹುದು? ಡೇಟಾದ ಆಧಾರದ ಮೇಲೆ ನಾವು ಯಾವ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು?
ಮೂರು ವಿಭಿನ್ನ ಸಮಸ್ಯೆಗಳು/ಪ್ರಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಿ ಮತ್ತು ಪ್ರತಿ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಕ್ಕೆ ಮೇಲಿನ ಪ್ರತಿಯೊಂದು ಅಂಶವನ್ನು ವಿವರಿಸಿ.
ನಿಮಗೆ ಯೋಚಿಸಲು ಪ್ರಾರಂಭಿಸಲು ಕೆಲವು ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳು ಇಲ್ಲಿವೆ:
1. ಶಾಲೆಗಳಲ್ಲಿ ಮಕ್ಕಳ ಶಿಕ್ಷಣ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸುಧಾರಿಸಲು ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು?
1. ಮಹಾಮಾರಿಯ ಸಮಯದಲ್ಲಿ ಲಸಿಕೆ ನಿಯಂತ್ರಣಕ್ಕೆ ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು?
1. ಕೆಲಸದಲ್ಲಿ ನೀವು ಉತ್ಪಾದಕತೆಯಲ್ಲಿದ್ದೀರಾ ಎಂದು ಖಚಿತಪಡಿಸಲು ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು?
## ಸೂಚನೆಗಳು
ಕೆಳಗಿನ ಪಟ್ಟಿಯನ್ನು ಭರ್ತಿ ಮಾಡಿ (ನಿಮ್ಮ ಸ್ವಂತ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳಿಗೆ ಅಗತ್ಯವಿದ್ದರೆ ಸೂಚಿಸಲಾದ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳನ್ನು ಬದಲಾಯಿಸಿ):
| ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರ | ಸಮಸ್ಯೆ | ಯಾವ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬೇಕು | ಡೇಟಾವನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸಬೇಕು | ನಾವು ಯಾವ洞察ಗಳು/ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು |
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
| ಶಿಕ್ಷಣ | ವಿಶ್ವವಿದ್ಯಾಲಯದಲ್ಲಿ, ಸಾಮಾನ್ಯವಾಗಿ ಉಪನ್ಯಾಸಗಳಿಗೆ ಹಾಜರಾತಿ ಕಡಿಮೆ ಇರುತ್ತದೆ, ಮತ್ತು ನಾವು ಹಿಪೋಥೆಸಿಸ್ ಹೊಂದಿದ್ದೇವೆ, ಉಪನ್ಯಾಸಗಳಿಗೆ ಹಾಜರಾಗುವ ವಿದ್ಯಾರ್ಥಿಗಳು ಸರಾಸರಿ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡುತ್ತಾರೆ. ನಾವು ಹಾಜರಾತಿಯನ್ನು ಉತ್ತೇಜಿಸಲು ಮತ್ತು ಹಿಪೋಥೆಸಿಸ್ ಪರೀಕ್ಷಿಸಲು ಬಯಸುತ್ತೇವೆ. | ನಾವು ತರಗತಿಯಲ್ಲಿ ಸೆಕ್ಯುರಿಟಿ ಕ್ಯಾಮೆರಾ ತೆಗೆದ ಚಿತ್ರಗಳ ಮೂಲಕ ಅಥವಾ ತರಗತಿಯಲ್ಲಿ ವಿದ್ಯಾರ್ಥಿಗಳ ಮೊಬೈಲ್ ಫೋನ್‌ಗಳ ಬ್ಲೂಟೂತ್/ವೈಫೈ ವಿಳಾಸಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡುವ ಮೂಲಕ ಹಾಜರಾತಿಯನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಬಹುದು. ಪರೀಕ್ಷಾ ಡೇಟಾ ಈಗಾಗಲೇ ವಿಶ್ವವಿದ್ಯಾಲಯದ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಲಭ್ಯವಿದೆ. | ಸೆಕ್ಯುರಿಟಿ ಕ್ಯಾಮೆರಾ ಚಿತ್ರಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡುವ ಸಂದರ್ಭದಲ್ಲಿ - ನಾವು ತರಗತಿಯ ಸಮಯದಲ್ಲಿ ಕೆಲವು (5-10) ಫೋಟೋಗಳನ್ನು ಸಂಗ್ರಹಿಸಬೇಕು (ಅಸಂರಚಿತ ಡೇಟಾ), ನಂತರ AI ಬಳಸಿ ವಿದ್ಯಾರ್ಥಿಗಳ ಮುಖಗಳನ್ನು ಗುರುತಿಸಿ (ಡೇಟಾವನ್ನು ಸಂರಚಿತ ರೂಪಕ್ಕೆ ಪರಿವರ್ತಿಸಿ). | ನಾವು ಪ್ರತಿ ವಿದ್ಯಾರ್ಥಿಯ ಸರಾಸರಿ ಹಾಜರಾತಿ ಡೇಟಾವನ್ನು ಲೆಕ್ಕಿಸಬಹುದು ಮತ್ತು ಪರೀಕ್ಷಾ ಅಂಕಗಳೊಂದಿಗೆ ಯಾವುದೇ ಸಂಬಂಧವಿದೆಯೇ ಎಂದು ನೋಡಬಹುದು. ನಾವು [ಸಂಭಾವ್ಯತೆ ಮತ್ತು ಅಂಕಿಅಂಶಗಳು](../../04-stats-and-probability/README.md) ವಿಭಾಗದಲ್ಲಿ ಸಂಬಂಧದ ಬಗ್ಗೆ ಹೆಚ್ಚು ಮಾತನಾಡುತ್ತೇವೆ. ವಿದ್ಯಾರ್ಥಿಗಳ ಹಾಜರಾತಿಯನ್ನು ಉತ್ತೇಜಿಸಲು, ನಾವು ವಾರದ ಹಾಜರಾತಿ ರೇಟಿಂಗ್ ಅನ್ನು ಶಾಲಾ ಪೋರ್ಟಲ್‌ನಲ್ಲಿ ಪ್ರಕಟಿಸಬಹುದು ಮತ್ತು ಅತ್ಯಧಿಕ ಹಾಜರಾತಿ ಹೊಂದಿರುವವರ ನಡುವೆ ಬಹುಮಾನಗಳನ್ನು ಹಂಚಬಹುದು. |
| ಲಸಿಕೆ | | | | |
| ಉತ್ಪಾದಕತೆ | | | | |
> *ನಾವು ಉದಾಹರಣೆಯಾಗಿ ಒಂದು ಉತ್ತರವನ್ನು ಮಾತ್ರ ನೀಡಿದ್ದೇವೆ, ಇದರಿಂದ ನೀವು ಈ ನಿಯೋಜನೆಯಲ್ಲಿ ಏನು ನಿರೀಕ್ಷಿಸಲಾಗಿದೆ ಎಂಬುದರ ಬಗ್ಗೆ ಕಲಿಯಬಹುದು.*
## ಮೌಲ್ಯಮಾಪನ
ಉತ್ತಮ | ಸಮರ್ಪಕ | ಸುಧಾರಣೆ ಅಗತ್ಯ
--- | --- | -- |
ಎಲ್ಲಾ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳಿಗೆ ಯುಕ್ತ ಡೇಟಾ ಮೂಲಗಳು, ಡೇಟಾ ಸಂಗ್ರಹಣೆಯ ವಿಧಾನಗಳು ಮತ್ತು ಸಾಧ್ಯ ನಿರ್ಧಾರಗಳು/洞察ಗಳನ್ನು ಗುರುತಿಸಲು ಸಾಧ್ಯವಾಯಿತು | ಪರಿಹಾರದ ಕೆಲವು ಅಂಶಗಳು ವಿವರಿಸಲ್ಪಟ್ಟಿಲ್ಲ, ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಚರ್ಚಿಸಲ್ಪಟ್ಟಿಲ್ಲ, ಕನಿಷ್ಠ 2 ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರಗಳು ವಿವರಿಸಲ್ಪಟ್ಟಿವೆ | ಡೇಟಾ ಪರಿಹಾರದ ಭಾಗಗಳು ಮಾತ್ರ ವಿವರಿಸಲ್ಪಟ್ಟಿವೆ, ಒಂದೇ ಸಮಸ್ಯಾ ಕ್ಷೇತ್ರವನ್ನು ಪರಿಗಣಿಸಲಾಗಿದೆ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕಾರ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,136 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-12-19T14:22:03+00:00",
"source_file": "1-Introduction/02-ethics/README.md",
"language_code": "kn"
}
-->
Translation for chunk 1 of 'README.md' skipped due to timeout.
* ಮಾಹಿತಿ ವಾಸ್ತವಿಕತೆಯನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವಲ್ಲಿ _ನಿಖರವಾಗಿ_ ಸೆರೆಹಿಡಿದಿದೆಯೇ?
#### 2.8 ಅಲ್ಗೋರಿದಮ್ ನ್ಯಾಯತಂತ್ರ
[ಅಲ್ಗೋರಿದಮ್ ನ್ಯಾಯತಂತ್ರ](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) ಅಲ್ಗೋರಿದಮ್ ವಿನ್ಯಾಸವು ನಿರ್ದಿಷ್ಟ ಉಪಗುಂಪುಗಳ ವಿರುದ್ಧ ಕ್ರಮಬದ್ಧವಾಗಿ ಭೇದಭಾವ ಮಾಡುತ್ತಿದೆಯೇ ಎಂದು ಪರಿಶೀಲಿಸುತ್ತದೆ, ಇದರಿಂದ _ವಿತರಣೆಯಲ್ಲಿ_ (ಆ ಗುಂಪಿನಿಂದ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನಿರಾಕರಿಸುವುದು ಅಥವಾ ತಡೆಯುವುದು) ಮತ್ತು _ಸೇವೆಯ ಗುಣಮಟ್ಟದಲ್ಲಿ_ (ಕೆಲವು ಉಪಗುಂಪುಗಳಿಗೆ AI ಇತರರಿಗಿಂತ ಕಡಿಮೆ ನಿಖರವಾಗಿರುವುದು) [ಸಂಭಾವ್ಯ ಹಾನಿಗಳು](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) ಉಂಟಾಗಬಹುದು.
ಇಲ್ಲಿ ಪರಿಶೀಲಿಸಬೇಕಾದ ಪ್ರಶ್ನೆಗಳು:
* ನಾವು ವಿಭಿನ್ನ ಉಪಗುಂಪುಗಳು ಮತ್ತು ಪರಿಸ್ಥಿತಿಗಳಿಗಾಗಿ ಮಾದರಿ ನಿಖರತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿದ್ದೇವೇ?
* ನಾವು ವ್ಯವಸ್ಥೆಯನ್ನು ಸಾಧ್ಯವಿರುವ ಹಾನಿಗಳಿಗಾಗಿ (ಉದಾ: ಸ್ಟೀರಿಯೋಟೈಪಿಂಗ್) ಪರಿಶೀಲಿಸಿದ್ದೇವೇ?
* ಗುರುತಿಸಿದ ಹಾನಿಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ನಾವು ಡೇಟಾವನ್ನು ಪರಿಷ್ಕರಿಸಬಹುದೇ ಅಥವಾ ಮಾದರಿಗಳನ್ನು ಮರುಶಿಕ್ಷಣ ಮಾಡಬಹುದೇ?
ಹೆಚ್ಚು ತಿಳಿಯಲು [AI ನ್ಯಾಯತಂತ್ರ ಪರಿಶೀಲನಾ ಪಟ್ಟಿಗಳು](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) ಅನ್ನು ಅನ್ವೇಷಿಸಿ.
#### 2.9 ತಪ್ಪು ಪ್ರತಿನಿಧಾನ
[ಡೇಟಾ ತಪ್ಪು ಪ್ರತಿನಿಧಾನ](https://www.sciencedirect.com/topics/computer-science/misrepresentation) ಎಂದರೆ ನಾವು ಪ್ರಾಮಾಣಿಕವಾಗಿ ವರದಿಯಾದ ಡೇಟಾದಿಂದ ತಿಳಿವಳಿಕೆಗಳನ್ನು ಮೋಸಮಯ ರೀತಿಯಲ್ಲಿ ಸಂವಹನ ಮಾಡುತ್ತಿದೇವೇ ಎಂದು ಕೇಳುವುದು, ಇದರಿಂದ ಇಚ್ಛಿತ ಕಥನವನ್ನು ಬೆಂಬಲಿಸಲಾಗುತ್ತದೆ.
ಇಲ್ಲಿ ಪರಿಶೀಲಿಸಬೇಕಾದ ಪ್ರಶ್ನೆಗಳು:
* ನಾವು ಅಪೂರ್ಣ ಅಥವಾ ಅಸತ್ಯ ಡೇಟಾವನ್ನು ವರದಿ ಮಾಡುತ್ತಿದ್ದೇವೇ?
* ನಾವು ಡೇಟಾವನ್ನು ತಪ್ಪು ನಿರ್ಣಯಗಳಿಗೆ ದಾರಿ ಮಾಡಿಕೊಡುವ ರೀತಿಯಲ್ಲಿ ದೃಶ್ಯೀಕರಿಸುತ್ತಿದ್ದೇವೇ?
* ನಾವು ಫಲಿತಾಂಶಗಳನ್ನು ನಿಯಂತ್ರಿಸಲು ಆಯ್ಕೆಮಾಡಿದ ಸಾಂಖ್ಯಿಕ ತಂತ್ರಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದೇವೇ?
* ವಿಭಿನ್ನ ನಿರ್ಣಯವನ್ನು ನೀಡಬಹುದಾದ ಪರ್ಯಾಯ ವಿವರಣೆಗಳಿವೆಯೇ?
#### 2.10 ಸ್ವತಂತ್ರ ಆಯ್ಕೆ
[ಸ್ವತಂತ್ರ ಆಯ್ಕೆಯ ಭ್ರಮೆ](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) ಆಗುತ್ತದೆ, যখন ವ್ಯವಸ್ಥೆಯ "ಆಯ್ಕೆ ವಾಸ್ತುಶಿಲ್ಪಗಳು" ನಿರ್ಧಾರಮಾಡುವ ಅಲ್ಗೋರಿದಮ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಜನರನ್ನು ಇಚ್ಛಿತ ಫಲಿತಾಂಶವನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಪ್ರೇರೇಪಿಸುತ್ತವೆ, ಆದರೆ ಅವರಿಗೆ ಆಯ್ಕೆಗಳು ಮತ್ತು ನಿಯಂತ್ರಣವಿದೆ ಎಂದು ತೋರುತ್ತದೆ. ಈ [ಕತ್ತಲೆಯ ಮಾದರಿಗಳು](https://www.darkpatterns.org/) ಬಳಕೆದಾರರಿಗೆ ಸಾಮಾಜಿಕ ಮತ್ತು ಆರ್ಥಿಕ ಹಾನಿ ಉಂಟುಮಾಡಬಹುದು. ಬಳಕೆದಾರರ ನಿರ್ಧಾರಗಳು ವರ್ತನೆ ಪ್ರೊಫೈಲ್‌ಗಳನ್ನು ಪ್ರಭಾವಿಸುವುದರಿಂದ, ಈ ಕ್ರಿಯೆಗಳು ಭವಿಷ್ಯದ ಆಯ್ಕೆಗಳನ್ನು ಪ್ರೇರೇಪಿಸಬಹುದು ಮತ್ತು ಹಾನಿಯ ಪರಿಣಾಮವನ್ನು ವಿಸ್ತರಿಸಬಹುದು.
ಇಲ್ಲಿ ಪರಿಶೀಲಿಸಬೇಕಾದ ಪ್ರಶ್ನೆಗಳು:
* ಆ ಆಯ್ಕೆ ಮಾಡುವ ಪರಿಣಾಮಗಳನ್ನು ಬಳಕೆದಾರನು ಅರ್ಥಮಾಡಿಕೊಂಡಿದ್ದಾನೆಯೇ?
* ಬಳಕೆದಾರನು (ಪರ್ಯಾಯ) ಆಯ್ಕೆಗಳನ್ನು ಮತ್ತು ಪ್ರತಿಯೊಂದರ ಲಾಭ-ನಷ್ಟಗಳನ್ನು ತಿಳಿದಿದ್ದಾನೆಯೇ?
* ಬಳಕೆದಾರನು ನಂತರ ಸ್ವಯಂಚಾಲಿತ ಅಥವಾ ಪ್ರಭಾವಿತ ಆಯ್ಕೆಯನ್ನು ಹಿಂಪಡೆಯಬಹುದೇ?
### 3. ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳು
ಈ ನೈತಿಕ ಸವಾಲುಗಳನ್ನು ನೈಜ ಜಗತ್ತಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ ನೋಡಲು, ಇಂತಹ ನೈತಿಕ ಉಲ್ಲಂಘನೆಗಳನ್ನು ನಿರ್ಲಕ್ಷಿಸಿದಾಗ ವ್ಯಕ್ತಿಗಳು ಮತ್ತು ಸಮಾಜಕ್ಕೆ ಸಂಭವಿಸಬಹುದಾದ ಹಾನಿ ಮತ್ತು ಪರಿಣಾಮಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುವ ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳನ್ನು ನೋಡುವುದು ಸಹಾಯಕ.
ಕೆಲವು ಉದಾಹರಣೆಗಳು:
| ನೈತಿಕ ಸವಾಲು | ಪ್ರಕರಣ ಅಧ್ಯಯನ |
|--- |--- |
| **ಜಾಗೃತ ಅನುಮತಿ** | 1972 - [ಟಸ್ಕೀಗಿ ಸಿಫಿಲಿಸ್ ಅಧ್ಯಯನ](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - ಅಧ್ಯಯನದಲ್ಲಿ ಭಾಗವಹಿಸಿದ ಆಫ್ರಿಕನ್ ಅಮೆರಿಕನ್ ಪುರುಷರಿಗೆ ಉಚಿತ ವೈದ್ಯಕೀಯ ಸೇವೆ ನೀಡಲಾಗುವುದು ಎಂದು ಭರವಸೆ ನೀಡಲಾಯಿತು _ಆದರೆ ಸಂಶೋಧಕರು ಅವರ ರೋಗನಿರ್ಣಯ ಅಥವಾ ಚಿಕಿತ್ಸೆ ಲಭ್ಯತೆಯ ಬಗ್ಗೆ ಮಾಹಿತಿ ನೀಡದೆ ಮೋಸ ಮಾಡಿದರು_. ಅನೇಕ ವಿಷಯಗಳು ಸತ್ತವು ಮತ್ತು ಅವರ ಸಂಗಾತಿಗಳು ಅಥವಾ ಮಕ್ಕಳು ಪ್ರಭಾವಿತರಾದರು; ಅಧ್ಯಯನ 40 ವರ್ಷಗಳ ಕಾಲ ನಡೆಯಿತು. |
| **ಡೇಟಾ ಗೌಪ್ಯತೆ** | 2007 - [ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಡೇಟಾ ಬಹುಮಾನ](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) ಸಂಶೋಧಕರಿಗೆ _50,000 ಗ್ರಾಹಕರಿಂದ 10 ಮಿಲಿಯನ್ ಅನಾಮಧೇಯ ಚಲನಚಿತ್ರ ರ್ಯಾಕಿಗ್ಗಳು_ ನೀಡಲಾಯಿತು, ಶಿಫಾರಸು ಅಲ್ಗೋರಿದಮ್‌ಗಳನ್ನು ಸುಧಾರಿಸಲು. ಆದರೆ ಸಂಶೋಧಕರು ಅನಾಮಧೇಯ ಡೇಟಾವನ್ನು ವೈಯಕ್ತಿಕ ಗುರುತಿನ ಡೇಟಾದೊಂದಿಗೆ _ಬಾಹ್ಯ ಡೇಟಾಸೆಟ್ಗಳಲ್ಲಿ_ (ಉದಾ: IMDb ಕಾಮೆಂಟ್ಸ್) ಹೊಂದಿಸಿ ಕೆಲವು ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಗ್ರಾಹಕರನ್ನು "ಅನಾಮಧೇಯತೆ ಮುರಿದ"ರು.|
| **ಸಂಗ್ರಹಣ ಪಕ್ಷಪಾತ** | 2013 - ಬೋಸ್ಟನ್ ನಗರ [ಸ್ಟ್ರೀಟ್ ಬಂಪ್](https://www.boston.gov/transportation/street-bump) ಎಂಬ ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಪಡಿಸಿತು, ಇದು ನಾಗರಿಕರಿಗೆ ರಸ್ತೆ ಬಿರುಕುಗಳನ್ನು ವರದಿ ಮಾಡಲು ಅವಕಾಶ ನೀಡಿತು, ನಗರಕ್ಕೆ ಉತ್ತಮ ರಸ್ತೆ ಡೇಟಾ ಸಿಗಲು ಸಹಾಯ ಮಾಡಿತು. ಆದರೆ [ಕಡಿಮೆ ಆದಾಯ ಗುಂಪಿನ ಜನರಿಗೆ ಕಾರುಗಳು ಮತ್ತು ಫೋನ್‌ಗಳಿಗೆ ಕಡಿಮೆ ಪ್ರವೇಶವಿತ್ತು](https://hbr.org/2013/04/the-hidden-biases-in-big-data), ಇದರಿಂದ ಅವರ ರಸ್ತೆ ಸಮಸ್ಯೆಗಳು ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ ಕಾಣಿಸದಿದ್ದವು. ಅಭಿವೃದ್ಧಿಪಡಿಸುವವರು ನ್ಯಾಯತಂತ್ರಕ್ಕಾಗಿ ಸಮಾನ ಪ್ರವೇಶ ಮತ್ತು ಡಿಜಿಟಲ್ ವಿಭಜನೆಗಳ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಅಕಾಡೆಮಿಕ್ಸ್ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡಿದರು. |
| **ಅಲ್ಗೋರಿದ್ಮಿಕ ನ್ಯಾಯತಂತ್ರ** | 2018 - MIT [ಜೆಂಡರ್ ಶೇಡ್ಸ್ ಅಧ್ಯಯನ](http://gendershades.org/overview.html) ಲಿಂಗ ವರ್ಗೀಕರಣ AI ಉತ್ಪನ್ನಗಳ ನಿಖರತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿತು, ಮಹಿಳೆಯರು ಮತ್ತು ಬಣ್ಣದ ವ್ಯಕ್ತಿಗಳಿಗಾಗಿ ನಿಖರತೆಯಲ್ಲಿ ಗ್ಯಾಪ್‌ಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸಿತು. [2019 ಆಪಲ್ ಕಾರ್ಡ್](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) ಮಹಿಳೆಯರಿಗೆ ಪುರುಷರಿಗಿಂತ ಕಡಿಮೆ ಕ್ರೆಡಿಟ್ ನೀಡಿದಂತೆ ತೋರುತ್ತಿತ್ತು. ಎರಡೂ ಅಲ್ಗೋರಿದ್ಮಿಕ ಪಕ್ಷಪಾತದ ಸಮಸ್ಯೆಗಳನ್ನು ಮತ್ತು ಸಾಮಾಜಿಕ-ಆರ್ಥಿಕ ಹಾನಿಗಳನ್ನು ತೋರಿಸಿತು.|
| **ಡೇಟಾ ತಪ್ಪು ಪ್ರತಿನಿಧಾನ** | 2020 - [ಜಾರ್ಜಿಯಾ ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಇಲಾಖೆ COVID-19 ಚಾರ್ಟ್‌ಗಳನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), ಇದು ದೃಶ್ಯೀಕರಣದ ತಂತ್ರಗಳಿಂದ ತಪ್ಪು ನಿರ್ಣಯಗಳಿಗೆ ದಾರಿ ಮಾಡಿಕೊಟ್ಟಂತೆ ತೋರುತ್ತಿತ್ತು, ಖಚಿತ ಪ್ರಕರಣಗಳ ಪ್ರವೃತ್ತಿಗಳನ್ನು ತಪ್ಪಾಗಿ ತೋರಿಸುವಂತೆ x-ಅಕ್ಷದಲ್ಲಿ ಕಾಲಕ್ರಮವಿಲ್ಲದ ಕ್ರಮದಲ್ಲಿ. |
| **ಸ್ವತಂತ್ರ ಆಯ್ಕೆಯ ಭ್ರಮೆ** | 2020 - ಲರ್ನಿಂಗ್ ಅಪ್ಲಿಕೇಶನ್ [ABCmouse $10 ಮಿಲಿಯನ್ FTC ದೂರು ಪರಿಹರಿಸಲು ಪಾವತಿಸಿತು](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), ಇಲ್ಲಿ ಪೋಷಕರು ರದ್ದುಮಾಡಲಾಗದ ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್‌ಗಳಿಗೆ ಹಣ ಪಾವತಿಸಲು ಬಿದ್ದಿದ್ದರು. ಇದು ಆಯ್ಕೆ ವಾಸ್ತುಶಿಲ್ಪಗಳಲ್ಲಿ ಕತ್ತಲೆಯ ಮಾದರಿಗಳನ್ನು ತೋರಿಸುತ್ತದೆ, ಬಳಕೆದಾರರನ್ನು ಹಾನಿಕರ ಆಯ್ಕೆಗಳಿಗೆ ಪ್ರೇರೇಪಿಸುವುದು. |
| **ಡೇಟಾ ಗೌಪ್ಯತೆ ಮತ್ತು ಬಳಕೆದಾರ ಹಕ್ಕುಗಳು** | 2021 - ಫೇಸ್ಬುಕ್ [ಡೇಟಾ ಲೋಪ](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530 ಮಿಲಿಯನ್ ಬಳಕೆದಾರರ ಡೇಟಾವನ್ನು ಬಹಿರಂಗಪಡಿಸಿತು, ಇದರಿಂದ FTC ಗೆ $5 ಬಿಲಿಯನ್ ಪರಿಹಾರ ನೀಡಲಾಯಿತು. ಆದರೆ ಬಳಕೆದಾರರಿಗೆ ಈ ಲೋಪದ ಬಗ್ಗೆ ತಿಳಿಸುವುದನ್ನು ನಿರಾಕರಿಸಿತು, ಇದು ಡೇಟಾ ಪಾರದರ್ಶಕತೆ ಮತ್ತು ಪ್ರವೇಶದ ಹಕ್ಕುಗಳನ್ನು ಉಲ್ಲಂಘಿಸಿತು. |
ಹೆಚ್ಚು ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳನ್ನು ಅನ್ವೇಷಿಸಲು ಇಚ್ಛಿಸುವಿರಾ? ಈ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನೋಡಿ:
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - ವಿಭಿನ್ನ ಕೈಗಾರಿಕೆಗಳಲ್ಲಿ ನೈತಿಕ ಸಂಕಟಗಳು.
* [ಡೇಟಾ ಸೈನ್ಸ್ ನೈತಿಕತೆ ಕೋರ್ಸ್](https://www.coursera.org/learn/data-science-ethics#syllabus) - ಪ್ರಮುಖ ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳನ್ನು ಅನ್ವೇಷಿಸಲಾಗಿದೆ.
* [ಎಲ್ಲಿ ತಪ್ಪಾಗಿದೆ](https://deon.drivendata.org/examples/) - ಉದಾಹರಣೆಗಳೊಂದಿಗೆ ಡಿಯೋನ್ ಪರಿಶೀಲನಾ ಪಟ್ಟಿಗಳು
> 🚨 ನೀವು ನೋಡಿದ ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳನ್ನು ಯೋಚಿಸಿ - ನೀವು ನಿಮ್ಮ ಜೀವನದಲ್ಲಿ ಇಂತಹ ನೈತಿಕ ಸವಾಲುಗಳನ್ನು ಅನುಭವಿಸಿದ್ದೀರಾ ಅಥವಾ ಪ್ರಭಾವಿತರಾಗಿದ್ದೀರಾ? ನಾವು ಈ ವಿಭಾಗದಲ್ಲಿ ಚರ್ಚಿಸಿದ ನೈತಿಕ ಸವಾಲುಗಳಲ್ಲಿ ಒಂದನ್ನು ತೋರಿಸುವ ಇನ್ನೊಂದು ಪ್ರಕರಣ ಅಧ್ಯಯನವನ್ನು ನೀವು ಯೋಚಿಸಬಹುದೇ?
## ಅನ್ವಯಿತ ನೈತಿಕತೆ
ನಾವು ನೈತಿಕತೆಯ ಸಂಪ್ರದಾಯಗಳು, ಸವಾಲುಗಳು ಮತ್ತು ನೈಜ ಜಗತ್ತಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳನ್ನು ಚರ್ಚಿಸಿದ್ದೇವೆ. ಆದರೆ ನಮ್ಮ ಯೋಜನೆಗಳಲ್ಲಿ ನೈತಿಕ ತತ್ವಗಳು ಮತ್ತು ಅಭ್ಯಾಸಗಳನ್ನು _ಅನ್ವಯಿಸುವುದು_ ಹೇಗೆ ಪ್ರಾರಂಭಿಸಬಹುದು? ಮತ್ತು ಉತ್ತಮ ಆಡಳಿತಕ್ಕಾಗಿ ಈ ಅಭ್ಯಾಸಗಳನ್ನು _ಕಾರ್ಯಗತಗೊಳಿಸುವುದು_ ಹೇಗೆ? ಕೆಲವು ನೈಜ ಜಗತ್ತಿನ ಪರಿಹಾರಗಳನ್ನು ಅನ್ವೇಷಿಸೋಣ:
### 1. ವೃತ್ತಿಪರ ಸಂಹಿತೆಗಳು
ವೃತ್ತಿಪರ ಸಂಹಿತೆಗಳು ಸಂಸ್ಥೆಗಳಿಗೆ ಸದಸ್ಯರನ್ನು ಅವರ ನೈತಿಕ ತತ್ವಗಳು ಮತ್ತು ಮಿಷನ್ ಹೇಳಿಕೆಯನ್ನು ಬೆಂಬಲಿಸಲು "ಪ್ರೇರೇಪಿಸುವ" ಒಂದು ಆಯ್ಕೆಯನ್ನು ನೀಡುತ್ತವೆ. ಸಂಹಿತೆಗಳು ವೃತ್ತಿಪರ ವರ್ತನೆಗಾಗಿ _ನೈತಿಕ ಮಾರ್ಗದರ್ಶಿಗಳು_, ಉದ್ಯೋಗಿಗಳು ಅಥವಾ ಸದಸ್ಯರು ಸಂಸ್ಥೆಯ ತತ್ವಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ. ಅವು ಸದಸ್ಯರಿಂದ ಸ್ವಯಂಸೇವಕ ಅನುಸರಣೆ ಮಾತ್ರವಷ್ಟೇ ಉತ್ತಮವಾಗಿರುತ್ತವೆ; ಆದಾಗ್ಯೂ, ಅನೇಕ ಸಂಸ್ಥೆಗಳು ಸದಸ್ಯರಿಂದ ಅನುಸರಣೆಗಾಗಿ ಹೆಚ್ಚುವರಿ ಬಹುಮಾನಗಳು ಮತ್ತು ದಂಡಗಳನ್ನು ನೀಡುತ್ತವೆ.
ಉದಾಹರಣೆಗಳು:
* [ಆಕ್ಸ್ಫರ್ಡ್ ಮುನಿಚ್](http://www.code-of-ethics.org/code-of-conduct/) ನೈತಿಕ ಸಂಹಿತೆ
* [ಡೇಟಾ ಸೈನ್ಸ್ ಅಸೋಸಿಯೇಷನ್](http://datascienceassn.org/code-of-conduct.html) ವರ್ತನೆ ಸಂಹಿತೆ (2013 ರಲ್ಲಿ ರಚಿಸಲಾಗಿದೆ)
* [ACM ನೈತಿಕತೆ ಮತ್ತು ವೃತ್ತಿಪರ ವರ್ತನೆ ಸಂಹಿತೆ](https://www.acm.org/code-of-ethics) (1993 ರಿಂದ)
> 🚨 ನೀವು ವೃತ್ತಿಪರ ಎಂಜಿನಿಯರಿಂಗ್ ಅಥವಾ ಡೇಟಾ ಸೈನ್ಸ್ ಸಂಸ್ಥೆಗೆ ಸೇರಿದವರಾ? ಅವರ ತಾಣವನ್ನು ಪರಿಶೀಲಿಸಿ ಅವರು ವೃತ್ತಿಪರ ನೈತಿಕ ಸಂಹಿತೆಯನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುತ್ತಾರೆಯೇ ಎಂದು ನೋಡಿ. ಅವರ ನೈತಿಕ ತತ್ವಗಳ ಬಗ್ಗೆ ಇದು ಏನು ಹೇಳುತ್ತದೆ? ಸದಸ್ಯರನ್ನು ಸಂಹಿತೆಯನ್ನು ಅನುಸರಿಸಲು ಅವರು ಹೇಗೆ "ಪ್ರೇರೇಪಿಸುತ್ತಿದ್ದಾರೆ"?
### 2. ನೈತಿಕ ಪರಿಶೀಲನಾ ಪಟ್ಟಿಗಳು
ವೃತ್ತಿಪರ ಸಂಹಿತೆಗಳು ಅಭ್ಯಾಸಗಾರರಿಂದ ಅಗತ್ಯವಿರುವ _ನೈತಿಕ ವರ್ತನೆಯನ್ನು_ ವ್ಯಾಖ್ಯಾನಿಸುತ್ತವೆ, ಆದರೆ ಅವು [ನಿರ್ವಹಣೆಯಲ್ಲಿ](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) ವಿಶೇಷವಾಗಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಯೋಜನೆಗಳಲ್ಲಿ [ಹೆಚ್ಚು ಮಿತಿಗಳನ್ನು ಹೊಂದಿವೆ](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md). ಬದಲಾಗಿ, ಅನೇಕ ಡೇಟಾ ಸೈನ್ಸ್ ತಜ್ಞರು [ಪರಿಶೀಲನಾ ಪಟ್ಟಿಗಳನ್ನು](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) ಬೆಂಬಲಿಸುತ್ತಾರೆ, ಅವು **ತತ್ವಗಳನ್ನು ಅಭ್ಯಾಸಗಳಿಗೆ** ಹೆಚ್ಚು ನಿರ್ಧಾರಾತ್ಮಕ ಮತ್ತು ಕಾರ್ಯಗತಗೊಳಿಸುವ ರೀತಿಯಲ್ಲಿ ಸಂಪರ್ಕಿಸುತ್ತವೆ.
ಪರಿಶೀಲನಾ ಪಟ್ಟಿಗಳು ಪ್ರಶ್ನೆಗಳನ್ನು "ಹೌದು/ಇಲ್ಲ" ಕಾರ್ಯಗಳಾಗಿ ಪರಿವರ್ತಿಸುತ್ತವೆ, ಅವುಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಬಹುದು ಮತ್ತು ಮಾನಕ ಉತ್ಪನ್ನ ಬಿಡುಗಡೆ ಕಾರ್ಯಪ್ರವಾಹಗಳ ಭಾಗವಾಗಿ ಟ್ರ್ಯಾಕ್ ಮಾಡಬಹುದು.
ಉದಾಹರಣೆಗಳು:
* [ಡಿಯೋನ್](https://deon.drivendata.org/) - [ಉದ್ಯಮ ಶಿಫಾರಸುಗಳಿಂದ](https://deon.drivendata.org/#checklist-citations) ರಚಿಸಲಾದ ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ಡೇಟಾ ನೈತಿಕತೆ ಪರಿಶೀಲನಾ ಪಟ್ಟಿ, ಸುಲಭ ಏಕೀಕರಣಕ್ಕಾಗಿ ಕಮಾಂಡ್-ಲೈನ್ ಉಪಕರಣದೊಂದಿಗೆ.
* [ಗೌಪ್ಯತೆ ಪರಿಶೀಲನಾ ಪಟ್ಟಿ](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - ಕಾನೂನು ಮತ್ತು ಸಾಮಾಜಿಕ ಅನಾವರಣ ದೃಷ್ಟಿಕೋನಗಳಿಂದ ಮಾಹಿತಿ ನಿರ್ವಹಣಾ ಅಭ್ಯಾಸಗಳಿಗೆ ಸಾಮಾನ್ಯ ಮಾರ್ಗದರ್ಶನ.
* [AI ನ್ಯಾಯತಂತ್ರ ಪರಿಶೀಲನಾ ಪಟ್ಟಿ](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - AI ಅಭಿವೃದ್ದಿ ಚಕ್ರಗಳಲ್ಲಿ ನ್ಯಾಯತಂತ್ರ ಪರಿಶೀಲನೆಗಳನ್ನು ಅಳವಡಿಸಲು AI ಅಭ್ಯಾಸಗಾರರಿಂದ ರಚಿಸಲಾಗಿದೆ.
* [ಡೇಟಾ ಮತ್ತು AI ನೈತಿಕತೆಯ 22 ಪ್ರಶ್ನೆಗಳು](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - ವಿನ್ಯಾಸ, ಅನುಷ್ಠಾನ ಮತ್ತು ಸಂಸ್ಥೆಯ ಸಂದರ್ಭಗಳಲ್ಲಿ ನೈತಿಕ ಸಮಸ್ಯೆಗಳ ಪ್ರಾಥಮಿಕ ಅನ್ವೇಷಣೆಗೆ ರಚಿಸಲಾದ ಹೆಚ್ಚು ತೆರೆಯಾದ ಚಟುವಟಿಕೆ.
### 3. ನೈತಿಕ ನಿಯಮಗಳು
ನೈತಿಕತೆ ಎಂದರೆ ಹಂಚಿಕೊಂಡ ಮೌಲ್ಯಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವುದು ಮತ್ತು ಸರಿಯಾದ ಕೆಲಸವನ್ನು _ಸ್ವಯಸೇವಕವಾಗಿ_ ಮಾಡುವುದು. **ಅನುಸರಣೆ** ಎಂದರೆ ಕಾನೂನನ್ನು _ಅನುಸರಿಸುವುದು_ ಆಗಿದ್ದು, ಅದು ವ್ಯಾಖ್ಯಾನಿಸಲ್ಪಟ್ಟಿದ್ದಲ್ಲಿ. **ಆಡಳಿತ** ಎಂದರೆ ಸಂಸ್ಥೆಗಳು ನೈತಿಕ ತತ್ವಗಳನ್ನು ಜಾರಿಗೆ ತರುವ ಮತ್ತು ಸ್ಥಾಪಿತ ಕಾನೂನುಗಳನ್ನು ಅನುಸರಿಸುವ ಎಲ್ಲಾ ವಿಧಾನಗಳನ್ನು ವ್ಯಾಪಕವಾಗಿ ಒಳಗೊಂಡಿದೆ.
ಇಂದು, ಸಂಸ್ಥೆಗಳೊಳಗಿನ ಆಡಳಿತ ಎರಡು ರೂಪಗಳನ್ನು ಹೊಂದಿದೆ. ಮೊದಲನೆಯದಾಗಿ, ಅದು **ನೈತಿಕ AI** ತತ್ವಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವುದು ಮತ್ತು ಸಂಸ್ಥೆಯ ಎಲ್ಲಾ AI ಸಂಬಂಧಿತ ಯೋಜನೆಗಳಲ್ಲಿ ಅಳವಡಿಕೆಯನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ಅಭ್ಯಾಸಗಳನ್ನು ಸ್ಥಾಪಿಸುವುದಾಗಿದೆ. ಎರಡನೆಯದಾಗಿ, ಅದು ಸಂಸ್ಥೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಪ್ರದೇಶಗಳ ಎಲ್ಲಾ ಸರ್ಕಾರ-ನಿರ್ದೇಶಿತ **ಡೇಟಾ ರಕ್ಷಣೆ ನಿಯಮಾವಳಿಗಳನ್ನು** ಅನುಸರಿಸುವುದಾಗಿದೆ.
ಡೇಟಾ ರಕ್ಷಣೆ ಮತ್ತು ಗೌಪ್ಯತೆ ನಿಯಮಾವಳಿಗಳ ಉದಾಹರಣೆಗಳು:
* `1974`, [US ಗೌಪ್ಯತೆ ಕಾಯ್ದೆ](https://www.justice.gov/opcl/privacy-act-1974) - _ಫೆಡರಲ್ ಸರ್ಕಾರದ_ ವೈಯಕ್ತಿಕ ಮಾಹಿತಿಯ ಸಂಗ್ರಹಣೆ, ಬಳಕೆ ಮತ್ತು ಬಹಿರಂಗಪಡಿಸುವಿಕೆಯನ್ನು ನಿಯಂತ್ರಿಸುತ್ತದೆ.
* `1996`, [US ಆರೋಗ್ಯ ವಿಮಾ ಪೋರ್ಟಬಿಲಿಟಿ ಮತ್ತು ಜವಾಬ್ದಾರಿ ಕಾಯ್ದೆ (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - ವೈಯಕ್ತಿಕ ಆರೋಗ್ಯ ಡೇಟಾವನ್ನು ರಕ್ಷಿಸುತ್ತದೆ.
* `1998`, [US ಮಕ್ಕಳ ಆನ್ಲೈನ್ ಗೌಪ್ಯತೆ ರಕ್ಷಣೆ ಕಾಯ್ದೆ (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 ವರ್ಷಕ್ಕಿಂತ ಕಡಿಮೆ ವಯಸ್ಸಿನ ಮಕ್ಕಳ ಡೇಟಾ ಗೌಪ್ಯತೆಯನ್ನು ರಕ್ಷಿಸುತ್ತದೆ.
* `2018`, [ಸಾಮಾನ್ಯ ಡೇಟಾ ರಕ್ಷಣೆ ನಿಯಮಾವಳಿ (GDPR)](https://gdpr-info.eu/) - ಬಳಕೆದಾರರ ಹಕ್ಕುಗಳು, ಡೇಟಾ ರಕ್ಷಣೆ ಮತ್ತು ಗೌಪ್ಯತೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ.
* `2018`, [ಕ್ಯಾಲಿಫೋರ್ನಿಯಾ ಗ್ರಾಹಕ ಗೌಪ್ಯತೆ ಕಾಯ್ದೆ (CCPA)](https://www.oag.ca.gov/privacy/ccpa) ಗ್ರಾಹಕರಿಗೆ ಅವರ (ವೈಯಕ್ತಿಕ) ಡೇಟಾದ ಮೇಲೆ ಹೆಚ್ಚು _ಹಕ್ಕುಗಳನ್ನು_ ನೀಡುತ್ತದೆ.
* `2021`, ಚೀನಾದ [ವೈಯಕ್ತಿಕ ಮಾಹಿತಿ ರಕ್ಷಣೆ ಕಾಯ್ದೆ](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) ಇತ್ತೀಚೆಗೆ ಅಂಗೀಕರಿಸಲ್ಪಟ್ಟಿದ್ದು, ಜಾಗತಿಕವಾಗಿ ಅತ್ಯಂತ ಬಲವಾದ ಆನ್ಲೈನ್ ಡೇಟಾ ಗೌಪ್ಯತೆ ನಿಯಮಾವಳಿಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ.
> 🚨 ಯುರೋಪಿಯನ್ ಯೂನಿಯನ್ ವ್ಯಾಖ್ಯಾನಿಸಿದ GDPR (ಸಾಮಾನ್ಯ ಡೇಟಾ ರಕ್ಷಣೆ ನಿಯಮಾವಳಿ) ಇಂದಿಗೂ ಅತ್ಯಂತ ಪ್ರಭಾವಶಾಲಿ ಡೇಟಾ ಗೌಪ್ಯತೆ ನಿಯಮಾವಳಿಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ನೀವು ತಿಳಿದಿದ್ದೀರಾ, ಇದು ನಾಗರಿಕರ ಡಿಜಿಟಲ್ ಗೌಪ್ಯತೆ ಮತ್ತು ವೈಯಕ್ತಿಕ ಡೇಟಾವನ್ನು ರಕ್ಷಿಸಲು [8 ಬಳಕೆದಾರ ಹಕ್ಕುಗಳನ್ನು](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) ಕೂಡ ವ್ಯಾಖ್ಯಾನಿಸುತ್ತದೆ? ಅವು ಏನೆಂದು ಮತ್ತು ಅವು ಏಕೆ ಮಹತ್ವದವೋ ತಿಳಿದುಕೊಳ್ಳಿ.
### 4. ನೈತಿಕ ಸಂಸ್ಕೃತಿ
_ಅನುಸರಣೆ_ (ಕಾನೂನಿನ "ಅಕ್ಷರ" ಅನ್ನು ಪೂರೈಸುವಷ್ಟು ಮಾಡುವಿಕೆ) ಮತ್ತು [ವ್ಯವಸ್ಥಿತ ಸಮಸ್ಯೆಗಳನ್ನು](https://www.coursera.org/learn/data-science-ethics/home/week/4) (ಉದಾ: ಸ್ಥಿರತೆ, ಮಾಹಿತಿ ಅಸಮತೋಲನ, ವಿತರಣಾತ್ಮಕ ಅನ್ಯಾಯ) ಪರಿಹರಿಸುವುದರ ನಡುವೆ ಅಸ್ಪಷ್ಟವಾದ ಗ್ಯಾಪ್ ಇರುತ್ತದೆ, ಇದು AI ಯನ್ನು ಶಸ್ತ್ರಾಸ್ತ್ರಗೊಳಿಸುವಿಕೆಯನ್ನು ವೇಗಗೊಳಿಸಬಹುದು.
ಇದಕ್ಕಾಗಿ [ನೈತಿಕ ಸಂಸ್ಕೃತಿಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವ ಸಹಕಾರಾತ್ಮಕ ವಿಧಾನಗಳು](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) ಅಗತ್ಯವಿದೆ, ಅವು ಭಾವನಾತ್ಮಕ ಸಂಪರ್ಕಗಳನ್ನು ಮತ್ತು ಕೈಗಾರಿಕೆಯಲ್ಲಿ _ಸಸ್ಥೆಗಳ ನಡುವೆ_ ಸತತ ಹಂಚಿಕೊಂಡ ಮೌಲ್ಯಗಳನ್ನು ನಿರ್ಮಿಸುತ್ತವೆ. ಇದಕ್ಕಾಗಿ ಸಂಸ್ಥೆಗಳಲ್ಲಿ ಹೆಚ್ಚು [ಆಧಿಕೃತ ಡೇಟಾ ನೈತಿಕ ಸಂಸ್ಕೃತಿಗಳನ್ನು](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) ರೂಪಿಸುವ ಅಗತ್ಯವಿದೆ - ಇದರಿಂದ _ಯಾರಾದರೂ_ [ಅಂಡನ್ ಕೇಬಲ್](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (ನೈತಿಕ ಚಿಂತೆಗಳನ್ನು ಪ್ರಕ್ರಿಯೆಯ ಆರಂಭದಲ್ಲಿ ಎತ್ತಲು) ಅನ್ನು ಎಳೆಯಬಹುದು ಮತ್ತು _ನೈತಿಕ ಮೌಲ್ಯಮಾಪನಗಳು_ (ಉದಾ: ನೇಮಕಾತಿಯಲ್ಲಿ) AI ಯೋಜನೆಗಳಲ್ಲಿ ತಂಡ ರಚನೆಯ ಪ್ರಮುಖ ಮಾನದಂಡವಾಗಿರುತ್ತವೆ.
---
## [ಪಾಠೋತ್ತರ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/3) 🎯
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಕೋರ್ಸ್‌ಗಳು ಮತ್ತು ಪುಸ್ತಕಗಳು ಮೂಲ ನೈತಿಕತೆಯ ಸಂಪ್ರದಾಯಗಳು ಮತ್ತು ಸವಾಲುಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ, ಮತ್ತು ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳು ಮತ್ತು ಉಪಕರಣಗಳು ನೈಜ ಜಗತ್ತಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ ಅನ್ವಯಿತ ನೈತಿಕ ಅಭ್ಯಾಸಗಳಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತವೆ. ಪ್ರಾರಂಭಿಸಲು ಕೆಲವು ಸಂಪನ್ಮೂಲಗಳು ಇಲ್ಲಿವೆ.
* [ಆರಂಭಿಕರಿಗಾಗಿ ಯಂತ್ರ ಅಧ್ಯಯನ](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - ಮೈಕ್ರೋಸಾಫ್ಟ್‌ನಿಂದ ನ್ಯಾಯತೆಯ ಪಾಠ.
* [ಜವಾಬ್ದಾರಿಯುತ AI ನ ತತ್ವಗಳು](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - ಮೈಕ್ರೋಸಾಫ್ಟ್ ಲರ್ನ್‌ನಿಂದ ಉಚಿತ ಅಧ್ಯಯನ ಮಾರ್ಗ.
* [ನೈತಿಕತೆ ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನ](https://resources.oreilly.com/examples/0636920203964) - ಓ'ರೈಲಿ ಇಬುಕ್ (ಎಂ. ಲೂಕಿಡ್ಸ್, ಎಚ್. ಮೇಸನ್ ಇತ್ಯಾದಿ)
* [ಡೇಟಾ ವಿಜ್ಞಾನ ನೈತಿಕತೆ](https://www.coursera.org/learn/data-science-ethics#syllabus) - ಮಿಚಿಗನ್ ವಿಶ್ವವಿದ್ಯಾಲಯದಿಂದ ಆನ್‌ಲೈನ್ ಕೋರ್ಸ್.
* [ನೈತಿಕತೆ ಅನ್ವಿತ](https://ethicsunwrapped.utexas.edu/case-studies) - ಟೆಕ್ಸಾಸ್ ವಿಶ್ವವಿದ್ಯಾಲಯದಿಂದ ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳು.
# ನಿಯೋಜನೆ
[ಡೇಟಾ ನೈತಿಕತೆ ಪ್ರಕರಣ ಅಧ್ಯಯನವನ್ನು ಬರೆಯಿರಿ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,37 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "b588c0fc73014f52520c666efc3e0cc3",
"translation_date": "2025-12-19T14:28:52+00:00",
"source_file": "1-Introduction/02-ethics/assignment.md",
"language_code": "kn"
}
-->
## ಡೇಟಾ ನೈತಿಕತೆ ಪ್ರಕರಣ ಅಧ್ಯಯನವನ್ನು ಬರೆಯಿರಿ
## ಸೂಚನೆಗಳು
ನೀವು ವಿವಿಧ [ಡೇಟಾ ನೈತಿಕತೆ ಸವಾಲುಗಳು](README.md#2-ethics-challenges) ಬಗ್ಗೆ ಕಲಿತಿದ್ದೀರಿ ಮತ್ತು ನೈತಿಕತೆ ಸವಾಲುಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ಕೆಲವು [ಪ್ರಕರಣ ಅಧ್ಯಯನಗಳ](README.md#3-case-studies) ಉದಾಹರಣೆಗಳನ್ನು ವಾಸ್ತವಿಕ ಜಗತ್ತಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ ನೋಡಿದ್ದೀರಿ.
ಈ ನಿಯೋಜನೆಯಲ್ಲಿ, ನೀವು ನಿಮ್ಮ ಸ್ವಂತ ಅನುಭವದಿಂದ ಅಥವಾ ನೀವು ಪರಿಚಿತರಾಗಿರುವ ಸಂಬಂಧಿತ ವಾಸ್ತವಿಕ ಜಗತ್ತಿನ ಸಂದರ್ಭದಿಂದ ಡೇಟಾ ನೈತಿಕತೆ ಸವಾಲನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ನಿಮ್ಮ ಸ್ವಂತ ಪ್ರಕರಣ ಅಧ್ಯಯನವನ್ನು ಬರೆಯುತ್ತೀರಿ. ಈ ಹಂತಗಳನ್ನು ಅನುಸರಿಸಿ:
1. `ಡೇಟಾ ನೈತಿಕತೆ ಸವಾಲನ್ನು ಆಯ್ಕೆಮಾಡಿ`. ಪ್ರೇರಣೆಗೆ [ಪಾಠದ ಉದಾಹರಣೆಗಳನ್ನು](README.md#2-ethics-challenges) ನೋಡಿ ಅಥವಾ [ಡಿಯೋನ್ ಚೆಕ್‌ಲಿಸ್ಟ್](https://deon.drivendata.org/examples/) ಮುಂತಾದ ಆನ್ಲೈನ್ ಉದಾಹರಣೆಗಳನ್ನು ಅನ್ವೇಷಿಸಿ.
2. `ವಾಸ್ತವಿಕ ಜಗತ್ತಿನ ಉದಾಹರಣೆಯನ್ನು ವರ್ಣಿಸಿ`. ನೀವು ಕೇಳಿದ್ದ (ಶೀರ್ಷಿಕೆಗಳು, ಸಂಶೋಧನಾ ಅಧ್ಯಯನ ಮುಂತಾದವು) ಅಥವಾ ಅನುಭವಿಸಿದ್ದ (ಸ್ಥಳೀಯ ಸಮುದಾಯ) ಪರಿಸ್ಥಿತಿಯನ್ನು ಯೋಚಿಸಿ, ಅಲ್ಲಿ ಈ ನಿರ್ದಿಷ್ಟ ಸವಾಲು ಸಂಭವಿಸಿತು. ಸವಾಲಿಗೆ ಸಂಬಂಧಿಸಿದ ಡೇಟಾ ನೈತಿಕತೆ ಪ್ರಶ್ನೆಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಿ - ಮತ್ತು ಈ ಸಮಸ್ಯೆಯಿಂದ ಉಂಟಾಗುವ ಸಾಧ್ಯವಾದ ಹಾನಿಗಳು ಅಥವಾ ಅನಿರೀಕ್ಷಿತ ಪರಿಣಾಮಗಳನ್ನು ಚರ್ಚಿಸಿ. ಬೋನಸ್ ಪಾಯಿಂಟ್‌ಗಳು: ಈ ಸವಾಲಿನ ದುಷ್ಪರಿಣಾಮವನ್ನು ನಿವಾರಿಸಲು ಅಥವಾ ಕಡಿಮೆ ಮಾಡಲು ಅನ್ವಯಿಸಬಹುದಾದ ಸಾಧ್ಯವಾದ ಪರಿಹಾರಗಳು ಅಥವಾ ಪ್ರಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಿ.
3. `ಸಂಬಂಧಿತ ಸಂಪನ್ಮೂಲಗಳ ಪಟ್ಟಿ ಒದಗಿಸಿ`. ಇದು ವಾಸ್ತವಿಕ ಘಟನೆ ಎಂದು ಸಾಬೀತುಪಡಿಸಲು ಒಂದು ಅಥವಾ ಹೆಚ್ಚು ಸಂಪನ್ಮೂಲಗಳನ್ನು (ಲೇಖನಕ್ಕೆ ಲಿಂಕ್, ವೈಯಕ್ತಿಕ ಬ್ಲಾಗ್ ಪೋಸ್ಟ್ ಅಥವಾ ಚಿತ್ರ, ಆನ್ಲೈನ್ ಸಂಶೋಧನಾ ಪತ್ರಿಕೆ ಮುಂತಾದವು) ಹಂಚಿಕೊಳ್ಳಿ. ಬೋನಸ್ ಪಾಯಿಂಟ್‌ಗಳು: ಘಟನೆಯಿಂದ ಉಂಟಾದ ಸಾಧ್ಯವಾದ ಹಾನಿಗಳು ಮತ್ತು ಪರಿಣಾಮಗಳನ್ನು ತೋರಿಸುವ ಅಥವಾ ಅದರ ಪುನರಾವೃತ್ತಿಯನ್ನು ತಡೆಯಲು ತೆಗೆದುಕೊಂಡ ಸಕಾರಾತ್ಮಕ ಕ್ರಮಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುವ ಸಂಪನ್ಮೂಲಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಿ.
## ಮೌಲ್ಯಮಾಪನ
ಉತ್ತಮ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆ ಅಗತ್ಯ
--- | --- | -- |
ಒಂದು ಅಥವಾ ಹೆಚ್ಚು ಡೇಟಾ ನೈತಿಕತೆ ಸವಾಲುಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ. <br/> <br/> ಪ್ರಕರಣ ಅಧ್ಯಯನವು ಆ ಸವಾಲನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ವಾಸ್ತವಿಕ ಘಟನೆ ಸ್ಪಷ್ಟವಾಗಿ ವರ್ಣಿಸುತ್ತದೆ ಮತ್ತು ಅದು ಉಂಟುಮಾಡಿದ ಅಕಾಂಕ್ಷಿತ ಪರಿಣಾಮಗಳು ಅಥವಾ ಹಾನಿಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ. <br/><br/> ಈ ಘಟನೆ ಸಂಭವಿಸಿದೆ ಎಂದು ಸಾಬೀತುಪಡಿಸಲು ಕನಿಷ್ಠ ಒಂದು ಲಿಂಕ್ ಮಾಡಿದ ಸಂಪನ್ಮೂಲವಿದೆ. | ಒಂದು ಡೇಟಾ ನೈತಿಕತೆ ಸವಾಲು ಗುರುತಿಸಲಾಗಿದೆ. <br/><br/> ಕನಿಷ್ಠ ಒಂದು ಸಂಬಂಧಿತ ಹಾನಿ ಅಥವಾ ಪರಿಣಾಮವನ್ನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಚರ್ಚಿಸಲಾಗಿದೆ. <br/><br/> ಆದರೆ ಚರ್ಚೆ ಸೀಮಿತವಾಗಿದೆ ಅಥವಾ ವಾಸ್ತವಿಕ ಸಂಭವನೆಯನ್ನು ಸಾಬೀತುಪಡಿಸುವುದಿಲ್ಲ. | ಒಂದು ಡೇಟಾ ಸವಾಲು ಗುರುತಿಸಲಾಗಿದೆ. <br/><br/> ಆದರೆ ವರ್ಣನೆ ಅಥವಾ ಸಂಪನ್ಮೂಲಗಳು ಸವಾಲನ್ನು ಸಮರ್ಪಕವಾಗಿ ಪ್ರತಿಬಿಂಬಿಸುವುದಿಲ್ಲ ಅಥವಾ ವಾಸ್ತವಿಕ ಸಂಭವನೆಯನ್ನು ಸಾಬೀತುಪಡಿಸುವುದಿಲ್ಲ. |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,86 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "12339119c0165da569a93ddba05f9339",
"translation_date": "2025-12-19T14:00:15+00:00",
"source_file": "1-Introduction/03-defining-data/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ವ್ಯಾಖ್ಯಾನ
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|ಡೇಟಾ ವ್ಯಾಖ್ಯಾನ - _[@nitya](https://twitter.com/nitya) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್_ |
ಡೇಟಾ ಎಂದರೆ ಅನ್ವೇಷಣೆ ಮಾಡಲು ಮತ್ತು ತಿಳಿವಳಿಕೆ ಹೊಂದಿದ ನಿರ್ಧಾರಗಳನ್ನು ಬೆಂಬಲಿಸಲು ಬಳಸುವ ವಾಸ್ತವಗಳು, ಮಾಹಿತಿ, ಅವಲೋಕನಗಳು ಮತ್ತು ಅಳತೆಗಳು. ಡೇಟಾ ಪಾಯಿಂಟ್ ಎಂದರೆ ಡೇಟಾ ಪಾಯಿಂಟ್‌ಗಳ ಸಂಗ್ರಹವಾದ ಡೇಟಾಸೆಟ್‌ನೊಳಗಿನ ಒಂದು ಏಕಕ ಡೇಟಾ. ಡೇಟಾಸೆಟ್‌ಗಳು ವಿಭಿನ್ನ ಸ್ವರೂಪಗಳು ಮತ್ತು ರಚನೆಗಳಲ್ಲಿ ಇರಬಹುದು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಅದರ ಮೂಲ ಅಥವಾ ಡೇಟಾ ಎಲ್ಲಿ ಬಂದಿತು ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಇರುತ್ತವೆ. ಉದಾಹರಣೆಗೆ, ಒಂದು ಕಂಪನಿಯ ಮಾಸಿಕ ಆದಾಯವು ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ನಲ್ಲಿ ಇರಬಹುದು ಆದರೆ ಸ್ಮಾರ್ಟ್ ವಾಚ್‌ನಿಂದ ಗಂಟೆಗಟ್ಟಲೆ ಹೃದಯದ ದರದ ಡೇಟಾ [JSON](https://stackoverflow.com/a/383699) ಸ್ವರೂಪದಲ್ಲಿ ಇರಬಹುದು. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಡೇಟಾಸೆಟ್‌ನೊಳಗಿನ ವಿಭಿನ್ನ ರೀತಿಯ ಡೇಟಾ ಜೊತೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ.
ಈ ಪಾಠವು ಡೇಟಾವನ್ನು ಅದರ ಲಕ್ಷಣಗಳು ಮತ್ತು ಮೂಲಗಳ ಮೂಲಕ ಗುರುತಿಸುವುದು ಮತ್ತು ವರ್ಗೀಕರಿಸುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದೆ.
## [ಪೂರ್ವ-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/4)
## ಡೇಟಾ ಹೇಗೆ ವರ್ಣಿಸಲಾಗಿದೆ
### ಕಚ್ಚಾ ಡೇಟಾ
ಕಚ್ಚಾ ಡೇಟಾ ಎಂದರೆ ಮೂಲದಿಂದ ಅದರ ಪ್ರಾಥಮಿಕ ಸ್ಥಿತಿಯಲ್ಲಿ ಬಂದಿರುವ ಮತ್ತು ವಿಶ್ಲೇಷಣೆ ಅಥವಾ ಸಂಘಟನೆಯಾಗದಿರುವ ಡೇಟಾ. ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಏನಾಗುತ್ತಿದೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ಅದನ್ನು ಮಾನವರು ಮತ್ತು ತಂತ್ರಜ್ಞಾನವು ಮುಂದುವರೆಸಿ ವಿಶ್ಲೇಷಿಸಲು ಬಳಸಬಹುದಾದ ಸ್ವರೂಪದಲ್ಲಿ ಸಂಘಟಿಸಬೇಕಾಗುತ್ತದೆ. ಡೇಟಾಸೆಟ್‌ನ ರಚನೆ ಅದನ್ನು ಹೇಗೆ ಸಂಘಟಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ವಿವರಿಸುತ್ತದೆ ಮತ್ತು ಇದನ್ನು ರಚಿತ, ಅಸಂರಚಿತ ಮತ್ತು ಅರ್ಧ-ರಚಿತ ಎಂದು ವರ್ಗೀಕರಿಸಬಹುದು. ಈ ರಚನೆಗಳ ಪ್ರಕಾರ ಮೂಲದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ ಆದರೆ ಕೊನೆಗೆ ಈ ಮೂರು ವರ್ಗಗಳಲ್ಲಿ ಸೇರಿಕೊಳ್ಳುತ್ತದೆ.
### ಪ್ರಮಾಣಾತ್ಮಕ ಡೇಟಾ
ಪ್ರಮಾಣಾತ್ಮಕ ಡೇಟಾ ಎಂದರೆ ಡೇಟಾಸೆಟ್‌ನೊಳಗಿನ ಸಂಖ್ಯಾತ್ಮಕ ಅವಲೋಕನಗಳು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ವಿಶ್ಲೇಷಣೆ, ಅಳತೆ ಮತ್ತು ಗಣಿತೀಯವಾಗಿ ಬಳಸಬಹುದು. ಪ್ರಮಾಣಾತ್ಮಕ ಡೇಟಾದ ಕೆಲವು ಉದಾಹರಣೆಗಳು: ಒಂದು ದೇಶದ ಜನಸಂಖ್ಯೆ, ವ್ಯಕ್ತಿಯ ಎತ್ತರ ಅಥವಾ ಕಂಪನಿಯ ತ್ರೈಮಾಸಿಕ ಆದಾಯ. ಕೆಲವು ಹೆಚ್ಚುವರಿ ವಿಶ್ಲೇಷಣೆಯೊಂದಿಗೆ, ಪ್ರಮಾಣಾತ್ಮಕ ಡೇಟಾವನ್ನು ವಾಯು ಗುಣಮಟ್ಟ ಸೂಚ್ಯಂಕ (AQI) ನ ಋತುವಿನ ಪ್ರವೃತ್ತಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಅಥವಾ ಸಾಮಾನ್ಯ ಕೆಲಸದ ದಿನದ ರಶ್ ಹವರ್ ಟ್ರಾಫಿಕ್ ಸಂಭವನೀಯತೆಯನ್ನು ಅಂದಾಜಿಸಲು ಬಳಸಬಹುದು.
### ಗುಣಾತ್ಮಕ ಡೇಟಾ
ಗುಣಾತ್ಮಕ ಡೇಟಾ, ಅಥವಾ ವರ್ಗೀಕೃತ ಡೇಟಾ ಎಂದೂ ಕರೆಯಲ್ಪಡುವುದು, ಪ್ರಮಾಣಾತ್ಮಕ ಡೇಟಾದಂತಹ ವಸ್ತುನಿಷ್ಠವಾಗಿ ಅಳತೆಯಾಗದ ಡೇಟಾ. ಇದು ಸಾಮಾನ್ಯವಾಗಿ ಉತ್ಪನ್ನ ಅಥವಾ ಪ್ರಕ್ರಿಯೆಯ ಗುಣಮಟ್ಟವನ್ನು ಹಿಡಿದಿಡುವ ವಿಭಿನ್ನ ಸ್ವರೂಪದ ವಿಷಯಾತ್ಮಕ ಡೇಟಾಗಳಾಗಿರುತ್ತದೆ. ಕೆಲವೊಮ್ಮೆ, ಗುಣಾತ್ಮಕ ಡೇಟಾ ಸಂಖ್ಯಾತ್ಮಕವಾಗಿರಬಹುದು ಆದರೆ ಸಾಮಾನ್ಯವಾಗಿ ಗಣಿತೀಯವಾಗಿ ಬಳಸಲಾಗುವುದಿಲ್ಲ, ಉದಾಹರಣೆಗೆ ಫೋನ್ ಸಂಖ್ಯೆಗಳು ಅಥವಾ ಟೈಮ್‌ಸ್ಟ್ಯಾಂಪ್ಗಳು. ಗುಣಾತ್ಮಕ ಡೇಟಾದ ಕೆಲವು ಉದಾಹರಣೆಗಳು: ವೀಡಿಯೋ ಕಾಮೆಂಟ್ಗಳು, ಕಾರಿನ ತಯಾರಿಕೆ ಮತ್ತು ಮಾದರಿ ಅಥವಾ ನಿಮ್ಮ ಹತ್ತಿರದ ಸ್ನೇಹಿತರ ಪ್ರಿಯ ಬಣ್ಣ. ಗುಣಾತ್ಮಕ ಡೇಟಾವನ್ನು ಗ್ರಾಹಕರು ಯಾವ ಉತ್ಪನ್ನಗಳನ್ನು ಹೆಚ್ಚು ಇಷ್ಟಪಡುತ್ತಾರೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಅಥವಾ ಉದ್ಯೋಗ ಅರ್ಜಿ ರೆಸ್ಯೂಮೆಗಳಲ್ಲಿ ಜನಪ್ರಿಯ ಕೀವರ್ಡ್‌ಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬಹುದು.
### ರಚಿತ ಡೇಟಾ
ರಚಿತ ಡೇಟಾ ಎಂದರೆ ಸಾಲುಗಳು ಮತ್ತು ಕಾಲಮ್‌ಗಳಾಗಿ ಸಂಘಟಿತವಾಗಿರುವ ಡೇಟಾ, ಇಲ್ಲಿ ಪ್ರತಿ ಸಾಲು ಒಂದೇ ರೀತಿಯ ಕಾಲಮ್‌ಗಳ ಸಮೂಹವನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಕಾಲಮ್‌ಗಳು ನಿರ್ದಿಷ್ಟ ಪ್ರಕಾರದ ಮೌಲ್ಯವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ ಮತ್ತು ಆ ಮೌಲ್ಯ ಏನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ವಿವರಿಸುವ ಹೆಸರಿನಿಂದ ಗುರುತಿಸಲಾಗುತ್ತದೆ, ಆದರೆ ಸಾಲುಗಳು ನಿಜವಾದ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿರುತ್ತವೆ. ಕಾಲಮ್‌ಗಳಿಗೆ ಸಾಮಾನ್ಯವಾಗಿ ಮೌಲ್ಯಗಳ ಮೇಲೆ ನಿಯಮಗಳು ಅಥವಾ ನಿರ್ಬಂಧಗಳು ಇರುತ್ತವೆ, ಮೌಲ್ಯಗಳು ಕಾಲಮ್ ಅನ್ನು ಸರಿಯಾಗಿ ಪ್ರತಿನಿಧಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸಲು. ಉದಾಹರಣೆಗೆ, ಗ್ರಾಹಕರ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಅನ್ನು ಕಲ್ಪಿಸಿ, ಪ್ರತಿ ಸಾಲು ಫೋನ್ ಸಂಖ್ಯೆಯನ್ನು ಹೊಂದಿರಬೇಕು ಮತ್ತು ಫೋನ್ ಸಂಖ್ಯೆಗಳು ಎಂದಿಗೂ ಅಕ್ಷರಗಳನ್ನು ಹೊಂದಿರಬಾರದು. ಫೋನ್ ಸಂಖ್ಯೆ ಕಾಲಮ್‌ನಲ್ಲಿ ಖಾಲಿ ಇರಬಾರದು ಮತ್ತು ಸಂಖ್ಯೆಗಳನ್ನಷ್ಟೇ ಹೊಂದಿರಬೇಕು ಎಂಬ ನಿಯಮಗಳು ಇರಬಹುದು.
ರಚಿತ ಡೇಟಾದ ಲಾಭವೆಂದರೆ ಅದನ್ನು ಇತರ ರಚಿತ ಡೇಟಾಗಳೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ಸಂಘಟಿಸಬಹುದು. ಆದರೆ, ಡೇಟಾ ನಿರ್ದಿಷ್ಟ ರೀತಿಯಲ್ಲಿ ಸಂಘಟಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿರುವುದರಿಂದ, ಅದರ ಒಟ್ಟು ರಚನೆಯಲ್ಲಿ ಬದಲಾವಣೆಗಳನ್ನು ಮಾಡುವುದು ಬಹಳ ಪ್ರಯತ್ನದ ಕೆಲಸವಾಗಬಹುದು. ಉದಾಹರಣೆಗೆ, ಗ್ರಾಹಕರ ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗೆ ಖಾಲಿ ಇರಬಾರದ ಇಮೇಲ್ ಕಾಲಮ್ ಸೇರಿಸುವುದು ಎಂದರೆ ಈ ಮೌಲ್ಯಗಳನ್ನು ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿನ ಇತ್ತೀಚಿನ ಗ್ರಾಹಕರ ಸಾಲುಗಳಿಗೆ ಹೇಗೆ ಸೇರಿಸುವುದು ಎಂದು ನೀವು ಕಂಡುಹಿಡಿಯಬೇಕಾಗುತ್ತದೆ.
ರಚಿತ ಡೇಟಾದ ಉದಾಹರಣೆಗಳು: ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗಳು, ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು, ಫೋನ್ ಸಂಖ್ಯೆಗಳು, ಬ್ಯಾಂಕ್ ಸ್ಟೇಟ್ಮೆಂಟ್‌ಗಳು
### ಅಸಂರಚಿತ ಡೇಟಾ
ಅಸಂರಚಿತ ಡೇಟಾವನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಸಾಲುಗಳು ಅಥವಾ ಕಾಲಮ್‌ಗಳಾಗಿ ವರ್ಗೀಕರಿಸಲಾಗುವುದಿಲ್ಲ ಮತ್ತು ಅನುಸರಿಸಬೇಕಾದ ಸ್ವರೂಪ ಅಥವಾ ನಿಯಮಗಳ ಸಮೂಹವಿಲ್ಲ. ಅಸಂರಚಿತ ಡೇಟಾ ರಚನೆ ಮೇಲೆ ಕಡಿಮೆ ನಿರ್ಬಂಧಗಳಿರುವುದರಿಂದ, ರಚಿತ ಡೇಟಾಸೆಟ್‌ಗಿಂತ ಹೊಸ ಮಾಹಿತಿಯನ್ನು ಸೇರಿಸುವುದು ಸುಲಭ. ಉದಾಹರಣೆಗೆ, ಪ್ರತಿಯೊಂದು 2 ನಿಮಿಷಗಳಿಗೊಮ್ಮೆ ಬಾರೋಮೆಟ್ರಿಕ್ ಒತ್ತಡವನ್ನು ಸೆನ್ಸರ್ ಹಿಡಿಯುತ್ತಿದ್ದರೆ, ಈಗ ಅದು ತಾಪಮಾನವನ್ನು ಅಳತೆಮಾಡಲು ಮತ್ತು ದಾಖಲಿಸಲು ಸಾಧ್ಯವಾಗುವ ಅಪ್ಡೇಟ್ ಪಡೆದಿದ್ದರೆ, ಅಸಂರಚಿತ ಡೇಟಾದಲ್ಲಿ ಇದರಿಂದ ಇತ್ತೀಚಿನ ಡೇಟಾವನ್ನು ಬದಲಾಯಿಸುವ ಅಗತ್ಯವಿಲ್ಲ. ಆದರೆ, ಈ ರೀತಿಯ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸುವುದು ಅಥವಾ ಪರಿಶೀಲಿಸುವುದು ಹೆಚ್ಚು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಉದಾಹರಣೆಗೆ, ಸೆನ್ಸರ್ ಡೇಟಾದಿಂದ ಹಿಂದಿನ ತಿಂಗಳ ಸರಾಸರಿ ತಾಪಮಾನವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬಯಸುವ ವಿಜ್ಞಾನಿ, ಕೆಲವು ದಾಖಲೆಗಳಲ್ಲಿ "e" ಎಂಬ ಅಕ್ಷರವನ್ನು ಕಂಡುಹಿಡಿದಿದ್ದಾನೆ, ಇದು ಸೆನ್ಸರ್ ಕೆಡವಿದೆಯೆಂದು ಸೂಚಿಸುವುದಕ್ಕಾಗಿ, ಸಾಮಾನ್ಯ ಸಂಖ್ಯೆಯ ಬದಲು, ಅಂದರೆ ಡೇಟಾ ಅಪೂರ್ಣವಾಗಿದೆ.
ಅಸಂರಚಿತ ಡೇಟಾದ ಉದಾಹರಣೆಗಳು: ಪಠ್ಯ ಕಡತಗಳು, ಪಠ್ಯ ಸಂದೇಶಗಳು, ವೀಡಿಯೋ ಕಡತಗಳು
### ಅರ್ಧ-ರಚಿತ
ಅರ್ಧ-ರಚಿತ ಡೇಟಾ ರಚಿತ ಮತ್ತು ಅಸಂರಚಿತ ಡೇಟಾದ ಸಂಯೋಜನೆಯಾಗಿರುವ ಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿದೆ. ಇದು ಸಾಮಾನ್ಯವಾಗಿ ಸಾಲುಗಳು ಮತ್ತು ಕಾಲಮ್‌ಗಳ ಸ್ವರೂಪಕ್ಕೆ ಅನುಗುಣವಾಗಿರದು, ಆದರೆ ರಚಿತ ಎಂದು ಪರಿಗಣಿಸಲ್ಪಡುವ ರೀತಿಯಲ್ಲಿ ಸಂಘಟಿತವಾಗಿರುತ್ತದೆ ಮತ್ತು ನಿಶ್ಚಿತ ಸ್ವರೂಪ ಅಥವಾ ನಿಯಮಗಳ ಸಮೂಹವನ್ನು ಅನುಸರಿಸಬಹುದು. ರಚನೆ ಮೂಲಗಳ ಪ್ರಕಾರ ಬದಲಾಗುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಚೆನ್ನಾಗಿ ವ್ಯಾಖ್ಯಾನಗೊಂಡ ಹೈರಾರ್ಕಿಯಿಂದ ಹಿಡಿದು ಹೊಸ ಮಾಹಿತಿಯನ್ನು ಸುಲಭವಾಗಿ ಸಂಯೋಜಿಸಲು ಅನುಕೂಲಕರವಾದ ಹೆಚ್ಚು ಲವಚಿಕ ಸ್ವರೂಪದವರೆಗೆ. ಮೆಟಾಡೇಟಾ ಎಂದರೆ ಡೇಟಾ ಹೇಗೆ ಸಂಘಟಿತವಾಗಿದೆ ಮತ್ತು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಸಹಾಯ ಮಾಡುವ ಸೂಚಕಗಳು ಮತ್ತು ಡೇಟಾ ಪ್ರಕಾರದ ಆಧಾರದ ಮೇಲೆ ವಿವಿಧ ಹೆಸರಿನಿರುತ್ತವೆ. ಮೆಟಾಡೇಟಾದ ಕೆಲವು ಸಾಮಾನ್ಯ ಹೆಸರುಗಳು ಟ್ಯಾಗ್‌ಗಳು, ಅಂಶಗಳು, ಘಟಕಗಳು ಮತ್ತು ಗುಣಲಕ್ಷಣಗಳು. ಉದಾಹರಣೆಗೆ, ಸಾಮಾನ್ಯ ಇಮೇಲ್ ಸಂದೇಶವು ವಿಷಯ, ದೇಹ ಮತ್ತು ಸ್ವೀಕರಿಸುವವರ ಸಮೂಹವನ್ನು ಹೊಂದಿರುತ್ತದೆ ಮತ್ತು ಯಾರಿಂದ ಅಥವಾ ಯಾವಾಗ ಕಳುಹಿಸಲಾಯಿತು ಎಂಬುದರ ಮೂಲಕ ಸಂಘಟಿಸಲಾಗಬಹುದು.
ಅರ್ಧ-ರಚಿತ ಡೇಟಾದ ಉದಾಹರಣೆಗಳು: HTML, CSV ಕಡತಗಳು, ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್ ಆಬ್ಜೆಕ್ಟ್ ನೋಟೇಶನ್ (JSON)
## ಡೇಟಾ ಮೂಲಗಳು
ಡೇಟಾ ಮೂಲ ಎಂದರೆ ಡೇಟಾ ಉತ್ಪತ್ತಿಯಾದ ಪ್ರಾಥಮಿಕ ಸ್ಥಳ ಅಥವಾ ಅದು "ನಿವಾಸ" ಹೊಂದಿರುವ ಸ್ಥಳ ಮತ್ತು ಅದು ಹೇಗೆ ಮತ್ತು ಯಾವಾಗ ಸಂಗ್ರಹಿಸಲ್ಪಟ್ಟಿತು ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಬದಲಾಗುತ್ತದೆ. ಬಳಕೆದಾರರಿಂದ ಉತ್ಪತ್ತಿಯಾದ ಡೇಟಾವನ್ನು ಪ್ರಾಥಮಿಕ ಡೇಟಾ ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಮತ್ತು ಸಾಮಾನ್ಯ ಬಳಕೆಗೆ ಸಂಗ್ರಹಿಸಿದ ಮೂಲದಿಂದ ಬಂದ ಡೇಟಾವನ್ನು ದ್ವಿತೀಯ ಡೇಟಾ ಎಂದು ಕರೆಯುತ್ತಾರೆ. ಉದಾಹರಣೆಗೆ, ಒಂದು ಗುಂಪು ವಿಜ್ಞಾನಿಗಳು ಮಳೆಕಾಡಿನಲ್ಲಿ ಅವಲೋಕನಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತಿದ್ದರೆ ಅವರು ಪ್ರಾಥಮಿಕ ಎಂದು ಪರಿಗಣಿಸಲ್ಪಡುತ್ತಾರೆ ಮತ್ತು ಅವರು ಅದನ್ನು ಇತರ ವಿಜ್ಞಾನಿಗಳೊಂದಿಗೆ ಹಂಚಿಕೊಳ್ಳಲು ನಿರ್ಧರಿಸಿದರೆ, ಅದನ್ನು ಬಳಸುವವರಿಗೆ ದ್ವಿತೀಯ ಎಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ.
ಡೇಟಾಬೇಸ್‌ಗಳು ಸಾಮಾನ್ಯ ಮೂಲವಾಗಿದ್ದು, ಡೇಟಾಬೇಸ್ ನಿರ್ವಹಣಾ ವ್ಯವಸ್ಥೆಯ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿವೆ, ಬಳಕೆದಾರರು ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸಲು ಕ್ವೆರಿಗಳು ಎಂದು ಕರೆಯುವ ಆಜ್ಞೆಗಳನ್ನು ಬಳಸುತ್ತಾರೆ. ಫೈಲ್‌ಗಳು ಡೇಟಾ ಮೂಲಗಳಾಗಿ ಧ್ವನಿ, ಚಿತ್ರ ಮತ್ತು ವೀಡಿಯೋ ಕಡತಗಳಾಗಿರಬಹುದು ಮತ್ತು ಎಕ್ಸೆಲ್‌ನಂತಹ ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗಳಾಗಿರಬಹುದು. ಇಂಟರ್ನೆಟ್ ಮೂಲಗಳು ಡೇಟಾ ಹೋಸ್ಟ್ ಮಾಡುವ ಸಾಮಾನ್ಯ ಸ್ಥಳವಾಗಿದ್ದು, ಅಲ್ಲಿ ಡೇಟಾಬೇಸ್‌ಗಳು ಮತ್ತು ಫೈಲ್‌ಗಳು ದೊರೆಯಬಹುದು. ಅಪ್ಲಿಕೇಶನ್ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಇಂಟರ್ಫೇಸ್ಗಳು, ಅಥವಾ APIಗಳು, ಪ್ರೋಗ್ರಾಮರ್‌ಗಳಿಗೆ ಇಂಟರ್ನೆಟ್ ಮೂಲಕ ಬಾಹ್ಯ ಬಳಕೆದಾರರೊಂದಿಗೆ ಡೇಟಾ ಹಂಚಿಕೊಳ್ಳಲು ಮಾರ್ಗಗಳನ್ನು ಸೃಷ್ಟಿಸಲು ಅನುಮತಿಸುತ್ತವೆ, ಮತ್ತು ವೆಬ್ ಸ್ಕ್ರೇಪಿಂಗ್ ಪ್ರಕ್ರಿಯೆ ವೆಬ್ ಪುಟದಿಂದ ಡೇಟಾವನ್ನು ಹೊರತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. [ಡೇಟಾ ಜೊತೆ ಕೆಲಸ ಮಾಡುವ ಪಾಠಗಳು](../../../../../../../../../2-Working-With-Data) ವಿವಿಧ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಹೇಗೆ ಬಳಸುವುದು ಎಂಬುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ.
## ಸಾರಾಂಶ
ಈ ಪಾಠದಲ್ಲಿ ನಾವು ಕಲಿತದ್ದು:
- ಡೇಟಾ ಎಂದರೇನು
- ಡೇಟಾವನ್ನು ಹೇಗೆ ವರ್ಣಿಸಲಾಗುತ್ತದೆ
- ಡೇಟಾವನ್ನು ಹೇಗೆ ವರ್ಗೀಕರಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ವರ್ಗೀಕರಿಸಲಾಗುತ್ತದೆ
- ಡೇಟಾವನ್ನು ಎಲ್ಲಿಂದ ಕಂಡುಹಿಡಿಯಬಹುದು
## 🚀 ಸವಾಲು
ಕಾಗಲ್ ಒಂದು ಉತ್ತಮ ಮುಕ್ತ ಡೇಟಾಸೆಟ್ ಮೂಲವಾಗಿದೆ. [ಡೇಟಾಸೆಟ್ ಹುಡುಕಾಟ ಸಾಧನ](https://www.kaggle.com/datasets) ಬಳಸಿ ಕೆಲವು ಆಸಕ್ತಿದಾಯಕ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಹುಡುಕಿ ಮತ್ತು ಈ ಮಾನದಂಡಗಳೊಂದಿಗೆ 3-5 ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ವರ್ಗೀಕರಿಸಿ:
- ಡೇಟಾ ಪ್ರಮಾಣಾತ್ಮಕ ಅಥವಾ ಗುಣಾತ್ಮಕವೇ?
- ಡೇಟಾ ರಚಿತ, ಅಸಂರಚಿತ ಅಥವಾ ಅರ್ಧ-ರಚಿತವೇ?
## [ಪೋಸ್ಟ್-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/5)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
- ಈ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಲರ್ನ್ ಘಟಕ, [ನಿಮ್ಮ ಡೇಟಾವನ್ನು ವರ್ಗೀಕರಿಸಿ](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) ಎಂಬ ಶೀರ್ಷಿಕೆಯೊಂದಿಗೆ, ರಚಿತ, ಅರ್ಧ-ರಚಿತ ಮತ್ತು ಅಸಂರಚಿತ ಡೇಟಾದ ವಿವರವಾದ ವಿವರಣೆಯನ್ನು ಹೊಂದಿದೆ.
## ಹುದ್ದೆ
[ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ವರ್ಗೀಕರಿಸುವುದು](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,81 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2e5cacb967c1e9dfd07809bfc441a0b4",
"translation_date": "2025-12-19T14:01:59+00:00",
"source_file": "1-Introduction/03-defining-data/assignment.md",
"language_code": "kn"
}
-->
# ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ವರ್ಗೀಕರಿಸುವುದು
## ಸೂಚನೆಗಳು
ಈ ನಿಯೋಜನೆಯಲ್ಲಿ ನೀಡಲಾದ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಿ ಮತ್ತು ಕೆಳಗಿನ ಪ್ರತಿ ಡೇಟಾ ಪ್ರಕಾರಗಳಲ್ಲಿ ಒಂದೊಂದನ್ನು ಗುರುತಿಸಿ ಮತ್ತು ವರ್ಗೀಕರಿಸಿ:
**ರಚನೆ ಪ್ರಕಾರಗಳು**: ರಚಿತ, ಅರ್ಧ-ರಚಿತ, ಅಥವಾ ಅಸಂರಚಿತ
**ಮೌಲ್ಯ ಪ್ರಕಾರಗಳು**: ಗುಣಾತ್ಮಕ ಅಥವಾ ಪ್ರಮಾಣಾತ್ಮಕ
**ಮೂಲ ಪ್ರಕಾರಗಳು**: ಪ್ರಾಥಮಿಕ ಅಥವಾ ದ್ವಿತೀಯ
1. ಒಂದು ಕಂಪನಿಯನ್ನು ಸ್ವೀಕರಿಸಲಾಗಿದೆ ಮತ್ತು ಈಗ ಅದಕ್ಕೆ ಪೋಷಕ ಕಂಪನಿ ಇದೆ. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಪೋಷಕ ಕಂಪನಿಯಿಂದ ಗ್ರಾಹಕರ ಫೋನ್ ಸಂಖ್ಯೆಗಳ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಅನ್ನು ಪಡೆದಿದ್ದಾರೆ.
ರಚನೆ ಪ್ರಕಾರ:
ಮೌಲ್ಯ ಪ್ರಕಾರ:
ಮೂಲ ಪ್ರಕಾರ:
---
2. ಒಂದು ಸ್ಮಾರ್ಟ್ ವಾಚ್ ತನ್ನ ಧರಿಸುವವರ ಹೃದಯದ ದರ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತಿದೆ, ಮತ್ತು ಕಚ್ಚಾ ಡೇಟಾ JSON ಸ್ವರೂಪದಲ್ಲಿದೆ.
ರಚನೆ ಪ್ರಕಾರ:
ಮೌಲ್ಯ ಪ್ರಕಾರ:
ಮೂಲ ಪ್ರಕಾರ:
---
3. CSV ಫೈಲ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾದ ಉದ್ಯೋಗಿಗಳ ಮನೋಭಾವದ ಕಾರ್ಯಸ್ಥಳ ಸಮೀಕ್ಷೆ.
ರಚನೆ ಪ್ರಕಾರ:
ಮೌಲ್ಯ ಪ್ರಕಾರ:
ಮೂಲ ಪ್ರಕಾರ:
---
4. ಖಗೋಳ ಭೌತಶಾಸ್ತ್ರಜ್ಞರು ಒಂದು ಬಾಹ್ಯಾಕಾಶ ಪ್ರೋಬ್ ಸಂಗ್ರಹಿಸಿದ ಗ್ಯಾಲಕ್ಸಿಗಳ ಡೇಟಾಬೇಸ್‌ಗೆ ಪ್ರವೇಶಿಸುತ್ತಿದ್ದಾರೆ. ಡೇಟಾ ಪ್ರತಿ ಗ್ಯಾಲಕ್ಸಿಯಲ್ಲಿ ಇರುವ ಗ್ರಹಗಳ ಸಂಖ್ಯೆಯನ್ನು ಒಳಗೊಂಡಿದೆ.
ರಚನೆ ಪ್ರಕಾರ:
ಮೌಲ್ಯ ಪ್ರಕಾರ:
ಮೂಲ ಪ್ರಕಾರ:
---
5. ವೈಯಕ್ತಿಕ ಹಣಕಾಸು ಅಪ್ಲಿಕೇಶನ್ ಬಳಕೆದಾರರ ಹಣಕಾಸು ಖಾತೆಗಳಿಗೆ ಸಂಪರ್ಕಿಸಲು APIಗಳನ್ನು ಬಳಸುತ್ತದೆ ಮತ್ತು ಅವರ ಶುದ್ಧ ಸಂಪತ್ತನ್ನು ಲೆಕ್ಕಹಾಕುತ್ತದೆ. ಅವರು ಎಲ್ಲಾ ವ್ಯವಹಾರಗಳನ್ನು ಸಾಲು ಮತ್ತು ಕಾಲಮ್ ಸ್ವರೂಪದಲ್ಲಿ ನೋಡಬಹುದು ಮತ್ತು ಅದು ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗೆ ಹೋಲುತ್ತದೆ.
ರಚನೆ ಪ್ರಕಾರ:
ಮೌಲ್ಯ ಪ್ರಕಾರ:
ಮೂಲ ಪ್ರಕಾರ:
## ಮೌಲ್ಯಮಾಪನ
ಉತ್ತಮ | ಸಮರ್ಪಕ | ಸುಧಾರಣೆಯ ಅಗತ್ಯ
--- | --- | -- |
ಎಲ್ಲಾ ರಚನೆ, ಮೌಲ್ಯ ಮತ್ತು ಮೂಲಗಳನ್ನು ಸರಿಯಾಗಿ ಗುರುತಿಸಲಾಗಿದೆ | 3 ರಚನೆ, ಮೌಲ್ಯ ಮತ್ತು ಮೂಲಗಳನ್ನು ಸರಿಯಾಗಿ ಗುರುತಿಸಲಾಗಿದೆ | 2 ಅಥವಾ ಕಡಿಮೆ ರಚನೆ, ಮೌಲ್ಯ ಮತ್ತು ಮೂಲಗಳನ್ನು ಸರಿಯಾಗಿ ಗುರುತಿಸಲಾಗಿದೆ |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕಾರ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,280 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "ce95884566a74db72572cd51f0cb25ad",
"translation_date": "2025-12-19T13:54:48+00:00",
"source_file": "1-Introduction/04-stats-and-probability/README.md",
"language_code": "kn"
}
-->
# ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ಸಂಭವನೀಯತೆಯ ಸಂಕ್ಷಿಪ್ತ ಪರಿಚಯ
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/04-Statistics-Probability.png)|
|:---:|
| ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ಸಂಭವನೀಯತೆ - _[@nitya](https://twitter.com/nitya) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್_ |
ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತಗಳು ಗಣಿತದ ಎರಡು ಅತ್ಯಂತ ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳು, ಮತ್ತು ಡೇಟಾ ಸೈನ್ಸ್‌ಗೆ ಬಹಳ ಪ್ರಾಸಂಗಿಕವಾಗಿವೆ. ಗಣಿತದ ಆಳವಾದ ಜ್ಞಾನವಿಲ್ಲದೆ ಡೇಟಾ ಜೊತೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದು ಸಾಧ್ಯವಿದ್ದರೂ, ಕನಿಷ್ಠ ಕೆಲವು ಮೂಲಭೂತ ತತ್ವಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳುವುದು ಉತ್ತಮ. ಇಲ್ಲಿ ನಾವು ಪ್ರಾರಂಭಿಸಲು ಸಹಾಯ ಮಾಡುವ ಸಂಕ್ಷಿಪ್ತ ಪರಿಚಯವನ್ನು ನೀಡುತ್ತೇವೆ.
[![ಪರಿಚಯ ವೀಡಿಯೋ](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.kn.png)](https://youtu.be/Z5Zy85g4Yjw)
## [ಪೂರ್ವ-ವ್ಯಾಖ್ಯಾನ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/6)
## ಸಂಭವನೀಯತೆ ಮತ್ತು ಯಾದೃಚ್ಛಿಕ ಚರಗಳು
**ಸಂಭವನೀಯತೆ** ಎಂದರೆ 0 ಮತ್ತು 1 ನಡುವಿನ ಸಂಖ್ಯೆ, ಅದು ಒಂದು **ಘಟನೆ** ಸಂಭವಿಸುವ ಸಾಧ್ಯತೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಇದು ಧನಾತ್ಮಕ ಫಲಿತಾಂಶಗಳ ಸಂಖ್ಯೆ (ಆ ಘಟನೆಯನ್ನು ಉಂಟುಮಾಡುವವು), ಒಟ್ಟು ಫಲಿತಾಂಶಗಳ ಸಂಖ್ಯೆಯಿಂದ ಭಾಗಿಸಿದಾಗ, ಎಲ್ಲಾ ಫಲಿತಾಂಶಗಳು ಸಮಾನ ಸಾಧ್ಯತೆ ಹೊಂದಿರುವಾಗ ವ್ಯಾಖ್ಯಾನಿಸಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಡೈಸ್ ಎಸೆದಾಗ, ಸಮ ಸಂಖ್ಯೆಯು ಬರುವ ಸಾಧ್ಯತೆ 3/6 = 0.5.
ಘಟನೆಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುವಾಗ, ನಾವು **ಯಾದೃಚ್ಛಿಕ ಚರಗಳನ್ನು** ಬಳಸುತ್ತೇವೆ. ಉದಾಹರಣೆಗೆ, ಡೈಸ್ ಎಸೆದಾಗ ದೊರಕುವ ಸಂಖ್ಯೆಯನ್ನು ಪ್ರತಿನಿಧಿಸುವ ಯಾದೃಚ್ಛಿಕ ಚರವು 1 ರಿಂದ 6 ರವರೆಗೆ ಮೌಲ್ಯಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. 1 ರಿಂದ 6 ರವರೆಗೆ ಸಂಖ್ಯೆಗಳ ಸಮೂಹವನ್ನು **ನಮೂನಾ ಸ್ಥಳ** ಎಂದು ಕರೆಯುತ್ತಾರೆ. ನಾವು ಯಾದೃಚ್ಛಿಕ ಚರವು ನಿರ್ದಿಷ್ಟ ಮೌಲ್ಯವನ್ನು ತೆಗೆದುಕೊಳ್ಳುವ ಸಾಧ್ಯತೆಯ ಬಗ್ಗೆ ಮಾತನಾಡಬಹುದು, ಉದಾಹರಣೆಗೆ P(X=3)=1/6.
ಹಿಂದಿನ ಉದಾಹರಣೆಯ ಯಾದೃಚ್ಛಿಕ ಚರವನ್ನು **ವಿಚ್ಛಿನ್ನ** ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಏಕೆಂದರೆ ಇದರ ನಮೂನಾ ಸ್ಥಳ ಎಣಿಸಬಹುದಾದದು, ಅಂದರೆ ಪ್ರತ್ಯೇಕ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸಬಹುದು. ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ನಮೂನಾ ಸ್ಥಳವು ನಿಜ ಸಂಖ್ಯೆಗಳ ಶ್ರೇಣಿಯಾಗಿರಬಹುದು ಅಥವಾ ಸಂಪೂರ್ಣ ನಿಜ ಸಂಖ್ಯೆಗಳ ಸಮೂಹವಾಗಿರಬಹುದು. ಇಂತಹ ಚರಗಳನ್ನು **ನಿರಂತರ** ಎಂದು ಕರೆಯುತ್ತಾರೆ. ಬಸ್ ಬರುವ ಸಮಯವು ಉತ್ತಮ ಉದಾಹರಣೆ.
## ಸಂಭವನೀಯತೆ ವಿತರಣಾ
ವಿಚ್ಛಿನ್ನ ಯಾದೃಚ್ಛಿಕ ಚರಗಳ ಸಂದರ್ಭದಲ್ಲಿ, ಪ್ರತಿ ಘಟನೆಯ ಸಂಭವನೀಯತೆಯನ್ನು P(X) ಎಂಬ ಕಾರ್ಯದಿಂದ ವಿವರಿಸುವುದು ಸುಲಭ. ನಮೂನಾ ಸ್ಥಳ *S* ನಿಂದ ಪ್ರತಿ ಮೌಲ್ಯ *s* ಗೆ 0 ರಿಂದ 1 ರವರೆಗೆ ಸಂಖ್ಯೆ ನೀಡುತ್ತದೆ, ಮತ್ತು ಎಲ್ಲಾ ಘಟನಗಳ P(X=s) ಮೌಲ್ಯಗಳ ಮೊತ್ತ 1 ಆಗಿರುತ್ತದೆ.
ಅತ್ಯಂತ ಪ್ರಸಿದ್ಧ ವಿಚ್ಛಿನ್ನ ವಿತರಣೆಯು **ಸಮಾನ ವಿತರಣೆ** ಆಗಿದ್ದು, ಇದರಲ್ಲಿ N ಅಂಶಗಳ ನಮೂನಾ ಸ್ಥಳವಿದ್ದು, ಪ್ರತಿ ಅಂಶಕ್ಕೆ 1/N ಸಮಾನ ಸಾಧ್ಯತೆ ಇರುತ್ತದೆ.
ನಿರಂತರ ಚರಗಳ ಸಂಭವನೀಯತೆ ವಿತರಣೆಯನ್ನು ವಿವರಿಸುವುದು ಕಷ್ಟ, ಏಕೆಂದರೆ ಮೌಲ್ಯಗಳು [a,b] ಶ್ರೇಣಿಯಿಂದ ಅಥವಾ ಸಂಪೂರ್ಣ ನಿಜ ಸಂಖ್ಯೆಗಳ ಸಮೂಹದಿಂದ ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಬಸ್ ಬರುವ ಸಮಯದ ಉದಾಹರಣೆಯನ್ನು ಪರಿಗಣಿಸಿ. ನಿಜವಾಗಿ, ಪ್ರತಿಯೊಂದು ನಿಖರ ಬಸ್ ಬರುವ ಸಮಯ *t* ಗೆ, ಬಸ್ ಆ ಸಮಯದಲ್ಲಿ ಬರುವ ಸಾಧ್ಯತೆ 0!
> ಈಗ ನೀವು ತಿಳಿದುಕೊಂಡಿದ್ದೀರಿ, 0 ಸಂಭವನೀಯತೆ ಇರುವ ಘಟನೆಗಳು ಸಂಭವಿಸುತ್ತವೆ, ಮತ್ತು ಬಹಳ ಬಾರಿ! ಕನಿಷ್ಠ ಪ್ರತಿಯೊಂದು ಬಸ್ ಬರುವ ಸಮಯದಲ್ಲಿ!
ನಾವು ಮಾತ್ರ ಒಂದು ಮೌಲ್ಯ ಶ್ರೇಣಿಯಲ್ಲಿ ಬರುವ ಸಾಧ್ಯತೆಯ ಬಗ್ಗೆ ಮಾತನಾಡಬಹುದು, ಉದಾ. P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಸಂಭವನೀಯತೆ ವಿತರಣೆಯನ್ನು **ಸಂಭವನೀಯತೆ ಸಾಂದ್ರತೆ ಕಾರ್ಯ** p(x) ಮೂಲಕ ವಿವರಿಸಲಾಗುತ್ತದೆ, ಹಾಗಾಗಿ
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.kn.png)
ಸಮಾನ ವಿತರಣೆಯ ನಿರಂತರ ಸಮಾನಾರ್ಥಕವನ್ನು **ನಿರಂತರ ಸಮಾನ ವಿತರಣೆ** ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಇದು ಸೀಮಿತ ಶ್ರೇಣಿಯಲ್ಲಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾಗುತ್ತದೆ. ಮೌಲ್ಯ X ಒಂದು l ಉದ್ದದ ಶ್ರೇಣಿಯಲ್ಲಿ ಬರುವ ಸಾಧ್ಯತೆ l ಗೆ ಅನುಪಾತಿಕವಾಗಿದ್ದು, 1 ರವರೆಗೆ ಏರುತ್ತದೆ.
ಮತ್ತೊಂದು ಪ್ರಮುಖ ವಿತರಣೆಯು **ಸಾಮಾನ್ಯ ವಿತರಣೆ** ಆಗಿದ್ದು, ಅದನ್ನು ಕೆಳಗೆ ವಿವರವಾಗಿ ಚರ್ಚಿಸುವೆವು.
## ಸರಾಸರಿ, ವ್ಯತ್ಯಾಸ ಮತ್ತು ಮಾನಕ ವಿಚಲನ
ನಾವು ಯಾದೃಚ್ಛಿಕ ಚರ X ನ n ಮಾದರಿಗಳ ಸರಣಿಯನ್ನು ಎಳೆದಿದ್ದೇವೆ ಎಂದು ಊಹಿಸೋಣ: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. ಸರಣಿಯ **ಸರಾಸರಿ** (ಅಥವಾ **ಅಂಕಗಣಿತ ಸರಾಸರಿ**) ಮೌಲ್ಯವನ್ನು ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ (x<sub>1</sub>+x<sub>2</sub>+...+x<sub>n</sub>)/n ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಬಹುದು. ಮಾದರಿ ಗಾತ್ರವನ್ನು ಹೆಚ್ಚಿಸಿದಂತೆ (ಅಂದರೆ n&rarr;&infin;), ನಾವು ವಿತರಣೆಯ ಸರಾಸರಿ (ಅಥವಾ **ನಿರೀಕ್ಷೆ**) ಪಡೆಯುತ್ತೇವೆ. ನಿರೀಕ್ಷೆಯನ್ನು **E**(x) ಎಂದು ಸೂಚಿಸುತ್ತೇವೆ.
> ಯಾವುದೇ ವಿಚ್ಛಿನ್ನ ವಿತರಣೆಗೆ ಮೌಲ್ಯಗಳು {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} ಮತ್ತು ಸಂಬಂಧಿತ ಸಾಧ್ಯತೆಗಳು p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub> ಇದ್ದಾಗ, ನಿರೀಕ್ಷೆ E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub> ಆಗಿರುತ್ತದೆ ಎಂದು ತೋರಿಸಬಹುದು.
ಮೌಲ್ಯಗಳು ಎಷ್ಟು ದೂರವಿರುವುದನ್ನು ಗುರುತಿಸಲು, ನಾವು ವ್ಯತ್ಯಾಸ &sigma;<sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/n ಅನ್ನು ಲೆಕ್ಕಿಸಬಹುದು, ಇಲ್ಲಿ &mu; ಸರಾಸರಿ. &sigma; ಅನ್ನು **ಮಾನಕ ವಿಚಲನ** ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಮತ್ತು &sigma;<sup>2</sup> ಅನ್ನು **ವ್ಯತ್ಯಾಸ** ಎಂದು ಕರೆಯುತ್ತಾರೆ.
## ಮೋಡ್, ಮಧ್ಯಮ ಮತ್ತು ಚತುರ್ಥಾಂಶಗಳು
ಕೆಲವೊಮ್ಮೆ, ಸರಾಸರಿ ಡೇಟಾದ "ಸಾಮಾನ್ಯ" ಮೌಲ್ಯವನ್ನು ಸಮರ್ಪಕವಾಗಿ ಪ್ರತಿನಿಧಿಸುವುದಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಕೆಲವು ಅತಿದೊಡ್ಡ ಮೌಲ್ಯಗಳು ಸರಾಸರಿಯನ್ನು ಪ್ರಭಾವಿತ ಮಾಡಬಹುದು. ಇನ್ನೊಂದು ಉತ್ತಮ ಸೂಚನೆ **ಮಧ್ಯಮ** ಆಗಿದ್ದು, ಅದು ಒಂದು ಮೌಲ್ಯ, ಅದಕ್ಕಿಂತ ಅರ್ಧ ಡೇಟಾ ಅಂಕಿಗಳು ಕಡಿಮೆ ಮತ್ತು ಇನ್ನೂ ಅರ್ಧವು ಹೆಚ್ಚು.
ಡೇಟಾ ವಿತರಣೆಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, **ಚತುರ್ಥಾಂಶಗಳು** ಬಗ್ಗೆ ಮಾತನಾಡುವುದು ಸಹಾಯಕ:
* ಮೊದಲ ಚತುರ್ಥಾಂಶ, ಅಥವಾ Q1, ಅಂದರೆ 25% ಡೇಟಾ ಅದರ ಕೆಳಗೆ ಇರುತ್ತದೆ
* ಮೂರನೇ ಚತುರ್ಥಾಂಶ, ಅಥವಾ Q3, ಅಂದರೆ 75% ಡೇಟಾ ಅದರ ಕೆಳಗೆ ಇರುತ್ತದೆ
ಗ್ರಾಫಿಕಲ್ ಆಗಿ, ಮಧ್ಯಮ ಮತ್ತು ಚತುರ್ಥಾಂಶಗಳ ಸಂಬಂಧವನ್ನು **ಬಾಕ್ಸ್ ಪ್ಲಾಟ್** ಎಂಬ ಚಿತ್ರದಲ್ಲಿ ಪ್ರತಿನಿಧಿಸಬಹುದು:
<img src="../../../../translated_images/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.kn.png" alt="ಬಾಕ್ಸ್ ಪ್ಲಾಟ್ ವಿವರಣೆ" width="50%">
ಇಲ್ಲಿ ನಾವು **ಅಂತರ-ಚತುರ್ಥಾಂಶ ವ್ಯಾಪ್ತಿ** IQR=Q3-Q1 ಅನ್ನು ಲೆಕ್ಕಿಸುತ್ತೇವೆ, ಮತ್ತು **ಔಟ್‌ಲೈಯರ್‌ಗಳು** - [Q1-1.5*IQR, Q3+1.5*IQR] ಗಡಿಗಳ ಹೊರಗಿನ ಮೌಲ್ಯಗಳು.
ಸೀಮಿತ ವಿತರಣೆಯು ಕೆಲವು ಸಾಧ್ಯ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ಅತ್ಯಂತ ಸಾಮಾನ್ಯವಾಗಿ ಕಾಣುವ ಮೌಲ್ಯವನ್ನು **ಮೋಡ್** ಎಂದು ಕರೆಯುತ್ತಾರೆ. ಇದು ವರ್ಗೀಕೃತ ಡೇಟಾಗೆ ಅನ್ವಯಿಸುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಬಣ್ಣಗಳು. ಎರಡು ಜನರ ಗುಂಪುಗಳಿದ್ದಾಗ - ಕೆಲವರು ಕೆಂಪನ್ನು ಹೆಚ್ಚು ಇಷ್ಟಪಡುತ್ತಾರೆ, ಮತ್ತೊಬ್ಬರು ನೀಲಿಯನ್ನು ಇಷ್ಟಪಡುತ್ತಾರೆ ಎಂದು ಪರಿಗಣಿಸಿ. ಬಣ್ಣಗಳನ್ನು ಸಂಖ್ಯೆಗಳ ಮೂಲಕ ಕೋಡ್ ಮಾಡಿದರೆ, ಪ್ರಿಯ ಬಣ್ಣದ ಸರಾಸರಿ ಮೌಲ್ಯ ಕಿತ್ತಳೆ-ಹಸಿರು ಶ್ರೇಣಿಯಲ್ಲಿ ಬರುವುದರಿಂದ ಯಾವುದೇ ಗುಂಪಿನ ನಿಜವಾದ ಇಷ್ಟವನ್ನು ಸೂಚಿಸುವುದಿಲ್ಲ. ಆದರೆ ಮೋಡ್ ಒಂದು ಬಣ್ಣ ಅಥವಾ ಎರಡೂ ಬಣ್ಣಗಳಾಗಿರಬಹುದು, ಜನರ ಮತದಾನ ಸಮಾನವಾದರೆ (ಈ ಸಂದರ್ಭದಲ್ಲಿ ನಮೂನೆಯನ್ನು **ಬಹುಮೋಡಲ್** ಎಂದು ಕರೆಯುತ್ತಾರೆ).
## ನಿಜಜೀವನದ ಡೇಟಾ
ನಾವು ನಿಜಜೀವನದ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸುವಾಗ, ಅವು ಯಾದೃಚ್ಛಿಕ ಚರಗಳಂತೆ ಇರಲಾರವು, ಅಂದರೆ ನಾವು ಅಜ್ಞಾತ ಫಲಿತಾಂಶದೊಂದಿಗೆ ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸುವುದಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ತಂಡ ಮತ್ತು ಅವರ ದೇಹದ ಡೇಟಾ, ಉದಾ. ಎತ್ತರ, ತೂಕ ಮತ್ತು ವಯಸ್ಸು. ಆ ಸಂಖ್ಯೆಗಳು ನಿಖರವಾಗಿ ಯಾದೃಚ್ಛಿಕವಲ್ಲ, ಆದರೆ ನಾವು ಅದೇ ಗಣಿತ ತತ್ವಗಳನ್ನು ಅನ್ವಯಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಜನರ ತೂಕಗಳ ಸರಣಿಯನ್ನು ಕೆಲವು ಯಾದೃಚ್ಛಿಕ ಚರದಿಂದ ತೆಗೆದುಕೊಂಡ ಮೌಲ್ಯಗಳ ಸರಣಿಯಾಗಿ ಪರಿಗಣಿಸಬಹುದು. ಕೆಳಗಿನವು [ಮೇಜರ್ ಲೀಗ್ ಬೇಸ್‌ಬಾಲ್](http://mlb.mlb.com/index.jsp) ನ ನಿಜವಾದ ಆಟಗಾರರ ತೂಕಗಳ ಸರಣಿಯಾಗಿದೆ, [ಈ ಡೇಟಾಸೆಟ್](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) ನಿಂದ ತೆಗೆದುಕೊಂಡದ್ದು (ನಿಮ್ಮ ಅನುಕೂಲಕ್ಕಾಗಿ ಮೊದಲ 20 ಮೌಲ್ಯಗಳನ್ನು ಮಾತ್ರ ತೋರಿಸಲಾಗಿದೆ):
```
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
```
> **ಗಮನಿಸಿ**: ಈ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಉದಾಹರಣೆಯನ್ನು ನೋಡಲು, [ಸಹಾಯಕ ನೋಟ್ಬುಕ್](notebook.ipynb) ಅನ್ನು ನೋಡಿ. ಈ ಪಾಠದಲ್ಲಿ ಹಲವಾರು ಸವಾಲುಗಳಿವೆ, ಮತ್ತು ನೀವು ಆ ನೋಟ್ಬುಕ್‌ಗೆ ಕೆಲವು ಕೋಡ್ ಸೇರಿಸುವ ಮೂಲಕ ಅವುಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಬಹುದು. ನೀವು ಡೇಟಾ ಮೇಲೆ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸಬೇಕೆಂದು ಖಚಿತವಾಗದಿದ್ದರೆ, ಚಿಂತಿಸಬೇಡಿ - ನಾವು ನಂತರ ಪೈಥಾನ್ ಬಳಸಿ ಡೇಟಾ ಮೇಲೆ ಕೆಲಸ ಮಾಡುವುದನ್ನು ಮತ್ತೆ ನೋಡುತ್ತೇವೆ. ನೀವು ಜುಪಿಟರ್ ನೋಟ್ಬುಕ್‌ನಲ್ಲಿ ಕೋಡ್ ಹೇಗೆ ರನ್ ಮಾಡುವುದು ತಿಳಿಯದಿದ್ದರೆ, [ಈ ಲೇಖನ](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ನೋಡಿ.
ಇದು ನಮ್ಮ ಡೇಟಾದ ಸರಾಸರಿ, ಮಧ್ಯಮ ಮತ್ತು ಚತುರ್ಥಾಂಶಗಳನ್ನು ತೋರಿಸುವ ಬಾಕ್ಸ್ ಪ್ಲಾಟ್:
![ತೂಕ ಬಾಕ್ಸ್ ಪ್ಲಾಟ್](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.kn.png)
ನಮ್ಮ ಡೇಟಾ ವಿಭಿನ್ನ ಆಟಗಾರರ **ಪಾತ್ರಗಳು** ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರುವುದರಿಂದ, ನಾವು ಪಾತ್ರದ ಪ್ರಕಾರ ಬಾಕ್ಸ್ ಪ್ಲಾಟ್ ಮಾಡಬಹುದು - ಇದು ಪಾತ್ರಗಳ ನಡುವೆ ಪರಿಮಾಣ ಮೌಲ್ಯಗಳು ಹೇಗೆ ಭಿನ್ನವಾಗಿವೆ ಎಂಬುದರ ಕಲ್ಪನೆ ನೀಡುತ್ತದೆ. ಈ ಬಾರಿ ನಾವು ಎತ್ತರವನ್ನು ಪರಿಗಣಿಸುವೆವು:
![ಪಾತ್ರದ ಪ್ರಕಾರ ಬಾಕ್ಸ್ ಪ್ಲಾಟ್](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.kn.png)
ಈ ಚಿತ್ರಣವು ಸೂಚಿಸುತ್ತದೆ, ಸರಾಸರಿಯಾಗಿ, ಮೊದಲ ಬ್ಯಾಟ್ಸ್‌ಮನ್‌ಗಳ ಎತ್ತರ ಎರಡನೇ ಬ್ಯಾಟ್ಸ್‌ಮನ್‌ಗಳ ಎತ್ತರಕ್ಕಿಂತ ಹೆಚ್ಚು. ಈ ಪಾಠದ ನಂತರ ನಾವು ಈ ಊಹೆಯನ್ನು ಅಧಿಕೃತವಾಗಿ ಪರೀಕ್ಷಿಸುವುದು ಹೇಗೆ ಮತ್ತು ನಮ್ಮ ಡೇಟಾ ಅಂಕಿಅಂಶವಾಗಿ ಮಹತ್ವಪೂರ್ಣವಾಗಿದೆ ಎಂದು ತೋರಿಸುವುದು ಹೇಗೆ ಎಂಬುದನ್ನು ಕಲಿಯುತ್ತೇವೆ.
> ನಿಜಜೀವನದ ಡೇಟಾ ಮೇಲೆ ಕೆಲಸ ಮಾಡುವಾಗ, ನಾವು ಎಲ್ಲಾ ಡೇಟಾ ಅಂಕಿಗಳನ್ನು ಕೆಲವು ಸಂಭವನೀಯತೆ ವಿತರಣೆಯಿಂದ ತೆಗೆದುಕೊಂಡ ಮಾದರಿಗಳಾಗಿವೆ ಎಂದು ಊಹಿಸುತ್ತೇವೆ. ಈ ಊಹೆ ಯಂತ್ರ ಅಧ್ಯಯನ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸಲು ಮತ್ತು ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಭವಿಷ್ಯವಾಣಿ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ನಮ್ಮ ಡೇಟಾದ ವಿತರಣೆಯನ್ನು ನೋಡಲು, ನಾವು **ಹಿಸ್ಟೋಗ್ರಾಮ್** ಎಂಬ ಗ್ರಾಫ್ ಅನ್ನು ರಚಿಸಬಹುದು. X-ಅಕ್ಷದಲ್ಲಿ ವಿವಿಧ ತೂಕ ಶ್ರೇಣಿಗಳು (ಅಥವಾ **ಬಿನ್‌ಗಳು**) ಇರುತ್ತವೆ, ಮತ್ತು ಲಂಬ ಅಕ್ಷವು ನಮ್ಮ ಯಾದೃಚ್ಛಿಕ ಚರ ಮಾದರಿ ನೀಡಲಾದ ಶ್ರೇಣಿಯಲ್ಲಿ ಎಷ್ಟು ಬಾರಿ ಬಿದ್ದಿದೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ.
![ನಿಜಜೀವನದ ಡೇಟಾದ ಹಿಸ್ಟೋಗ್ರಾಮ್](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.kn.png)
ಈ ಹಿಸ್ಟೋಗ್ರಾಮ್‌ನಿಂದ ನೀವು ನೋಡಬಹುದು ಎಲ್ಲಾ ಮೌಲ್ಯಗಳು ನಿರ್ದಿಷ್ಟ ಸರಾಸರಿ ತೂಕದ ಸುತ್ತಲೂ ಕೇಂದ್ರೀಕೃತವಾಗಿವೆ, ಮತ್ತು ಆ ತೂಕದಿಂದ ದೂರ ಹೋಗುವಂತೆ, ಆ ಮೌಲ್ಯದ ತೂಕಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತದೆ. ಅಂದರೆ, ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ತೂಕವು ಸರಾಸರಿ ತೂಕದಿಂದ ಬಹಳ ವಿಭಿನ್ನವಾಗಿರುವುದು ಬಹಳ ಅಸಾಧ್ಯ. ತೂಕಗಳ ವ್ಯತ್ಯಾಸವು ತೂಕಗಳು ಸರಾಸರಿ ತೂಕದಿಂದ ಎಷ್ಟು ಭಿನ್ನವಾಗಬಹುದು ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ.
> ನಾವು ಬೇಸ್‌ಬಾಲ್ ಲೀಗ್‌ನಲ್ಲದ ಇತರ ಜನರ ತೂಕಗಳನ್ನು ತೆಗೆದುಕೊಂಡರೆ, ವಿತರಣೆಯು ಭಿನ್ನವಾಗಿರಬಹುದು. ಆದಾಗ್ಯೂ, ವಿತರಣೆಯ ಆಕಾರವು ಅದೇ ಆಗಿರುತ್ತದೆ, ಆದರೆ ಸರಾಸರಿ ಮತ್ತು ವ್ಯತ್ಯಾಸ ಬದಲಾಗುತ್ತದೆ. ಆದ್ದರಿಂದ, ನಾವು ನಮ್ಮ ಮಾದರಿಯನ್ನು ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ಮೇಲೆ ತರಬೇತುಗೊಳಿಸಿದರೆ, ಅದನ್ನು ವಿಶ್ವವಿದ್ಯಾಲಯದ ವಿದ್ಯಾರ್ಥಿಗಳ ಮೇಲೆ ಅನ್ವಯಿಸಿದಾಗ ತಪ್ಪು ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡಬಹುದು, ಏಕೆಂದರೆ ಮೂಲ ವಿತರಣೆಯು ವಿಭಿನ್ನವಾಗಿದೆ.
## ಸಾಮಾನ್ಯ ವಿತರಣೆ
ನಾವು ಮೇಲ್ಕಂಡ ತೂಕಗಳ ವಿತರಣೆಯು ಬಹಳ ಸಾಮಾನ್ಯವಾಗಿದೆ, ಮತ್ತು ನಿಜಜೀವನದ ಅನೇಕ ಅಳತೆಗಳು ಅದೇ ರೀತಿಯ ವಿತರಣೆಯನ್ನು ಅನುಸರಿಸುತ್ತವೆ, ಆದರೆ ವಿಭಿನ್ನ ಸರಾಸರಿ ಮತ್ತು ವ್ಯತ್ಯಾಸಗಳೊಂದಿಗೆ. ಈ ವಿತರಣೆಯನ್ನು **ಸಾಮಾನ್ಯ ವಿತರಣೆ** ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಮತ್ತು ಇದು ಅಂಕಿಅಂಶಗಳಲ್ಲಿ ಬಹಳ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸುತ್ತದೆ.
ಸಾಮಾನ್ಯ ವಿತರಣೆಯನ್ನು ಬಳಸುವುದು ಸಾಧ್ಯವಿರುವ ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ಯಾದೃಚ್ಛಿಕ ತೂಕಗಳನ್ನು ರಚಿಸುವ ಸರಿಯಾದ ವಿಧಾನವಾಗಿದೆ. ನಾವು ಸರಾಸರಿ ತೂಕ `mean` ಮತ್ತು ಮಾನಕ ವಿಚಲನ `std` ತಿಳಿದಿದ್ದರೆ, ಕೆಳಗಿನ ರೀತಿಯಲ್ಲಿ 1000 ತೂಕ ಮಾದರಿಗಳನ್ನು ರಚಿಸಬಹುದು:
```python
samples = np.random.normal(mean,std,1000)
```
ನಾವು ರಚಿಸಿದ ಮಾದರಿಗಳ ಹಿಸ್ಟೋಗ್ರಾಮ್ ಅನ್ನು ರಚಿಸಿದರೆ, ಮೇಲಿನ ಚಿತ್ರಣಕ್ಕೆ ಬಹಳ ಸಮೀಪವಾದ ಚಿತ್ರಣವನ್ನು ನೋಡಬಹುದು. ಮತ್ತು ಮಾದರಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಬಿನ್‌ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಹೆಚ್ಚಿಸಿದರೆ, ನಾವು ಆದರ್ಶದ ಹತ್ತಿರದ ಸಾಮಾನ್ಯ ವಿತರಣೆಯ ಚಿತ್ರಣವನ್ನು ರಚಿಸಬಹುದು:
![ಸರಾಸರಿ=0 ಮತ್ತು ಮಾನಕ ವಿಚಲನ=1 ಇರುವ ಸಾಮಾನ್ಯ ವಿತರಣೆ](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.kn.png)
*ಸರಾಸರಿ=0 ಮತ್ತು ಮಾನಕ ವಿಚಲನ=1 ಇರುವ ಸಾಮಾನ್ಯ ವಿತರಣೆ*
## ವಿಶ್ವಾಸ ಅಂತರಗಳು
ನಾವು ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ತೂಕಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುವಾಗ, ನಾವು ಒಂದು ನಿರ್ದಿಷ್ಟ **ಯಾದೃಚ್ಛಿಕ ಚರ W** ಇದೆ ಎಂದು ಊಹಿಸುತ್ತೇವೆ, ಅದು ಎಲ್ಲಾ ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ತೂಕಗಳ ಆದರ್ಶ ಸಂಭವನೀಯತೆ ವಿತರಣೆಗೆ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ (ಅಥವಾ **ಜನಸಂಖ್ಯೆ**). ನಮ್ಮ ತೂಕಗಳ ಸರಣಿ ಜನಸಂಖ್ಯೆಯ ಒಂದು ಉಪಸಮೂಹವಾಗಿದ್ದು, ಅದನ್ನು **ನಮೂನೆ** ಎಂದು ಕರೆಯುತ್ತೇವೆ. ಒಂದು ಆಸಕ್ತಿದಾಯಕ ಪ್ರಶ್ನೆ ಏನೆಂದರೆ, ನಾವು W ವಿತರಣೆಯ ಪರಿಮಾಣಗಳನ್ನು, ಅಂದರೆ ಜನಸಂಖ್ಯೆಯ ಸರಾಸರಿ ಮತ್ತು ವ್ಯತ್ಯಾಸವನ್ನು ತಿಳಿದುಕೊಳ್ಳಬಹುದೇ?
ಸರಳ ಉತ್ತರವೆಂದರೆ ನಮ್ಮ ನಮೂನೆಯ ಸರಾಸರಿ ಮತ್ತು ವ್ಯತ್ಯಾಸವನ್ನು ಲೆಕ್ಕಿಸುವುದು. ಆದರೆ, ನಮ್ಮ ಯಾದೃಚ್ಛಿಕ ನಮೂನೆ ಸಂಪೂರ್ಣ ಜನಸಂಖ್ಯೆಯನ್ನು ನಿಖರವಾಗಿ ಪ್ರತಿನಿಧಿಸದಿರಬಹುದು. ಆದ್ದರಿಂದ **ವಿಶ್ವಾಸ ಅಂತರ** ಬಗ್ಗೆ ಮಾತನಾಡುವುದು ಅರ್ಥಪೂರ್ಣ.
> **ವಿಶ್ವಾಸ ಅಂತರ** ಎಂದರೆ ನಮ್ಮ ನಮೂನೆ ನೀಡುವ ಜನಸಂಖ್ಯೆಯ ನಿಜವಾದ ಸರಾಸರಿಯ ಅಂದಾಜು, ಅದು ನಿರ್ದಿಷ್ಟ ಸಾಧ್ಯತೆಯ (ಅಥವಾ **ವಿಶ್ವಾಸ ಮಟ್ಟ**) ಒಳಗೆ ಸರಿಯಾಗಿರುತ್ತದೆ.
ನಾವು ನಮ್ಮ ವಿತರಣೆಯಿಂದ X<sub>1</sub>, ..., X<sub>n</sub> ಎಂಬ ಮಾದರಿಗಳನ್ನು ಪಡೆದಿದ್ದೇವೆ ಎಂದು ಊಹಿಸೋಣ. ಪ್ರತಿಯೊಂದು ಬಾರಿ ನಾವು ವಿತರಣೆಯಿಂದ ಮಾದರಿ ತೆಗೆದುಕೊಂಡಾಗ, ನಾವು ವಿಭಿನ್ನ ಸರಾಸರಿ ಮೌಲ್ಯ &mu; ಪಡೆಯುತ್ತೇವೆ. ಆದ್ದರಿಂದ &mu; ಯಾದೃಚ್ಛಿಕ ಚರವೆಂದು ಪರಿಗಣಿಸಬಹುದು. ವಿಶ್ವಾಸ p ಇರುವ ವಿಶ್ವಾಸ ಅಂತರವು (L<sub>p</sub>,R<sub>p</sub>) ಎಂಬ ಮೌಲ್ಯಗಳ ಜೋಡಿ ಆಗಿದ್ದು, **P**(L<sub>p</sub>&leq;&mu;&leq;R<sub>p</sub>) = p, ಅಂದರೆ ಅಂದಾಜು ಸರಾಸರಿ ಮೌಲ್ಯ ಆ ಅಂತರದೊಳಗೆ ಬರುವ ಸಾಧ್ಯತೆ p ಆಗಿರುತ್ತದೆ.
ಈ ವಿಶ್ವಾಸ ಅಂತರಗಳನ್ನು ಹೇಗೆ ಲೆಕ್ಕಿಸುವುದು ಎಂಬುದನ್ನು ವಿವರಿಸುವುದು ನಮ್ಮ ಸಂಕ್ಷಿಪ್ತ ಪರಿಚಯದ ವ್ಯಾಪ್ತಿಗೆ ಒಳಗಾಗುವುದಿಲ್ಲ. ಹೆಚ್ಚಿನ ವಿವರಗಳನ್ನು [ವಿಕಿಪೀಡಿಯದಲ್ಲಿ](https://en.wikipedia.org/wiki/Confidence_interval) ಕಾಣಬಹುದು. ಸಂಕ್ಷಿಪ್ತವಾಗಿ, ನಾವು ಲೆಕ್ಕಿಸಿದ ಮಾದರಿ ಸರಾಸರಿಯ ವಿತರಣೆಯನ್ನು ಜನಸಂಖ್ಯೆಯ ನಿಜವಾದ ಸರಾಸರಿಯ ಸಂಬಂಧದಲ್ಲಿ ವ್ಯಾಖ್ಯಾನಿಸುತ್ತೇವೆ, ಇದನ್ನು **ಸ್ಟುಡೆಂಟ್ ವಿತರಣೆ** ಎಂದು ಕರೆಯುತ್ತಾರೆ.
> **ಆಕರ್ಷಕ ವಾಸ್ತವ**: ಸ್ಟುಡೆಂಟ್ ವಿತರಣೆಯನ್ನು ಗಣಿತಜ್ಞ ವಿಲಿಯಂ ಸೀಲೀ ಗಾಸೆಟ್ ಅವರ ಹೆಸರಿನಿಂದ ಕರೆಯಲಾಗಿದೆ, ಅವರು "ಸ್ಟುಡೆಂಟ್" ಎಂಬ ಬದಲಾವಣೆ ಹೆಸರಿನಡಿ ತಮ್ಮ ಪೇಪರ್ ಪ್ರಕಟಿಸಿದರು. ಅವರು ಗಿನ್ನೆಸ್ ಬ್ರೂವರಿಯಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದರು, ಮತ್ತು ಒಂದು ಆವೃತ್ತಿಯ ಪ್ರಕಾರ, ಅವರ ಉದ್ಯೋಗದಾತರು ಸಾಮಾನ್ಯ ಜನತೆಗೆ ಕಚ್ಚಾ ವಸ್ತುಗಳ ಗುಣಮಟ್ಟವನ್ನು ನಿರ್ಧರಿಸಲು ಸಾಂಖ್ಯಿಕ ಪರೀಕ್ಷೆಗಳನ್ನು ಬಳಸುತ್ತಿರುವುದನ್ನು ತಿಳಿಸಲು ಇಚ್ಛಿಸುವುದಿಲ್ಲ.
ನಾವು ನಮ್ಮ ಜನಸಂಖ್ಯೆಯ ಸರಾಸರಿ &mu; ಅನ್ನು ವಿಶ್ವಾಸ p ನೊಂದಿಗೆ ಅಂದಾಜಿಸಲು ಬಯಸಿದರೆ, ನಾವು ಸ್ಟುಡೆಂಟ್ ವಿತರಣೆಯ *(1-p)/2-ನೇ ಶತಮಾನಿಕೆ* A ಅನ್ನು ತೆಗೆದುಕೊಳ್ಳಬೇಕು, ಇದು ಟೇಬಲ್ಗಳಿಂದ ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಅಥವಾ ಸಾಂಖ್ಯಿಕ ಸಾಫ್ಟ್‌ವೇರ್ (ಉದಾ. ಪೈಥಾನ್, R, ಇತ್ಯಾದಿ) ನ ಕೆಲವು ಒಳಗೊಂಡ ಕಾರ್ಯಗಳನ್ನು ಬಳಸಿ ಗಣನೆ ಮಾಡಬಹುದು. ನಂತರ &mu; ಗಾಗಿ ಅಂತರವನ್ನು X&pm;A*D/&radic;n ಎಂದು ನೀಡಲಾಗುತ್ತದೆ, ಇಲ್ಲಿ X ಮಾದರಿಯ ಸರಾಸರಿ, D ಮಾನಕ ವ್ಯತ್ಯಾಸ.
> **ಗಮನಿಸಿ**: ನಾವು ಸ್ಟುಡೆಂಟ್ ವಿತರಣೆಗೆ ಸಂಬಂಧಿಸಿದ ಮಹತ್ವದ ಸಂಜ್ಞೆ [ಸ್ವಾತಂತ್ರ್ಯದ ಡಿಗ್ರಿಗಳು](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) ಕುರಿತು ಚರ್ಚೆಯನ್ನು ಕೂಡ ಬಿಟ್ಟುಬಿಡುತ್ತೇವೆ. ಈ ಸಂಜ್ಞೆಯನ್ನು ಆಳವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನೀವು ಸಾಂಖ್ಯಿಕಗಳ ಕುರಿತು ಸಂಪೂರ್ಣ ಪುಸ್ತಕಗಳನ್ನು ನೋಡಿ.
ತೂಕ ಮತ್ತು ಎತ್ತರಗಳ ವಿಶ್ವಾಸ ಅಂತರದ ಲೆಕ್ಕಾಚಾರದ ಉದಾಹರಣೆ [ಸಹಾಯಕ ನೋಟ್ಬುಕ್](notebook.ipynb) ನಲ್ಲಿ ನೀಡಲಾಗಿದೆ.
| p | ತೂಕ ಸರಾಸರಿ |
|-----|-----------|
| 0.85 | 201.73±0.94 |
| 0.90 | 201.73±1.08 |
| 0.95 | 201.73±1.28 |
ವಿಶ್ವಾಸದ ಸಾಧ್ಯತೆ ಹೆಚ್ಚಾದಂತೆ, ವಿಶ್ವಾಸ ಅಂತರವೂ ಅಗಲವಾಗುತ್ತದೆ.
## ಊಹಾಪೋಹ ಪರೀಕ್ಷೆ
ನಮ್ಮ ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ, ವಿವಿಧ ಆಟಗಾರರ ಪಾತ್ರಗಳಿವೆ, ಅವುಗಳನ್ನು ಕೆಳಗಿನಂತೆ ಸಾರಬಹುದು ([ಸಹಾಯಕ ನೋಟ್ಬುಕ್](notebook.ipynb) ನೋಡಿ ಈ ಟೇಬಲ್ ಹೇಗೆ ಲೆಕ್ಕಾಚಾರ ಮಾಡಬಹುದು):
| ಪಾತ್ರ | ಎತ್ತರ | ತೂಕ | ಎಣಿಕೆ |
|------|--------|--------|-------|
| ಕ್ಯಾಚರ್ | 72.723684 | 204.328947 | 76 |
| ಡಿಸಿಗ್ನೇಟೆಡ್_ಹಿಟರ್ | 74.222222 | 220.888889 | 18 |
| ಫಸ್ಟ್_ಬೇಸ್ಮನ್ | 74.000000 | 213.109091 | 55 |
| ಔಟ್‌ಫೀಲ್ಡರ್ | 73.010309 | 199.113402 | 194 |
| ರಿಲೀಫ್_ಪಿಚರ್ | 74.374603 | 203.517460 | 315 |
| ಸೆಕೆಡ್_ಬೇಸ್ಮನ್ | 71.362069 | 184.344828 | 58 |
| ಶಾರ್ಟ್‌ಸ್ಟಾಪ್ | 71.903846 | 182.923077 | 52 |
| ಸ್ಟಾರ್ಟಿಗ್_ಪಿಚರ್ | 74.719457 | 205.163636 | 221 |
| ಥರ್ಡ್_ಬೇಸ್ಮನ್ | 73.044444 | 200.955556 | 45 |
ನಾವು ಗಮನಿಸಬಹುದು ಫಸ್ಟ್ ಬೇಸ್ಮನ್‌ಗಳ ಸರಾಸರಿ ಎತ್ತರ ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚು ಇದೆ. ಆದ್ದರಿಂದ, ನಾವು **ಫಸ್ಟ್ ಬೇಸ್ಮನ್‌ಗಳು ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳಿಗಿಂತ ಎತ್ತರವಾಗಿದ್ದಾರೆ** ಎಂದು ನಿರ್ಣಯಿಸಲು ಇಚ್ಛಿಸಬಹುದು.
> ಈ ಹೇಳಿಕೆಯನ್ನು **ಊಹಾಪೋಹ** ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಏಕೆಂದರೆ ನಾವು ಈ ವಾಸ್ತವವು ನಿಜವಾಗಿದೆಯೇ ಇಲ್ಲವೇ ಎಂದು ತಿಳಿದಿಲ್ಲ.
ಆದರೆ, ಈ ನಿರ್ಣಯವನ್ನು ಮಾಡಬಹುದೇ ಎಂಬುದು ಸದಾ ಸ್ಪಷ್ಟವಲ್ಲ. ಮೇಲಿನ ಚರ್ಚೆಯಿಂದ ನಾವು ತಿಳಿದುಕೊಳ್ಳಬಹುದು ಪ್ರತಿ ಸರಾಸರಿಗೂ ಸಂಬಂಧಿಸಿದ ವಿಶ್ವಾಸ ಅಂತರವಿದೆ, ಮತ್ತು ಈ ವ್ಯತ್ಯಾಸವು ಕೇವಲ ಸಾಂಖ್ಯಿಕ ದೋಷವಾಗಿರಬಹುದು. ನಾವು ನಮ್ಮ ಊಹಾಪೋಹವನ್ನು ಪರೀಕ್ಷಿಸಲು ಇನ್ನಷ್ಟು ಅಧಿಕೃತ ವಿಧಾನ ಬೇಕು.
ನಾವು ಫಸ್ಟ್ ಮತ್ತು ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳ ಎತ್ತರಗಳಿಗಾಗಿ ಪ್ರತ್ಯೇಕವಾಗಿ ವಿಶ್ವಾಸ ಅಂತರಗಳನ್ನು ಲೆಕ್ಕಿಸೋಣ:
| ವಿಶ್ವಾಸ | ಫಸ್ಟ್ ಬೇಸ್ಮನ್ | ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್ |
|------------|---------------|----------------|
| 0.85 | 73.62..74.38 | 71.04..71.69 |
| 0.90 | 73.56..74.44 | 70.99..71.73 |
| 0.95 | 73.47..74.53 | 70.92..71.81 |
ನಾವು ನೋಡಬಹುದು ಯಾವುದೇ ವಿಶ್ವಾಸ ಮಟ್ಟದಲ್ಲಿಯೂ ಅಂತರಗಳು ಒಟ್ಟಿಗೆ ಮಿಶ್ರಣವಾಗುತ್ತಿಲ್ಲ. ಇದು ಫಸ್ಟ್ ಬೇಸ್ಮನ್‌ಗಳು ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳಿಗಿಂತ ಎತ್ತರವಾಗಿದ್ದಾರೆ ಎಂಬ ನಮ್ಮ ಊಹಾಪೋಹವನ್ನು ಸಾಬೀತುಪಡಿಸುತ್ತದೆ.
ವೈಜ್ಞಾನಿಕವಾಗಿ, ನಾವು ಪರಿಹರಿಸುತ್ತಿರುವ ಸಮಸ್ಯೆ ಎಂದರೆ **ಎರಡು ಸಾಧ್ಯತೆ ವಿತರಣೆಗಳು ಒಂದೇ ಆಗಿದೆಯೇ ಅಥವಾ ಕನಿಷ್ಠ ಒಂದೇ ಪರಿಮಾಣಗಳನ್ನು ಹೊಂದಿದೆಯೇ ಎಂದು ನೋಡುವುದು**. ವಿತರಣೆಯ ಪ್ರಕಾರ, ನಾವು ಅದಕ್ಕಾಗಿ ವಿಭಿನ್ನ ಪರೀಕ್ಷೆಗಳನ್ನು ಬಳಸಬೇಕು. ನಮ್ಮ ವಿತರಣೆಗಳು ಸಾಮಾನ್ಯವಾಗಿವೆ ಎಂದು ತಿಳಿದಿದ್ದರೆ, ನಾವು **[ಸ್ಟುಡೆಂಟ್ ಟಿ-ಪರೀಕ್ಷೆ](https://en.wikipedia.org/wiki/Student%27s_t-test)** ಅನ್ನು ಅನ್ವಯಿಸಬಹುದು.
ಸ್ಟುಡೆಂಟ್ ಟಿ-ಪರೀಕ್ಷೆಯಲ್ಲಿ, ನಾವು **ಟಿ-ಮೌಲ್ಯ** ಅನ್ನು ಲೆಕ್ಕಿಸುತ್ತೇವೆ, ಇದು ಸರಾಸರಿಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಸೂಚಿಸುತ್ತದೆ, ವ್ಯತ್ಯಾಸವನ್ನು ಗಮನದಲ್ಲಿಟ್ಟುಕೊಂಡು. ಇದು ತೋರಿಸುತ್ತದೆ ಟಿ-ಮೌಲ್ಯವು **ಸ್ಟುಡೆಂಟ್ ವಿತರಣೆಯನ್ನು** ಅನುಸರಿಸುತ್ತದೆ, ಇದು ನಮಗೆ ನೀಡುತ್ತದೆ ನಿರ್ದಿಷ್ಟ ವಿಶ್ವಾಸ ಮಟ್ಟ **p** ಗಾಗಿ ಗಡಿಬಿಡಿ ಮೌಲ್ಯ (ಇದನ್ನು ಲೆಕ್ಕಿಸಬಹುದು ಅಥವಾ ಸಂಖ್ಯಾತ್ಮಕ ಟೇಬಲ್ಗಳಲ್ಲಿ ನೋಡಬಹುದು). ನಂತರ ನಾವು ಟಿ-ಮೌಲ್ಯವನ್ನು ಈ ಗಡಿಬಿಡಿ ಮೌಲ್ಯಕ್ಕೆ ಹೋಲಿಸಿ ಊಹಾಪೋಹವನ್ನು ಅಂಗೀಕರಿಸುವುದೇ ಅಥವಾ ತಿರಸ್ಕರಿಸುವುದೇ ಎಂದು ನಿರ್ಧರಿಸುತ್ತೇವೆ.
ಪೈಥಾನ್‌ನಲ್ಲಿ, ನಾವು **SciPy** ಪ್ಯಾಕೇಜ್ ಅನ್ನು ಬಳಸಬಹುದು, ಇದರಲ್ಲಿ `ttest_ind` ಕಾರ್ಯವಿದೆ (ಇತರ ಅನೇಕ ಉಪಯುಕ್ತ ಸಾಂಖ್ಯಿಕ ಕಾರ್ಯಗಳ ಜೊತೆಗೆ!). ಇದು ನಮಗೆ ಟಿ-ಮೌಲ್ಯವನ್ನು ಲೆಕ್ಕಿಸುತ್ತದೆ ಮತ್ತು ವಿಶ್ವಾಸ p-ಮೌಲ್ಯದ ರಿವರ್ಸ್ ಲುಕ್‌ಅಪ್ ಕೂಡ ಮಾಡುತ್ತದೆ, ಆದ್ದರಿಂದ ನಾವು ಕೇವಲ ವಿಶ್ವಾಸವನ್ನು ನೋಡಿ ನಿರ್ಣಯಿಸಬಹುದು.
ಉದಾಹರಣೆಗೆ, ಫಸ್ಟ್ ಮತ್ತು ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳ ಎತ್ತರಗಳ ನಡುವಿನ ಹೋಲಿಕೆ ನಮಗೆ ಕೆಳಗಿನ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ:
```python
from scipy.stats import ttest_ind
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
```
```
T-value = 7.65
P-value: 9.137321189738925e-12
```
ನಮ್ಮ ಪ್ರಕರಣದಲ್ಲಿ, p-ಮೌಲ್ಯವು ತುಂಬಾ ಕಡಿಮೆ ಇದೆ, ಅಂದರೆ ಫಸ್ಟ್ ಬೇಸ್ಮನ್‌ಗಳು ಎತ್ತರವಾಗಿದ್ದಾರೆ ಎಂಬುದಕ್ಕೆ ಬಲವಾದ ಸಾಕ್ಷ್ಯವಿದೆ.
ಇನ್ನೂ ವಿಭಿನ್ನ ರೀತಿಯ ಊಹಾಪೋಹಗಳನ್ನು ನಾವು ಪರೀಕ್ಷಿಸಲು ಬಯಸಬಹುದು, ಉದಾಹರಣೆಗೆ:
* ನೀಡಲಾದ ಮಾದರಿ ಕೆಲವು ವಿತರಣೆಯನ್ನು ಅನುಸರಿಸುತ್ತದೆ ಎಂದು ಸಾಬೀತುಪಡಿಸಲು. ನಮ್ಮ ಪ್ರಕರಣದಲ್ಲಿ ನಾವು ಎತ್ತರಗಳು ಸಾಮಾನ್ಯ ವಿತರಣೆಯಲ್ಲಿವೆ ಎಂದು ಊಹಿಸಿದ್ದೇವೆ, ಆದರೆ ಅದಕ್ಕೆ ಅಧಿಕೃತ ಸಾಂಖ್ಯಿಕ ಪರಿಶೀಲನೆ ಬೇಕು.
* ಮಾದರಿಯ ಸರಾಸರಿ ಮೌಲ್ಯವು ಕೆಲವು ಪೂರ್ವನಿರ್ಧರಿತ ಮೌಲ್ಯಕ್ಕೆ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ ಎಂದು ಸಾಬೀತುಪಡಿಸಲು
* ಹಲವಾರು ಮಾದರಿಗಳ ಸರಾಸರಿಗಳನ್ನು ಹೋಲಿಸಲು (ಉದಾ. ವಿಭಿನ್ನ ವಯೋ ಗುಂಪುಗಳ ಸಂತೋಷ ಮಟ್ಟಗಳ ವ್ಯತ್ಯಾಸವೇನು)
## ದೊಡ್ಡ ಸಂಖ್ಯೆಗಳ ನಿಯಮ ಮತ್ತು ಕೇಂದ್ರ ಸೀಮಿತ ಸಿದ್ಧಾಂತ
ಸಾಮಾನ್ಯ ವಿತರಣೆಯು ಬಹಳ ಮುಖ್ಯವಾಗಿರುವ ಕಾರಣಗಳಲ್ಲಿ ಒಂದು ಎಂದರೆ **ಕೇಂದ್ರ ಸೀಮಿತ ಸಿದ್ಧಾಂತ**. ನಾವು ಹೊಂದಿದ್ದೇವೆ ದೊಡ್ಡ ಮಾದರಿ ಸ್ವತಂತ್ರ N ಮೌಲ್ಯಗಳ X<sub>1</sub>, ..., X<sub>N</sub>, ಯಾವುದೇ ವಿತರಣೆಯಿಂದ ಮಾದರಿಯಾಗಿದ್ದು ಸರಾಸರಿ &mu; ಮತ್ತು ವ್ಯತ್ಯಾಸ &sigma;<sup>2</sup> ಹೊಂದಿದೆ. ನಂತರ, ಸಾಕಷ್ಟು ದೊಡ್ಡ N (ಅಂದರೆ, N&rarr;&infin;) ಗಾಗಿ, ಸರಾಸರಿ &Sigma;<sub>i</sub>X<sub>i</sub> ಸಾಮಾನ್ಯ ವಿತರಣೆಯಾಗಿ ವಿತರಿಸಲಾಗುತ್ತದೆ, ಸರಾಸರಿ &mu; ಮತ್ತು ವ್ಯತ್ಯಾಸ &sigma;<sup>2</sup>/N.
> ಕೇಂದ್ರ ಸೀಮಿತ ಸಿದ್ಧಾಂತವನ್ನು ಮತ್ತೊಂದು ರೀತಿಯಲ್ಲಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಎಂದರೆ, ಯಾವುದೇ ವಿತರಣೆಯಾದರೂ, ಯಾವುದೇ ಯಾದೃಚ್ಛಿಕ ಚರ ಮೌಲ್ಯಗಳ ಮೊತ್ತದ ಸರಾಸರಿಯನ್ನು ಲೆಕ್ಕಿಸಿದಾಗ ನೀವು ಸಾಮಾನ್ಯ ವಿತರಣೆಯನ್ನು ಪಡೆಯುತ್ತೀರಿ.
ಕೇಂದ್ರ ಸೀಮಿತ ಸಿದ್ಧಾಂತದಿಂದ ಇದು ಕೂಡ ತಿಳಿದುಬರುತ್ತದೆ, N&rarr;&infin; ಆಗ, ಮಾದರಿ ಸರಾಸರಿ &mu; ಗೆ ಸಮಾನವಾಗುವ ಸಾಧ್ಯತೆ 1 ಆಗುತ್ತದೆ. ಇದನ್ನು **ದೊಡ್ಡ ಸಂಖ್ಯೆಗಳ ನಿಯಮ** ಎಂದು ಕರೆಯುತ್ತಾರೆ.
## ಸಹವ್ಯತ್ಯಾಸ ಮತ್ತು ಸಹಸಂಬಂಧ
ಡೇಟಾ ಸೈನ್ಸ್ ಮಾಡುವ ಒಂದು ಕೆಲಸವೆಂದರೆ ಡೇಟಾಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು. ನಾವು ಹೇಳುತ್ತೇವೆ ಎರಡು ಸರಣಿಗಳು **ಸಹಸಂಬಂಧ ಹೊಂದಿವೆ** ಎಂದರೆ ಅವು ಒಂದೇ ಸಮಯದಲ್ಲಿ ಸಮಾನ ವರ್ತನೆ ತೋರಿಸುತ್ತವೆ, ಅಂದರೆ ಅವು ಒಂದೇ ಸಮಯದಲ್ಲಿ ಏರಿಕೆ/ಕಡಿತವಾಗುತ್ತವೆ, ಅಥವಾ ಒಂದು ಸರಣಿ ಏರಿದಾಗ ಇನ್ನೊಂದು ಕಡಿಮೆಯಾಗುತ್ತದೆ ಮತ್ತು ಹೀಗೆಯೇ. ಇತರ ಪದಗಳಲ್ಲಿ, ಎರಡು ಸರಣಿಗಳ ನಡುವೆ ಕೆಲವು ಸಂಬಂಧವಿದೆ ಎಂದು ತೋರುತ್ತದೆ.
> ಸಹಸಂಬಂಧವು ಎರಡು ಸರಣಿಗಳ ನಡುವೆ ಕಾರಣ ಸಂಬಂಧವನ್ನು ಸೂಚಿಸುವುದಿಲ್ಲ; ಕೆಲವೊಮ್ಮೆ ಎರಡೂ ಚರಗಳು ಕೆಲವು ಬಾಹ್ಯ ಕಾರಣಕ್ಕೆ ಅವಲಂಬಿತವಾಗಿರಬಹುದು, ಅಥವಾ ಇದು ಕೇವಲ ಸಂಧರ್ಭದಿಂದ ಎರಡು ಸರಣಿಗಳು ಸಹಸಂಬಂಧ ಹೊಂದಿರಬಹುದು. ಆದಾಗ್ಯೂ, ಬಲವಾದ ಗಣಿತೀಯ ಸಹಸಂಬಂಧವು ಎರಡು ಚರಗಳು ಹೇಗೋ ಸಂಪರ್ಕ ಹೊಂದಿವೆ ಎಂಬ ಉತ್ತಮ ಸೂಚನೆ.
ಗಣಿತೀಯವಾಗಿ, ಎರಡು ಯಾದೃಚ್ಛಿಕ ಚರಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ತೋರಿಸುವ ಮುಖ್ಯ ಸಂಜ್ಞೆ **ಸಹವ್ಯತ್ಯಾಸ** ಆಗಿದ್ದು, ಇದನ್ನು ಹೀಗೆ ಲೆಕ್ಕಿಸುತ್ತೇವೆ: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. ನಾವು ಎರಡೂ ಚರಗಳ ಸರಾಸರಿಗಳಿಂದ ವ್ಯತ್ಯಾಸವನ್ನು ಲೆಕ್ಕಿಸಿ, ಆ ವ್ಯತ್ಯಾಸಗಳ ಗುಣಾಕಾರವನ್ನು ಲೆಕ್ಕಿಸುತ್ತೇವೆ. ಎರಡೂ ಚರಗಳು ಒಟ್ಟಿಗೆ ವ್ಯತ್ಯಾಸ ಹೊಂದಿದರೆ, ಗುಣಾಕಾರವು ಸದಾ ಧನಾತ್ಮಕ ಮೌಲ್ಯವಾಗಿರುತ್ತದೆ, ಇದು ಧನಾತ್ಮಕ ಸಹವ್ಯತ್ಯಾಸವನ್ನು ಸೇರಿಸುತ್ತದೆ. ಎರಡೂ ಚರಗಳು ಸಿಂಕ್ರೋನಸ್ ಆಗಿ ವ್ಯತ್ಯಾಸ ಹೊಂದದಿದ್ದರೆ (ಅಂದರೆ ಒಂದು ಸರಾಸರಿ ಕೆಳಗೆ ಇಳಿದಾಗ ಇನ್ನೊಂದು ಸರಾಸರಿ ಮೇಲೆ ಏರುತ್ತದೆ), ನಾವು ಸದಾ ನಕಾರಾತ್ಮಕ ಸಂಖ್ಯೆಗಳನ್ನೇ ಪಡೆಯುತ್ತೇವೆ, ಇದು ನಕಾರಾತ್ಮಕ ಸಹವ್ಯತ್ಯಾಸವನ್ನು ಸೇರಿಸುತ್ತದೆ. ವ್ಯತ್ಯಾಸಗಳು ಅವಲಂಬಿತವಲ್ಲದಿದ್ದರೆ, ಅವು ಶೂನ್ಯಕ್ಕೆ ಸಮೀಪವಾಗುತ್ತವೆ.
ಸಹವ್ಯತ್ಯಾಸದ ಪರಮಾಣು ಮೌಲ್ಯವು ಸಹಸಂಬಂಧ ಎಷ್ಟು ದೊಡ್ಡದು ಎಂಬುದನ್ನು ಬಹಳಷ್ಟು ಹೇಳುವುದಿಲ್ಲ, ಏಕೆಂದರೆ ಅದು ನಿಜವಾದ ಮೌಲ್ಯಗಳ ಪ್ರಮಾಣದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. ಅದನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಲು, ನಾವು ಸಹವ್ಯತ್ಯಾಸವನ್ನು ಎರಡೂ ಚರಗಳ ಮಾನಕ ವ್ಯತ್ಯಾಸದಿಂದ ಭಾಗಿಸಬಹುದು, ಇದರಿಂದ **ಸಹಸಂಬಂಧ** ಸಿಗುತ್ತದೆ. ಉತ್ತಮ ಸಂಗತಿ ಎಂದರೆ ಸಹಸಂಬಂಧವು ಯಾವಾಗಲೂ [-1,1] ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಇರುತ್ತದೆ, ಇಲ್ಲಿ 1 ಎಂದರೆ ಮೌಲ್ಯಗಳ ನಡುವೆ ಬಲವಾದ ಧನಾತ್ಮಕ ಸಹಸಂಬಂಧ, -1 ಎಂದರೆ ಬಲವಾದ ನಕಾರಾತ್ಮಕ ಸಹಸಂಬಂಧ, ಮತ್ತು 0 ಎಂದರೆ ಯಾವುದೇ ಸಹಸಂಬಂಧವಿಲ್ಲ (ಚರಗಳು ಸ್ವತಂತ್ರ).
**ಉದಾಹರಣೆ**: ನಾವು ಮೇಲ್ಕಂಡ ಬೇಸ್‌ಬಾಲ್ ಆಟಗಾರರ ಡೇಟಾಸೆಟ್‌ನ ತೂಕ ಮತ್ತು ಎತ್ತರಗಳ ನಡುವೆ ಸಹಸಂಬಂಧವನ್ನು ಲೆಕ್ಕಿಸಬಹುದು:
```python
print(np.corrcoef(weights,heights))
```
ಫಲವಾಗಿ, ನಾವು ಈ ರೀತಿಯ **ಸಹಸಂಬಂಧ ಮ್ಯಾಟ್ರಿಕ್ಸ್** ಪಡೆಯುತ್ತೇವೆ:
```
array([[1. , 0.52959196],
[0.52959196, 1. ]])
```
> ಸಹಸಂಬಂಧ ಮ್ಯಾಟ್ರಿಕ್ಸ್ C ಅನ್ನು ಯಾವುದೇ ಸಂಖ್ಯೆಯ ಇನ್‌ಪುಟ್ ಸರಣಿಗಳ S<sub>1</sub>, ..., S<sub>n</sub> ಗಾಗಿ ಲೆಕ್ಕಿಸಬಹುದು. C<sub>ij</sub> ಮೌಲ್ಯವು S<sub>i</sub> ಮತ್ತು S<sub>j</sub> ನಡುವಿನ ಸಹಸಂಬಂಧ, ಮತ್ತು ತಿರಸ್ಕಾರ ಅಂಶಗಳು ಯಾವಾಗಲೂ 1 (ಇದು S<sub>i</sub> ಯ ಸ್ವಯಂ-ಸಹಸಂಬಂಧವೂ ಆಗಿದೆ).
ನಮ್ಮ ಪ್ರಕರಣದಲ್ಲಿ, 0.53 ಮೌಲ್ಯವು ತೋರಿಸುತ್ತದೆ ತೂಕ ಮತ್ತು ಎತ್ತರದ ನಡುವೆ ಕೆಲವು ಸಹಸಂಬಂಧವಿದೆ. ನಾವು ಒಂದು ಮೌಲ್ಯವನ್ನು ಇನ್ನೊಂದರ ವಿರುದ್ಧ ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್ ಮಾಡಬಹುದು ಸಂಬಂಧವನ್ನು ದೃಶ್ಯವಾಗಿ ನೋಡಲು:
![ತೂಕ ಮತ್ತು ಎತ್ತರದ ನಡುವಿನ ಸಂಬಂಧ](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.kn.png)
> ಸಹಸಂಬಂಧ ಮತ್ತು ಸಹವ್ಯತ್ಯಾಸದ ಇನ್ನಷ್ಟು ಉದಾಹರಣೆಗಳನ್ನು [ಸಹಾಯಕ ನೋಟ್ಬುಕ್](notebook.ipynb) ನಲ್ಲಿ ಕಾಣಬಹುದು.
## ಸಾರಾಂಶ
ಈ ವಿಭಾಗದಲ್ಲಿ ನಾವು ಕಲಿತದ್ದು:
* ಡೇಟಾದ ಮೂಲಭೂತ ಸಾಂಖ್ಯಿಕ ಗುಣಲಕ್ಷಣಗಳು, ಉದಾ. ಸರಾಸರಿ, ವ್ಯತ್ಯಾಸ, ಮೋಡ್ ಮತ್ತು ಕ್ವಾರ್ಟೈಲ್ಸ್
* ಯಾದೃಚ್ಛಿಕ ಚರಗಳ ವಿಭಿನ್ನ ವಿತರಣೆಗಳು, ಸಾಮಾನ್ಯ ವಿತರಣೆಯನ್ನು ಒಳಗೊಂಡಂತೆ
* ವಿಭಿನ್ನ ಗುಣಲಕ್ಷಣಗಳ ನಡುವೆ ಸಹಸಂಬಂಧವನ್ನು ಹೇಗೆ ಕಂಡುಹಿಡಿಯುವುದು
* ಕೆಲವು ಊಹಾಪೋಹಗಳನ್ನು ಸಾಬೀತುಪಡಿಸಲು ಗಣಿತ ಮತ್ತು ಸಾಂಖ್ಯಿಕ ಉಪಕರಣಗಳನ್ನು ಹೇಗೆ ಬಳಸುವುದು
* ಡೇಟಾ ಮಾದರಿಯನ್ನು ನೀಡಿದಾಗ ಯಾದೃಚ್ಛಿಕ ಚರಗಳ ವಿಶ್ವಾಸ ಅಂತರಗಳನ್ನು ಹೇಗೆ ಲೆಕ್ಕಿಸುವುದು
ಇವು ಸಾಧ್ಯತೆ ಮತ್ತು ಸಾಂಖ್ಯಿಕಗಳ ಒಳಗಿನ ವಿಷಯಗಳ ಸಂಪೂರ್ಣ ಪಟ್ಟಿ ಅಲ್ಲದಿದ್ದರೂ, ಈ ಕೋರ್ಸ್‌ಗೆ ಉತ್ತಮ ಪ್ರಾರಂಭ ನೀಡಲು ಸಾಕಾಗುತ್ತದೆ.
## 🚀 ಸವಾಲು
ನೋಟ್ಬುಕ್‌ನ ಮಾದರಿ ಕೋಡ್ ಬಳಸಿ ಇತರ ಊಹಾಪೋಹಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ:
1. ಫಸ್ಟ್ ಬೇಸ್ಮನ್‌ಗಳು ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳಿಗಿಂತ ವಯಸ್ಸು ಹೆಚ್ಚಾಗಿದೆ
2. ಫಸ್ಟ್ ಬೇಸ್ಮನ್‌ಗಳು ಥರ್ಡ್ ಬೇಸ್ಮನ್‌ಗಳಿಗಿಂತ ಎತ್ತರವಾಗಿದ್ದಾರೆ
3. ಶಾರ್ಟ್‌ಸ್ಟಾಪ್‌ಗಳು ಸೆಕೆಂಡ್ ಬೇಸ್ಮನ್‌ಗಳಿಗಿಂತ ಎತ್ತರವಾಗಿದ್ದಾರೆ
## [ಪಾಠದ ನಂತರದ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/7)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಸಾಧ್ಯತೆ ಮತ್ತು ಸಾಂಖ್ಯಿಕಗಳು ತುಂಬಾ ವ್ಯಾಪಕ ವಿಷಯವಾಗಿದ್ದು, ಅದಕ್ಕೆ ತನ್ನದೇ ಕೋರ್ಸ್ ಬೇಕಾಗುತ್ತದೆ. ನೀವು ಸಿದ್ಧಾಂತದಲ್ಲಿ ಆಳವಾಗಿ ಹೋಗಲು ಇಚ್ಛಿಸಿದರೆ, ಕೆಳಗಿನ ಕೆಲವು ಪುಸ್ತಕಗಳನ್ನು ಓದಲು ಮುಂದುವರಿಯಬಹುದು:
1. [ಕಾರ್ಲೋಸ್ ಫೆರ್ನಾಂಡೆಜ್-ಗ್ರಾಂಡಾ](https://cims.nyu.edu/~cfgranda/) ನ್ಯೂಯಾರ್ಕ್ ವಿಶ್ವವಿದ್ಯಾಲಯದಿಂದ ಉತ್ತಮ ಉಪನ್ಯಾಸ ಟಿಪ್ಪಣಿಗಳು [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ಆನ್ಲೈನ್ ಲಭ್ಯವಿದೆ)
1. [ಪೀಟರ್ ಮತ್ತು ಆಂಡ್ರೂ ಬ್ರೂಸ್. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R ನಲ್ಲಿ ಮಾದರಿ ಕೋಡ್](https://github.com/andrewgbruce/statistics-for-data-scientists)].
1. [ಜೆಮ್ಸ್ ಡಿ. ಮಿಲ್ಲರ್. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[R ನಲ್ಲಿ ಮಾದರಿ ಕೋಡ್](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
## ಹೋಮ್ವರ್ಕ್
[ಸಣ್ಣ ಡಯಾಬಿಟಿಸ್ ಅಧ್ಯಯನ](assignment.md)
## ಕ್ರೆಡಿಟ್ಸ್
ಈ ಪಾಠವನ್ನು ♥️ ಸಹಿತ [ಡ್ಮಿತ್ರಿ ಸೋಶ್ನಿಕೋವ್](http://soshnikov.com) ರವರು ರಚಿಸಿದ್ದಾರೆ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,264 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"## ಪ್ರಾಬಬಿಲಿಟಿ ಮತ್ತು ಅಂಕಿಅಂಶಗಳ ಪರಿಚಯ\n",
"## ಹಂಚಿಕೆ\n",
"\n",
"ಈ ಹಂಚಿಕೆಯಲ್ಲಿ, ನಾವು [ಇಲ್ಲಿ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) ತೆಗೆದುಕೊಂಡ ಡಯಾಬಿಟಿಸ್ ರೋಗಿಗಳ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸಲಿದ್ದೇವೆ.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 13,
"source": [
"import pandas as pd\n",
"import numpy as np\n",
"\n",
"df = pd.read_csv(\"../../data/diabetes.tsv\",sep='\\t')\n",
"df.head()"
],
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
" AGE SEX BMI BP S1 S2 S3 S4 S5 S6 Y\n",
"0 59 2 32.1 101.0 157 93.2 38.0 4.0 4.8598 87 151\n",
"1 48 1 21.6 87.0 183 103.2 70.0 3.0 3.8918 69 75\n",
"2 72 2 30.5 93.0 156 93.6 41.0 4.0 4.6728 85 141\n",
"3 24 1 25.3 84.0 198 131.4 40.0 5.0 4.8903 89 206\n",
"4 50 1 23.0 101.0 192 125.4 52.0 4.0 4.2905 80 135"
],
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>AGE</th>\n",
" <th>SEX</th>\n",
" <th>BMI</th>\n",
" <th>BP</th>\n",
" <th>S1</th>\n",
" <th>S2</th>\n",
" <th>S3</th>\n",
" <th>S4</th>\n",
" <th>S5</th>\n",
" <th>S6</th>\n",
" <th>Y</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>59</td>\n",
" <td>2</td>\n",
" <td>32.1</td>\n",
" <td>101.0</td>\n",
" <td>157</td>\n",
" <td>93.2</td>\n",
" <td>38.0</td>\n",
" <td>4.0</td>\n",
" <td>4.8598</td>\n",
" <td>87</td>\n",
" <td>151</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>48</td>\n",
" <td>1</td>\n",
" <td>21.6</td>\n",
" <td>87.0</td>\n",
" <td>183</td>\n",
" <td>103.2</td>\n",
" <td>70.0</td>\n",
" <td>3.0</td>\n",
" <td>3.8918</td>\n",
" <td>69</td>\n",
" <td>75</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>72</td>\n",
" <td>2</td>\n",
" <td>30.5</td>\n",
" <td>93.0</td>\n",
" <td>156</td>\n",
" <td>93.6</td>\n",
" <td>41.0</td>\n",
" <td>4.0</td>\n",
" <td>4.6728</td>\n",
" <td>85</td>\n",
" <td>141</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>24</td>\n",
" <td>1</td>\n",
" <td>25.3</td>\n",
" <td>84.0</td>\n",
" <td>198</td>\n",
" <td>131.4</td>\n",
" <td>40.0</td>\n",
" <td>5.0</td>\n",
" <td>4.8903</td>\n",
" <td>89</td>\n",
" <td>206</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>50</td>\n",
" <td>1</td>\n",
" <td>23.0</td>\n",
" <td>101.0</td>\n",
" <td>192</td>\n",
" <td>125.4</td>\n",
" <td>52.0</td>\n",
" <td>4.0</td>\n",
" <td>4.2905</td>\n",
" <td>80</td>\n",
" <td>135</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
]
},
"metadata": {},
"execution_count": 13
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ಈ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ, ಕಾಲಮ್‌ಗಳು ಕೆಳಗಿನಂತಿವೆ:\n",
"* ವಯಸ್ಸು ಮತ್ತು ಲಿಂಗ ಸ್ವಯಂವಿವರಣೆ\n",
"* BMI ಎಂದರೆ ದೇಹದ ಭಾರ ಸೂಚ್ಯಂಕ\n",
"* BP ಎಂದರೆ ಸರಾಸರಿ ರಕ್ತದ ಒತ್ತಡ\n",
"* S1 ರಿಂದ S6 ವರೆಗೆ ವಿಭಿನ್ನ ರಕ್ತ ಮಾಪನಗಳು\n",
"* Y ಎಂದರೆ ಒಂದು ವರ್ಷದ ಅವಧಿಯಲ್ಲಿ ರೋಗ ಪ್ರಗತಿಯ ಗುಣಾತ್ಮಕ ಅಳೆಯುವಿಕೆ\n",
"\n",
"ನಾವು ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಾಧ್ಯತೆ ಮತ್ತು ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ವಿಧಾನಗಳನ್ನು ಬಳಸಿ ಅಧ್ಯಯನ ಮಾಡೋಣ.\n",
"\n",
"### Task 1: ಎಲ್ಲಾ ಮೌಲ್ಯಗಳ ಸರಾಸರಿ ಮೌಲ್ಯಗಳು ಮತ್ತು ವ್ಯತ್ಯಾಸವನ್ನು ಲೆಕ್ಕಿಸು\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### ಕಾರ್ಯ 2: ಲಿಂಗದ ಆಧಾರದ ಮೇಲೆ BMI, BP ಮತ್ತು Y ಗಾಗಿ ಬಾಕ್ಸ್‌ಪ್ಲಾಟ್‌ಗಳನ್ನು ರಚಿಸಿ\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### ಕಾರ್ಯ 3: ವಯಸ್ಸು, ಲಿಂಗ, ಬಿಎಂಐ ಮತ್ತು Y ಚರಗಳ ವಿತರಣೆಯು ಏನು?\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 4: ವಿಭಿನ್ನ ಚರಗಳು ಮತ್ತು ರೋಗ ಪ್ರಗತಿಯ (Y) ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಪರೀಕ್ಷಿಸಿ\n",
"\n",
"> **ಸೂಚನೆ** ಸಂಬಂಧ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ನಿಮಗೆ ಯಾವ ಮೌಲ್ಯಗಳು ಅವಲಂಬಿತವಾಗಿವೆ ಎಂಬುದರ ಬಗ್ಗೆ ಅತ್ಯಂತ ಉಪಯುಕ್ತ ಮಾಹಿತಿಯನ್ನು ನೀಡುತ್ತದೆ.\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### ಕಾರ್ಯ 5: ಪುರುಷರು ಮತ್ತು ಮಹಿಳೆಯರ ನಡುವೆ ಮಧುಮೇಹ ಪ್ರಗತಿಯ ಮಟ್ಟ ವಿಭಿನ್ನವಾಗಿದೆ ಎಂಬ ಊಹೆಯನ್ನು ಪರೀಕ್ಷಿಸಿ\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ಅಸ್ವೀಕರಣ**: \nಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.8.8",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.8.8 64-bit (conda)"
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "6d945fd15163f60cb473dbfe04b2d100",
"translation_date": "2025-12-19T17:06:15+00:00",
"source_file": "1-Introduction/04-stats-and-probability/assignment.ipynb",
"language_code": "kn"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "01d1b493e8b51a6ebb42524f6b1bcfff",
"translation_date": "2025-12-19T13:57:31+00:00",
"source_file": "1-Introduction/04-stats-and-probability/assignment.md",
"language_code": "kn"
}
-->
# ಸಣ್ಣ ಮಧುಮೇಹ ಅಧ್ಯಯನ
ಈ ನಿಯೋಜನೆಯಲ್ಲಿ, ನಾವು [ಇಲ್ಲಿ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) ತೆಗೆದುಕೊಂಡಿರುವ ಮಧುಮೇಹ ರೋಗಿಗಳ ಸಣ್ಣ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತೇವೆ.
| | ವಯಸ್ಸು | ಲಿಂಗ | ಬಿಎಂಐ | ಬಿಪಿ | ಎಸ್1 | ಎಸ್2 | ಎಸ್3 | ಎಸ್4 | ಎಸ್5 | ಎಸ್6 | ವೈ |
|---|-----|-----|-----|----|----|----|----|----|----|----|----|
| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
## ಸೂಚನೆಗಳು
* [ನಿಯೋಜನ ನೋಟ್ಬುಕ್](assignment.ipynb) ಅನ್ನು ಜುಪೈಟರ್ ನೋಟ್ಬುಕ್ ಪರಿಸರದಲ್ಲಿ ತೆರೆಯಿರಿ
* ನೋಟ್ಬುಕ್‌ನಲ್ಲಿ ಪಟ್ಟಿಮಾಡಲಾದ ಎಲ್ಲಾ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಿ, ಅಂದರೆ:
* [ ] ಎಲ್ಲಾ ಮೌಲ್ಯಗಳ ಸರಾಸರಿ ಮತ್ತು ವ್ಯತ್ಯಾಸವನ್ನು ಲೆಕ್ಕಹಾಕಿ
* [ ] ಲಿಂಗದ ಆಧಾರದ ಮೇಲೆ ಬಿಎಂಐ, ಬಿಪಿ ಮತ್ತು ವೈಗಾಗಿ ಬಾಕ್ಸ್‌ಪ್ಲಾಟ್‌ಗಳನ್ನು ರಚಿಸಿ
* [ ] ವಯಸ್ಸು, ಲಿಂಗ, ಬಿಎಂಐ ಮತ್ತು ವೈ ಚರಗಳ ವಿತರಣೆಯೇನು?
* [ ] ವಿಭಿನ್ನ ಚರಗಳು ಮತ್ತು ರೋಗ ಪ್ರಗತಿಯ (ವೈ) ನಡುವಿನ ಸಹಸಂಬಂಧವನ್ನು ಪರೀಕ್ಷಿಸಿ
* [ ] ಮಧುಮೇಹ ಪ್ರಗತಿಯ ಮಟ್ಟವು ಪುರುಷರು ಮತ್ತು ಮಹಿಳೆಯರ ನಡುವೆ ವಿಭಿನ್ನವಾಗಿದೆ ಎಂಬ ಊಹೆಯನ್ನು ಪರೀಕ್ಷಿಸಿ
## ಮೌಲ್ಯಮಾಪನ
ಉದಾಹರಣೀಯ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆಯ ಅಗತ್ಯ
--- | --- | -- |
ಎಲ್ಲಾ ಅಗತ್ಯ ಕಾರ್ಯಗಳು ಪೂರ್ಣಗೊಂಡಿವೆ, ಗ್ರಾಫಿಕಲ್‌ ಆಗಿ ಚಿತ್ರಿಸಲಾಗಿದೆ ಮತ್ತು ವಿವರಿಸಲಾಗಿದೆ | ಬಹುತೇಕ ಕಾರ್ಯಗಳು ಪೂರ್ಣಗೊಂಡಿವೆ, ಗ್ರಾಫ್‌ಗಳು ಮತ್ತು/ಅಥವಾ ಪಡೆದ ಮೌಲ್ಯಗಳಿಂದ ವಿವರಣೆಗಳು ಅಥವಾ ತೀರ್ಮಾನಗಳು ಇಲ್ಲ | ಸರಾಸರಿ/ವ್ಯತ್ಯಾಸ ಲೆಕ್ಕಾಚಾರ ಮತ್ತು ಮೂಲಭೂತ ಪ್ಲಾಟ್‌ಗಳು ಮಾತ್ರ ಪೂರ್ಣಗೊಂಡಿವೆ, ಡೇಟಾದಿಂದ ಯಾವುದೇ ತೀರ್ಮಾನಗಳು ಮಾಡಲಾಗಿಲ್ಲ
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

@ -0,0 +1,33 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "696a8474a01054281704cbfb09148949",
"translation_date": "2025-12-19T13:23:24+00:00",
"source_file": "1-Introduction/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಸೈನ್ಸ್ ಪರಿಚಯ
![data in action](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.kn.jpg)
> ಫೋಟೋ <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಸ್ಟೀಫನ್ ಡಾಸನ್</a> ಅವರಿಂದ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅನ್ಸ್ಪ್ಲ್ಯಾಶ್</a> ನಲ್ಲಿ
ಈ ಪಾಠಗಳಲ್ಲಿ, ನೀವು ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ನು ಹೇಗೆ ವ್ಯಾಖ್ಯಾನಿಸಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯುತ್ತೀರಿ ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನಿಯೊಬ್ಬರು ಪರಿಗಣಿಸಬೇಕಾದ ನೈತಿಕ ವಿಚಾರಗಳನ್ನು ತಿಳಿಯುತ್ತೀರಿ. ನೀವು ಡೇಟಾ ಅನ್ನು ಹೇಗೆ ವ್ಯಾಖ್ಯಾನಿಸಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ತಿಳಿಯುತ್ತೀರಿ ಮತ್ತು ಡೇಟಾ ಸೈನ್ಸ್‌ನ ಮೂಲ ಶೈಕ್ಷಣಿಕ ಕ್ಷೇತ್ರಗಳಾದ ಅಂಕಿಅಂಶ ಮತ್ತು ಸಾಧ್ಯತೆಗಳ ಬಗ್ಗೆ ಸ್ವಲ್ಪ ತಿಳಿಯುತ್ತೀರಿ.
### ವಿಷಯಗಳು
1. [ಡೇಟಾ ಸೈನ್ಸ್ ವ್ಯಾಖ್ಯಾನ](01-defining-data-science/README.md)
2. [ಡೇಟಾ ಸೈನ್ಸ್ ನೈತಿಕತೆ](02-ethics/README.md)
3. [ಡೇಟಾ ವ್ಯಾಖ್ಯಾನ](03-defining-data/README.md)
4. [ಅಂಕಿಅಂಶ ಮತ್ತು ಸಾಧ್ಯತೆ ಪರಿಚಯ](04-stats-and-probability/README.md)
### ಕ್ರೆಡಿಟ್ಸ್
ಈ ಪಾಠಗಳನ್ನು ❤️ ಸಹಿತ [ನಿತ್ಯ ನಾರಸಿಂಹನ್](https://twitter.com/nitya) ಮತ್ತು [ಡ್ಮಿತ್ರಿ ಸೋಶ್ನಿಕೋವ್](https://twitter.com/shwars) ರವರು ಬರೆಯಲಾಗಿದೆ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಪ್ರಮುಖ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,199 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "11739c7b40e7c6b16ad29e3df4e65862",
"translation_date": "2025-12-19T15:49:38+00:00",
"source_file": "2-Working-With-Data/05-relational-databases/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವುದು: ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರ ಸ್ಕೆಚ್‌ನೋಟ್ ](../../sketchnotes/05-RelationalData.png)|
|:---:|
| ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವುದು: ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು - _[@nitya](https://twitter.com/nitya) ಅವರ ಸ್ಕೆಚ್ನೋಟ್_ |
ನೀವು ಹಿಂದಿನ ಕಾಲದಲ್ಲಿ ಮಾಹಿತಿ ಸಂಗ್ರಹಿಸಲು ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಬಳಸಿದ್ದೀರಾ ಎಂಬ ಸಾಧ್ಯತೆ ಇದೆ. ನಿಮಗೆ ಸಾಲುಗಳು ಮತ್ತು ಕಾಲಮ್‌ಗಳ ಒಂದು ಸೆಟ್ ಇತ್ತು, ಅಲ್ಲಿ ಸಾಲುಗಳಲ್ಲಿ ಮಾಹಿತಿ (ಅಥವಾ ಡೇಟಾ) ಇತ್ತು, ಮತ್ತು ಕಾಲಮ್‌ಗಳು ಆ ಮಾಹಿತಿಯನ್ನು ವಿವರಿಸುತ್ತಿದ್ದವು (ಕೆಲವೊಮ್ಮೆ ಇದನ್ನು ಮೆಟಾಡೇಟಾ ಎಂದು ಕರೆಯುತ್ತಾರೆ). ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ ಈ ಕಾಲಮ್‌ಗಳು ಮತ್ತು ಸಾಲುಗಳ ಮೂಲ ತತ್ವದ ಮೇಲೆ ನಿರ್ಮಿತವಾಗಿದೆ, ಇದು ನಿಮಗೆ ಮಾಹಿತಿಯನ್ನು ಹಲವಾರು ಟೇಬಲ್‌ಗಳಲ್ಲಿ ಹಂಚಿಕೊಳ್ಳಲು ಅವಕಾಶ ನೀಡುತ್ತದೆ. ಇದು ನಿಮಗೆ ಹೆಚ್ಚು ಸಂಕೀರ್ಣ ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡಲು, ನಕಲಿಸುವಿಕೆಯನ್ನು ತಪ್ಪಿಸಲು ಮತ್ತು ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸುವ ರೀತಿಯಲ್ಲಿ ಲವಚಿಕತೆ ಹೊಂದಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ನ ತತ್ವಗಳನ್ನು ಅನ್ವೇಷಿಸೋಣ.
## [ಪೂರ್ವ-ಲೆಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/8)
## ಎಲ್ಲವೂ ಟೇಬಲ್‌ಗಳಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ
ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ನ ಮೂಲದಲ್ಲಿ ಟೇಬಲ್‌ಗಳು ಇವೆ. ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ನಂತೆ, ಟೇಬಲ್ ಒಂದು ಕಾಲಮ್‌ಗಳು ಮತ್ತು ಸಾಲುಗಳ ಸಂಗ್ರಹವಾಗಿದೆ. ಸಾಲುಗಳಲ್ಲಿ ನಾವು ಕೆಲಸ ಮಾಡಲು ಬಯಸುವ ಡೇಟಾ ಅಥವಾ ಮಾಹಿತಿ ಇರುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ನಗರದ ಹೆಸರು ಅಥವಾ ಮಳೆಯ ಪ್ರಮಾಣ. ಕಾಲಮ್‌ಗಳು ಸಂಗ್ರಹಿಸುವ ಡೇಟಾವನ್ನು ವಿವರಿಸುತ್ತವೆ.
ನಾವು ನಗರಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿ ಸಂಗ್ರಹಿಸಲು ಒಂದು ಟೇಬಲ್ ಪ್ರಾರಂಭಿಸೋಣ. ನಾವು ಅವರ ಹೆಸರು ಮತ್ತು ದೇಶವನ್ನು ಪ್ರಾರಂಭಿಸಬಹುದು. ನೀವು ಇದನ್ನು ಕೆಳಗಿನಂತೆ ಟೇಬಲ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸಬಹುದು:
| ನಗರ | ದೇಶ |
| -------- | ------------- |
| ಟೋಕಿಯೋ | ಜಪಾನ್ |
| ಅಟ್ಲಾಂಟಾ | ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ |
| ಆಕ್ಲ್ಯಾಂಡ್ | ನ್ಯೂಜಿಲೆಂಡ್ |
**ನಗರ**, **ದೇಶ** ಮತ್ತು **ಜನಸಂಖ್ಯೆ** ಎಂಬ ಕಾಲಮ್ ಹೆಸರುಗಳು ಸಂಗ್ರಹಿಸುವ ಡೇಟಾವನ್ನು ವಿವರಿಸುತ್ತವೆ ಮತ್ತು ಪ್ರತಿ ಸಾಲಿನಲ್ಲಿ ಒಂದು ನಗರ ಕುರಿತು ಮಾಹಿತಿ ಇರುತ್ತದೆ.
## ಒಬ್ಬ ಟೇಬಲ್ ವಿಧಾನದ ಕೊರತೆಗಳು
ಮೇಲಿನ ಟೇಬಲ್ ನಿಮಗೆ ಪರಿಚಿತವಾಗಿರುವಂತೆ ಕಾಣಬಹುದು. ನಮ್ಮ ಬೆಳೆಯುತ್ತಿರುವ ಡೇಟಾಬೇಸ್‌ಗೆ ವಾರ್ಷಿಕ ಮಳೆಯ ಪ್ರಮಾಣ (ಮಿಲಿಮೀಟರ್‌ಗಳಲ್ಲಿ) ಎಂಬ ಹೆಚ್ಚುವರಿ ಡೇಟಾವನ್ನು ಸೇರಿಸೋಣ. ನಾವು 2018, 2019 ಮತ್ತು 2020 ವರ್ಷಗಳ ಮೇಲೆ ಗಮನಹರಿಸುತ್ತೇವೆ. ಟೋಕಿಯೋಗೆ ಇದನ್ನು ಸೇರಿಸಿದರೆ, ಇದು ಹೀಗೆ ಕಾಣಬಹುದು:
| ನಗರ | ದೇಶ | ವರ್ಷ | ಪ್ರಮಾಣ |
| ------ | ------- | ---- | ------ |
| ಟೋಕಿಯೋ | ಜಪಾನ್ | 2020 | 1690 |
| ಟೋಕಿಯೋ | ಜಪಾನ್ | 2019 | 1874 |
| ಟೋಕಿಯೋ | ಜಪಾನ್ | 2018 | 1445 |
ನಮ್ಮ ಟೇಬಲ್ ಬಗ್ಗೆ ನೀವು ಏನು ಗಮನಿಸುತ್ತೀರಿ? ನೀವು ನಗರದ ಹೆಸರು ಮತ್ತು ದೇಶವನ್ನು ಪುನರಾವರ್ತಿಸುತ್ತಿರುವುದನ್ನು ಗಮನಿಸಬಹುದು. ಇದು ಸಾಕಷ್ಟು ಸಂಗ್ರಹಣೆಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಮತ್ತು ಅನೇಕ ನಕಲುಗಳು ಅಗತ್ಯವಿಲ್ಲ. ಟೋಕಿಯೋಗೆ ನಾವು ಆಸಕ್ತರಾಗಿರುವ ಒಂದು ಹೆಸರು ಮಾತ್ರ ಇದೆ.
ಸರಿ, ಇನ್ನೊಂದು ಪ್ರಯತ್ನ ಮಾಡೋಣ. ಪ್ರತಿ ವರ್ಷದ ಹೊಸ ಕಾಲಮ್‌ಗಳನ್ನು ಸೇರಿಸೋಣ:
| ನಗರ | ದೇಶ | 2018 | 2019 | 2020 |
| -------- | ------------- | ---- | ---- | ---- |
| ಟೋಕಿಯೋ | ಜಪಾನ್ | 1445 | 1874 | 1690 |
| ಅಟ್ಲಾಂಟಾ | ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ | 1779 | 1111 | 1683 |
| ಆಕ್ಲ್ಯಾಂಡ್ | ನ್ಯೂಜಿಲೆಂಡ್ | 1386 | 942 | 1176 |
ಇದು ಸಾಲು ನಕಲಿಸುವಿಕೆಯನ್ನು ತಪ್ಪಿಸುತ್ತದೆ, ಆದರೆ ಇನ್ನಷ್ಟು ಸವಾಲುಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ. ಪ್ರತಿ ಹೊಸ ವರ್ಷ ಬಂದಾಗ ನಮ್ಮ ಟೇಬಲ್ ರಚನೆಯನ್ನು ಬದಲಾಯಿಸಬೇಕಾಗುತ್ತದೆ. ಜೊತೆಗೆ, ನಮ್ಮ ಡೇಟಾ ಹೆಚ್ಚಾದಂತೆ ವರ್ಷಗಳನ್ನು ಕಾಲಮ್‌ಗಳಾಗಿ ಇಡುವುದು ಮೌಲ್ಯಗಳನ್ನು ಪಡೆಯಲು ಮತ್ತು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಕಷ್ಟಕರವಾಗುತ್ತದೆ.
ಇದಕ್ಕಾಗಿ ನಾವು ಹಲವಾರು ಟೇಬಲ್‌ಗಳು ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು ಬೇಕಾಗುತ್ತದೆ. ನಮ್ಮ ಡೇಟಾವನ್ನು ವಿಭಜಿಸುವ ಮೂಲಕ ನಕಲಿಸುವಿಕೆಯನ್ನು ತಪ್ಪಿಸಬಹುದು ಮತ್ತು ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವಲ್ಲಿ ಹೆಚ್ಚು ಲವಚಿಕತೆ ಹೊಂದಬಹುದು.
## ಸಂಬಂಧಗಳ ತತ್ವಗಳು
ನಮ್ಮ ಡೇಟಾಕ್ಕೆ ಮರಳಿ ಹೋಗಿ ನಾವು ಅದನ್ನು ಹೇಗೆ ವಿಭಜಿಸಬೇಕೆಂದು ನಿರ್ಧರಿಸೋಣ. ನಾವು ನಗರಗಳ ಹೆಸರು ಮತ್ತು ದೇಶವನ್ನು ಸಂಗ್ರಹಿಸಲು ಬಯಸುತ್ತೇವೆ, ಆದ್ದರಿಂದ ಇದು ಒಂದು ಟೇಬಲ್‌ನಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ.
| ನಗರ | ದೇಶ |
| -------- | ------------- |
| ಟೋಕಿಯೋ | ಜಪಾನ್ |
| ಅಟ್ಲಾಂಟಾ | ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ |
| ಆಕ್ಲ್ಯಾಂಡ್ | ನ್ಯೂಜಿಲೆಂಡ್ |
ಆದರೆ ಮುಂದಿನ ಟೇಬಲ್ ಸೃಷ್ಟಿಸುವ ಮೊದಲು, ನಾವು ಪ್ರತಿ ನಗರವನ್ನು ಹೇಗೆ ಸೂಚಿಸಬೇಕೆಂದು ತಿಳಿದುಕೊಳ್ಳಬೇಕು. ನಮಗೆ ಒಂದು ಗುರುತು, ID ಅಥವಾ (ತಾಂತ್ರಿಕ ಡೇಟಾಬೇಸ್ ಪದಗಳಲ್ಲಿ) ಪ್ರಾಥಮಿಕ ಕೀ ಬೇಕು. ಪ್ರಾಥಮಿಕ ಕೀ ಒಂದು ಟೇಬಲ್‌ನ ಒಂದು ನಿರ್ದಿಷ್ಟ ಸಾಲನ್ನು ಗುರುತಿಸಲು ಬಳಸುವ ಮೌಲ್ಯ. ಇದು ಸ್ವತಃ ಮೌಲ್ಯ ಆಧಾರಿತವಾಗಿರಬಹುದು (ಉದಾಹರಣೆಗೆ, ನಗರದ ಹೆಸರು ಬಳಸಬಹುದು), ಆದರೆ ಇದು ಬಹುಶಃ ಸಂಖ್ಯೆ ಅಥವಾ ಇತರ ಗುರುತು ಆಗಿರಬೇಕು. ID ಬದಲಾಯಿಸಬಾರದು ಏಕೆಂದರೆ ಅದು ಸಂಬಂಧವನ್ನು ಮುರಿಯುತ್ತದೆ. ಬಹುತೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ ಪ್ರಾಥಮಿಕ ಕೀ ಅಥವಾ ID ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಸೃಷ್ಟಿಸಲ್ಪಡುವ ಸಂಖ್ಯೆ ಆಗಿರುತ್ತದೆ.
> ✅ ಪ್ರಾಥಮಿಕ ಕೀ ಅನ್ನು ಸಾಮಾನ್ಯವಾಗಿ PK ಎಂದು ಸಂಕ್ಷಿಪ್ತ ಮಾಡುತ್ತಾರೆ
### ನಗರಗಳು
| city_id | ನಗರ | ದೇಶ |
| ------- | -------- | ------------- |
| 1 | ಟೋಕಿಯೋ | ಜಪಾನ್ |
| 2 | ಅಟ್ಲಾಂಟಾ | ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ |
| 3 | ಆಕ್ಲ್ಯಾಂಡ್ | ನ್ಯೂಜಿಲೆಂಡ್ |
> ✅ ನೀವು ಈ ಪಾಠದಲ್ಲಿ "id" ಮತ್ತು "ಪ್ರಾಥಮಿಕ ಕೀ" ಪದಗಳನ್ನು ಪರ್ಯಾಯವಾಗಿ ಬಳಸುತ್ತಿರುವುದನ್ನು ಗಮನಿಸುವಿರಿ. ಇಲ್ಲಿ ತತ್ವಗಳು ಡೇಟಾಫ್ರೇಮ್‌ಗಳಿಗೆ ಅನ್ವಯಿಸುತ್ತವೆ, ನೀವು ನಂತರ ಅನ್ವೇಷಿಸುವಿರಿ. ಡೇಟಾಫ್ರೇಮ್‌ಗಳು "ಪ್ರಾಥಮಿಕ ಕೀ" ಪದವನ್ನು ಬಳಸುವುದಿಲ್ಲ, ಆದರೆ ಅವು ಸಹ ಇದೇ ರೀತಿಯಲ್ಲಿ ವರ್ತಿಸುತ್ತವೆ.
ನಮ್ಮ ನಗರಗಳ ಟೇಬಲ್ ಸೃಷ್ಟಿಸಿದ ನಂತರ, ಮಳೆಯ ಪ್ರಮಾಣವನ್ನು ಸಂಗ್ರಹಿಸೋಣ. ನಗರದ ಸಂಪೂರ್ಣ ಮಾಹಿತಿಯನ್ನು ನಕಲಿಸುವ ಬದಲು, ನಾವು ID ಅನ್ನು ಬಳಸಬಹುದು. ಹೊಸ ಟೇಬಲ್‌ಗೆ ಕೂಡ *id* ಕಾಲಮ್ ಇರಬೇಕು, ಏಕೆಂದರೆ ಎಲ್ಲಾ ಟೇಬಲ್‌ಗಳಿಗೆ id ಅಥವಾ ಪ್ರಾಥಮಿಕ ಕೀ ಇರಬೇಕು.
### ಮಳೆಯ ಪ್ರಮಾಣ
| rainfall_id | city_id | ವರ್ಷ | ಪ್ರಮಾಣ |
| ----------- | ------- | ---- | ------ |
| 1 | 1 | 2018 | 1445 |
| 2 | 1 | 2019 | 1874 |
| 3 | 1 | 2020 | 1690 |
| 4 | 2 | 2018 | 1779 |
| 5 | 2 | 2019 | 1111 |
| 6 | 2 | 2020 | 1683 |
| 7 | 3 | 2018 | 1386 |
| 8 | 3 | 2019 | 942 |
| 9 | 3 | 2020 | 1176 |
ಹೊಸ ಸೃಷ್ಟಿಸಿದ **rainfall** ಟೇಬಲ್‌ನೊಳಗಿನ **city_id** ಕಾಲಮ್ ಗಮನಿಸಿ. ಈ ಕಾಲಮ್ **cities** ಟೇಬಲ್‌ನ ID ಗಳನ್ನು ಸೂಚಿಸುವ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿದೆ. ತಾಂತ್ರಿಕ ಸಂಬಂಧಿತ ಡೇಟಾ ಪದಗಳಲ್ಲಿ ಇದನ್ನು **ವಿದೇಶಿ ಕೀ** ಎಂದು ಕರೆಯುತ್ತಾರೆ; ಇದು ಇನ್ನೊಂದು ಟೇಬಲ್‌ನ ಪ್ರಾಥಮಿಕ ಕೀ ಆಗಿದೆ. ನೀವು ಇದನ್ನು ಕೇವಲ ಸೂಚನೆ ಅಥವಾ ಪಾಯಿಂಟರ್ ಎಂದು ಭಾವಿಸಬಹುದು. **city_id** 1 ಟೋಕಿಯೋವನ್ನು ಸೂಚಿಸುತ್ತದೆ.
> [!NOTE]
> ವಿದೇಶಿ ಕೀ ಅನ್ನು ಸಾಮಾನ್ಯವಾಗಿ FK ಎಂದು ಸಂಕ್ಷಿಪ್ತ ಮಾಡುತ್ತಾರೆ
## ಡೇಟಾ ಪಡೆಯುವುದು
ನಮ್ಮ ಡೇಟಾವನ್ನು ಎರಡು ಟೇಬಲ್‌ಗಳಲ್ಲಿ ವಿಭಜಿಸಿರುವಾಗ, ನೀವು ಅದನ್ನು ಹೇಗೆ ಪಡೆಯುವುದು ಎಂದು ಆಶ್ಚರ್ಯಪಡಬಹುದು. ನಾವು MySQL, SQL Server ಅಥವಾ Oracle ಮುಂತಾದ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ ಬಳಸುತ್ತಿದ್ದರೆ, ನಾವು Structured Query Language ಅಥವಾ SQL ಎಂಬ ಭಾಷೆಯನ್ನು ಬಳಸಬಹುದು. SQL (ಕೆಲವೊಮ್ಮೆ ಸೀಕ್ವೆಲ್ ಎಂದು ಉಚ್ಛರಿಸಲಾಗುತ್ತದೆ) ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಡೇಟಾವನ್ನು ಪಡೆಯಲು ಮತ್ತು ಬದಲಾಯಿಸಲು ಬಳಸುವ ಮಾನಕ ಭಾಷೆ.
ಡೇಟಾವನ್ನು ಪಡೆಯಲು ನೀವು `SELECT` ಕಮಾಂಡ್ ಅನ್ನು ಬಳಸುತ್ತೀರಿ. ಮೂಲತಃ, ನೀವು **ಟೇಬಲ್‌ನಿಂದ** ನೀವು ನೋಡಲು ಬಯಸುವ ಕಾಲಮ್‌ಗಳನ್ನು **ಆಯ್ಕೆ** ಮಾಡುತ್ತೀರಿ. ನೀವು ನಗರಗಳ ಹೆಸರುಗಳನ್ನು ಮಾತ್ರ ಪ್ರದರ್ಶಿಸಲು ಬಯಸಿದರೆ, ಕೆಳಗಿನಂತೆ ಬಳಸಬಹುದು:
```sql
SELECT city
FROM cities;
-- Output:
-- Tokyo
-- Atlanta
-- Auckland
```
`SELECT` ನಲ್ಲಿ ನೀವು ಕಾಲಮ್‌ಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡುತ್ತೀರಿ, ಮತ್ತು `FROM` ನಲ್ಲಿ ನೀವು ಟೇಬಲ್‌ಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡುತ್ತೀರಿ.
> [!NOTE]
> SQL ವ್ಯಾಕರಣವು ಕೇಸ್-ಅಸಂವೇದನಶೀಲವಾಗಿದೆ, ಅಂದರೆ `select` ಮತ್ತು `SELECT` ಒಂದೇ ಅರ್ಥ. ಆದರೆ, ನೀವು ಬಳಸುತ್ತಿರುವ ಡೇಟಾಬೇಸ್ ಪ್ರಕಾರ ಕಾಲಮ್‌ಗಳು ಮತ್ತು ಟೇಬಲ್‌ಗಳು ಕೇಸ್ ಸಂವೇದನಶೀಲವಾಗಿರಬಹುದು. ಆದ್ದರಿಂದ, ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ನಲ್ಲಿ ಎಲ್ಲವನ್ನೂ ಕೇಸ್ ಸಂವೇದನಶೀಲವೆಂದು ಪರಿಗಣಿಸುವುದು ಉತ್ತಮ ಅಭ್ಯಾಸ. SQL ಪ್ರಶ್ನೆಗಳನ್ನು ಬರೆಯುವಾಗ ಸಾಮಾನ್ಯವಾಗಿ ಕೀವರ್ಡ್‌ಗಳನ್ನು ಎಲ್ಲಾ ದೊಡ್ಡ ಅಕ್ಷರಗಳಲ್ಲಿ ಬರೆಯುತ್ತಾರೆ.
ಮೇಲಿನ ಪ್ರಶ್ನೆ ಎಲ್ಲಾ ನಗರಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. ನಾವು ನ್ಯೂಜಿಲೆಂಡ್‌ನಲ್ಲಿರುವ ನಗರಗಳನ್ನು ಮಾತ್ರ ಪ್ರದರ್ಶಿಸಲು ಬಯಸಿದರೆ, ನಮಗೆ ಫಿಲ್ಟರ್ ಬೇಕಾಗುತ್ತದೆ. ಇದರ SQL ಕೀವರ್ಡ್ `WHERE`, ಅಂದರೆ "ಯಾವುದಾದರೂ ಸತ್ಯವಾಗಿರುವ ಸ್ಥಳ".
```sql
SELECT city
FROM cities
WHERE country = 'New Zealand';
-- Output:
-- Auckland
```
## ಡೇಟಾ ಜೋಡಣೆ
ಈವರೆಗೆ ನಾವು ಒಂದು ಟೇಬಲ್‌ನಿಂದ ಡೇಟಾವನ್ನು ಪಡೆದಿದ್ದೇವೆ. ಈಗ ನಾವು **cities** ಮತ್ತು **rainfall** ಎರಡೂ ಟೇಬಲ್‌ಗಳಿಂದ ಡೇಟಾವನ್ನು ಸೇರಿಸಬೇಕಾಗಿದೆ. ಇದನ್ನು *ಜೋಡಿಸುವ ಮೂಲಕ* ಮಾಡಲಾಗುತ್ತದೆ. ನೀವು ಎರಡು ಟೇಬಲ್‌ಗಳ ನಡುವೆ ಒಂದು ಸೀಮ್ (ಸೀಮೆ) ಸೃಷ್ಟಿಸಿ, ಪ್ರತಿ ಟೇಬಲ್‌ನ ಕಾಲಮ್‌ಗಳ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿಸುವಿರಿ.
ನಮ್ಮ ಉದಾಹರಣೆಯಲ್ಲಿ, ನಾವು **rainfall** ಟೇಬಲ್‌ನ **city_id** ಕಾಲಮ್ ಅನ್ನು **cities** ಟೇಬಲ್‌ನ **city_id** ಕಾಲಮ್ ಜೊತೆಗೆ ಹೊಂದಿಸುವೆವು. ಇದು ಮಳೆಯ ಪ್ರಮಾಣವನ್ನು ಅದರ ಸಂಬಂಧಿತ ನಗರಕ್ಕೆ ಹೊಂದಿಸುತ್ತದೆ. ನಾವು ಮಾಡುವ ಜೋಡಣೆ ಪ್ರಕಾರ *ಇನ್ನರ್* ಜೋಡಣೆ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ, ಅಂದರೆ ಯಾವುದೇ ಸಾಲುಗಳು ಇನ್ನೊಂದು ಟೇಬಲ್‌ನೊಂದಿಗೆ ಹೊಂದಿಕೆಯಾಗದಿದ್ದರೆ ಅವು ಪ್ರದರ್ಶಿಸಲಾಗುವುದಿಲ್ಲ. ನಮ್ಮ ಪ್ರಕರಣದಲ್ಲಿ ಪ್ರತಿಯೊಂದು ನಗರಕ್ಕೂ ಮಳೆಯ ಪ್ರಮಾಣ ಇದೆ, ಆದ್ದರಿಂದ ಎಲ್ಲವೂ ಪ್ರದರ್ಶಿಸಲಾಗುತ್ತದೆ.
ನಾವು 2019 ರ ಮಳೆಯ ಪ್ರಮಾಣವನ್ನು ಎಲ್ಲಾ ನಗರಗಳಿಗಾಗಿ ಪಡೆಯೋಣ.
ನಾವು ಇದನ್ನು ಹಂತಗಳಲ್ಲಿ ಮಾಡೋಣ. ಮೊದಲ ಹಂತದಲ್ಲಿ, ನಾವು ಜೋಡಣೆಯ ಸೀಮ್‌ಗಾಗಿ ಕಾಲಮ್‌ಗಳನ್ನು ಸೂಚಿಸುವ ಮೂಲಕ ಡೇಟಾವನ್ನು ಜೋಡಿಸುವೆವು - **city_id** ಅನ್ನು ಹೀಗಾಗಿ.
```sql
SELECT cities.city
rainfall.amount
FROM cities
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
```
ನಾವು ಬೇಕಾದ ಎರಡು ಕಾಲಮ್‌ಗಳನ್ನು ಮತ್ತು ಟೇಬಲ್‌ಗಳನ್ನು **city_id** ಮೂಲಕ ಜೋಡಿಸಲು ಬಯಸುವುದನ್ನು ಹೈಲೈಟ್ ಮಾಡಿದ್ದೇವೆ. ಈಗ ನಾವು `WHERE` ಹೇಳಿಕೆಯನ್ನು ಸೇರಿಸಿ 2019 ವರ್ಷವನ್ನು ಮಾತ್ರ ಫಿಲ್ಟರ್ ಮಾಡಬಹುದು.
```sql
SELECT cities.city
rainfall.amount
FROM cities
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
WHERE rainfall.year = 2019
-- Output
-- city | amount
-- -------- | ------
-- Tokyo | 1874
-- Atlanta | 1111
-- Auckland | 942
```
## ಸಾರಾಂಶ
ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು ಮಾಹಿತಿಯನ್ನು ಹಲವಾರು ಟೇಬಲ್‌ಗಳ ನಡುವೆ ವಿಭಜಿಸುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕೃತವಾಗಿವೆ, ನಂತರ ಅವುಗಳನ್ನು ಪ್ರದರ್ಶನ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಗೆ ಮತ್ತೆ ಸೇರಿಸಲಾಗುತ್ತದೆ. ಇದು ಲೆಕ್ಕಾಚಾರಗಳನ್ನು ಮಾಡಲು ಮತ್ತು ಡೇಟಾವನ್ನು ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಸಂಸ್ಕರಿಸಲು ಹೆಚ್ಚಿನ ಲವಚಿಕತೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ. ನೀವು ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ನ ಮೂಲ ತತ್ವಗಳನ್ನು ಮತ್ತು ಎರಡು ಟೇಬಲ್‌ಗಳ ನಡುವೆ ಜೋಡಣೆ ಹೇಗೆ ಮಾಡುವುದು ಎಂಬುದನ್ನು ನೋಡಿದ್ದೀರಿ.
## 🚀 ಸವಾಲು
ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಅನೇಕ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು ಲಭ್ಯವಿವೆ. ನೀವು ಮೇಲಿನ ಕೌಶಲ್ಯಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸಬಹುದು.
## ಪಾಠೋತ್ತರ ಕ್ವಿಜ್
## [ಪಾಠೋತ್ತರ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/9)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
SQL ಮತ್ತು ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ ತತ್ವಗಳ ಅನ್ವೇಷಣೆಯನ್ನು ಮುಂದುವರಿಸಲು [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum) ನಲ್ಲಿ ಹಲವಾರು ಸಂಪನ್ಮೂಲಗಳು ಲಭ್ಯವಿವೆ
- [ಸಂಬಂಧಿತ ಡೇಟಾ ತತ್ವಗಳನ್ನು ವಿವರಿಸಿ](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-77958-bethanycheum)
- [Transact-SQL ಮೂಲಕ ಪ್ರಶ್ನೆಗಳನ್ನು ಪ್ರಾರಂಭಿಸಿ](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-77958-bethanycheum) (Transact-SQL SQL ನ ಒಂದು ಆವೃತ್ತಿ)
- [Microsoft Learn ನಲ್ಲಿ SQL ವಿಷಯ](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-77958-bethanycheum)
## ನಿಯೋಜನೆ
[ವಿಮಾನ ನಿಲ್ದಾಣದ ಡೇಟಾ ಪ್ರದರ್ಶನ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,76 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "25b37acdfb2452917c1aa2e2ca44317a",
"translation_date": "2025-12-19T15:52:02+00:00",
"source_file": "2-Working-With-Data/05-relational-databases/assignment.md",
"language_code": "kn"
}
-->
# ವಿಮಾನ ನಿಲ್ದಾಣದ ಡೇಟಾ ಪ್ರದರ್ಶನ
ನೀವು ವಿಮಾನ ನಿಲ್ದಾಣಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರುವ [ಡೇಟಾಬೇಸ್](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) ಅನ್ನು [SQLite](https://sqlite.org/index.html) ಆಧಾರಿತವಾಗಿ ಒದಗಿಸಲಾಗಿದೆ. ಕೆಳಗಿನಂತೆ ಸ್ಕೀಮಾ ಪ್ರದರ್ಶಿಸಲಾಗಿದೆ. ನೀವು [Visual Studio Code](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum) ನಲ್ಲಿ [SQLite ವಿಸ್ತರಣೆ](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) ಬಳಸಿ ವಿವಿಧ ನಗರಗಳ ವಿಮಾನ ನಿಲ್ದಾಣಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಪ್ರದರ್ಶಿಸುವಿರಿ.
## ಸೂಚನೆಗಳು
ಕಾರ್ಯವನ್ನು ಪ್ರಾರಂಭಿಸಲು, ನೀವು ಕೆಲವು ಹಂತಗಳನ್ನು ಅನುಸರಿಸಬೇಕಾಗುತ್ತದೆ. ನೀವು ಕೆಲವು ಉಪಕರಣಗಳನ್ನು ಸ್ಥಾಪಿಸಿ ಮಾದರಿ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಬೇಕಾಗುತ್ತದೆ.
### ನಿಮ್ಮ ವ್ಯವಸ್ಥೆಯನ್ನು ಸಿದ್ಧಪಡಿಸಿ
ನೀವು Visual Studio Code ಮತ್ತು SQLite ವಿಸ್ತರಣೆಯನ್ನು ಡೇಟಾಬೇಸ್ ಜೊತೆಗೆ ಸಂವಹನ ಮಾಡಲು ಬಳಸಬಹುದು.
1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum) ಗೆ ಹೋಗಿ ಮತ್ತು Visual Studio Code ಅನ್ನು ಸ್ಥಾಪಿಸಲು ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಿ
1. ಮಾರ್ಕೆಟ್‌ಪ್ಲೇಸ್ ಪುಟದಲ್ಲಿ ಸೂಚಿಸಿದಂತೆ [SQLite ವಿಸ್ತರಣೆ](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) ವಿಸ್ತರಣೆಯನ್ನು ಸ್ಥಾಪಿಸಿ
### ಡೇಟಾಬೇಸ್ ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ ಮತ್ತು ತೆರೆಯಿರಿ
ಮುಂದೆ ನೀವು ಡೇಟಾಬೇಸ್ ಅನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ ತೆರೆಯುತ್ತೀರಿ.
1. [GitHub ನಿಂದ ಡೇಟಾಬೇಸ್ ಫೈಲ್ ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) ಮತ್ತು ಅದನ್ನು ಡೈರೆಕ್ಟರಿಯಲ್ಲಿ ಉಳಿಸಿ
1. Visual Studio Code ತೆರೆಯಿರಿ
1. **Ctl-Shift-P** (ಅಥವಾ Mac ನಲ್ಲಿ **Cmd-Shift-P**) ಒತ್ತಿ ಮತ್ತು `SQLite: Open database` ಟೈಪ್ ಮಾಡಿ SQLite ವಿಸ್ತರಣೆಯಲ್ಲಿ ಡೇಟಾಬೇಸ್ ತೆರೆಯಿರಿ
1. **Choose database from file** ಆಯ್ಕೆ ಮಾಡಿ ಮತ್ತು ನೀವು ಹಿಂದಿನ ಹಂತದಲ್ಲಿ ಡೌನ್‌ಲೋಡ್ ಮಾಡಿದ **airports.db** ಫೈಲ್ ತೆರೆಯಿರಿ
1. ಡೇಟಾಬೇಸ್ ತೆರೆಯಲಾದ ನಂತರ (ಸ್ಕ್ರೀನ್‌ನಲ್ಲಿ ಯಾವುದೇ ಅಪ್ಡೇಟ್ ಕಾಣಿಸುವುದಿಲ್ಲ), **Ctl-Shift-P** (ಅಥವಾ Mac ನಲ್ಲಿ **Cmd-Shift-P**) ಒತ್ತಿ ಮತ್ತು `SQLite: New query` ಟೈಪ್ ಮಾಡಿ ಹೊಸ ಕ್ವೇರಿ ವಿಂಡೋವನ್ನು ರಚಿಸಿ
ಒಮ್ಮೆ ತೆರೆಯಾದ ಮೇಲೆ, ಹೊಸ ಕ್ವೇರಿ ವಿಂಡೋವನ್ನು ಡೇಟಾಬೇಸ್ ವಿರುದ್ಧ SQL ಹೇಳಿಕೆಗಳನ್ನು ಚಲಾಯಿಸಲು ಬಳಸಬಹುದು. ನೀವು **Ctl-Shift-Q** (ಅಥವಾ Mac ನಲ್ಲಿ **Cmd-Shift-Q**) ಬಳಸಿ ಡೇಟಾಬೇಸ್ ವಿರುದ್ಧ ಕ್ವೆರಿಗಳನ್ನು ಚಲಾಯಿಸಬಹುದು.
> [!NOTE]
> SQLite ವಿಸ್ತರಣೆಯ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ, ನೀವು [ಡಾಕ್ಯುಮೆಂಟೇಶನ್](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) ಅನ್ನು ಪರಿಶೀಲಿಸಬಹುದು
## ಡೇಟಾಬೇಸ್ ಸ್ಕೀಮಾ
ಡೇಟಾಬೇಸ್ ಸ್ಕೀಮಾ ಎಂದರೆ ಅದರ ಟೇಬಲ್ ವಿನ್ಯಾಸ ಮತ್ತು ರಚನೆ. **airports** ಡೇಟಾಬೇಸ್ ಎರಡು ಟೇಬಲ್‌ಗಳನ್ನು ಹೊಂದಿದೆ, `cities`, ಇದು ಯುನೈಟೆಡ್ ಕಿಂಗ್‌ಡಮ್ ಮತ್ತು ಐರ್ಲೆಂಡ್‌ನ ನಗರಗಳ ಪಟ್ಟಿ ಹೊಂದಿದೆ, ಮತ್ತು `airports`, ಇದು ಎಲ್ಲಾ ವಿಮಾನ ನಿಲ್ದಾಣಗಳ ಪಟ್ಟಿಯನ್ನು ಹೊಂದಿದೆ. ಕೆಲವು ನಗರಗಳಿಗೆ ಬಹು ವಿಮಾನ ನಿಲ್ದಾಣಗಳಿರಬಹುದು, ಆದ್ದರಿಂದ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸಲು ಎರಡು ಟೇಬಲ್‌ಗಳನ್ನು ರಚಿಸಲಾಗಿದೆ. ಈ ವ್ಯಾಯಾಮದಲ್ಲಿ ನೀವು ವಿವಿಧ ನಗರಗಳ ಮಾಹಿತಿಯನ್ನು ಪ್ರದರ್ಶಿಸಲು ಜೋಡಣೆಗಳನ್ನು ಬಳಸುತ್ತೀರಿ.
| ನಗರಗಳು |
| ---------------- |
| id (PK, ಪೂರ್ಣಾಂಕ) |
| city (ಪಠ್ಯ) |
| country (ಪಠ್ಯ) |
| ವಿಮಾನ ನಿಲ್ದಾಣಗಳು |
| -------------------------------- |
| id (PK, ಪೂರ್ಣಾಂಕ) |
| name (ಪಠ್ಯ) |
| code (ಪಠ್ಯ) |
| city_id (FK to id in **Cities**) |
## ಕಾರ್ಯ
ಕೆಳಗಿನ ಮಾಹಿತಿಯನ್ನು ಹಿಂತಿರುಗಿಸಲು ಕ್ವೆರಿಗಳನ್ನು ರಚಿಸಿ:
1. `Cities` ಟೇಬಲ್‌ನಲ್ಲಿನ ಎಲ್ಲಾ ನಗರಗಳ ಹೆಸರುಗಳು
1. `Cities` ಟೇಬಲ್‌ನಲ್ಲಿನ ಐರ್ಲೆಂಡ್‌ನ ಎಲ್ಲಾ ನಗರಗಳು
1. ಎಲ್ಲಾ ವಿಮಾನ ನಿಲ್ದಾಣಗಳ ಹೆಸರುಗಳು ಮತ್ತು ಅವುಗಳ ನಗರ ಮತ್ತು ದೇಶ
1. ಲಂಡನ್, ಯುನೈಟೆಡ್ ಕಿಂಗ್‌ಡಮ್‌ನಲ್ಲಿನ ಎಲ್ಲಾ ವಿಮಾನ ನಿಲ್ದಾಣಗಳು
## ಮೌಲ್ಯಮಾಪನ
| ಅತ್ಯುತ್ತಮ | ಸಮರ್ಪಕ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ |
| --------- | -------- | ----------------- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,160 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "c182e87f9f80be7e7cdffc7b40bbfccf",
"translation_date": "2025-12-19T15:39:41+00:00",
"source_file": "2-Working-With-Data/06-non-relational/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವುದು: ಅಸಂಬಂಧಿತ ಡೇಟಾ
|![ ಸ್ಕೆಚ್‌ನೋಟ್ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ](../../sketchnotes/06-NoSQL.png)|
|:---:|
|ನೋಎಸ್‌ಕ್ಯೂಎಲ್ ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ - _ಸ್ಕೆಚ್ನೋಟ್ [@nitya](https://twitter.com/nitya) ಅವರಿದ_ |
## [ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/10)
ಡೇಟಾ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳಿಗೆ ಮಾತ್ರ ಸೀಮಿತವಲ್ಲ. ಈ ಪಾಠ ಅಸಂಬಂಧಿತ ಡೇಟಾ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ ಮತ್ತು ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗಳು ಮತ್ತು ನೋಎಸ್‌ಕ್ಯೂಎಲ್ ಮೂಲಭೂತಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
## ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗಳು
ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗಳು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ಮತ್ತು ಅನ್ವೇಷಿಸಲು ಜನಪ್ರಿಯ ವಿಧಾನವಾಗಿವೆ ಏಕೆಂದರೆ ಅದನ್ನು ಸೆಟ್‌ಅಪ್ ಮಾಡುವುದು ಮತ್ತು ಪ್ರಾರಂಭಿಸುವುದು ಕಡಿಮೆ ಕೆಲಸವನ್ನು ಅಗತ್ಯವಿರುತ್ತದೆ. ಈ ಪಾಠದಲ್ಲಿ ನೀವು ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ನ ಮೂಲಭೂತ ಘಟಕಗಳನ್ನು, ಜೊತೆಗೆ ಸೂತ್ರಗಳು ಮತ್ತು ಕಾರ್ಯಗಳನ್ನು ಕಲಿಯುತ್ತೀರಿ. ಉದಾಹರಣೆಗಳು ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಕ್ಸೆಲ್‌ನೊಂದಿಗೆ ಚಿತ್ರಿತವಾಗಿವೆ, ಆದರೆ ಬಹುತೇಕ ಭಾಗಗಳು ಮತ್ತು ವಿಷಯಗಳು ಇತರ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಸಾಫ್ಟ್‌ವೇರ್‌ಗಳೊಂದಿಗೆ ಹೋಲಿಕೆಯ ಹೆಸರಿನೊಂದಿಗೆ ಮತ್ತು ಹಂತಗಳೊಂದಿಗೆ ಇರುತ್ತವೆ.
![ಎರಡು ವರ್ಕ್‌ಶೀಟ್‌ಗಳೊಂದಿಗೆ ಖಾಲಿ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಕ್ಸೆಲ್ ವರ್ಕ್‌ಬುಕ್](../../../../translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.kn.png)
ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಒಂದು ಫೈಲ್ ಆಗಿದ್ದು, ಕಂಪ್ಯೂಟರ್, ಸಾಧನ ಅಥವಾ ಕ್ಲೌಡ್ ಆಧಾರಿತ ಫೈಲ್ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಲಭ್ಯವಿರುತ್ತದೆ. ಸಾಫ್ಟ್‌ವೇರ್ ಸ್ವತಃ ಬ್ರೌಸರ್ ಆಧಾರಿತವಾಗಿರಬಹುದು ಅಥವಾ ಕಂಪ್ಯೂಟರ್‌ನಲ್ಲಿ ಸ್ಥಾಪಿಸಬೇಕಾದ ಅಪ್ಲಿಕೇಶನ್ ಆಗಿರಬಹುದು ಅಥವಾ ಆ್ಯಪ್ ಆಗಿ ಡೌನ್‌ಲೋಡ್ ಮಾಡಬಹುದು. ಎಕ್ಸೆಲ್‌ನಲ್ಲಿ ಈ ಫೈಲ್‌ಗಳನ್ನು **ವರ್ಕ್‌ಬುಕ್‌ಗಳು** ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಈ ಪದವನ್ನು ಈ ಪಾಠದ ಉಳಿದ ಭಾಗದಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ.
ಒಂದು ವರ್ಕ್‌ಬುಕ್ ಒಂದು ಅಥವಾ ಹೆಚ್ಚು **ವರ್ಕ್‌ಶೀಟ್‌ಗಳನ್ನು** ಹೊಂದಿರುತ್ತದೆ, ಪ್ರತಿಯೊಂದು ವರ್ಕ್‌ಶೀಟ್ ಟ್ಯಾಬ್‌ಗಳಿಂದ ಲೇಬಲ್ ಮಾಡಲ್ಪಟ್ಟಿರುತ್ತದೆ. ವರ್ಕ್‌ಶೀಟ್ ಒಳಗೆ **ಸೆಲ್‌ಗಳು** ಎಂಬ ಆಯತಾಕಾರಗಳು ಇರುತ್ತವೆ, ಅವುಗಳಲ್ಲಿ ನಿಜವಾದ ಡೇಟಾ ಇರುತ್ತದೆ. ಸೆಲ್ ಒಂದು ಸಾಲು ಮತ್ತು ಕಾಲಮ್‌ನ ಸಂಧಿ, ಕಾಲಮ್‌ಗಳು ಅಕ್ಷರಗಳಿಂದ ಲೇಬಲ್ ಮಾಡಲ್ಪಟ್ಟಿದ್ದು, ಸಾಲುಗಳು ಸಂಖ್ಯೆಯಿಂದ ಲೇಬಲ್ ಮಾಡಲ್ಪಟ್ಟಿವೆ. ಕೆಲವು ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗಳಲ್ಲಿ ಮೊದಲ ಕೆಲವು ಸಾಲುಗಳಲ್ಲಿ ಹೆಡರ್‌ಗಳು ಇರುತ್ತವೆ, ಅವು ಸೆಲ್‌ನಲ್ಲಿನ ಡೇಟಾವನ್ನು ವಿವರಿಸುತ್ತವೆ.
ಈ ಎಕ್ಸೆಲ್ ವರ್ಕ್‌ಬುಕ್‌ನ ಮೂಲಭೂತ ಅಂಶಗಳೊಂದಿಗೆ, ನಾವು [Microsoft Templates](https://templates.office.com/) ನಿಂದ ಇನ್ವೆಂಟರಿ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದ ಉದಾಹರಣೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ನ ಕೆಲವು ಹೆಚ್ಚುವರಿ ಭಾಗಗಳನ್ನು ನೋಡೋಣ.
### ಇನ್ವೆಂಟರಿ ನಿರ್ವಹಣೆ
"InventoryExample" ಎಂಬ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಫೈಲ್ ಒಂದು ಫಾರ್ಮ್ಯಾಟ್ ಮಾಡಲಾದ ಇನ್ವೆಂಟರಿಯಲ್ಲಿನ ಐಟಂಗಳ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಆಗಿದ್ದು, ಮೂರು ವರ್ಕ್‌ಶೀಟ್‌ಗಳನ್ನು ಹೊಂದಿದೆ, ಟ್ಯಾಬ್‌ಗಳು "Inventory List", "Inventory Pick List" ಮತ್ತು "Bin Lookup" ಎಂದು ಲೇಬಲ್ ಮಾಡಲ್ಪಟ್ಟಿವೆ. Inventory List ವರ್ಕ್‌ಶೀಟ್‌ನ ಸಾಲು 4 ಹೆಡರ್ ಆಗಿದ್ದು, ಹೆಡರ್ ಕಾಲಮ್‌ನ ಪ್ರತಿಯೊಂದು ಸೆಲ್‌ನ ಮೌಲ್ಯವನ್ನು ವಿವರಿಸುತ್ತದೆ.
![ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಕ್ಸೆಲ್‌ನ ಉದಾಹರಣೆಯ ಇನ್ವೆಂಟರಿ ಪಟ್ಟಿಯಿಂದ ಹೈಲೈಟ್ ಮಾಡಲಾದ ಸೂತ್ರ](../../../../translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.kn.png)
ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ಒಂದು ಸೆಲ್ ಇತರ ಸೆಲ್‌ಗಳ ಮೌಲ್ಯಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ ತನ್ನ ಮೌಲ್ಯವನ್ನು ಉತ್ಪಾದಿಸಲು. Inventory List ಸ್ಪ್ರೆಡ್ಶೀಟ್ ತನ್ನ ಇನ್ವೆಂಟರಿಯಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಐಟಂನ ವೆಚ್ಚವನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತದೆ, ಆದರೆ ನಾವು ಇನ್ವೆಂಟರಿಯಲ್ಲಿನ ಎಲ್ಲವನ್ನೂ ಮೌಲ್ಯವನ್ನು ತಿಳಿಯಬೇಕಾದರೆ? [**ಸೂತ್ರಗಳು**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) ಸೆಲ್ ಡೇಟಾದ ಮೇಲೆ ಕ್ರಿಯೆಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತವೆ ಮತ್ತು ಈ ಉದಾಹರಣೆಯಲ್ಲಿ ಇನ್ವೆಂಟರಿಯ ವೆಚ್ಚವನ್ನು ಲೆಕ್ಕಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ. ಈ ಸ್ಪ್ರೆಡ್ಶೀಟ್ Inventory Value ಕಾಲಮ್‌ನಲ್ಲಿ ಸೂತ್ರವನ್ನು ಬಳಸಿಕೊಂಡು ಪ್ರತಿಯೊಂದು ಐಟಂನ ಮೌಲ್ಯವನ್ನು ಲೆಕ್ಕಿಸುತ್ತದೆ, ಅದು QTY ಹೆಡರ್ ಅಡಿಯಲ್ಲಿ ಇರುವ ಪ್ರಮಾಣ ಮತ್ತು COST ಹೆಡರ್ ಅಡಿಯಲ್ಲಿ ಇರುವ ವೆಚ್ಚಗಳನ್ನು ಗುಣಿಸುವ ಮೂಲಕ ಲೆಕ್ಕಿಸಲಾಗುತ್ತದೆ. ಸೆಲ್ ಮೇಲೆ ಡಬಲ್ ಕ್ಲಿಕ್ ಮಾಡುವುದು ಅಥವಾ ಹೈಲೈಟ್ ಮಾಡುವುದು ಸೂತ್ರವನ್ನು ತೋರಿಸುತ್ತದೆ. ನೀವು ಗಮನಿಸುವಿರಿ ಸೂತ್ರಗಳು ಸಮಾನ ಚಿಹ್ನೆಯಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತವೆ, ನಂತರ ಲೆಕ್ಕಾಚಾರ ಅಥವಾ ಕಾರ್ಯಾಚರಣೆ ಬರುತ್ತದೆ.
![ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಕ್ಸೆಲ್‌ನ ಉದಾಹರಣೆಯ ಇನ್ವೆಂಟರಿ ಪಟ್ಟಿಯಿಂದ ಹೈಲೈಟ್ ಮಾಡಲಾದ ಕಾರ್ಯ](../../../../translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.kn.png)
ನಾವು ಇನ್ನೊಂದು ಸೂತ್ರವನ್ನು ಬಳಸಿಕೊಂಡು Inventory Value ನ ಎಲ್ಲಾ ಮೌಲ್ಯಗಳನ್ನು ಸೇರಿಸಿ ಒಟ್ಟು ಮೌಲ್ಯವನ್ನು ಪಡೆಯಬಹುದು. ಇದನ್ನು ಪ್ರತಿ ಸೆಲ್ ಸೇರಿಸುವ ಮೂಲಕ ಲೆಕ್ಕಿಸಬಹುದು, ಆದರೆ ಅದು ಕಷ್ಟಕರ ಕೆಲಸವಾಗಬಹುದು. ಎಕ್ಸೆಲ್ [**ಕಾರ್ಯಗಳು**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89) ಹೊಂದಿದೆ, ಅಥವಾ ಪೂರ್ವನಿರ್ಧರಿತ ಸೂತ್ರಗಳು, ಸೆಲ್ ಮೌಲ್ಯಗಳ ಮೇಲೆ ಲೆಕ್ಕಾಚಾರಗಳನ್ನು ನಿರ್ವಹಿಸಲು. ಕಾರ್ಯಗಳಿಗೆ ಆರ್ಗ್ಯುಮೆಂಟ್‌ಗಳು ಅಗತ್ಯವಿರುತ್ತವೆ, ಅವು ಲೆಕ್ಕಾಚಾರಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಅಗತ್ಯವಿರುವ ಮೌಲ್ಯಗಳು. ಕಾರ್ಯಗಳಿಗೆ ಒಂದುಕ್ಕಿಂತ ಹೆಚ್ಚು ಆರ್ಗ್ಯುಮೆಂಟ್‌ಗಳು ಬೇಕಾದಾಗ, ಅವುಗಳನ್ನು ನಿರ್ದಿಷ್ಟ ಕ್ರಮದಲ್ಲಿ ಪಟ್ಟಿ ಮಾಡಬೇಕು ಇಲ್ಲದಿದ್ದರೆ ಕಾರ್ಯ ಸರಿಯಾದ ಮೌಲ್ಯವನ್ನು ಲೆಕ್ಕಿಸದು. ಈ ಉದಾಹರಣೆಯಲ್ಲಿ SUM ಕಾರ್ಯವನ್ನು ಬಳಸಲಾಗಿದೆ, ಮತ್ತು Inventory Value ನ ಮೌಲ್ಯಗಳನ್ನು ಆರ್ಗ್ಯುಮೆಂಟ್ ಆಗಿ ಬಳಸಿಕೊಂಡು ಸಾಲು 3, ಕಾಲಮ್ B (B3 ಎಂದು ಕೂಡ ಕರೆಯಲಾಗುತ್ತದೆ) ಅಡಿಯಲ್ಲಿ ಒಟ್ಟು ಮೌಲ್ಯವನ್ನು ಲೆಕ್ಕಿಸುತ್ತದೆ.
## ನೋಎಸ್‌ಕ್ಯೂಎಲ್
ನೋಎಸ್‌ಕ್ಯೂಎಲ್ ಅಸಂಬಂಧಿತ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ವಿವಿಧ ವಿಧಾನಗಳಿಗೆ ಒಂದು ಛತ್ರಪಟ ಪದವಾಗಿದೆ ಮತ್ತು ಇದನ್ನು "ನಾನ್-ಎಸ್‌ಕ್ಯೂಎಲ್", "ನಾನ್-ರಿಲೇಶನಲ್" ಅಥವಾ "ನಾಟ್ ಓನ್ಲಿ ಎಸ್‌ಕ್ಯೂಎಲ್" ಎಂದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು. ಈ ರೀತಿಯ ಡೇಟಾಬೇಸ್ ವ್ಯವಸ್ಥೆಗಳನ್ನು 4 ವಿಧಗಳಲ್ಲಿ ವರ್ಗೀಕರಿಸಬಹುದು.
![ನಾಲ್ಕು ವಿಭಿನ್ನ ಸಂಖ್ಯಾತ್ಮಕ ಕೀಲಿಗಳನ್ನು ಹೊಂದಿರುವ ಕೀ-ಮೌಲ್ಯ ಡೇಟಾ ಸ್ಟೋರ್‌ನ ಗ್ರಾಫಿಕಲ್ ಪ್ರತಿನಿಧಾನ](../../../../translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.kn.png)
> ಮೂಲ [ಮಿಚಾಲ್ ಬಿಯಾಲೆಕಿ ಬ್ಲಾಗ್](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/)
[ಕೀ-ಮೌಲ್ಯ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) ಡೇಟಾಬೇಸ್‌ಗಳು ವಿಶಿಷ್ಟ ಕೀಲಿಗಳನ್ನು ಜೋಡಿಸುತ್ತವೆ, ಅವು ಮೌಲ್ಯಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ವಿಶಿಷ್ಟ ಗುರುತಿಸುವಿಕೆ. ಈ ಜೋಡಿಗಳು [ಹ್ಯಾಶ್ ಟೇಬಲ್](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) ಬಳಸಿ ಸೂಕ್ತ ಹ್ಯಾಶಿಂಗ್ ಕಾರ್ಯಾಚರಣೆಯೊಂದಿಗೆ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತವೆ.
![ಜನರು, ಅವರ ಆಸಕ್ತಿಗಳು ಮತ್ತು ಸ್ಥಳಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳನ್ನು ತೋರಿಸುವ ಗ್ರಾಫ್ ಡೇಟಾ ಸ್ಟೋರ್‌ನ ಗ್ರಾಫಿಕಲ್ ಪ್ರತಿನಿಧಾನ](../../../../translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.kn.png)
> ಮೂಲ [ಮೈಕ್ರೋಸಾಫ್ಟ್](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example)
[ಗ್ರಾಫ್](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) ಡೇಟಾಬೇಸ್‌ಗಳು ಡೇಟಾದಲ್ಲಿನ ಸಂಬಂಧಗಳನ್ನು ವರ್ಣಿಸುತ್ತವೆ ಮತ್ತು ನೋಡ್‌ಗಳು ಮತ್ತು ಎಡ್ಜ್‌ಗಳ ಸಂಗ್ರಹವಾಗಿ ಪ್ರತಿನಿಧಿಸಲಾಗುತ್ತವೆ. ನೋಡ್ ಒಂದು ಘಟಕವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಅದು ನಿಜಜೀವನದಲ್ಲಿ ಇರುವ ಏನಾದರೂ, ಉದಾಹರಣೆಗೆ ವಿದ್ಯಾರ್ಥಿ ಅಥವಾ ಬ್ಯಾಂಕ್ ಸ್ಟೇಟ್ಮೆಂಟ್. ಎಡ್ಜ್‌ಗಳು ಎರಡು ಘಟಕಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ. ಪ್ರತಿಯೊಂದು ನೋಡ್ ಮತ್ತು ಎಡ್ಜ್‌ಗಳಿಗೆ ಗುಣಲಕ್ಷಣಗಳಿವೆ, ಅವು ಪ್ರತಿ ನೋಡ್ ಮತ್ತು ಎಡ್ಜ್ ಬಗ್ಗೆ ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸುತ್ತವೆ.
![ಐಡೆಂಟಿಟಿ ಮತ್ತು ಸಂಪರ್ಕ ಮಾಹಿತಿ ಎಂಬ ಎರಡು ಕಾಲಮ್ ಕುಟುಂಬಗಳನ್ನು ಹೊಂದಿರುವ ಗ್ರಾಹಕ ಡೇಟಾಬೇಸ್ ಅನ್ನು ತೋರಿಸುವ ಕಾಲಮ್ನರ್ ಡೇಟಾ ಸ್ಟೋರ್‌ನ ಗ್ರಾಫಿಕಲ್ ಪ್ರತಿನಿಧಾನ](../../../../translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.kn.png)
[ಕಾಲಮ್ನರ್](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) ಡೇಟಾ ಸ್ಟೋರ್‌ಗಳು ಡೇಟಾವನ್ನು ಕಾಲಮ್‌ಗಳು ಮತ್ತು ಸಾಲುಗಳಾಗಿ ಸಂಘಟಿಸುತ್ತವೆ relational data structure ಹಾಗೆ, ಆದರೆ ಪ್ರತಿಯೊಂದು ಕಾಲಮ್ ಅನ್ನು ಕಾಲಮ್ ಕುಟುಂಬ ಎಂದು ಕರೆಯುವ ಗುಂಪುಗಳಾಗಿ ವಿಭಜಿಸಲಾಗುತ್ತದೆ, ಅಲ್ಲಿ ಒಂದು ಕಾಲಮ್ ಅಡಿಯಲ್ಲಿ ಇರುವ ಎಲ್ಲಾ ಡೇಟಾ ಸಂಬಂಧಿತವಾಗಿದ್ದು, ಒಂದು ಘಟಕದಲ್ಲಿ ಪಡೆಯಬಹುದು ಮತ್ತು ಬದಲಾಯಿಸಬಹುದು.
### ಅಜೂರ್ ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಜೊತೆಗೆ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾ ಸ್ಟೋರ್‌ಗಳು
[ಡಾಕ್ಯುಮೆಂಟ್](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) ಡೇಟಾ ಸ್ಟೋರ್‌ಗಳು ಕೀ-ಮೌಲ್ಯ ಡೇಟಾ ಸ್ಟೋರ್‌ನ ಕಲ್ಪನೆ ಮೇಲೆ ನಿರ್ಮಿತವಾಗಿದ್ದು, ಫೀಲ್ಡ್‌ಗಳು ಮತ್ತು ವಸ್ತುಗಳ ಸರಣಿಯಿಂದ ಕೂಡಿವೆ. ಈ ವಿಭಾಗದಲ್ಲಿ ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್‌ನೊಂದಿಗೆ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾಬೇಸ್‌ಗಳನ್ನು ಅನ್ವೇಷಿಸಲಾಗುತ್ತದೆ.
ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಡೇಟಾಬೇಸ್ "ನಾಟ್ ಓನ್ಲಿ SQL" ವ್ಯಾಖ್ಯಾನಕ್ಕೆ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ, ಅಲ್ಲಿ ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾಬೇಸ್ ಡೇಟಾವನ್ನು ಪ್ರಶ್ನಿಸಲು SQL ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. [ಹಿಂದಿನ ಪಾಠ](../05-relational-databases/README.md) SQL ಭಾಷೆಯ ಮೂಲಭೂತಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಮತ್ತು ನಾವು ಕೆಲವು ಅದೇ ಪ್ರಶ್ನೆಗಳನ್ನು ಇಲ್ಲಿ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾಬೇಸ್‌ಗೆ ಅನ್ವಯಿಸಬಹುದು. ನಾವು ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್ ಅನ್ನು ಬಳಸಲಿದ್ದೇವೆ, ಇದು ಕಂಪ್ಯೂಟರ್‌ನಲ್ಲಿ ಸ್ಥಳೀಯವಾಗಿ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾಬೇಸ್ ರಚಿಸಲು ಮತ್ತು ಅನ್ವೇಷಿಸಲು ಅನುಮತಿಸುತ್ತದೆ. ಎಮ್ಯುಲೇಟರ್ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ [ಇಲ್ಲಿ](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21) ಓದಿ.
ಡಾಕ್ಯುಮೆಂಟ್ ಫೀಲ್ಡ್‌ಗಳು ಮತ್ತು ವಸ್ತು ಮೌಲ್ಯಗಳ ಸಂಗ್ರಹವಾಗಿದ್ದು, ಫೀಲ್ಡ್‌ಗಳು ವಸ್ತು ಮೌಲ್ಯವು ಏನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಎಂದು ವಿವರಿಸುತ್ತವೆ. ಕೆಳಗಿನ ಉದಾಹರಣೆ ಒಂದು ಡಾಕ್ಯುಮೆಂಟ್.
```json
{
"firstname": "Eva",
"age": 44,
"id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
"_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
"_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
"_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
"_attachments": "attachments/",
"_ts": 1630544034
}
```
ಈ ಡಾಕ್ಯುಮೆಂಟ್‌ನ ಆಸಕ್ತಿಯ ಫೀಲ್ಡ್‌ಗಳು: `firstname`, `id`, ಮತ್ತು `age`. ಉಳಿದ ಫೀಲ್ಡ್‌ಗಳು ಅಂಡರ್ಸ್ಕೋರ್‌ಗಳೊಂದಿಗೆ ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಮೂಲಕ ರಚಿಸಲ್ಪಟ್ಟಿವೆ.
#### ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್‌ನೊಂದಿಗೆ ಡೇಟಾ ಅನ್ವೇಷಣೆ
ನೀವು ಎಮ್ಯುಲೇಟರ್ ಅನ್ನು [ವಿಂಡೋಸ್‌ಗಾಗಿ ಇಲ್ಲಿ ಡೌನ್‌ಲೋಡ್ ಮತ್ತು ಸ್ಥಾಪಿಸಬಹುದು](https://aka.ms/cosmosdb-emulator). macOS ಮತ್ತು ಲಿನಕ್ಸ್ಗಾಗಿ ಎಮ್ಯುಲೇಟರ್ ಅನ್ನು ಹೇಗೆ ಚಾಲನೆ ಮಾಡುವುದು ಎಂಬ ಆಯ್ಕೆಗಳಿಗೆ ಈ [ದಾಖಲೆ](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) ನೋಡಿ.
ಎಮ್ಯುಲೇಟರ್ ಬ್ರೌಸರ್ ವಿಂಡೋವನ್ನು ಪ್ರಾರಂಭಿಸುತ್ತದೆ, ಅಲ್ಲಿ ಎಕ್ಸ್‌ಪ್ಲೋರರ್ ವೀಕ್ಷಣೆ ನಿಮಗೆ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಅನ್ವೇಷಿಸಲು ಅನುಮತಿಸುತ್ತದೆ.
![ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್‌ನ ಎಕ್ಸ್‌ಪ್ಲೋರರ್ ವೀಕ್ಷಣೆ](../../../../translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.kn.png)
ನೀವು ಅನುಸರಿಸುತ್ತಿದ್ದರೆ, "Start with Sample" ಕ್ಲಿಕ್ ಮಾಡಿ SampleDB ಎಂಬ ಮಾದರಿ ಡೇಟಾಬೇಸ್ ರಚಿಸಿ. Sample DB ಅನ್ನು ವಿಸ್ತರಿಸಿದರೆ, `Persons` ಎಂಬ ಕಂಟೈನರ್ ಕಂಡುಬರುತ್ತದೆ, ಕಂಟೈನರ್ ಐಟಂಗಳ ಸಂಗ್ರಹವನ್ನು ಹೊಂದಿದೆ, ಅವು ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು. ನೀವು `Items` ಅಡಿಯಲ್ಲಿ ನಾಲ್ಕು ವೈಯಕ್ತಿಕ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಅನ್ವೇಷಿಸಬಹುದು.
![ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್‌ನಲ್ಲಿ ಮಾದರಿ ಡೇಟಾ ಅನ್ವೇಷಣೆ](../../../../translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.kn.png)
#### ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್‌ನೊಂದಿಗೆ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾ ಪ್ರಶ್ನಿಸುವುದು
ನಾವು ಹೊಸ SQL Query ಬಟನ್ (ಎಡದಿಂದ ಎರಡನೇ ಬಟನ್) ಕ್ಲಿಕ್ ಮಾಡಿ ಮಾದರಿ ಡೇಟಾವನ್ನು ಪ್ರಶ್ನಿಸಬಹುದು.
`SELECT * FROM c` ಕಂಟೈನರ್‌ನಲ್ಲಿನ ಎಲ್ಲಾ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ. ನಾವು ಒಂದು where ಕ್ಲಾಜ್ ಸೇರಿಸಿ 40 ಕ್ಕಿಂತ ಕಡಿಮೆ ವಯಸ್ಸಿನವರನ್ನು ಹುಡುಕೋಣ.
`SELECT * FROM c where c.age < 40`
![ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಎಮ್ಯುಲೇಟರ್‌ನಲ್ಲಿ SELECT ಪ್ರಶ್ನೆಯನ್ನು ನಡೆಸುವುದು, ವಯಸ್ಸು 40 ಕ್ಕಿಂತ ಕಡಿಮೆ ಇರುವ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಹುಡುಕುವುದು](../../../../translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.kn.png)
ಪ್ರಶ್ನೆ ಎರಡು ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ, ಪ್ರತಿ ಡಾಕ್ಯುಮೆಂಟ್‌ನ ವಯಸ್ಸು ಮೌಲ್ಯ 40 ಕ್ಕಿಂತ ಕಡಿಮೆ ಇದೆ.
#### JSON ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು
ನೀವು ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್ ಆಬ್ಜೆಕ್ಟ್ ನೋಟೇಶನ್ (JSON) ಗೆ ಪರಿಚಿತರಾಗಿದ್ದರೆ, ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು JSON ಗೆ ಹೋಲುತ್ತವೆ ಎಂದು ಗಮನಿಸುವಿರಿ. ಈ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿ `PersonsData.json` ಫೈಲ್ ಇದೆ, ಅದನ್ನು ನೀವು ಎಮ್ಯುಲೇಟರ್‌ನ Persons ಕಂಟೈನರ್‌ಗೆ `Upload Item` ಬಟನ್ ಮೂಲಕ ಅಪ್‌ಲೋಡ್ ಮಾಡಬಹುದು.
ಬಹುತೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ, JSON ಡೇಟಾವನ್ನು ಹಿಂತಿರುಗಿಸುವ API ಗಳು ನೇರವಾಗಿ ಡಾಕ್ಯುಮೆಂಟ್ ಡೇಟಾಬೇಸ್‌ಗಳಲ್ಲಿ ವರ್ಗಾಯಿಸಬಹುದು ಮತ್ತು ಸಂಗ್ರಹಿಸಬಹುದು. ಕೆಳಗಿನ ಮತ್ತೊಂದು ಡಾಕ್ಯುಮೆಂಟ್, ಇದು ಮೈಕ್ರೋಸಾಫ್ಟ್ ಟ್ವಿಟ್ಟರ್ ಖಾತೆಯಿಂದ ಪಡೆದ ಟ್ವೀಟ್‌ಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಅದು ಟ್ವಿಟ್ಟರ್ API ಬಳಸಿ ಪಡೆದ ನಂತರ ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಗೆ ಸೇರಿಸಲಾಗಿದೆ.
```json
{
"created_at": "2021-08-31T19:03:01.000Z",
"id": "1432780985872142341",
"text": "Blank slate. Like this tweet if youve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
"_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
"_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
"_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
"_attachments": "attachments/",
"_ts": 1630537000
```
ಈ ಡಾಕ್ಯುಮೆಂಟ್‌ನ ಆಸಕ್ತಿಯ ಫೀಲ್ಡ್‌ಗಳು: `created_at`, `id`, ಮತ್ತು `text`.
## 🚀 ಸವಾಲು
`TwitterData.json` ಫೈಲ್ ಇದೆ, ಅದನ್ನು ನೀವು SampleDB ಡೇಟಾಬೇಸ್‌ಗೆ ಅಪ್‌ಲೋಡ್ ಮಾಡಬಹುದು. ಅದನ್ನು ಬೇರೆ ಕಂಟೈನರ್‌ಗೆ ಸೇರಿಸುವುದು ಶಿಫಾರಸು ಮಾಡಲಾಗಿದೆ. ಇದನ್ನು ಈ ರೀತಿಯಲ್ಲಿ ಮಾಡಬಹುದು:
1. ಮೇಲ್ಭಾಗದ ಬಲಭಾಗದಲ್ಲಿ ಹೊಸ ಕಂಟೈನರ್ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ
1. ಇExisting ಡೇಟಾಬೇಸ್ (SampleDB) ಆಯ್ಕೆ ಮಾಡಿ, ಕಂಟೈನರ್ ಐಡಿ ರಚಿಸಿ
1. ಪಾರ್ಟಿಷನ್ ಕೀ ಅನ್ನು `/id` ಗೆ ಸೆಟ್ ಮಾಡಿ
1. OK ಕ್ಲಿಕ್ ಮಾಡಿ (ಈ ವೀಕ್ಷಣೆಯಲ್ಲಿ ಉಳಿದ ಮಾಹಿತಿಯನ್ನು ನಿರ್ಲಕ್ಷಿಸಬಹುದು ಏಕೆಂದರೆ ಇದು ನಿಮ್ಮ ಯಂತ್ರದಲ್ಲಿ ಸ್ಥಳೀಯವಾಗಿ ಚಲಿಸುವ ಸಣ್ಣ ಡೇಟಾಸೆಟ್)
1. ನಿಮ್ಮ ಹೊಸ ಕಂಟೈನರ್ ತೆರೆಯಿರಿ ಮತ್ತು `Upload Item` ಬಟನ್ ಬಳಸಿ Twitter Data ಫೈಲ್ ಅಪ್‌ಲೋಡ್ ಮಾಡಿ
ಮೈಕ್ರೋಸಾಫ್ಟ್ ಎಂಬ ಪದವು `text` ಫೀಲ್ಡ್‌ನಲ್ಲಿ ಇರುವ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಹುಡುಕಲು ಕೆಲವು SELECT ಪ್ರಶ್ನೆಗಳನ್ನು ನಡೆಸಿ. ಸೂಚನೆ: [LIKE ಕೀವರ್ಡ್](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) ಬಳಸಿ ಪ್ರಯತ್ನಿಸಿ.
## [ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/11)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
- ಈ ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ಗೆ ಕೆಲವು ಹೆಚ್ಚುವರಿ ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಮತ್ತು ವೈಶಿಷ್ಟ್ಯಗಳು ಸೇರಿಸಲಾಗಿದೆ, ಈ ಪಾಠದಲ್ಲಿ ಅವುಗಳನ್ನು ಒಳಗೊಂಡಿಲ್ಲ. ನೀವು ಹೆಚ್ಚಿನದನ್ನು ಕಲಿಯಲು ಆಸಕ್ತರಾಗಿದ್ದರೆ ಮೈಕ್ರೋಸಾಫ್ಟ್ [ವಿಸ್ತೃತ ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ಮತ್ತು ವೀಡಿಯೋಗಳ ಗ್ರಂಥಾಲಯ](https://support.microsoft.com/excel) ಹೊಂದಿದೆ.
- ಈ ವಾಸ್ತುಶಿಲ್ಪ ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ಅಸಂಬಂಧಿತ ಡೇಟಾದ ವಿವಿಧ ವಿಧಗಳ ಲಕ್ಷಣಗಳನ್ನು ವಿವರಿಸುತ್ತದೆ: [ಅಸಂಬಂಧಿತ ಡೇಟಾ ಮತ್ತು ನೋಎಸ್‌ಕ್ಯೂಎಲ್](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data)
- ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಒಂದು ಕ್ಲೌಡ್ ಆಧಾರಿತ ಅಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್ ಆಗಿದ್ದು, ಈ ಪಾಠದಲ್ಲಿ ಉಲ್ಲೇಖಿಸಲಾದ ವಿವಿಧ ನೋಎಸ್‌ಕ್ಯೂಎಲ್ ವಿಧಗಳನ್ನು ಸಂಗ್ರಹಿಸಬಹುದು. ಈ ವಿಧಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚಿನದನ್ನು ಈ [ಕೋಸ್ಮೋಸ್ ಡಿಬಿ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಲರ್ನ್ ಮೋಡ್ಯೂಲ್](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/) ನಲ್ಲಿ ತಿಳಿಯಿರಿ.
## ನಿಯೋಜನೆ
[Soda Profits](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,35 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "f824bfdb8b12d33293913f76f5c787c5",
"translation_date": "2025-12-19T15:41:16+00:00",
"source_file": "2-Working-With-Data/06-non-relational/assignment.md",
"language_code": "kn"
}
-->
# ಸೋಡಾ ಲಾಭಗಳು
## ಸೂಚನೆಗಳು
[Coca Cola Co ಸ್ಪ್ರೆಡ್ಶೀಟ್](../../../../2-Working-With-Data/06-non-relational/CocaColaCo.xlsx) ಕೆಲವು ಲೆಕ್ಕಾಚಾರಗಳನ್ನು ಹೊಂದಿಲ್ಲ. ನಿಮ್ಮ ಕಾರ್ಯವೆಂದರೆ:
1. FY '15, '16, '17, ಮತ್ತು '18 ರ ಗ್ರಾಸ್ ಲಾಭಗಳನ್ನು ಲೆಕ್ಕಹಾಕಿ
- ಗ್ರಾಸ್ ಲಾಭ = ನೆಟ್ ಆಪರೇಟಿಂಗ್ ಆದಾಯಗಳು - ಮಾರಾಟದ ಸರಕಿನ ವೆಚ್ಚ
1. ಎಲ್ಲಾ ಗ್ರಾಸ್ ಲಾಭಗಳ ಸರಾಸರಿಯನ್ನು ಲೆಕ್ಕಹಾಕಿ. ಇದನ್ನು ಫಂಕ್ಷನ್ ಬಳಸಿ ಮಾಡಲು ಪ್ರಯತ್ನಿಸಿ.
- ಸರಾಸರಿ = ಗ್ರಾಸ್ ಲಾಭಗಳ ಮೊತ್ತವನ್ನು ಹಣಕಾಸು ವರ್ಷಗಳ ಸಂಖ್ಯೆಯಿಂದ (10) ಭಾಗಿಸಿ
- [AVERAGE ಫಂಕ್ಷನ್](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) ಕುರಿತು ಡಾಕ್ಯುಮೆಂಟೇಶನ್
1. ಇದು ಎಕ್ಸೆಲ್ ಫೈಲ್ ಆಗಿದೆ, ಆದರೆ ಯಾವುದೇ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ವೇದಿಕೆಯಲ್ಲಿ ಸಂಪಾದನೀಯವಾಗಿರಬೇಕು
[ಡೇಟಾ ಮೂಲ ಕ್ರೆಡಿಟ್ Yiyi Wang ಗೆ](https://www.kaggle.com/yiyiwang0826/cocacola-excel)
## ರೂಬ್ರಿಕ್
ಉದಾಹರಣೀಯ | ತಕ್ಕಮಟ್ಟಿಗೆ | ಸುಧಾರಣೆ ಅಗತ್ಯ
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,295 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "7bfec050f4717dcc2dfd028aca9d21f3",
"translation_date": "2025-12-19T15:34:55+00:00",
"source_file": "2-Working-With-Data/07-python/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಜೊತೆ ಕೆಲಸ ಮಾಡುವುದು: ಪೈಥಾನ್ ಮತ್ತು ಪಾಂಡಾಸ್ ಲೈಬ್ರರಿ
| ![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/07-WorkWithPython.png) |
| :-------------------------------------------------------------------------------------------------------: |
| ಪೈಥಾನ್ ಜೊತೆ ಕೆಲಸ ಮಾಡುವುದು - _[@nitya](https://twitter.com/nitya) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್_ |
[![ಪರಿಚಯ ವೀಡಿಯೋ](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.kn.png)](https://youtu.be/dZjWOGbsN4Y)
ಡೇಟಾಬೇಸ್‌ಗಳು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ಮತ್ತು ಕ್ವೇರಿ ಭಾಷೆಗಳನ್ನು ಬಳಸಿ ಅವುಗಳನ್ನು ಪ್ರಶ್ನಿಸಲು ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿಯಾದ ಮಾರ್ಗಗಳನ್ನು ನೀಡುತ್ತವೆ, ಆದರೆ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಅತ್ಯಂತ ಲವಚಿಕ ಮಾರ್ಗವೆಂದರೆ ನಿಮ್ಮದೇ ಪ್ರೋಗ್ರಾಂ ಬರೆಯುವುದು. ಬಹುಶಃ ಬಹಳ ಸಂದರ್ಭಗಳಲ್ಲಿ ಡೇಟಾಬೇಸ್ ಕ್ವೇರಿ ಮಾಡುವುದು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿರುತ್ತದೆ. ಆದರೆ ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ಹೆಚ್ಚು ಸಂಕೀರ್ಣ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಿಕೆ ಅಗತ್ಯವಿದ್ದಾಗ, ಅದನ್ನು SQL ಬಳಸಿ ಸುಲಭವಾಗಿ ಮಾಡಲಾಗುವುದಿಲ್ಲ.
ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಿಕೆ ಯಾವುದೇ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಯಲ್ಲಿ ಮಾಡಬಹುದು, ಆದರೆ ಡೇಟಾ ಜೊತೆ ಕೆಲಸ ಮಾಡಲು ಕೆಲವು ಭಾಷೆಗಳು ಹೆಚ್ಚಿನ ಮಟ್ಟದಲ್ಲಿವೆ. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಕೆಳಗಿನ ಭಾಷೆಗಳಲ್ಲೊಂದು ಆಯ್ಕೆಮಾಡುತ್ತಾರೆ:
* **[Python](https://www.python.org/)**, ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ, ಸರಳತೆಯಿಂದಾಗಿ ಆರಂಭಿಕರಿಗೆ ಅತ್ಯುತ್ತಮ ಆಯ್ಕೆಯಾಗಿ ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ. ಪೈಥಾನ್‌ನಲ್ಲಿ ಅನೇಕ ಹೆಚ್ಚುವರಿ ಲೈಬ್ರರಿಗಳು ಇವೆ, ಉದಾಹರಣೆಗೆ ZIP ಆರ್ಕೈವ್‌ನಿಂದ ಡೇಟಾ ಹೊರತೆಗೆಯುವುದು ಅಥವಾ ಚಿತ್ರವನ್ನು ಗ್ರೇಸ್ಕೇಲ್‌ಗೆ ಪರಿವರ್ತಿಸುವುದು. ಡೇಟಾ ವಿಜ್ಞಾನಕ್ಕಿಂತ ಹೊರತು, ಪೈಥಾನ್ ವೆಬ್ ಅಭಿವೃದ್ಧಿಗೆ ಸಹ ಬಳಸಲಾಗುತ್ತದೆ.
* **[R](https://www.r-project.org/)** ಸಾಂಖ್ಯಿಕ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಿಕೆಗೆ ವಿನ್ಯಾಸಗೊಳಿಸಿದ ಪರಂಪರাগত ಉಪಕರಣ. ಇದರಲ್ಲಿ ದೊಡ್ಡ ಲೈಬ್ರರಿ ಸಂಗ್ರಹ (CRAN) ಇದೆ, ಇದು ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಿಕೆಗೆ ಉತ್ತಮ ಆಯ್ಕೆ. ಆದರೆ R ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ ಅಲ್ಲ ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನ ಕ್ಷೇತ್ರದ ಹೊರಗೆ ಕಡಿಮೆ ಬಳಕೆಯಾಗುತ್ತದೆ.
* **[Julia](https://julialang.org/)** ಡೇಟಾ ವಿಜ್ಞಾನಕ್ಕಾಗಿ ವಿಶೇಷವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾದ ಮತ್ತೊಂದು ಭಾಷೆ. ಇದು ಪೈಥಾನ್‌ಗಿಂತ ಉತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನೀಡಲು ಉದ್ದೇಶಿಸಲಾಗಿದೆ, ವಿಜ್ಞಾನಾತ್ಮಕ ಪ್ರಯೋಗಗಳಿಗೆ ಅದ್ಭುತ ಸಾಧನ.
ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ಸರಳ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಿಕೆಗೆ ಪೈಥಾನ್ ಬಳಕೆಯ ಮೇಲೆ ಗಮನಹರಿಸುವೆವು. ಭಾಷೆಯ ಮೂಲಭೂತ ಪರಿಚಯವನ್ನು ನಾವು ಊಹಿಸುವೆವು. ಪೈಥಾನ್‌ನ ಗಾಢವಾದ ಪ್ರವಾಸಕ್ಕಾಗಿ, ನೀವು ಕೆಳಗಿನ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನೋಡಿ:
* [ಟರ್ಟಲ್ ಗ್ರಾಫಿಕ್ಸ್ ಮತ್ತು ಫ್ರ್ಯಾಕ್ಟಲ್ಸ್ ಜೊತೆಗೆ ಪೈಥಾನ್ ಕಲಿಯಿರಿ](https://github.com/shwars/pycourse) - GitHub ಆಧಾರಿತ ಪೈಥಾನ್ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ತ್ವರಿತ ಪರಿಚಯ ಕೋರ್ಸ್
* [ಪೈಥಾನ್‌ನೊಂದಿಗೆ ನಿಮ್ಮ ಮೊದಲ ಹೆಜ್ಜೆಗಳು](https://docs.microsoft.com/en-us/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) - [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum) ನಲ್ಲಿ ಕಲಿಕೆ ಮಾರ್ಗ
ಡೇಟಾ ಅನೇಕ ರೂಪಗಳಲ್ಲಿ ಬರುತ್ತದೆ. ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ಮೂರು ರೂಪಗಳ ಡೇಟಾವನ್ನು ಪರಿಗಣಿಸುವೆವು - **ಪಟ್ಟಿ ಡೇಟಾ**, **ಪಠ್ಯ** ಮತ್ತು **ಚಿತ್ರಗಳು**.
ನಾವು ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಕೆಲವು ಉದಾಹರಣೆಗಳ ಮೇಲೆ ಗಮನಹರಿಸುವೆವು, ಎಲ್ಲಾ ಸಂಬಂಧಿತ ಲೈಬ್ರರಿಗಳ ಸಂಪೂರ್ಣ ಅವಲೋಕನ ನೀಡದೆ. ಇದರಿಂದ ನೀವು ಸಾಧ್ಯವಿರುವ ಮುಖ್ಯ ಕಲ್ಪನೆಯನ್ನು ಪಡೆಯಬಹುದು ಮತ್ತು ಸಮಸ್ಯೆಗಳಿಗೆ ಪರಿಹಾರಗಳನ್ನು ಹುಡುಕಲು ಎಲ್ಲಿ ನೋಡಬೇಕೆಂದು ತಿಳಿದುಕೊಳ್ಳಬಹುದು.
> **ಅತ್ಯಂತ ಉಪಯುಕ್ತ ಸಲಹೆ**. ನೀವು ಡೇಟಾ ಮೇಲೆ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯವನ್ನು ಮಾಡಲು ಬಯಸಿದಾಗ ಮತ್ತು ಅದನ್ನು ಹೇಗೆ ಮಾಡಬೇಕೆಂದು ತಿಳಿಯದಿದ್ದರೆ, ಅದನ್ನು ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಹುಡುಕಿ. [Stackoverflow](https://stackoverflow.com/) ನಲ್ಲಿ ಬಹಳಷ್ಟು ಉಪಯುಕ್ತ ಪೈಥಾನ್ ಕೋಡ್ ಮಾದರಿಗಳು ಸಾಮಾನ್ಯ ಕಾರ್ಯಗಳಿಗೆ ಲಭ್ಯವಿವೆ.
## [ಪೂರ್ವ-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/12)
## ಪಟ್ಟಿಯ ಡೇಟಾ ಮತ್ತು ಡೇಟಾಫ್ರೇಮ್‌ಗಳು
ನೀವು ಈಗಾಗಲೇ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳ ಬಗ್ಗೆ ಮಾತನಾಡಿದಾಗ ಪಟ್ಟಿಯ ಡೇಟಾವನ್ನು ಭೇಟಿಯಾದಿದ್ದೀರಿ. ನೀವು ಬಹಳಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದಾಗ ಮತ್ತು ಅದು ಹಲವಾರು ವಿಭಿನ್ನ ಲಿಂಕ್ ಮಾಡಿದ ಪಟ್ಟಿಗಳಲ್ಲಿ ಇದ್ದಾಗ, ಅದನ್ನು ಕೆಲಸ ಮಾಡಲು SQL ಬಳಸುವುದು ಖಂಡಿತವಾಗಿಯೂ ಅರ್ಥಪೂರ್ಣ. ಆದರೆ, ನಾವು ಡೇಟಾ ಪಟ್ಟಿಯನ್ನು ಹೊಂದಿದ್ದಾಗ ಮತ್ತು ಆ ಡೇಟಾ ಬಗ್ಗೆ ಕೆಲವು **ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ** ಅಥವಾ **ಅಂತರ್ದೃಷ್ಟಿ**ಗಳನ್ನು ಪಡೆಯಬೇಕಾದಾಗ, ಉದಾಹರಣೆಗೆ ವಿತರಣೆ, ಮೌಲ್ಯಗಳ ನಡುವಿನ ಸಂಬಂಧ ಇತ್ಯಾದಿ, ಡೇಟಾ ವಿಜ್ಞಾನದಲ್ಲಿ ಮೂಲ ಡೇಟಾದ ಕೆಲವು ಪರಿವರ್ತನೆಗಳನ್ನು ಮಾಡಿ ನಂತರ ದೃಶ್ಯೀಕರಣ ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಈ ಎರಡೂ ಹಂತಗಳನ್ನು ಪೈಥಾನ್ ಬಳಸಿ ಸುಲಭವಾಗಿ ಮಾಡಬಹುದು.
ಪೈಥಾನ್‌ನಲ್ಲಿ ಪಟ್ಟಿಯ ಡೇಟಾ ಜೊತೆ ಕೆಲಸ ಮಾಡಲು ಎರಡು ಅತ್ಯಂತ ಉಪಯುಕ್ತ ಲೈಬ್ರರಿಗಳು ಇವೆ:
* **[Pandas](https://pandas.pydata.org/)** ನಿಮಗೆ **ಡೇಟಾಫ್ರೇಮ್‌ಗಳು** ಎಂದು ಕರೆಯಲ್ಪಡುವವುಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಅನುಮತಿಸುತ್ತದೆ, ಅವು ಸಂಬಂಧಿತ ಪಟ್ಟಿಗಳ ಸಮಾನಾರ್ಥಕ. ನೀವು ಹೆಸರಿನ ಕಾಲಮ್‌ಗಳನ್ನು ಹೊಂದಬಹುದು ಮತ್ತು ಸಾಲು, ಕಾಲಮ್ ಮತ್ತು ಡೇಟಾಫ್ರೇಮ್‌ಗಳ ಮೇಲೆ ವಿವಿಧ ಕಾರ್ಯಗಳನ್ನು ಮಾಡಬಹುದು.
* **[Numpy](https://numpy.org/)** ಬಹು-ಮಾನದ **ಅರೆಗಳು** (ಟೆನ್ಸರ್‌ಗಳು) ಜೊತೆ ಕೆಲಸ ಮಾಡಲು ಲೈಬ್ರರಿ. ಅರೆಗಳು ಒಂದೇ ಮೂಲ ಪ್ರಕಾರದ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿರುತ್ತವೆ ಮತ್ತು ಡೇಟಾಫ್ರೇಮ್‌ಗಿಂತ ಸರಳವಾಗಿವೆ, ಆದರೆ ಹೆಚ್ಚು ಗಣಿತೀಯ ಕಾರ್ಯಗಳನ್ನು ನೀಡುತ್ತವೆ ಮತ್ತು ಕಡಿಮೆ ಓವರ್‌ಹೆಡ್ ಉಂಟುಮಾಡುತ್ತವೆ.
ಇನ್ನೂ ಕೆಲವು ಲೈಬ್ರರಿಗಳನ್ನು ನೀವು ತಿಳಿದುಕೊಳ್ಳಬೇಕು:
* **[Matplotlib](https://matplotlib.org/)** ಡೇಟಾ ದೃಶ್ಯೀಕರಣ ಮತ್ತು ಗ್ರಾಫ್ ರಚನೆಗೆ ಬಳಸುವ ಲೈಬ್ರರಿ
* **[SciPy](https://www.scipy.org/)** ಕೆಲವು ಹೆಚ್ಚುವರಿ ವೈಜ್ಞಾನಿಕ ಕಾರ್ಯಗಳ ಲೈಬ್ರರಿ. ನಾವು ಈಗಾಗಲೇ ಪ್ರಾಬಬಿಲಿಟಿ ಮತ್ತು ಸಾಂಖ್ಯಿಕತೆ ಬಗ್ಗೆ ಮಾತನಾಡಿದಾಗ ಈ ಲೈಬ್ರರಿಯನ್ನು ನೋಡಿದ್ದೇವೆ
ನೀವು ಸಾಮಾನ್ಯವಾಗಿ ನಿಮ್ಮ ಪೈಥಾನ್ ಪ್ರೋಗ್ರಾಂ ಆರಂಭದಲ್ಲಿ ಈ ಲೈಬ್ರರಿಗಳನ್ನು ಆಮದು ಮಾಡಲು ಬಳಸುವ ಕೋಡ್ ಇಲ್ಲಿದೆ:
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import ... # ನೀವು ಬೇಕಾದ ನಿಖರ ಉಪ-ಪ್ಯಾಕೇಜ್‌ಗಳನ್ನು ಸೂಚಿಸಬೇಕಾಗುತ್ತದೆ
```
ಪಾಂಡಾಸ್ ಕೆಲವು ಮೂಲಭೂತ ಕಲ್ಪನೆಗಳ ಸುತ್ತಲೂ ಕೇಂದ್ರೀಕೃತವಾಗಿದೆ.
### ಸರಣಿ (Series)
**ಸರಣಿ** ಮೌಲ್ಯಗಳ ಕ್ರಮವಾಗಿದೆ, ಪಟ್ಟಿ ಅಥವಾ ನಂಪೈ ಅರೆಗೆ ಸಮಾನ. ಮುಖ್ಯ ವ್ಯತ್ಯಾಸವೆಂದರೆ ಸರಣಿಗೆ **ಸೂಚ್ಯಂಕ** (index) ಇರುತ್ತದೆ, ಮತ್ತು ನಾವು ಸರಣಿಗಳ ಮೇಲೆ ಕಾರ್ಯಾಚರಣೆ ಮಾಡಿದಾಗ (ಉದಾ., ಸೇರಿಸುವಾಗ), ಸೂಚ್ಯಂಕವನ್ನು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ. ಸೂಚ್ಯಂಕ ಸರಳವಾಗಿ ಪೂರ್ಣಾಂಕ ಸಾಲು ಸಂಖ್ಯೆ ಆಗಿರಬಹುದು (ಪಟ್ಟಿ ಅಥವಾ ಅರೆದಿಂದ ಸರಣಿ ರಚಿಸುವಾಗ ಡೀಫಾಲ್ಟ್ ಸೂಚ್ಯಂಕ), ಅಥವಾ ಅದು ದಿನಾಂಕ ಅವಧಿಯಂತಹ ಸಂಕೀರ್ಣ ರಚನೆಯಾಗಿರಬಹುದು.
> **ಗಮನಿಸಿ**: ಜೊತೆಗೆ ನೀಡಲಾದ ನೋಟ್ಬುಕ್ [`notebook.ipynb`](notebook.ipynb) ನಲ್ಲಿ ಕೆಲವು ಪರಿಚಯಾತ್ಮಕ ಪಾಂಡಾಸ್ ಕೋಡ್ ಇದೆ. ನಾವು ಇಲ್ಲಿ ಕೆಲವು ಉದಾಹರಣೆಗಳನ್ನು ಮಾತ್ರ ವಿವರಿಸುತ್ತೇವೆ, ಮತ್ತು ನೀವು ಸಂಪೂರ್ಣ ನೋಟ್ಬುಕ್ ಅನ್ನು ಪರಿಶೀಲಿಸಲು ಸ್ವಾಗತ.
ಉದಾಹರಣೆಯಾಗಿ ಪರಿಗಣಿಸಿ: ನಾವು ನಮ್ಮ ಐಸ್-ಕ್ರೀಮ್ ಅಂಗಡಿಯ ಮಾರಾಟವನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಬಯಸುತ್ತೇವೆ. ಕೆಲವು ಕಾಲಾವಧಿಗೆ ದಿನನಿತ್ಯ ಮಾರಾಟ ಸಂಖ್ಯೆಗಳ ಸರಣಿಯನ್ನು ರಚಿಸೋಣ:
```python
start_date = "Jan 1, 2020"
end_date = "Mar 31, 2020"
idx = pd.date_range(start_date,end_date)
print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![ಸಮಯ ಸರಣಿ ರೇಖಾಚಿತ್ರ](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.kn.png)
ಈಗ ಪ್ರತೀ ವಾರ ನಾವು ಸ್ನೇಹಿತರಿಗಾಗಿ ಪಾರ್ಟಿ ಆಯೋಜಿಸುತ್ತೇವೆ ಮತ್ತು ಪಾರ್ಟಿಗಾಗಿ ಹೆಚ್ಚುವರಿ 10 ಪ್ಯಾಕೆಟ್ ಐಸ್-ಕ್ರೀಮ್ ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ ಎಂದು ಊಹಿಸೋಣ. ಅದನ್ನು ತೋರಿಸಲು ವಾರದ ಸೂಚ್ಯಂಕದೊಂದಿಗೆ ಮತ್ತೊಂದು ಸರಣಿಯನ್ನು ರಚಿಸಬಹುದು:
```python
additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"))
```
ಎರಡು ಸರಣಿಗಳನ್ನು ಸೇರಿಸಿದಾಗ, ಒಟ್ಟು ಸಂಖ್ಯೆಯನ್ನು ಪಡೆಯುತ್ತೇವೆ:
```python
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![ಸಮಯ ಸರಣಿ ರೇಖಾಚಿತ್ರ](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.kn.png)
> **ಗಮನಿಸಿ** ನಾವು ಸರಳ `total_items+additional_items` ಸಿಂಟ್ಯಾಕ್ಸ್ ಬಳಸುತ್ತಿಲ್ಲ. ಅದನ್ನು ಮಾಡಿದರೆ, ಫಲಿತಾಂಶ ಸರಣಿಯಲ್ಲಿ ಬಹಳಷ್ಟು `NaN` (*ಸಂಖ್ಯೆ ಅಲ್ಲ*) ಮೌಲ್ಯಗಳು ಬರುತ್ತಿದ್ದವು. ಇದಕ್ಕೆ ಕಾರಣವೆಂದರೆ `additional_items` ಸರಣಿಯಲ್ಲಿ ಕೆಲವು ಸೂಚ್ಯಂಕ ಬಿಂದುಗಳಿಗೆ ಮೌಲ್ಯಗಳು ಇಲ್ಲದಿರುವುದು, ಮತ್ತು `NaN` ಅನ್ನು ಯಾವುದಕ್ಕೂ ಸೇರಿಸಿದರೆ `NaN` ಆಗುತ್ತದೆ. ಆದ್ದರಿಂದ ಸೇರಿಸುವಾಗ `fill_value` ಪರಿಮಾಣವನ್ನು ಸೂಚಿಸಬೇಕಾಗುತ್ತದೆ.
ಸಮಯ ಸರಣಿಗಳೊಂದಿಗೆ, ನಾವು ವಿಭಿನ್ನ ಕಾಲಾವಧಿಗಳೊಂದಿಗೆ ಸರಣಿಯನ್ನು **ಮರುನಮೂದನೆ** ಮಾಡಬಹುದು. ಉದಾಹರಣೆಗೆ, ಮಾಸಿಕ ಸರಾಸರಿ ಮಾರಾಟ ಪ್ರಮಾಣವನ್ನು ಲೆಕ್ಕಹಾಕಲು ಕೆಳಗಿನ ಕೋಡ್ ಬಳಸಬಹುದು:
```python
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![ಮಾಸಿಕ ಸಮಯ ಸರಣಿ ಸರಾಸರಿ](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.kn.png)
### ಡೇಟಾಫ್ರೇಮ್
ಡೇಟಾಫ್ರೇಮ್ ಅಂದರೆ ಒಂದೇ ಸೂಚ್ಯಂಕ ಹೊಂದಿರುವ ಸರಣಿಗಳ ಸಂಗ್ರಹ. ನಾವು ಹಲವಾರು ಸರಣಿಗಳನ್ನು ಡೇಟಾಫ್ರೇಮ್ ಆಗಿ ಸಂಯೋಜಿಸಬಹುದು:
```python
a = pd.Series(range(1,10))
b = pd.Series(["I","like","to","play","games","and","will","not","change"],index=range(0,9))
df = pd.DataFrame([a,b])
```
ಇದು ಹೀಗೆ ಒಂದು ಅಡ್ಡಪಟ್ಟಿ ರಚಿಸುತ್ತದೆ:
| | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| --- | --- | ---- | --- | --- | ------ | --- | ------ | ---- | ---- |
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 1 | I | like | to | use | Python | and | Pandas | very | much |
ನಾವು ಸರಣಿಗಳನ್ನು ಕಾಲಮ್‌ಗಳಾಗಿ ಬಳಸಬಹುದು ಮತ್ತು ಡಿಕ್ಷನರಿ ಬಳಸಿ ಕಾಲಮ್ ಹೆಸರುಗಳನ್ನು ಸೂಚಿಸಬಹುದು:
```python
df = pd.DataFrame({ 'A' : a, 'B' : b })
```
ಇದು ಹೀಗೆ ಒಂದು ಪಟ್ಟಿಯನ್ನು ನೀಡುತ್ತದೆ:
| | A | B |
| --- | --- | ------ |
| 0 | 1 | I |
| 1 | 2 | like |
| 2 | 3 | to |
| 3 | 4 | use |
| 4 | 5 | Python |
| 5 | 6 | and |
| 6 | 7 | Pandas |
| 7 | 8 | very |
| 8 | 9 | much |
**ಗಮನಿಸಿ** ನಾವು ಹಿಂದಿನ ಪಟ್ಟಿಯನ್ನು ಟ್ರಾನ್ಸ್‌ಪೋಸ್ ಮಾಡಿ ಕೂಡ ಈ ಪಟ್ಟಿಯ ವಿನ್ಯಾಸವನ್ನು ಪಡೆಯಬಹುದು, ಉದಾ. ಬರೆಯುವ ಮೂಲಕ
```python
df = pd.DataFrame([a,b]).T..rename(columns={ 0 : 'A', 1 : 'B' })
```
ಇಲ್ಲಿ `.T` ಅಂದರೆ ಡೇಟಾಫ್ರೇಮ್ ಅನ್ನು ಟ್ರಾನ್ಸ್‌ಪೋಸ್ ಮಾಡುವ ಕಾರ್ಯ, ಅಂದರೆ ಸಾಲು ಮತ್ತು ಕಾಲಮ್‌ಗಳನ್ನು ಬದಲಿಸುವುದು, ಮತ್ತು `rename` ಕಾರ್ಯ ಕಾಲಮ್‌ಗಳನ್ನು ಹಿಂದಿನ ಉದಾಹರಣೆಗೆ ಹೊಂದಿಸಲು ಮರುನಾಮಕರಣ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ.
ಡೇಟಾಫ್ರೇಮ್‌ಗಳ ಮೇಲೆ ನಾವು ಮಾಡಬಹುದಾದ ಕೆಲವು ಪ್ರಮುಖ ಕಾರ್ಯಗಳು:
**ಕಾಲಮ್ ಆಯ್ಕೆ**. ನಾವು `df['A']` ಎಂದು ಬರೆಯುವ ಮೂಲಕ ವೈಯಕ್ತಿಕ ಕಾಲಮ್‌ಗಳನ್ನು ಆಯ್ಕೆಮಾಡಬಹುದು - ಈ ಕಾರ್ಯ ಸರಣಿಯನ್ನು ನೀಡುತ್ತದೆ. ನಾವು `df[['B','A']]` ಎಂದು ಬರೆಯುವ ಮೂಲಕ ಕಾಲಮ್‌ಗಳ ಉಪಸಮೂಹವನ್ನು ಮತ್ತೊಂದು ಡೇಟಾಫ್ರೇಮ್ ಆಗಿ ಆಯ್ಕೆಮಾಡಬಹುದು - ಇದು ಮತ್ತೊಂದು ಡೇಟಾಫ್ರೇಮ್ ನೀಡುತ್ತದೆ.
**ನಿರ್ದಿಷ್ಟ ಸಾಲುಗಳನ್ನು ಶೋಧನೆ**. ಉದಾಹರಣೆಗೆ, ಕಾಲಮ್ `A` 5 ಕ್ಕಿಂತ ಹೆಚ್ಚು ಇರುವ ಸಾಲುಗಳನ್ನು ಮಾತ್ರ ಉಳಿಸಲು, ನಾವು `df[df['A']>5]` ಎಂದು ಬರೆಯಬಹುದು.
> **ಗಮನಿಸಿ**: ಶೋಧನೆ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದರೆ, `df['A']<5` ಎಂಬ ಅಭಿವ್ಯಕ್ತಿ ಬೂಲಿಯನ್ ಸರಣಿಯನ್ನು ನೀಡುತ್ತದೆ, ಇದು ಮೂಲ ಸರಣಿ `df['A']` ಯ ಪ್ರತಿ ಅಂಶಕ್ಕೆ `True` ಅಥವಾ `False` ಸೂಚಿಸುತ್ತದೆ. ಬೂಲಿಯನ್ ಸರಣಿಯನ್ನು ಸೂಚ್ಯಂಕವಾಗಿ ಬಳಸಿದಾಗ, ಅದು ಡೇಟಾಫ್ರೇಮ್‌ನ ಸಾಲುಗಳ ಉಪಸಮೂಹವನ್ನು ನೀಡುತ್ತದೆ. ಆದ್ದರಿಂದ, ಸಾಮಾನ್ಯ ಪೈಥಾನ್ ಬೂಲಿಯನ್ ಅಭಿವ್ಯಕ್ತಿಯನ್ನು ಬಳಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಉದಾ. `df[df['A']>5 and df['A']<7]` ತಪ್ಪು. ಬದಲಿಗೆ, ನೀವು ಬೂಲಿಯನ್ ಸರಣಿಗಳ ಮೇಲೆ ವಿಶೇಷ `&` ಕಾರ್ಯವನ್ನು ಬಳಸಬೇಕು, ಉದಾ. `df[(df['A']>5) & (df['A']<7)]` (*ಬ್ರಾಕೆಟ್‌ಗಳು ಮುಖ್ಯ*).
**ಹೊಸ ಗಣನೆ ಮಾಡಬಹುದಾದ ಕಾಲಮ್‌ಗಳನ್ನು ರಚಿಸುವುದು**. ನಾವು ಸುಲಭವಾಗಿ ಹೊಸ ಕಾಲಮ್‌ಗಳನ್ನು ರಚಿಸಬಹುದು, ಉದಾ.:
```python
df['DivA'] = df['A']-df['A'].mean()
```
ಈ ಉದಾಹರಣೆ `A` ಯ ಸರಾಸರಿ ಮೌಲ್ಯದಿಂದ ವ್ಯತ್ಯಾಸವನ್ನು ಲೆಕ್ಕಹಾಕುತ್ತದೆ. ಇಲ್ಲಿ ನಾವು ಸರಣಿಯನ್ನು ಲೆಕ್ಕಹಾಕಿ, ಅದನ್ನು ಎಡಭಾಗಕ್ಕೆ ನಿಯೋಜಿಸುತ್ತಿದ್ದೇವೆ, ಹೊಸ ಕಾಲಮ್ ರಚಿಸುತ್ತಿದ್ದೇವೆ. ಆದ್ದರಿಂದ ಸರಣಿಗೆ ಹೊಂದಿಕೆಯಾಗದ ಕಾರ್ಯಗಳನ್ನು ಬಳಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಉದಾ. ಕೆಳಗಿನ ಕೋಡ್ ತಪ್ಪು:
```python
# ತಪ್ಪು ಕೋಡ್ -> df['ADescr'] = "Low" if df['A'] < 5 else "Hi"
df['LenB'] = len(df['B']) # <- ಿ
```
ಈ ಕೊನೆಯ ಉದಾಹರಣೆ, ವ್ಯಾಕರಣಾತ್ಮಕವಾಗಿ ಸರಿಯಿದ್ದರೂ, ತಪ್ಪು ಫಲಿತಾಂಶ ನೀಡುತ್ತದೆ, ಏಕೆಂದರೆ ಇದು ಸರಣಿ `B` ಯ ಉದ್ದವನ್ನು ಎಲ್ಲಾ ಮೌಲ್ಯಗಳಿಗೆ ನಿಯೋಜಿಸುತ್ತದೆ, ಮತ್ತು ನಾವು ಬಯಸಿದಂತೆ ಪ್ರತಿ ಅಂಶದ ಉದ್ದವಲ್ಲ.
ಸಂಕೀರ್ಣ ಅಭಿವ್ಯಕ್ತಿಗಳನ್ನು ಲೆಕ್ಕಹಾಕಬೇಕಾದರೆ, ನಾವು `apply` ಫಂಕ್ಷನ್ ಬಳಸಬಹುದು. ಕೊನೆಯ ಉದಾಹರಣೆಯನ್ನು ಹೀಗೆ ಬರೆಯಬಹುದು:
```python
df['LenB'] = df['B'].apply(lambda x : len(x))
# ಅಥವಾ
df['LenB'] = df['B'].apply(len)
```
ಮೇಲಿನ ಕಾರ್ಯಾಚರಣೆಗಳ ನಂತರ, ನಾವು ಕೆಳಗಿನ ಡೇಟಾಫ್ರೇಮ್ ಪಡೆಯುತ್ತೇವೆ:
| | A | B | DivA | LenB |
| --- | --- | ------ | ---- | ---- |
| 0 | 1 | I | -4.0 | 1 |
| 1 | 2 | like | -3.0 | 4 |
| 2 | 3 | to | -2.0 | 2 |
| 3 | 4 | use | -1.0 | 3 |
| 4 | 5 | Python | 0.0 | 6 |
| 5 | 6 | and | 1.0 | 3 |
| 6 | 7 | Pandas | 2.0 | 6 |
| 7 | 8 | very | 3.0 | 4 |
| 8 | 9 | much | 4.0 | 4 |
**ಸಂಖ್ಯೆಗಳ ಆಧಾರದ ಮೇಲೆ ಸಾಲುಗಳನ್ನು ಆಯ್ಕೆಮಾಡುವುದು** `iloc` ರಚನೆಯನ್ನು ಬಳಸಿ ಮಾಡಬಹುದು. ಉದಾಹರಣೆಗೆ, ಡೇಟಾಫ್ರೇಮ್‌ನ ಮೊದಲ 5 ಸಾಲುಗಳನ್ನು ಆಯ್ಕೆಮಾಡಲು:
```python
df.iloc[:5]
```
**ಗುಂಪುಮಾಡುವುದು** ಸಾಮಾನ್ಯವಾಗಿ ಎಕ್ಸೆಲ್‌ನ *ಪಿವಾಟ್ ಟೇಬಲ್* ಗಳಂತೆ ಫಲಿತಾಂಶ ಪಡೆಯಲು ಬಳಸಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ನಾವು `LenB` ಪ್ರತಿ ಮೌಲ್ಯಕ್ಕೆ ಕಾಲಮ್ `A` ಯ ಸರಾಸರಿ ಲೆಕ್ಕಹಾಕಬೇಕಾದರೆ, ನಾವು ಡೇಟಾಫ್ರೇಮ್ ಅನ್ನು `LenB` ಮೂಲಕ ಗುಂಪುಮಾಡಿ `mean` ಅನ್ನು ಕರೆಸಬಹುದು:
```python
df.groupby(by='LenB')[['A','DivA']].mean()
```
ಗುಂಪಿನ ಅಂಶಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಸರಾಸರಿಯನ್ನು ಲೆಕ್ಕಹಾಕಬೇಕಾದರೆ, ನಾವು ಹೆಚ್ಚು ಸಂಕೀರ್ಣ `aggregate` ಫಂಕ್ಷನ್ ಬಳಸಬಹುದು:
```python
df.groupby(by='LenB') \
.aggregate({ 'DivA' : len, 'A' : lambda x: x.mean() }) \
.rename(columns={ 'DivA' : 'Count', 'A' : 'Mean'})
```
ಇದು ಕೆಳಗಿನ ಪಟ್ಟಿಯನ್ನು ನೀಡುತ್ತದೆ:
| LenB | Count | Mean |
| ---- | ----- | -------- |
| 1 | 1 | 1.000000 |
| 2 | 1 | 3.000000 |
| 3 | 2 | 5.000000 |
| 4 | 3 | 6.333333 |
| 6 | 2 | 6.000000 |
### ಡೇಟಾ ಪಡೆಯುವುದು
ನಾವು Python ವಸ್ತುಗಳಿಂದ Series ಮತ್ತು DataFrames ರಚಿಸುವುದು ಎಷ್ಟು ಸುಲಭವಾಗಿದೆ ಎಂದು ನೋಡಿದ್ದೇವೆ. ಆದಾಗ್ಯೂ, ಡೇಟಾ ಸಾಮಾನ್ಯವಾಗಿ ಪಠ್ಯ ಕಡತ ಅಥವಾ Excel ಟೇಬಲ್ ರೂಪದಲ್ಲಿ ಬರುತ್ತದೆ. ಭಾಗ್ಯವಶಾತ್, Pandas ನಮಗೆ ಡಿಸ್ಕ್‌ನಿಂದ ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡಲು ಸರಳ ವಿಧಾನವನ್ನು ಒದಗಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, CSV ಫೈಲ್ ಓದುವುದು ಈ ಕೆಳಗಿನಂತೆ ಸುಲಭವಾಗಿದೆ:
```python
df = pd.read_csv('file.csv')
```
ನಾವು "ಚಾಲೆಂಜ್" ವಿಭಾಗದಲ್ಲಿ ಹೊರಗಿನ ವೆಬ್‌ಸೈಟ್‌ಗಳಿಂದ ಡೇಟಾವನ್ನು ಪಡೆಯುವುದೂ ಸೇರಿದಂತೆ ಡೇಟಾ ಲೋಡ್ ಮಾಡುವ ಇನ್ನಷ್ಟು ಉದಾಹರಣೆಗಳನ್ನು ನೋಡುತ್ತೇವೆ
### ಮುದ್ರಣ ಮತ್ತು ಚಿತ್ರಣ
ಡೇಟಾ ವಿಜ್ಞಾನಿ ಸಾಮಾನ್ಯವಾಗಿ ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸಬೇಕಾಗುತ್ತದೆ, ಆದ್ದರಿಂದ ಅದನ್ನು ದೃಶ್ಯೀಕರಿಸಲು ಸಾಧ್ಯವಾಗುವುದು ಮುಖ್ಯ. DataFrame ದೊಡ್ಡದಾಗಿದ್ದಾಗ, ನಾವು ಬಹುಶಃ ಮೊದಲ ಕೆಲವು ಸಾಲುಗಳನ್ನು ಮುದ್ರಣ ಮಾಡುವ ಮೂಲಕ ನಾವು ಎಲ್ಲವನ್ನೂ ಸರಿಯಾಗಿ ಮಾಡುತ್ತಿದ್ದೇವೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಬಯಸುತ್ತೇವೆ. ಇದನ್ನು `df.head()` ಅನ್ನು ಕರೆಸುವುದರಿಂದ ಮಾಡಬಹುದು. ನೀವು Jupyter Notebook ನಿಂದ ಇದನ್ನು ಚಾಲನೆ ಮಾಡುತ್ತಿದ್ದರೆ, ಅದು DataFrame ಅನ್ನು ಸುಂದರವಾದ ಟೇಬುಲರ್ ರೂಪದಲ್ಲಿ ಮುದ್ರಣ ಮಾಡುತ್ತದೆ.
ನಾವು ಕೆಲವು ಕಾಲಮ್‌ಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸಲು `plot` ಫಂಕ್ಷನ್ ಬಳಕೆಯನ್ನೂ ನೋಡಿದ್ದೇವೆ. `plot` ಬಹು ಕಾರ್ಯಗಳಿಗೆ ಬಹಳ ಉಪಯುಕ್ತವಾಗಿದ್ದು, `kind=` ಪರಿಮಾಣದ ಮೂಲಕ ವಿವಿಧ ಗ್ರಾಫ್ ಪ್ರಕಾರಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ, ನೀವು ಯಾವಾಗಲೂ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾದುದನ್ನು ಚಿತ್ರಿಸಲು ಕಚ್ಚಾ `matplotlib` ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸಬಹುದು. ನಾವು ಡೇಟಾ ದೃಶ್ಯೀಕರಣವನ್ನು ವಿಭಿನ್ನ ಪಾಠಗಳಲ್ಲಿ ವಿವರವಾಗಿ ಚರ್ಚಿಸುವೆವು.
ಈ ಅವಲೋಕನವು Pandas ನ ಪ್ರಮುಖ ತತ್ವಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಆದರೂ ಗ್ರಂಥಾಲಯವು ಬಹಳ ಶ್ರೀಮಂತವಾಗಿದೆ ಮತ್ತು ನೀವು ಅದರಿಂದ ಏನು ಮಾಡಬಹುದು ಎಂಬುದಕ್ಕೆ ಯಾವುದೇ ಮಿತಿ ಇಲ್ಲ! ಈಗ ಈ ಜ್ಞಾನವನ್ನು ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಅನ್ವಯಿಸೋಣ.
## 🚀 ಚಾಲೆಂಜ್ 1: COVID ಹರಡುವಿಕೆಯನ್ನು ವಿಶ್ಲೇಷಣೆ
ನಾವು ಗಮನಹರಿಸುವ ಮೊದಲ ಸಮಸ್ಯೆ COVID-19 ಮಹಾಮಾರಿಯ ಹರಡುವಿಕೆಯ ಮಾದರಿಯನ್ನು ಮಾಡುವುದು. ಅದಕ್ಕಾಗಿ, ನಾವು ವಿವಿಧ ದೇಶಗಳಲ್ಲಿ ಸೋಂಕಿತರ ಸಂಖ್ಯೆಯ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತೇವೆ, ಇದು [Center for Systems Science and Engineering](https://systems.jhu.edu/) (CSSE) ನಲ್ಲಿ [Johns Hopkins University](https://jhu.edu/) ಒದಗಿಸಿದೆ. ಡೇಟಾಸೆಟ್ [ಈ GitHub ರೆಪೊಸಿಟರಿಯಲ್ಲಿ](https://github.com/CSSEGISandData/COVID-19) ಲಭ್ಯವಿದೆ.
ನಾವು ಡೇಟಾ ಹೇಗೆ ನಿರ್ವಹಿಸಬೇಕೆಂದು ತೋರಿಸಲು ಬಯಸುವ ಕಾರಣದಿಂದ, ನೀವು [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ಅನ್ನು ತೆರೆಯಿರಿ ಮತ್ತು ಮೇಲಿನಿಂದ ಕೆಳಗೆ ಓದಿ. ನೀವು ಸೆಲ್‌ಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಬಹುದು ಮತ್ತು ನಾವು ಕೊನೆಯಲ್ಲಿ ನಿಮಗಾಗಿ ಬಿಟ್ಟಿರುವ ಕೆಲವು ಚಾಲೆಂಜ್‌ಗಳನ್ನು ಮಾಡಬಹುದು.
![COVID Spread](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.kn.png)
> ನೀವು Jupyter Notebook ನಲ್ಲಿ ಕೋಡ್ ಅನ್ನು ಹೇಗೆ ಚಾಲನೆ ಮಾಡುವುದು ಎಂದು ತಿಳಿಯದಿದ್ದರೆ, [ಈ ಲೇಖನವನ್ನು](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ನೋಡಿ.
## ಅಸಂರಚಿತ ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ
ಡೇಟಾ ಬಹುಶಃ ಟೇಬುಲರ್ ರೂಪದಲ್ಲಿ ಬರುತ್ತದೆ, ಆದರೆ ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ನಾವು ಕಡಿಮೆ ಸಂರಚಿತ ಡೇಟಾ, ಉದಾಹರಣೆಗೆ ಪಠ್ಯ ಅಥವಾ ಚಿತ್ರಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಮೇಲಿನ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸಲು, ನಾವು somehow **ಸಂರಚಿತ** ಡೇಟಾವನ್ನು **ಎಕ್ಸ್ಟ್ರ್ಯಾಕ್ಟ್** ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಕೆಲವು ಉದಾಹರಣೆಗಳು:
* ಪಠ್ಯದಿಂದ ಕೀವರ್ಡ್‌ಗಳನ್ನು ಎಕ್ಸ್ಟ್ರ್ಯಾಕ್ಟ್ ಮಾಡಿ, ಆ ಕೀವರ್ಡ್‌ಗಳು ಎಷ್ಟು ಬಾರಿ ಕಾಣಿಸುತ್ತವೆ ಎಂದು ನೋಡುವುದು
* ಚಿತ್ರದಲ್ಲಿ ವಸ್ತುಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿ ಪಡೆಯಲು ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳನ್ನು ಬಳಸುವುದು
* ವೀಡಿಯೋ ಕ್ಯಾಮೆರಾ ಫೀಡ್‌ನಲ್ಲಿ ಜನರ ಭಾವನೆಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿ ಪಡೆಯುವುದು
## 🚀 ಚಾಲೆಂಜ್ 2: COVID ಪೇಪರ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಣೆ
ಈ ಚಾಲೆಂಜ್‌ನಲ್ಲಿ, ನಾವು COVID ಮಹಾಮಾರಿಯ ವಿಷಯವನ್ನು ಮುಂದುವರೆಸುತ್ತೇವೆ ಮತ್ತು ವೈಜ್ಞಾನಿಕ ಪೇಪರ್‌ಗಳ ಪ್ರಕ್ರಿಯೆಗೆ ಗಮನಹರಿಸುತ್ತೇವೆ. COVID ಕುರಿತು 7000 ಕ್ಕೂ ಹೆಚ್ಚು (ಲೇಖನ ಸಮಯದಲ್ಲಿ) ಪೇಪರ್‌ಗಳೊಂದಿಗೆ [CORD-19 ಡೇಟಾಸೆಟ್](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge) ಲಭ್ಯವಿದೆ, ಇದು ಮೆಟಾಡೇಟಾ ಮತ್ತು ಸಾರಾಂಶಗಳೊಂದಿಗೆ ಲಭ್ಯವಿದೆ (ಅರ್ಧಕ್ಕೂ ಹೆಚ್ಚು ಪೇಪರ್‌ಗಳಿಗೆ ಸಂಪೂರ್ಣ ಪಠ್ಯವೂ ಒದಗಿಸಲಾಗಿದೆ).
[Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health/?WT.mc_id=academic-77958-bethanycheum) ಕಾಗ್ನಿಟಿವ್ ಸೇವೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಪೂರ್ಣ ಉದಾಹರಣೆ [ಈ ಬ್ಲಾಗ್ ಪೋಸ್ಟ್‌ನಲ್ಲಿ](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/) ವಿವರಿಸಲಾಗಿದೆ. ನಾವು ಈ ವಿಶ್ಲೇಷಣೆಯ ಸರಳೀಕೃತ ಆವೃತ್ತಿಯನ್ನು ಚರ್ಚಿಸುವೆವು.
> **NOTE**: ನಾವು ಈ ರೆಪೊಸಿಟರಿಯ ಭಾಗವಾಗಿ ಡೇಟಾಸೆಟ್ ನ ನಕಲನ್ನು ಒದಗಿಸುವುದಿಲ್ಲ. ನೀವು ಮೊದಲು [`metadata.csv`](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv) ಫೈಲ್ ಅನ್ನು [ಈ Kaggle ಡೇಟಾಸೆಟ್‌ನಿಂದ](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge) ಡೌನ್‌ಲೋಡ್ ಮಾಡಬೇಕಾಗಬಹುದು. Kaggle ನಲ್ಲಿ ನೋಂದಣಿ ಅಗತ್ಯವಿರಬಹುದು. ನೀವು ನೋಂದಣಿ ಇಲ್ಲದೆ [ಇಲ್ಲಿ](https://ai2-semanticscholar-cord-19.s3-us-west-2.amazonaws.com/historical_releases.html) ಡೇಟಾಸೆಟ್ ಅನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಬಹುದು, ಆದರೆ ಅದು ಮೆಟಾಡೇಟಾ ಫೈಲ್ ಜೊತೆಗೆ ಎಲ್ಲಾ ಸಂಪೂರ್ಣ ಪಠ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.
[`notebook-papers.ipynb`](notebook-papers.ipynb) ಅನ್ನು ತೆರೆಯಿರಿ ಮತ್ತು ಮೇಲಿನಿಂದ ಕೆಳಗೆ ಓದಿ. ನೀವು ಸೆಲ್‌ಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಬಹುದು ಮತ್ತು ಕೊನೆಯಲ್ಲಿ ನಾವು ಬಿಟ್ಟಿರುವ ಕೆಲವು ಚಾಲೆಂಜ್‌ಗಳನ್ನು ಮಾಡಬಹುದು.
![Covid Medical Treatment](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.kn.png)
## ಚಿತ್ರ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆ
ಇತ್ತೀಚೆಗೆ, ಚಿತ್ರಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಬಹಳ ಶಕ್ತಿಶಾಲಿ AI ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ. ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು ಅಥವಾ ಕ್ಲೌಡ್ ಸೇವೆಗಳ ಮೂಲಕ ಅನೇಕ ಕಾರ್ಯಗಳನ್ನು ಪರಿಹರಿಸಬಹುದು. ಕೆಲವು ಉದಾಹರಣೆಗಳು:
* **ಚಿತ್ರ ವರ್ಗೀಕರಣ**, ಇದು ಚಿತ್ರವನ್ನು ಪೂರ್ವನಿರ್ಧರಿತ ವರ್ಗಗಳಲ್ಲಿ ಒಂದಕ್ಕೆ ವರ್ಗೀಕರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ನೀವು [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) ಮುಂತಾದ ಸೇವೆಗಳನ್ನು ಬಳಸಿ ನಿಮ್ಮದೇ ಚಿತ್ರ ವರ್ಗೀಕರಣಗಳನ್ನು ಸುಲಭವಾಗಿ ತರಬೇತಿಮಾಡಬಹುದು
* **ವಸ್ತು ಪತ್ತೆ**, ಚಿತ್ರದಲ್ಲಿ ವಿವಿಧ ವಸ್ತುಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು. [computer vision](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum) ಮುಂತಾದ ಸೇವೆಗಳು ಸಾಮಾನ್ಯ ವಸ್ತುಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಬಹುದು, ಮತ್ತು ನೀವು ಕೆಲವು ವಿಶೇಷ ವಸ್ತುಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) ಮಾದರಿಯನ್ನು ತರಬೇತಿಮಾಡಬಹುದು.
* **ಮುಖ ಪತ್ತೆ**, ವಯಸ್ಸು, ಲಿಂಗ ಮತ್ತು ಭಾವನೆ ಪತ್ತೆ ಸೇರಿದಂತೆ. ಇದನ್ನು [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum) ಮೂಲಕ ಮಾಡಬಹುದು.
ಈ ಎಲ್ಲಾ ಕ್ಲೌಡ್ ಸೇವೆಗಳನ್ನು [Python SDKs](https://docs.microsoft.com/samples/azure-samples/cognitive-services-python-sdk-samples/cognitive-services-python-sdk-samples/?WT.mc_id=academic-77958-bethanycheum) ಬಳಸಿ ಕರೆಸಬಹುದು, ಆದ್ದರಿಂದ ನಿಮ್ಮ ಡೇಟಾ ಅನ್ವೇಷಣಾ ಕಾರ್ಯಪ್ರವಾಹದಲ್ಲಿ ಸುಲಭವಾಗಿ ಸೇರಿಸಬಹುದು.
ಚಿತ್ರ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸುವ ಕೆಲವು ಉದಾಹರಣೆಗಳು:
* [How to Learn Data Science without Coding](https://soshnikov.com/azure/how-to-learn-data-science-without-coding/) ಬ್ಲಾಗ್ ಪೋಸ್ಟ್‌ನಲ್ಲಿ ನಾವು Instagram ಫೋಟೋಗಳನ್ನು ಅನ್ವೇಷಿಸುತ್ತೇವೆ, ಜನರು ಫೋಟೋಗೆ ಹೆಚ್ಚು ಲೈಕ್ ನೀಡಲು ಏನು ಕಾರಣವಾಗುತ್ತದೆ ಎಂದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸುತ್ತೇವೆ. ಮೊದಲು [computer vision](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum) ಬಳಸಿ ಚಿತ್ರಗಳಿಂದ ಸಾಧ್ಯವಾದಷ್ಟು ಮಾಹಿತಿ ಎಕ್ಸ್ಟ್ರ್ಯಾಕ್ಟ್ ಮಾಡುತ್ತೇವೆ, ನಂತರ [Azure Machine Learning AutoML](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml/?WT.mc_id=academic-77958-bethanycheum) ಬಳಸಿ ವಿವರಣಾತ್ಮಕ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸುತ್ತೇವೆ.
* [Facial Studies Workshop](https://github.com/CloudAdvocacy/FaceStudies) ನಲ್ಲಿ ನಾವು [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum) ಬಳಸಿ ಘಟನೆಗಳಿಂದ ಜನರ ಭಾವನೆಗಳನ್ನು ಫೋಟೋಗಳಿಂದ ಎಕ್ಸ್ಟ್ರ್ಯಾಕ್ಟ್ ಮಾಡುತ್ತೇವೆ, ಜನರನ್ನು ಸಂತೋಷಪಡಿಸುವುದೇನು ಎಂದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು.
## ಸಮಾರೋಪ
ನೀವು ಈಗಾಗಲೇ ಸಂರಚಿತ ಅಥವಾ ಅಸಂರಚಿತ ಡೇಟಾವನ್ನು ಹೊಂದಿದ್ದರೂ, Python ಬಳಸಿ ನೀವು ಡೇಟಾ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಎಲ್ಲಾ ಹಂತಗಳನ್ನು ನಿರ್ವಹಿಸಬಹುದು. ಇದು ಬಹುಶಃ ಡೇಟಾ ಪ್ರಕ್ರಿಯೆಯ ಅತ್ಯಂತ ಲವಚಿಕ ವಿಧಾನವಾಗಿದೆ, ಮತ್ತು ಅದಕ್ಕಾಗಿ ಬಹುತೇಕ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು Python ಅನ್ನು ತಮ್ಮ ಪ್ರಾಥಮಿಕ ಸಾಧನವಾಗಿ ಬಳಸುತ್ತಾರೆ. ನಿಮ್ಮ ಡೇಟಾ ವಿಜ್ಞಾನ ಪ್ರಯಾಣದಲ್ಲಿ ಗಂಭೀರರಾಗಿದ್ದರೆ Python ಅನ್ನು ಆಳವಾಗಿ ಕಲಿಯುವುದು ಉತ್ತಮ ಆಯ್ಕೆಯಾಗಬಹುದು!
## [ಪೋಸ್ಟ್-ಲೆಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/13)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
**ಪುಸ್ತಕಗಳು**
* [Wes McKinney. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython](https://www.amazon.com/gp/product/1491957662)
**ಆನ್ಲೈನ್ ಸಂಪನ್ಮೂಲಗಳು**
* ಅಧಿಕೃತ [10 minutes to Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) ಟ್ಯುಟೋರಿಯಲ್
* [Pandas Visualization ಕುರಿತು ಡಾಕ್ಯುಮೆಂಟೇಶನ್](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)
**Python ಕಲಿಕೆ**
* [Turtle Graphics ಮತ್ತು Fractals ಬಳಸಿ Python ಅನ್ನು ಮನರಂಜನೆಯ ರೀತಿಯಲ್ಲಿ ಕಲಿಯಿರಿ](https://github.com/shwars/pycourse)
* [Python ನಲ್ಲಿ ನಿಮ್ಮ ಮೊದಲ ಹೆಜ್ಜೆಗಳು](https://docs.microsoft.com/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) Microsoft Learn ನಲ್ಲಿ ಲರ್ನಿಂಗ್ ಪಾತ್ (http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum)
## ಅಸೈನ್‌ಮೆಂಟ್
[ಮೇಲಿನ ಚಾಲೆಂಜ್‌ಗಳಿಗೆ ಹೆಚ್ಚಿನ ವಿವರವಾದ ಡೇಟಾ ಅಧ್ಯಯನವನ್ನು ಮಾಡಿ](assignment.md)
## ಕ್ರೆಡಿಟ್ಸ್
ಈ ಪಾಠವನ್ನು ♥️ ಸಹಿತ [Dmitry Soshnikov](http://soshnikov.com) ರವರು ರಚಿಸಿದ್ದಾರೆ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,39 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "dc8f035ce92e4eaa078ab19caa68267a",
"translation_date": "2025-12-19T15:37:42+00:00",
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "kn"
}
-->
# ಪೈಥಾನ್‌ನಲ್ಲಿ ಡೇಟಾ ಪ್ರೊಸೆಸಿಂಗ್‌ಗಾಗಿ ಅಸೈನ್‌ಮೆಂಟ್
ಈ ಅಸೈನ್‌ಮೆಂಟ್‌ನಲ್ಲಿ, ನಾವು ನಮ್ಮ ಚಾಲೆಂಜ್‌ಗಳಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಪ್ರಾರಂಭಿಸಿದ ಕೋಡ್ ಬಗ್ಗೆ ನೀವು ವಿವರಿಸಲು ಕೇಳುತ್ತೇವೆ. ಅಸೈನ್‌ಮೆಂಟ್ ಎರಡು ಭಾಗಗಳಿಂದ ಕೂಡಿದೆ:
## COVID-19 ಹರಡುವಿಕೆ ಮಾದರೀಕರಣ
- [ ] ಹೋಲಿಕೆಗಾಗಿ 5-6 ವಿಭಿನ್ನ ದೇಶಗಳ *R<sub>t</sub>* ಗ್ರಾಫ್‌ಗಳನ್ನು ಒಂದೇ ಗ್ರಾಫ್‌ನಲ್ಲಿ ಅಥವಾ ಪಕ್ಕಪಕ್ಕದ ಹಲವಾರು ಗ್ರಾಫ್‌ಗಳಲ್ಲಿ ಚಿತ್ರಿಸಿ
- [ ] ಸಾವುಗಳ ಮತ್ತು ಗುಣಮುಖರಾದವರ ಸಂಖ್ಯೆ ಸೋಂಕಿತ ಪ್ರಕರಣಗಳ ಸಂಖ್ಯೆಯೊಂದಿಗೆ ಹೇಗೆ ಸಂಬಂಧಿಸಿದೆ ಎಂದು ನೋಡಿ.
- [ ] ಸೋಂಕಿನ ದರ ಮತ್ತು ಸಾವುಗಳ ದರವನ್ನು ದೃಶ್ಯವಾಗಿ ಸಂಬಂಧಿಸಿ, ಕೆಲವು ಅನಿಯಮಿತತೆಗಳನ್ನು ಹುಡುಕಿ, ಸಾಮಾನ್ಯವಾಗಿ ರೋಗ ಎಷ್ಟು ಕಾಲ ಇರುತ್ತದೆ ಎಂದು ಕಂಡುಹಿಡಿಯಿರಿ. ಅದಕ್ಕಾಗಿ ನೀವು ವಿಭಿನ್ನ ದೇಶಗಳನ್ನು ನೋಡಬೇಕಾಗಬಹುದು.
- [ ] ಸಾವು ದರವನ್ನು ಲೆಕ್ಕಿಸಿ ಮತ್ತು ಅದು ಸಮಯದೊಂದಿಗೆ ಹೇಗೆ ಬದಲಾಗುತ್ತದೆ ಎಂದು ನೋಡಿ. *ಲೆಕ್ಕಾಚಾರ ಮಾಡುವ ಮೊದಲು ರೋಗದ ಅವಧಿಯನ್ನು ದಿನಗಳಲ್ಲಿ ಪರಿಗಣಿಸಿ ಒಂದು ಕಾಲ ಸರಣಿಯನ್ನು ಸರಿಸಲು ನೀವು ಬಯಸಬಹುದು*
## COVID-19 ಪೇಪರ್‌ಗಳ ವಿಶ್ಲೇಷಣೆ
- [ ] ವಿಭಿನ್ನ ಔಷಧಿಗಳ ಸಹಘಟನೆ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ನಿರ್ಮಿಸಿ, ಮತ್ತು ಯಾವ ಔಷಧಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಒಟ್ಟಿಗೆ ಉಲ್ಲೇಖವಾಗುತ್ತವೆ (ಅಂದರೆ ಒಂದು ಸಾರಾಂಶದಲ್ಲಿ ಉಲ್ಲೇಖಿತವಾಗಿವೆ) ಎಂದು ನೋಡಿ. ಔಷಧಿಗಳು ಮತ್ತು ರೋಗನಿರ್ಣಯಗಳ ಸಹಘಟನೆ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ನಿರ್ಮಿಸಲು ಕೋಡ್ ಅನ್ನು ನೀವು ಬದಲಾಯಿಸಬಹುದು.
- [ ] ಈ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಅನ್ನು ಹೀಟ್ಮ್ಯಾಪ್ ಬಳಸಿ ದೃಶ್ಯೀಕರಿಸಿ.
- [ ] ವಿಸ್ತಾರ ಗುರಿಯಾಗಿ, [chord diagram](https://en.wikipedia.org/wiki/Chord_diagram) ಬಳಸಿ ಔಷಧಿಗಳ ಸಹಘಟನೆ ದೃಶ್ಯೀಕರಿಸಿ. [ಈ ಲೈಬ್ರರಿ](https://pypi.org/project/chord/) ನಿಮಗೆ ಚೋರ್ಡ್ ಡಯಾಗ್ರಾಮ್ ರಚಿಸಲು ಸಹಾಯ ಮಾಡಬಹುದು.
- [ ] ಮತ್ತೊಂದು ವಿಸ್ತಾರ ಗುರಿಯಾಗಿ, ನಿಯಮಿತ ಅಭಿವ್ಯಕ್ತಿಗಳನ್ನು ಬಳಸಿ ವಿಭಿನ್ನ ಔಷಧಿಗಳ ಡೋಸೇಜ್‌ಗಳನ್ನು (ಉದಾ: *take 400mg of chloroquine daily* ನಲ್ಲಿ **400mg**) ಹೊರತೆಗೆಯಿರಿ, ಮತ್ತು ವಿಭಿನ್ನ ಔಷಧಿಗಳ ವಿಭಿನ್ನ ಡೋಸೇಜ್‌ಗಳನ್ನು ತೋರಿಸುವ ಡೇಟಾಫ್ರೇಮ್ ನಿರ್ಮಿಸಿ. **ಗಮನಿಸಿ**: ಔಷಧಿಯ ಹೆಸರಿನ ಹತ್ತಿರದ ಪಠ್ಯದಲ್ಲಿ ಇರುವ ಸಂಖ್ಯಾತ್ಮಕ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಗಣಿಸಿ.
## ರೂಬ್ರಿಕ್
ಉದಾಹರಣೀಯ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ
--- | --- | -- |
ಎಲ್ಲಾ ಕಾರ್ಯಗಳು ಪೂರ್ಣಗೊಂಡಿವೆ, ಗ್ರಾಫಿಕಲ್‌ವಾಗಿ ಚಿತ್ರಿಸಲಾಗಿದೆ ಮತ್ತು ವಿವರಿಸಲಾಗಿದೆ, ಕನಿಷ್ಠ ಒಂದು ಅಥವಾ ಎರಡು ವಿಸ್ತಾರ ಗುರಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ | 5 ಕ್ಕಿಂತ ಹೆಚ್ಚು ಕಾರ್ಯಗಳು ಪೂರ್ಣಗೊಂಡಿವೆ, ವಿಸ್ತಾರ ಗುರಿಗಳನ್ನು ಪ್ರಯತ್ನಿಸಲಾಗಿಲ್ಲ, ಅಥವಾ ಫಲಿತಾಂಶಗಳು ಸ್ಪಷ್ಟವಿಲ್ಲ | 5 ಕ್ಕಿಂತ ಕಡಿಮೆ (ಆದರೆ 3 ಕ್ಕಿಂತ ಹೆಚ್ಚು) ಕಾರ್ಯಗಳು ಪೂರ್ಣಗೊಂಡಿವೆ, ದೃಶ್ಯೀಕರಣಗಳು ವಿಷಯವನ್ನು ತೋರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತಿಲ್ಲ
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

@ -0,0 +1,344 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-12-19T15:43:47+00:00",
"source_file": "2-Working-With-Data/08-data-preparation/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವುದು: ಡೇಟಾ ತಯಾರಿ
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/08-DataPreparation.png)|
|:---:|
|ಡೇಟಾ ತಯಾರಿ - _[@nitya](https://twitter.com/nitya) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್_ |
## [ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/14)
ಮೂಲದ ಮೇಲೆ ಅವಲಂಬಿಸಿ, ಕಚ್ಚಾ ಡೇಟಾ ಕೆಲವು ಅಸಮಾನತೆಗಳನ್ನು ಹೊಂದಿರಬಹುದು, ಇದು ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಮಾದರೀಕರಣದಲ್ಲಿ ಸವಾಲುಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಬೇರೆ ಮಾತಿನಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಈ ಡೇಟಾವನ್ನು "ಕಳಪೆ" ಎಂದು ವರ್ಗೀಕರಿಸಬಹುದು ಮತ್ತು ಅದನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವ ಅಗತ್ಯವಿದೆ. ಈ ಪಾಠವು ಕಳೆದುಹೋಗಿರುವ, ತಪ್ಪು ಅಥವಾ ಅಪೂರ್ಣ ಡೇಟಾ ಸವಾಲುಗಳನ್ನು ನಿಭಾಯಿಸಲು ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವ ಮತ್ತು ಪರಿವರ್ತಿಸುವ ತಂತ್ರಗಳನ್ನು ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ. ಈ ಪಾಠದಲ್ಲಿ ಒಳಗೊಂಡ ವಿಷಯಗಳು ಪೈಥಾನ್ ಮತ್ತು ಪಾಂಡಾಸ್ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ಈ ಡೈರೆಕ್ಟರಿಯೊಳಗಿನ [ನೋಟ್ಬುಕ್](notebook.ipynb) ನಲ್ಲಿ ಪ್ರದರ್ಶಿಸಲಾಗುತ್ತದೆ.
## ಡೇಟಾ ಸ್ವಚ್ಛಗೊಳಿಸುವ ಮಹತ್ವ
- **ಬಳಕೆ ಮತ್ತು ಮರುಬಳಕೆ ಸುಲಭತೆ**: ಡೇಟಾ ಸರಿಯಾಗಿ ಸಂಘಟಿತ ಮತ್ತು ಸಾಮಾನ್ಯೀಕೃತವಾಗಿದ್ದಾಗ, ಅದನ್ನು ಹುಡುಕುವುದು, ಬಳಸುವುದು ಮತ್ತು ಇತರರೊಂದಿಗೆ ಹಂಚಿಕೊಳ್ಳುವುದು ಸುಲಭವಾಗುತ್ತದೆ.
- **ಸಮಾನತೆ**: ಡೇಟಾ ವಿಜ್ಞಾನದಲ್ಲಿ ಸಾಮಾನ್ಯವಾಗಿ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಡೇಟಾಸೆಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಬೇಕಾಗುತ್ತದೆ, ವಿವಿಧ ಮೂಲಗಳಿಂದ ಬಂದ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಸೇರಿಸಬೇಕಾಗುತ್ತದೆ. ಪ್ರತಿ ಡೇಟಾಸೆಟ್‌ಗೆ ಸಾಮಾನ್ಯ ಮಾನದಂಡವನ್ನು ಖಚಿತಪಡಿಸುವುದು, ಅವುಗಳನ್ನು ಒಂದೇ ಡೇಟಾಸೆಟ್ ಆಗಿ ಮಿಶ್ರಣ ಮಾಡಿದಾಗ ಡೇಟಾ ಉಪಯುಕ್ತವಾಗಿರುತ್ತದೆ.
- **ಮಾದರಿ ನಿಖರತೆ**: ಸ್ವಚ್ಛಗೊಳಿಸಿದ ಡೇಟಾ ಆಧಾರಿತ ಮಾದರಿಗಳ ನಿಖರತೆಯನ್ನು ಸುಧಾರಿಸುತ್ತದೆ.
## ಸಾಮಾನ್ಯ ಸ್ವಚ್ಛಗೊಳಿಸುವ ಗುರಿಗಳು ಮತ್ತು ತಂತ್ರಗಳು
- **ಡೇಟಾಸೆಟ್ ಅನ್ವೇಷಣೆ**: ಡೇಟಾ ಅನ್ವೇಷಣೆ, ಇದು [ನಂತರದ ಪಾಠದಲ್ಲಿ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing) ಒಳಗೊಂಡಿದೆ, ಸ್ವಚ್ಛಗೊಳಿಸುವ ಅಗತ್ಯವಿರುವ ಡೇಟಾವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಡೇಟಾಸೆಟ್‌ನ ಮೌಲ್ಯಗಳನ್ನು ದೃಶ್ಯವಾಗಿ ಗಮನಿಸುವುದು ಉಳಿದ ಭಾಗವು ಹೇಗಿರಬಹುದು ಎಂಬ ನಿರೀಕ್ಷೆಗಳನ್ನು ಹೊಂದಲು ಅಥವಾ ಪರಿಹರಿಸಬಹುದಾದ ಸಮಸ್ಯೆಗಳ ಕಲ್ಪನೆಯನ್ನು ನೀಡಬಹುದು. ಅನ್ವೇಷಣೆ ಮೂಲಭೂತ ಪ್ರಶ್ನೆ, ದೃಶ್ಯೀಕರಣ ಮತ್ತು ಮಾದರಿಯನ್ನು ಒಳಗೊಂಡಿರಬಹುದು.
- **ರೂಪರೇಖೆ**: ಮೂಲದ ಮೇಲೆ ಅವಲಂಬಿಸಿ, ಡೇಟಾ ಪ್ರಸ್ತುತಪಡಿಸುವ ರೀತಿಯಲ್ಲಿ ಅಸಮಾನತೆಗಳಿರಬಹುದು. ಇದು ಮೌಲ್ಯವನ್ನು ಹುಡುಕಲು ಮತ್ತು ಪ್ರತಿನಿಧಿಸಲು ಸಮಸ್ಯೆಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು, ಅದು ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಕಾಣಿಸಬಹುದು ಆದರೆ ದೃಶ್ಯೀಕರಣ ಅಥವಾ ಪ್ರಶ್ನೆ ಫಲಿತಾಂಶಗಳಲ್ಲಿ ಸರಿಯಾಗಿ ಪ್ರತಿನಿಧಿಸಲಾಗುವುದಿಲ್ಲ. ಸಾಮಾನ್ಯ ರೂಪರೇಖೆ ಸಮಸ್ಯೆಗಳು ಶೂನ್ಯಸ್ಥಾನ, ದಿನಾಂಕಗಳು ಮತ್ತು ಡೇಟಾ ಪ್ರಕಾರಗಳನ್ನು ಪರಿಹರಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ. ರೂಪರೇಖೆ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುವುದು ಸಾಮಾನ್ಯವಾಗಿ ಡೇಟಾವನ್ನು ಬಳಸುವವರ ಜವಾಬ್ದಾರಿಯಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ದಿನಾಂಕಗಳು ಮತ್ತು ಸಂಖ್ಯೆಗಳ ಪ್ರಸ್ತುತಪಡಿಸುವ ಮಾನದಂಡಗಳು ದೇಶದ ಪ್ರಕಾರ ಬದಲಾಗಬಹುದು.
- **ನಕಲುಗಳು**: ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸಂಭವನೆಯಿರುವ ಡೇಟಾ ತಪ್ಪು ಫಲಿತಾಂಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ತೆಗೆದುಹಾಕಬೇಕು. ಇದು ಎರಡು ಅಥವಾ ಹೆಚ್ಚು ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಸೇರಿಸುವಾಗ ಸಾಮಾನ್ಯವಾಗಿರಬಹುದು. ಆದರೆ, ಸೇರಿಸಿದ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ನಕಲುಗಳು ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸುವ ತುಂಡುಗಳನ್ನು ಹೊಂದಿರಬಹುದು ಮತ್ತು ಅವುಗಳನ್ನು ಉಳಿಸಬೇಕಾಗಬಹುದು.
- **ಕಳೆದುಹೋಗಿರುವ ಡೇಟಾ**: ಕಳೆದುಹೋಗಿರುವ ಡೇಟಾ ತಪ್ಪುಗಳು ಮತ್ತು ದುರ್ಬಲ ಅಥವಾ ಪಕ್ಷಪಾತಿ ಫಲಿತಾಂಶಗಳನ್ನು ಉಂಟುಮಾಡಬಹುದು. ಕೆಲವೊಮ್ಮೆ ಇದನ್ನು ಡೇಟಾವನ್ನು "ಮರುಲೋಡ್" ಮಾಡುವ ಮೂಲಕ, ಗಣನೆ ಮತ್ತು ಪೈಥಾನ್ ಕೋಡ್ ಬಳಸಿ ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ತುಂಬಿಸುವ ಮೂಲಕ ಅಥವಾ ಸರಳವಾಗಿ ಮೌಲ್ಯ ಮತ್ತು ಸಂಬಂಧಿತ ಡೇಟಾವನ್ನು ತೆಗೆದುಹಾಕುವ ಮೂಲಕ ಪರಿಹರಿಸಬಹುದು. ಡೇಟಾ ಕಳೆದುಹೋಗುವ ಹಲವು ಕಾರಣಗಳಿವೆ ಮತ್ತು ಈ ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಹರಿಸಲು ತೆಗೆದುಕೊಳ್ಳುವ ಕ್ರಮಗಳು ಮೊದಲಿಗೆ ಅವು ಹೇಗೆ ಮತ್ತು ಏಕೆ ಕಳೆದುಹೋಗಿದೆಯೋ ಅವಲಂಬಿತವಾಗಿರುತ್ತವೆ.
## ಡೇಟಾಫ್ರೇಮ್ ಮಾಹಿತಿಯನ್ನು ಅನ್ವೇಷಿಸುವುದು
> **ಕಲಿಕೆಯ ಗುರಿ:** ಈ ಉಪವಿಭಾಗದ ಕೊನೆಯಲ್ಲಿ, ಪಾಂಡಾಸ್ ಡೇಟಾಫ್ರೇಮ್‌ಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾದ ಡೇಟಾ ಬಗ್ಗೆ ಸಾಮಾನ್ಯ ಮಾಹಿತಿಯನ್ನು ಹುಡುಕಲು ನೀವು ಆರಾಮವಾಗಿ ಇರಬೇಕು.
ನೀವು ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಪಾಂಡಾಸ್‌ಗೆ ಲೋಡ್ ಮಾಡಿದ ನಂತರ, ಅದು ಬಹುಶಃ ಡೇಟಾಫ್ರೇಮ್ ಆಗಿರುತ್ತದೆ (ವಿಸ್ತೃತ ಅವಲೋಕನಕ್ಕಾಗಿ ಹಿಂದಿನ [ಪಾಠ](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/07-python#dataframe) ನೋಡಿ). ಆದರೆ, ನಿಮ್ಮ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ 60,000 ಸಾಲುಗಳು ಮತ್ತು 400 ಕಾಲಮ್‌ಗಳಿದ್ದರೆ, ನೀವು ಯಾವ ರೀತಿಯಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದೀರಿ ಎಂಬುದರ ಅರ್ಥವನ್ನು ಹೇಗೆ ಪಡೆಯುತ್ತೀರಿ? ಭಾಗ್ಯವಶಾತ್, [pandas](https://pandas.pydata.org/) ಡೇಟಾಫ್ರೇಮ್ ಬಗ್ಗೆ ಒಟ್ಟು ಮಾಹಿತಿಯನ್ನು ಮತ್ತು ಮೊದಲ ಕೆಲವು ಮತ್ತು ಕೊನೆಯ ಕೆಲವು ಸಾಲುಗಳನ್ನು ತ್ವರಿತವಾಗಿ ನೋಡಲು ಅನುಕೂಲಕರ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.
ಈ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅನ್ವೇಷಿಸಲು, ನಾವು ಪೈಥಾನ್ ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಗ್ರಂಥಾಲಯವನ್ನು ಆಮದುಮಾಡಿ ಮತ್ತು ಐಕಾನಿಕ್ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ: **ಐರಿಸ್ ಡೇಟಾ ಸೆಟ್**.
```python
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
```
| |ಸೆಪಲ್ ಉದ್ದ (ಸೆಂಮೀ)|ಸೆಪಲ್ ಅಗಲ (ಸೆಂಮೀ)|ಪೆಟಲ್ ಉದ್ದ (ಸೆಂಮೀ)|ಪೆಟಲ್ ಅಗಲ (ಸೆಂಮೀ)|
|----------------------------------------|-----------------|----------------|-----------------|----------------|
|0 |5.1 |3.5 |1.4 |0.2 |
|1 |4.9 |3.0 |1.4 |0.2 |
|2 |4.7 |3.2 |1.3 |0.2 |
|3 |4.6 |3.1 |1.5 |0.2 |
|4 |5.0 |3.6 |1.4 |0.2 |
- **DataFrame.info**: ಪ್ರಾರಂಭಿಸಲು, `info()` ವಿಧಾನವನ್ನು `DataFrame` ನಲ್ಲಿ ಇರುವ ವಿಷಯದ ಸಾರಾಂಶವನ್ನು ಮುದ್ರಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ. ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ನೋಡೋಣ:
```python
iris_df.info()
```
```
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 sepal length (cm) 150 non-null float64
1 sepal width (cm) 150 non-null float64
2 petal length (cm) 150 non-null float64
3 petal width (cm) 150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB
```
ಇದರಿಂದ, *ಐರಿಸ್* ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ನಾಲ್ಕು ಕಾಲಮ್‌ಗಳಲ್ಲಿ 150 ಎಂಟ್ರಿಗಳು ಇವೆ ಮತ್ತು ಯಾವುದೇ ನಲ್ ಎಂಟ್ರಿಗಳು ಇಲ್ಲ. ಎಲ್ಲಾ ಡೇಟಾ 64-ಬಿಟ್ ಫ್ಲೋಟಿಂಗ್-ಪಾಯಿಂಟ್ ಸಂಖ್ಯೆಗಳಾಗಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ.
- **DataFrame.head()**: ನಂತರ, `DataFrame` ನ ನಿಜವಾದ ವಿಷಯವನ್ನು ಪರಿಶೀಲಿಸಲು, `head()` ವಿಧಾನವನ್ನು ಬಳಸುತ್ತೇವೆ. ನಮ್ಮ `iris_df` ನ ಮೊದಲ ಕೆಲವು ಸಾಲುಗಳನ್ನು ನೋಡೋಣ:
```python
iris_df.head()
```
```
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
```
- **DataFrame.tail()**: ವಿರುದ್ಧವಾಗಿ, `DataFrame` ನ ಕೊನೆಯ ಕೆಲವು ಸಾಲುಗಳನ್ನು ಪರಿಶೀಲಿಸಲು, `tail()` ವಿಧಾನವನ್ನು ಬಳಸುತ್ತೇವೆ:
```python
iris_df.tail()
```
```
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
145 6.7 3.0 5.2 2.3
146 6.3 2.5 5.0 1.9
147 6.5 3.0 5.2 2.0
148 6.2 3.4 5.4 2.3
149 5.9 3.0 5.1 1.8
```
> **ತೀರ್ಮಾನ:** ಡೇಟಾಫ್ರೇಮ್‌ನ ಮಾಹಿತಿಯ ಮೆಟಾಡೇಟಾ ಅಥವಾ ಅದರ ಮೊದಲ ಮತ್ತು ಕೊನೆಯ ಕೆಲವು ಮೌಲ್ಯಗಳನ್ನು ನೋಡಿದರೆ, ನೀವು ತಕ್ಷಣವೇ ಡೇಟಾದ ಗಾತ್ರ, ಆಕಾರ ಮತ್ತು ವಿಷಯದ ಬಗ್ಗೆ ಕಲ್ಪನೆ ಪಡೆಯಬಹುದು.
## ಕಳೆದುಹೋಗಿರುವ ಡೇಟಾ ನಿಭಾಯಿಸುವುದು
> **ಕಲಿಕೆಯ ಗುರಿ:** ಈ ಉಪವಿಭಾಗದ ಕೊನೆಯಲ್ಲಿ, ನೀವು ಡೇಟಾಫ್ರೇಮ್‌ಗಳಿಂದ ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ಹೇಗೆ ಬದಲಾಯಿಸಬೇಕು ಅಥವಾ ತೆಗೆದುಹಾಕಬೇಕು ಎಂಬುದನ್ನು ತಿಳಿದುಕೊಳ್ಳಬೇಕು.
ನೀವು ಬಳಸಲು ಬಯಸುವ (ಅಥವಾ ಬಳಸಬೇಕಾಗಿರುವ) ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಬಹುಶಃ ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳಿರುತ್ತವೆ. ಕಳೆದುಹೋಗಿರುವ ಡೇಟಾವನ್ನು ಹೇಗೆ ನಿಭಾಯಿಸುವುದು ಅಂತಿಮ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ನೈಜ ಜಗತ್ತಿನ ಫಲಿತಾಂಶಗಳಿಗೆ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳನ್ನು ತರಬಹುದು.
ಪಾಂಡಾಸ್ ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ಎರಡು ರೀತಿಯಲ್ಲಿ ನಿಭಾಯಿಸುತ್ತದೆ. ಮೊದಲನೆಯದು ನೀವು ಹಿಂದಿನ ವಿಭಾಗಗಳಲ್ಲಿ ನೋಡಿದ್ದೀರಿ: `NaN`, ಅಥವಾ ನಂಬರ್ ಅಲ್ಲ. ಇದು ವಾಸ್ತವದಲ್ಲಿ IEEE ಫ್ಲೋಟಿಂಗ್-ಪಾಯಿಂಟ್ ಸ್ಪೆಸಿಫಿಕೇಶನ್‌ನ ಭಾಗವಾದ ವಿಶೇಷ ಮೌಲ್ಯ ಮತ್ತು ಇದು ಕಳೆದುಹೋಗಿರುವ ಫ್ಲೋಟಿಂಗ್-ಪಾಯಿಂಟ್ ಮೌಲ್ಯಗಳನ್ನು ಸೂಚಿಸಲು ಮಾತ್ರ ಬಳಸಲಾಗುತ್ತದೆ.
ಫ್ಲೋಟ್ಸ್ ಹೊರತುಪಡಿಸಿ ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳಿಗೆ, ಪಾಂಡಾಸ್ ಪೈಥಾನ್ `None` ವಸ್ತುವನ್ನು ಬಳಸುತ್ತದೆ. ನೀವು ಎರಡು ವಿಭಿನ್ನ ರೀತಿಯ ಮೌಲ್ಯಗಳನ್ನು ಎದುರಿಸುವುದು ಗೊಂದಲಕಾರಿಯಾಗಬಹುದು, ಆದರೆ ಈ ವಿನ್ಯಾಸಕ್ಕೆ ತರ್ಕಬದ್ಧ ಕಾರಣಗಳಿವೆ ಮತ್ತು ಪ್ರಾಯೋಗಿಕವಾಗಿ, ಈ ಮಾರ್ಗವು ಬಹುತೇಕ ಪ್ರಕರಣಗಳಿಗೆ ಉತ್ತಮ ಸಮಾಧಾನವನ್ನು ಒದಗಿಸುತ್ತದೆ. ಆದಾಗ್ಯೂ, `None` ಮತ್ತು `NaN` ಎರಡೂ ಬಳಕೆಗೆ ಸಂಬಂಧಿಸಿದ ನಿರ್ಬಂಧಗಳನ್ನು ಹೊಂದಿವೆ.
`NaN` ಮತ್ತು `None` ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ [ನೋಟ್ಬುಕ್](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) ನೋಡಿ!
- **ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವುದು**: `pandas` ನಲ್ಲಿ, `isnull()` ಮತ್ತು `notnull()` ವಿಧಾನಗಳು ನಲ್ ಡೇಟಾವನ್ನು ಪತ್ತೆಹಚ್ಚಲು ನಿಮ್ಮ ಪ್ರಮುಖ ವಿಧಾನಗಳಾಗಿವೆ. ಎರಡೂ ನಿಮ್ಮ ಡೇಟಾದ ಮೇಲೆ ಬೂಲಿಯನ್ ಮಾಸ್ಕ್‌ಗಳನ್ನು ನೀಡುತ್ತವೆ. ನಾವು `NaN` ಮೌಲ್ಯಗಳಿಗೆ `numpy` ಅನ್ನು ಬಳಸುತ್ತೇವೆ:
```python
import numpy as np
example1 = pd.Series([0, np.nan, '', None])
example1.isnull()
```
```
0 False
1 True
2 False
3 True
dtype: bool
```
ಫಲಿತಾಂಶವನ್ನು ಗಮನದಿಂದ ನೋಡಿ. ಇದರಲ್ಲಿ ಯಾವುದಾದರೂ ನಿಮಗೆ ಆಶ್ಚರ್ಯಕರವಾಗಿದೆಯೇ? `0` ಗಣಿತೀಯ ನಲ್ ಆಗಿದ್ದರೂ, ಅದು ಸಂಪೂರ್ಣವಾಗಿ ಒಳ್ಳೆಯ ಪೂರ್ಣಾಂಕ ಮತ್ತು ಪಾಂಡಾಸ್ ಅದನ್ನು ಹಾಗೆಯೇ ಪರಿಗಣಿಸುತ್ತದೆ. `''` ಸ್ವಲ್ಪ ಸೂಕ್ಷ್ಮವಾಗಿದೆ. ನಾವು ಅದನ್ನು ಖಾಲಿ ಸ್ಟ್ರಿಂಗ್ ಮೌಲ್ಯವನ್ನು ಪ್ರತಿನಿಧಿಸಲು ಉಪಯೋಗಿಸಿದ್ದರೂ, ಅದು ಸ್ಟ್ರಿಂಗ್ ವಸ್ತು ಮತ್ತು ಪಾಂಡಾಸ್ ದೃಷ್ಟಿಯಿಂದ ನಲ್ ಪ್ರತಿನಿಧಿಸುವುದಲ್ಲ.
ಈಗ, ಇದನ್ನು ತಿರುಗಿಸಿ, ನೀವು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಬಳಸುವ ರೀತಿಯಲ್ಲಿ ಈ ವಿಧಾನಗಳನ್ನು ಬಳಸೋಣ. ನೀವು ಬೂಲಿಯನ್ ಮಾಸ್ಕ್‌ಗಳನ್ನು ನೇರವಾಗಿ ``Series`` ಅಥವಾ ``DataFrame`` ಸೂಚ್ಯಂಕವಾಗಿ ಬಳಸಬಹುದು, ಇದು ಕಳೆದುಹೋಗಿರುವ (ಅಥವಾ ಇರುವ) ಮೌಲ್ಯಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವಾಗ ಉಪಯುಕ್ತವಾಗಬಹುದು.
> **ತೀರ್ಮಾನ:** `isnull()` ಮತ್ತು `notnull()` ಎರಡೂ `DataFrame`ಗಳಲ್ಲಿ ಬಳಸಿದಾಗ ಸಮಾನ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತವೆ: ಅವು ಫಲಿತಾಂಶಗಳನ್ನೂ ಮತ್ತು ಆ ಫಲಿತಾಂಶಗಳ ಸೂಚ್ಯಂಕವನ್ನೂ ತೋರಿಸುತ್ತವೆ, ಇದು ನಿಮ್ಮ ಡೇಟಾ ಜೊತೆ ಹೋರಾಡುವಾಗ ಬಹಳ ಸಹಾಯ ಮಾಡುತ್ತದೆ.
- **ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು**: ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸುವುದನ್ನು ಮೀರಿ, ಪಾಂಡಾಸ್ `Series` ಮತ್ತು `DataFrame`ಗಳಿಂದ ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ಅನುಕೂಲಕರ ವಿಧಾನವನ್ನು ಒದಗಿಸುತ್ತದೆ. (ವಿಶಾಲ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ, missing [NA] ಮೌಲ್ಯಗಳನ್ನು ನಿಮ್ಮ ವಿಶ್ಲೇಷಣೆಯಿಂದ ತೆಗೆದುಹಾಕುವುದು ಅವುಗಳನ್ನು ಬೇರೆ ರೀತಿಯಲ್ಲಿ ನಿಭಾಯಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ.) ಇದನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು, `example1` ಗೆ ಮರಳೋಣ:
```python
example1 = example1.dropna()
example1
```
```
0 0
2
dtype: object
```
ನೀವು ಇದನ್ನು `example3[example3.notnull()]` ನಿಂದ ನಿಮ್ಮ ಔಟ್‌ಪುಟ್‌ನಂತೆ ಕಾಣಬೇಕು. ಇಲ್ಲಿ ವ್ಯತ್ಯಾಸವೆಂದರೆ, ಮಾಸ್ಕ್ ಮಾಡಿದ ಮೌಲ್ಯಗಳ ಮೇಲೆ ಸೂಚ್ಯಂಕ ಮಾಡುವ ಬದಲು, `dropna` ಆ ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು `Series` `example1` ನಿಂದ ತೆಗೆದುಹಾಕಿದೆ.
`DataFrame` ಗಳು ಎರಡು ಆಯಾಮಗಳನ್ನು ಹೊಂದಿರುವುದರಿಂದ, ಡೇಟಾವನ್ನು ತೆಗೆದುಹಾಕಲು ಹೆಚ್ಚಿನ ಆಯ್ಕೆಗಳು ಇವೆ.
```python
example2 = pd.DataFrame([[1, np.nan, 7],
[2, 5, 8],
[np.nan, 6, 9]])
example2
```
| | 0 | 1 | 2 |
|------|---|---|---|
|0 |1.0|NaN|7 |
|1 |2.0|5.0|8 |
|2 |NaN|6.0|9 |
(ನೀವು ಗಮನಿಸಿದ್ದೀರಾ, ಪಾಂಡಾಸ್ `NaN` ಗಳನ್ನು ಹೊಂದಿಸಲು ಎರಡು ಕಾಲಮ್‌ಗಳನ್ನು ಫ್ಲೋಟ್‌ಗಳಿಗೆ ಅಪ್‌ಕಾಸ್ಟ್ ಮಾಡಿದೆ?)
ನೀವು `DataFrame` ನಿಂದ ಒಂದು ಮೌಲ್ಯವನ್ನು ಮಾತ್ರ ತೆಗೆದುಹಾಕಲು ಸಾಧ್ಯವಿಲ್ಲ, ಆದ್ದರಿಂದ ನೀವು ಸಂಪೂರ್ಣ ಸಾಲುಗಳು ಅಥವಾ ಕಾಲಮ್‌ಗಳನ್ನು ತೆಗೆದುಹಾಕಬೇಕು. ನೀವು ಏನು ಮಾಡುತ್ತಿದ್ದೀರೋ ಅವಲಂಬಿಸಿ, ನೀವು ಒಂದನ್ನು ಅಥವಾ ಇನ್ನೊಂದನ್ನು ಮಾಡಬಹುದು, ಆದ್ದರಿಂದ ಪಾಂಡಾಸ್ ಎರಡಕ್ಕೂ ಆಯ್ಕೆಯನ್ನು ನೀಡುತ್ತದೆ. ಡೇಟಾ ವಿಜ್ಞಾನದಲ್ಲಿ, ಕಾಲಮ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಚರಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ ಮತ್ತು ಸಾಲುಗಳು ಅವಲೋಕನಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ, ಆದ್ದರಿಂದ ನೀವು ಹೆಚ್ಚು ಸಾಧ್ಯತೆ ಸಾಲುಗಳನ್ನು ತೆಗೆದುಹಾಕುವಿರಿ; `dropna()` ನ ಡೀಫಾಲ್ಟ್ ಸೆಟ್ಟಿಂಗ್ ಯಾವುದೇ ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿರುವ ಎಲ್ಲಾ ಸಾಲುಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು:
```python
example2.dropna()
```
```
0 1 2
1 2.0 5.0 8
```
ಅಗತ್ಯವಿದ್ದರೆ, ನೀವು ಕಾಲಮ್‌ಗಳಿಂದ NA ಮೌಲ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕಬಹುದು. ಇದಕ್ಕಾಗಿ `axis=1` ಬಳಸಿ:
```python
example2.dropna(axis='columns')
```
```
2
0 7
1 8
2 9
```
ನೀವು ಗಮನಿಸಿದರೆ, ಇದು ನೀವು ಉಳಿಸಬೇಕಾದ ಬಹಳಷ್ಟು ಡೇಟಾವನ್ನು ತೆಗೆದುಹಾಕಬಹುದು, ವಿಶೇಷವಾಗಿ ಸಣ್ಣ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ. ನೀವು ಕೆಲವೊಮ್ಮೆ ಅಥವಾ ಎಲ್ಲಾ ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿರುವ ಸಾಲುಗಳು ಅಥವಾ ಕಾಲಮ್‌ಗಳನ್ನು ಮಾತ್ರ ತೆಗೆದುಹಾಕಲು ಬಯಸಿದರೆ? ನೀವು `dropna` ನಲ್ಲಿ `how` ಮತ್ತು `thresh` ಪರಿಮಾಣಗಳನ್ನು ಬಳಸಬಹುದು.
ಡೀಫಾಲ್ಟ್ ಆಗಿ, `how='any'` (ನೀವು ಸ್ವತಃ ಪರಿಶೀಲಿಸಲು ಅಥವಾ ವಿಧಾನದಲ್ಲಿ ಇನ್ನಾವುದೇ ಪರಿಮಾಣಗಳಿವೆ ಎಂದು ನೋಡಲು, ಕೋಡ್ ಸೆಲ್‌ನಲ್ಲಿ `example4.dropna?` ಅನ್ನು ರನ್ ಮಾಡಿ). ನೀವು ಬದಲಿ ಆಯ್ಕೆಯಾಗಿ `how='all'` ಅನ್ನು ಸೂಚಿಸಬಹುದು, ಇದು ಎಲ್ಲಾ ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ಹೊಂದಿರುವ ಸಾಲುಗಳು ಅಥವಾ ಕಾಲಮ್‌ಗಳನ್ನು ಮಾತ್ರ ತೆಗೆದುಹಾಕುತ್ತದೆ. ಈ ಕಾರ್ಯವನ್ನು ನೋಡಲು ನಮ್ಮ ಉದಾಹರಣೆಯ `DataFrame` ಅನ್ನು ವಿಸ್ತರಿಸೋಣ.
```python
example2[3] = np.nan
example2
```
| |0 |1 |2 |3 |
|------|---|---|---|---|
|0 |1.0|NaN|7 |NaN|
|1 |2.0|5.0|8 |NaN|
|2 |NaN|6.0|9 |NaN|
`thresh` ಪರಿಮಾಣವು ನಿಮಗೆ ಸೂಕ್ಷ್ಮ ನಿಯಂತ್ರಣವನ್ನು ನೀಡುತ್ತದೆ: ನೀವು ಸಾಲು ಅಥವಾ ಕಾಲಮ್ ಉಳಿಸಿಕೊಳ್ಳಲು ಅಗತ್ಯವಿರುವ *ನಾನ್-ನಲ್* ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ನೀವು ಹೊಂದಿಸುತ್ತೀರಿ:
```python
example2.dropna(axis='rows', thresh=3)
```
```
0 1 2 3
1 2.0 5.0 8 NaN
```
ಇಲ್ಲಿ, ಮೊದಲ ಮತ್ತು ಕೊನೆಯ ಸಾಲುಗಳನ್ನು ತೆಗೆದುಹಾಕಲಾಗಿದೆ, ಏಕೆಂದರೆ ಅವುಗಳಲ್ಲಿ ಕೇವಲ ಎರಡು ನಾನ್-ನಲ್ ಮೌಲ್ಯಗಳಿವೆ.
- **ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ತುಂಬುವುದು**: ನಿಮ್ಮ ಡೇಟಾಸೆಟ್ ಮೇಲೆ ಅವಲಂಬಿಸಿ, ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದಕ್ಕಿಂತ ಮಾನ್ಯ ಮೌಲ್ಯಗಳಿಂದ ತುಂಬುವುದು ಹೆಚ್ಚು ಅರ್ಥಪೂರ್ಣವಾಗಬಹುದು. ನೀವು ಇದನ್ನು ಸ್ಥಳದಲ್ಲಿ ಮಾಡಲು `isnull` ಅನ್ನು ಬಳಸಬಹುದು, ಆದರೆ ಇದು ಬಹಳ ಶ್ರಮದಾಯಕವಾಗಬಹುದು, ವಿಶೇಷವಾಗಿ ತುಂಬಬೇಕಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆ ಹೆಚ್ಚು ಇದ್ದರೆ. ಡೇಟಾ ವಿಜ್ಞಾನದಲ್ಲಿ ಇದು ಸಾಮಾನ್ಯ ಕಾರ್ಯವಾಗಿರುವುದರಿಂದ, ಪಾಂಡಾಸ್ `fillna` ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ಇದು ಕಳೆದುಹೋಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ನಿಮ್ಮ ಆಯ್ಕೆಮಾಡಿದ ಮೌಲ್ಯದಿಂದ ಬದಲಾಯಿಸಿದ `Series` ಅಥವಾ `DataFrame` ನ ಪ್ರತಿಯನ್ನು ನೀಡುತ್ತದೆ. ಪ್ರಾಯೋಗಿಕವಾಗಿ ಇದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ ಎಂದು ನೋಡಲು ಮತ್ತೊಂದು ಉದಾಹರಣೆಯ `Series` ಅನ್ನು ರಚಿಸೋಣ.
```python
example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example3
```
```
a 1.0
b NaN
c 2.0
d NaN
e 3.0
dtype: float64
```
ನೀವು ಎಲ್ಲಾ ನಲ್ ಎಂಟ್ರಿಗಳನ್ನು ಒಂದೇ ಮೌಲ್ಯದಿಂದ, ಉದಾಹರಣೆಗೆ `0` ರಿಂದ ತುಂಬಬಹುದು:
```python
example3.fillna(0)
```
```
a 1.0
b 0.0
c 2.0
d 0.0
e 3.0
dtype: float64
```
ನೀವು ನಲ್ ಮೌಲ್ಯಗಳನ್ನು **ಮುಂದಿನ ಮೌಲ್ಯದಿಂದ ತುಂಬಬಹುದು**, ಅಂದರೆ ಕೊನೆಯ ಮಾನ್ಯ ಮೌಲ್ಯವನ್ನು ಬಳಸಿ ನಲ್ ಅನ್ನು ತುಂಬುವುದು:
```python
example3.fillna(method='ffill')
```
```
a 1.0
b 1.0
c 2.0
d 2.0
e 3.0
dtype: float64
```
ನೀವು **ಹಿಂದಿನ ಮೌಲ್ಯದಿಂದ ಕೂಡ ತುಂಬಬಹುದು**, ಅಂದರೆ ಮುಂದಿನ ಮಾನ್ಯ ಮೌಲ್ಯವನ್ನು ಹಿಂದಕ್ಕೆ ಹರಡಿಸಿ ನಲ್ ಅನ್ನು ತುಂಬುವುದು:
```python
example3.fillna(method='bfill')
```
```
a 1.0
b 2.0
c 2.0
d 3.0
e 3.0
dtype: float64
```
ನೀವು ಊಹಿಸುವಂತೆ, ಇದು `DataFrame` ಗಳೊಂದಿಗೆ ಸಹ ಇದೇ ರೀತಿಯಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ, ಆದರೆ ನೀವು ನಲ್ ಮೌಲ್ಯಗಳನ್ನು ತುಂಬಲು `axis` ಅನ್ನು ಸೂಚಿಸಬಹುದು. ಹಿಂದಿನ `example2` ಅನ್ನು ಮತ್ತೆ ತೆಗೆದುಕೊಳ್ಳೋಣ:
```python
example2.fillna(method='ffill', axis=1)
```
```
0 1 2 3
0 1.0 1.0 7.0 7.0
1 2.0 5.0 8.0 8.0
2 NaN 6.0 9.0 9.0
```
ಮುಂದಿನ ಮೌಲ್ಯದಿಂದ ತುಂಬುವಾಗ, ಹಿಂದಿನ ಮಾನ್ಯ ಮೌಲ್ಯ ಲಭ್ಯವಿಲ್ಲದಿದ್ದರೆ, ನಲ್ ಮೌಲ್ಯ ಉಳಿಯುತ್ತದೆ.
> **ತೀರ್ಮಾನ:** ನಿಮ್ಮ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಕಾಣೆಯಾಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಹಲವು ವಿಧಾನಗಳಿವೆ. ನೀವು ಬಳಸುವ ನಿರ್ದಿಷ್ಟ ತಂತ್ರ (ಅವುಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು, ಬದಲಿಸುವುದು, ಅಥವಾ ಬದಲಿಸುವ ವಿಧಾನ) ಆ ಡೇಟಾದ ವಿಶೇಷತೆಯಿಂದ ನಿರ್ಧರಿಸಬೇಕು. ನೀವು ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಹೆಚ್ಚು ಹ್ಯಾಂಡಲ್ ಮಾಡಿ ಸಂವಹನ ಮಾಡಿದಂತೆ ಕಾಣೆಯಾಗಿರುವ ಮೌಲ್ಯಗಳನ್ನು ಹೇಗೆ ನಿರ್ವಹಿಸಬೇಕೆಂಬ ಉತ್ತಮ ಅರ್ಥವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತೀರಿ.
## ನಕಲಿ ಡೇಟಾವನ್ನು ತೆಗೆದುಹಾಕುವುದು
> **ಕಲಿಕೆಯ ಗುರಿ:** ಈ ಉಪವಿಭಾಗದ ಕೊನೆಯಲ್ಲಿ, ನೀವು ಡೇಟಾಫ್ರೇಮ್‌ಗಳಿಂದ ನಕಲಿ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸಿ ತೆಗೆದುಹಾಕಲು ಆರಾಮವಾಗಿ ಇರಬೇಕು.
ಕಾಣೆಯಾಗಿರುವ ಡೇಟಾದ ಜೊತೆಗೆ, ನೀವು ನಿಜಜೀವನದ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ನಕಲಿ ಡೇಟಾವನ್ನು ಸಹ συχνά ಎದುರಿಸುತ್ತೀರಿ. ಭಾಗ್ಯವಶಾತ್, `pandas` ನಕಲಿ ಎಂಟ್ರಿಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿ ತೆಗೆದುಹಾಕಲು ಸುಲಭ ವಿಧಾನವನ್ನು ಒದಗಿಸುತ್ತದೆ.
- **ನಕಲಿಗಳನ್ನು ಗುರುತಿಸುವುದು: `duplicated`**: ನೀವು pandas ನಲ್ಲಿ `duplicated` ವಿಧಾನವನ್ನು ಬಳಸಿ ಸುಲಭವಾಗಿ ನಕಲಿ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸಬಹುದು, ಇದು `DataFrame` ನಲ್ಲಿ ಒಂದು ಎಂಟ್ರಿ ಹಿಂದಿನದೊಂದು ನಕಲಿ ಆಗಿದೆಯೇ ಎಂಬುದನ್ನು ಸೂಚಿಸುವ ಬೂಲಿಯನ್ ಮಾಸ್ಕ್ ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ. ಇದನ್ನು ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿ ನೋಡಲು ಮತ್ತೊಂದು ಉದಾಹರಣೆಯ `DataFrame` ಅನ್ನು ರಚಿಸೋಣ.
```python
example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
'numbers': [1, 2, 1, 3, 3]})
example4
```
| |letters|numbers|
|------|-------|-------|
|0 |A |1 |
|1 |B |2 |
|2 |A |1 |
|3 |B |3 |
|4 |B |3 |
```python
example4.duplicated()
```
```
0 False
1 False
2 True
3 False
4 True
dtype: bool
```
- **ನಕಲಿಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು: `drop_duplicates`:** `duplicated` ಮೌಲ್ಯಗಳು `False` ಆಗಿರುವ ಡೇಟಾದ ಪ್ರತಿಯನ್ನು ಸರಳವಾಗಿ ಹಿಂತಿರುಗಿಸುತ್ತದೆ:
```python
example4.drop_duplicates()
```
```
letters numbers
0 A 1
1 B 2
3 B 3
```
`duplicated` ಮತ್ತು `drop_duplicates` ಎರಡೂ ಡೀಫಾಲ್ಟ್ ಆಗಿ ಎಲ್ಲಾ ಕಾಲಮ್‌ಗಳನ್ನು ಪರಿಗಣಿಸುತ್ತವೆ ಆದರೆ ನೀವು ನಿಮ್ಮ `DataFrame` ನಲ್ಲಿ ಕೆಲವು ಕಾಲಮ್‌ಗಳ subset ಅನ್ನು ಮಾತ್ರ ಪರಿಶೀಲಿಸಲು ಸೂಚಿಸಬಹುದು:
```python
example4.drop_duplicates(['letters'])
```
```
letters numbers
0 A 1
1 B 2
```
> **ತೀರ್ಮಾನ:** ನಕಲಿ ಡೇಟಾವನ್ನು ತೆಗೆದುಹಾಕುವುದು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಪ್ರತಿ ಡೇಟಾ-ಸೈನ್ಸ್ ಯೋಜನೆಯ ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ. ನಕಲಿ ಡೇಟಾ ನಿಮ್ಮ ವಿಶ್ಲೇಷಣೆಯ ಫಲಿತಾಂಶಗಳನ್ನು ಬದಲಾಯಿಸಬಹುದು ಮತ್ತು ತಪ್ಪು ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡಬಹುದು!
## 🚀 ಸವಾಲು
ಚರ್ಚಿಸಲಾದ ಎಲ್ಲಾ ವಿಷಯಗಳು [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb) ಆಗಿ ಒದಗಿಸಲಾಗಿದೆ. ಜೊತೆಗೆ, ಪ್ರತಿ ವಿಭಾಗದ ನಂತರ ವ್ಯಾಯಾಮಗಳಿವೆ, ಅವುಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿ!
## [ಪೋಸ್ಟ್-ಲೆಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/15)
## ವಿಮರ್ಶೆ & ಸ್ವಯಂ ಅಧ್ಯಯನ
ನಿಮ್ಮ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಮಾದರೀಕರಣಕ್ಕೆ ಸಿದ್ಧಪಡಿಸುವ ಅನೇಕ ವಿಧಾನಗಳಿವೆ ಮತ್ತು ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವುದು "ಹ್ಯಾಂಡ್ಸ್ ಆನ್" ಅನುಭವವಾಗಿರುವ ಪ್ರಮುಖ ಹಂತವಾಗಿದೆ. ಈ ಪಾಠದಲ್ಲಿ ಒಳಗೊಂಡಿಲ್ಲದ ತಂತ್ರಗಳನ್ನು ಅನ್ವೇಷಿಸಲು ಕೆಳಗಿನ Kaggle ಸವಾಲುಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿ.
- [ಡೇಟಾ ಸ್ವಚ್ಛಗೊಳಿಸುವ ಸವಾಲು: ದಿನಾಂಕಗಳನ್ನು ಪಾರ್ಸ್ ಮಾಡುವುದು](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)
- [ಡೇಟಾ ಸ್ವಚ್ಛಗೊಳಿಸುವ ಸವಾಲು: ಡೇಟಾವನ್ನು ಮಾಪನ ಮತ್ತು ಸಾಮಾನ್ಯೀಕರಿಸುವುದು](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)
## ನಿಯೋಜನೆ
[ಫಾರ್ಮ್‌ನಿಂದ ಡೇಟಾ ಮೌಲ್ಯಮಾಪನ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

File diff suppressed because one or more lines are too long

@ -0,0 +1,30 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "f9d5a7275e046223fa6474477674b810",
"translation_date": "2025-12-19T15:45:50+00:00",
"source_file": "2-Working-With-Data/08-data-preparation/assignment.md",
"language_code": "kn"
}
-->
# ಫಾರ್ಮ್‌ನಿಂದ ಡೇಟಾವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು
ಒಂದು ಗ್ರಾಹಕರು ತಮ್ಮ ಗ್ರಾಹಕ ಆಧಾರದ ಬಗ್ಗೆ ಕೆಲವು ಮೂಲಭೂತ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು [ಸಣ್ಣ ಫಾರ್ಮ್](../../../../2-Working-With-Data/08-data-preparation/index.html) ಅನ್ನು ಪರೀಕ್ಷಿಸುತ್ತಿದ್ದಾರೆ. ಅವರು ಸಂಗ್ರಹಿಸಿದ ಡೇಟಾವನ್ನು ಮಾನ್ಯಗೊಳಿಸಲು ತಮ್ಮ ಕಂಡುಹಿಡಿದಿರುವುದನ್ನು ನಿಮಗೆ ತಂದುಕೊಟ್ಟಿದ್ದಾರೆ. ಫಾರ್ಮ್ ಅನ್ನು ನೋಡಲು ನೀವು ಬ್ರೌಸರ್‌ನಲ್ಲಿ `index.html` ಪುಟವನ್ನು ತೆರೆಯಬಹುದು.
ನೀವು ಫಾರ್ಮ್‌ನಿಂದ ಪಡೆದ ದಾಖಲೆಗಳನ್ನು ಒಳಗೊಂಡ [csv ದಾಖಲೆಗಳ ಡೇಟಾಸೆಟ್](../../../../data/form.csv) ಮತ್ತು ಕೆಲವು ಮೂಲಭೂತ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಪಡೆದಿದ್ದೀರಿ. ಕೆಲವು ದೃಶ್ಯೀಕರಣಗಳು ತಪ್ಪಾಗಿ ಕಾಣಿಸುತ್ತಿವೆ ಎಂದು ಗ್ರಾಹಕರು ಸೂಚಿಸಿದ್ದಾರೆ ಆದರೆ ಅವುಗಳನ್ನು ಹೇಗೆ ಸರಿಪಡಿಸಬೇಕೆಂದು ಅವರಿಗೆ ಖಚಿತವಿಲ್ಲ. ನೀವು ಅದನ್ನು [ಅಸೈನ್‌ಮೆಂಟ್ ನೋಟ್ಬುಕ್](assignment.ipynb) ನಲ್ಲಿ ಅನ್ವೇಷಿಸಬಹುದು.
## ಸೂಚನೆಗಳು
ಈ ಪಾಠದಲ್ಲಿ ನೀಡಲಾದ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಫಾರ್ಮ್ ನಿಖರ ಮತ್ತು ಸತತ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸುವಂತೆ ಶಿಫಾರಸುಗಳನ್ನು ಮಾಡಿ.
## ಮೌಲ್ಯಮಾಪನ ಮಾನದಂಡ
ಉತ್ತಮ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆ ಅಗತ್ಯ
--- | --- | -- |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "abc3309ab41bc5a7846f70ee1a055838",
"translation_date": "2025-12-19T13:29:56+00:00",
"source_file": "2-Working-With-Data/README.md",
"language_code": "kn"
}
-->
# ಡೇಟಾ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವುದು
![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.kn.jpg)
> ಫೋಟೋ <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅಲೆಕ್ಸಾಂಡರ್ ಸಿನ್</a> ಅವರಿಂದ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅನ್ಸ್ಪ್ಲ್ಯಾಶ್</a> ನಲ್ಲಿ
ಈ ಪಾಠಗಳಲ್ಲಿ, ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸುವ, ತಿದ್ದುಪಡಿ ಮಾಡುವ ಮತ್ತು ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ ಬಳಸುವ ಕೆಲವು ವಿಧಾನಗಳನ್ನು ನೀವು ಕಲಿಯುತ್ತೀರಿ. ಸಂಬಂಧಿತ ಮತ್ತು ಅಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳ ಬಗ್ಗೆ ಮತ್ತು ಅವುಗಳಲ್ಲಿ ಡೇಟಾವನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸಬಹುದು ಎಂಬುದನ್ನು ನೀವು ತಿಳಿದುಕೊಳ್ಳುತ್ತೀರಿ. ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸಲು ಪೈಥಾನ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಮೂಲಭೂತಗಳನ್ನು ನೀವು ಕಲಿಯುತ್ತೀರಿ ಮತ್ತು ಪೈಥಾನ್‌ನೊಂದಿಗೆ ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸುವ ಮತ್ತು ಗಣನೆ ಮಾಡುವ ಅನೇಕ ವಿಧಾನಗಳನ್ನು ನೀವು ಕಂಡುಹಿಡಿಯುತ್ತೀರಿ.
### ವಿಷಯಗಳು
1. [ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು](05-relational-databases/README.md)
2. [ಅಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು](06-non-relational/README.md)
3. [ಪೈಥಾನ್ ಜೊತೆಗೆ ಕೆಲಸ ಮಾಡುವುದು](07-python/README.md)
4. [ಡೇಟಾ ತಯಾರಿಕೆ](08-data-preparation/README.md)
### ಕ್ರೆಡಿಟ್ಸ್
ಈ ಪಾಠಗಳನ್ನು ❤️ ಸಹಿತ [ಕ್ರಿಸ್ಟೋಫರ್ ಹ್ಯಾರಿಸನ್](https://twitter.com/geektrainer), [ಡ್ಮಿತ್ರಿ ಸೋಶ್ನಿಕೋವ್](https://twitter.com/shwars) ಮತ್ತು [ಜಾಸ್ಮಿನ್ ಗ್ರೀನವೇ](https://twitter.com/paladique) ರವರು ಬರೆಯಲಾಗಿದೆ
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,221 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a49d78e32e280c410f04e5f2a2068e77",
"translation_date": "2025-12-19T16:15:58+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/README.md",
"language_code": "kn"
}
-->
# ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/09-Visualizing-Quantities.png)|
|:---:|
| ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು - _[@nitya](https://twitter.com/nitya) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್_ |
ಈ ಪಾಠದಲ್ಲಿ ನೀವು ಪ್ರಮಾಣದ ಸಂಧರ್ಭದಲ್ಲಿ ಆಸಕ್ತಿದಾಯಕ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ರಚಿಸುವುದನ್ನು ಕಲಿಯಲು ಲಭ್ಯವಿರುವ ಅನೇಕ ಪೈಥಾನ್ ಗ್ರಂಥಾಲಯಗಳಲ್ಲಿ ಒಂದನ್ನು ಬಳಸುವ ವಿಧಾನವನ್ನು ಅನ್ವೇಷಿಸುವಿರಿ. ಮಿನೆಸೋಟಾದ ಪಕ್ಷಿಗಳ ಬಗ್ಗೆ ಸ್ವಚ್ಛಗೊಳಿಸಿದ ಡೇಟಾಸೆಟ್ ಬಳಸಿ, ನೀವು ಸ್ಥಳೀಯ ವನ್ಯಜೀವಿಗಳ ಬಗ್ಗೆ ಅನೇಕ ಆಸಕ್ತಿದಾಯಕ ವಾಸ್ತವಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಬಹುದು.
## [ಪೂರ್ವ-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/16)
## Matplotlib ಬಳಸಿ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯನ್ನು ಗಮನಿಸಿ
ವಿವಿಧ ರೀತಿಯ ಸರಳ ಮತ್ತು ಸುಕ್ಷ್ಮ ಪ್ಲಾಟ್‌ಗಳು ಮತ್ತು ಚಾರ್ಟ್‌ಗಳನ್ನು ರಚಿಸಲು ಅತ್ಯುತ್ತಮ ಗ್ರಂಥಾಲಯವೆಂದರೆ [Matplotlib](https://matplotlib.org/stable/index.html). ಸಾಮಾನ್ಯವಾಗಿ, ಈ ಗ್ರಂಥಾಲಯಗಳನ್ನು ಬಳಸಿ ಡೇಟಾವನ್ನು ಪ್ಲಾಟ್ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ನಿಮ್ಮ ಡೇಟಾಫ್ರೇಮ್‌ನ ಯಾವ ಭಾಗಗಳನ್ನು ಗುರಿಯಾಗಿಸಬೇಕೆಂದು ಗುರುತಿಸುವುದು, ಆ ಡೇಟಾದ ಮೇಲೆ ಅಗತ್ಯವಿರುವ ಪರಿವರ್ತನೆಗಳನ್ನು ಮಾಡುವುದು, ಅದರ x ಮತ್ತು y ಅಕ್ಷ ಮೌಲ್ಯಗಳನ್ನು ನಿಯೋಜಿಸುವುದು, ಯಾವ ರೀತಿಯ ಪ್ಲಾಟ್ ತೋರಿಸಬೇಕೆಂದು ನಿರ್ಧರಿಸುವುದು ಮತ್ತು ನಂತರ ಪ್ಲಾಟ್ ಅನ್ನು ತೋರಿಸುವುದು ಸೇರಿದೆ. Matplotlib ವಿವಿಧ ರೀತಿಯ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ನೀಡುತ್ತದೆ, ಆದರೆ ಈ ಪಾಠಕ್ಕಾಗಿ ಪ್ರಮಾಣವನ್ನು ದೃಶ್ಯೀಕರಿಸಲು ಅತ್ಯಂತ ಸೂಕ್ತವಾದವುಗಳಾದ: ರೇಖಾಚಿತ್ರಗಳು, ಸ್ಕ್ಯಾಟರ್‌ಪ್ಲಾಟ್‌ಗಳು ಮತ್ತು ಬಾರ್ ಪ್ಲಾಟ್‌ಗಳ ಮೇಲೆ ಗಮನಹರಿಸೋಣ.
> ✅ ನಿಮ್ಮ ಡೇಟಾದ ರಚನೆ ಮತ್ತು ನೀವು ಹೇಳಬೇಕಾದ ಕಥೆಗೆ ಸೂಕ್ತವಾದ ಚಾರ್ಟ್ ಅನ್ನು ಬಳಸಿ.
> - ಕಾಲಕ್ರಮದಲ್ಲಿ ಪ್ರವೃತ್ತಿಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಲು: ರೇಖೆ
> - ಮೌಲ್ಯಗಳನ್ನು ಹೋಲಿಸಲು: ಬಾರ್, ಕಾಲಮ್, ಪೈ, ಸ್ಕ್ಯಾಟರ್‌ಪ್ಲಾಟ್
> - ಭಾಗಗಳು ಒಟ್ಟಿಗೆ ಹೇಗೆ ಸಂಬಂಧ ಹೊಂದಿವೆ ಎಂದು ತೋರಿಸಲು: ಪೈ
> - ಡೇಟಾದ ವಿತರಣೆ ತೋರಿಸಲು: ಸ್ಕ್ಯಾಟರ್‌ಪ್ಲಾಟ್, ಬಾರ್
> - ಪ್ರವೃತ್ತಿಗಳನ್ನು ತೋರಿಸಲು: ರೇಖೆ, ಕಾಲಮ್
> - ಮೌಲ್ಯಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳನ್ನು ತೋರಿಸಲು: ರೇಖೆ, ಸ್ಕ್ಯಾಟರ್‌ಪ್ಲಾಟ್, ಬಬಲ್
ನಿಮ್ಮ ಬಳಿ ಡೇಟಾಸೆಟ್ ಇದ್ದರೆ ಮತ್ತು ನೀಡಲಾದ ಐಟಂ ಎಷ್ಟು ಇದೆ ಎಂದು ಕಂಡುಹಿಡಿಯಬೇಕಾದರೆ, ಮೊದಲ ಕಾರ್ಯಗಳಲ್ಲಿ ಒಂದಾದದ್ದು ಅದರ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಶೀಲಿಸುವುದು.
✅ Matplotlib ಗಾಗಿ ಅತ್ಯುತ್ತಮ 'ಚೀಟ್ ಶೀಟ್‌ಗಳು' [ಇಲ್ಲಿ](https://matplotlib.org/cheatsheets/cheatsheets.pdf) ಲಭ್ಯವಿವೆ.
## ಪಕ್ಷಿಗಳ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ಮೌಲ್ಯಗಳ ಬಗ್ಗೆ ರೇಖಾಚಿತ್ರ ರಚಿಸಿ
ಈ ಪಾಠದ ರೂಟ್ ಫೋಲ್ಡರ್‌ನಲ್ಲಿರುವ `notebook.ipynb` ಫೈಲ್ ತೆರೆಯಿರಿ ಮತ್ತು ಒಂದು ಸೆಲ್ ಸೇರಿಸಿ.
> ಗಮನಿಸಿ: ಡೇಟಾ ಈ ರೆಪೋ ರೂಟ್‌ನ `/data` ಫೋಲ್ಡರ್‌ನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ.
```python
import pandas as pd
import matplotlib.pyplot as plt
birds = pd.read_csv('../../data/birds.csv')
birds.head()
```
ಈ ಡೇಟಾ ಪಠ್ಯ ಮತ್ತು ಸಂಖ್ಯೆಗಳ ಮಿಶ್ರಣವಾಗಿದೆ:
| | ಹೆಸರು | ವೈಜ್ಞಾನಿಕ ಹೆಸರು | ವರ್ಗ | ಕ್ರಮ | ಕುಟುಂಬ | ಜೀನಸ್ | ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿ | ಕನಿಷ್ಠ ಉದ್ದ | ಗರಿಷ್ಠ ಉದ್ದ | ಕನಿಷ್ಠ ದೇಹದ ಭಾರ | ಗರಿಷ್ಠ ದೇಹದ ಭಾರ | ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ | ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ |
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
| 0 | ಬ್ಲ್ಯಾಕ್-ಬೆಲ್ಡ್ ವಿಸ್ಲಿಂಗ್-ಡಕ್ | Dendrocygna autumnalis | ಬಾತುಗಳು/ಗೀಸೆಗಳು/ನೀರಾಜೀವಿಗಳು | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
| 1 | ಫುಲ್ವಸ್ ವಿಸ್ಲಿಂಗ್-ಡಕ್ | Dendrocygna bicolor | ಬಾತುಗಳು/ಗೀಸೆಗಳು/ನೀರಾಜೀವಿಗಳು | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
| 2 | ಸ್ನೋ ಗೂಸ್ | Anser caerulescens | ಬಾತುಗಳು/ಗೀಸೆಗಳು/ನೀರಾಜೀವಿಗಳು | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
| 3 | ರಾಸ್ ಗೂಸ್ | Anser rossii | ಬಾತುಗಳು/ಗೀಸೆಗಳು/ನೀರಾಜೀವಿಗಳು | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
| 4 | ಗ್ರೇಟರ್ ವೈಟ್-ಫ್ರಂಟ್ ಗೂಸ್ | Anser albifrons | ಬಾತುಗಳು/ಗೀಸೆಗಳು/ನೀರಾಜೀವಿಗಳು | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
ಸರಳ ರೇಖಾಚಿತ್ರ ಬಳಸಿ ಕೆಲವು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾವನ್ನು ಪ್ಲಾಟ್ ಮಾಡುವುದರಿಂದ ಪ್ರಾರಂಭಿಸೋಣ. ಈ ಆಸಕ್ತಿದಾಯಕ ಪಕ್ಷಿಗಳ ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ದೃಶ್ಯವನ್ನು ನೀವು ಬಯಸಿದರೆ.
```python
wingspan = birds['MaxWingspan']
wingspan.plot()
```
![ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ](../../../../translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.kn.png)
ನೀವು ತಕ್ಷಣವೇ ಏನು ಗಮನಿಸುತ್ತೀರಿ? ಕನಿಷ್ಠ ಒಂದು ಹೊರಗಿನ ಮೌಲ್ಯವಿದೆ ಎಂದು ತೋರುತ್ತದೆ - ಅದು ತುಂಬಾ ದೊಡ್ಡ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯಾಗಿದೆ! 2300 ಸೆಂ.ಮೀ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ ಎಂದರೆ 23 ಮೀಟರ್ - ಮಿನೆಸೋಟಾದಲ್ಲಿ ಪ್ಟೆರೋಡ್ಯಾಕ್ಟೈಲ್ಸ್ ಓಡಾಡುತ್ತಿವೆಯೇ? ಪರಿಶೀಲಿಸೋಣ.
ನೀವು Excel ನಲ್ಲಿ ತ್ವರಿತವಾಗಿ ಸೋರ್ಟ್ ಮಾಡಿ ಆ ಹೊರಗಿನ ಮೌಲ್ಯಗಳನ್ನು ಕಂಡುಹಿಡಿಯಬಹುದು, ಅವು ಬಹುಶಃ ಟೈಪೋಗಳಾಗಿರಬಹುದು, ಆದರೆ ಪ್ಲಾಟ್‌ನೊಳಗಿಂದಲೇ ದೃಶ್ಯೀಕರಣ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಮುಂದುವರಿಸಿ.
x-ಅಕ್ಷಕ್ಕೆ ಲೇಬಲ್ಗಳನ್ನು ಸೇರಿಸಿ ಯಾವ ರೀತಿಯ ಪಕ್ಷಿಗಳು ಪ್ರಶ್ನೆಯಲ್ಲಿವೆ ಎಂದು ತೋರಿಸಲು:
```
plt.title('Max Wingspan in Centimeters')
plt.ylabel('Wingspan (CM)')
plt.xlabel('Birds')
plt.xticks(rotation=45)
x = birds['Name']
y = birds['MaxWingspan']
plt.plot(x, y)
plt.show()
```
![ಲೇಬಲ್ಗಳೊಂದಿಗೆ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ](../../../../translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.kn.png)
ಲೇಬಲ್ಗಳ ತಿರುಗುವಿಕೆ 45 ಡಿಗ್ರಿಗಳಾಗಿದ್ದರೂ, ಓದಲು ತುಂಬಾ ಹೆಚ್ಚು ಇದೆ. ಬೇರೆ ತಂತ್ರವನ್ನು ಪ್ರಯತ್ನಿಸೋಣ: ಹೊರಗಿನ ಮೌಲ್ಯಗಳಿಗೆ ಮಾತ್ರ ಲೇಬಲ್ಗಳನ್ನು ನೀಡಿ ಮತ್ತು ಲೇಬಲ್ಗಳನ್ನು ಚಾರ್ಟ್ ಒಳಗೆ ಸೆಟ್ ಮಾಡಿ. ಲೇಬಲಿಂಗ್‌ಗೆ ಹೆಚ್ಚು ಜಾಗ ನೀಡಲು ಸ್ಕ್ಯಾಟರ್ ಚಾರ್ಟ್ ಬಳಸಬಹುದು:
```python
plt.title('Max Wingspan in Centimeters')
plt.ylabel('Wingspan (CM)')
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
for i in range(len(birds)):
x = birds['Name'][i]
y = birds['MaxWingspan'][i]
plt.plot(x, y, 'bo')
if birds['MaxWingspan'][i] > 500:
plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
plt.show()
```
ಇಲ್ಲಿ ಏನಾಗುತ್ತಿದೆ? ನೀವು `tick_params` ಬಳಸಿ ಕೆಳಗಿನ ಲೇಬಲ್ಗಳನ್ನು ಮರೆಮಾಡಿ, ನಂತರ ನಿಮ್ಮ ಪಕ್ಷಿಗಳ ಡೇಟಾಸೆಟ್ ಮೇಲೆ ಲೂಪ್ ರಚಿಸಿದ್ದೀರಿ. `bo` ಬಳಸಿ ಚಾರ್ಟ್ ಅನ್ನು ಸಣ್ಣ, ವೃತ್ತಾಕಾರದ ನೀಲಿ ಬಿಂದುಗಳೊಂದಿಗೆ ಪ್ಲಾಟ್ ಮಾಡಿ, ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ 500 ಕ್ಕಿಂತ ಹೆಚ್ಚು ಇರುವ ಯಾವುದೇ ಪಕ್ಷಿಯನ್ನು ಪರಿಶೀಲಿಸಿ, ಹಾಗಿದ್ದರೆ ಅದರ ಲೇಬಲನ್ನು ಬಿಂದು ಪಕ್ಕದಲ್ಲಿ ತೋರಿಸಿದ್ದೀರಿ. ನೀವು y ಅಕ್ಷದಲ್ಲಿ ಲೇಬಲ್ಗಳನ್ನು ಸ್ವಲ್ಪ ಬದಲಾಗಿಸಿದ್ದೀರಿ (`y * (1 - 0.05)`) ಮತ್ತು ಪಕ್ಷಿಯ ಹೆಸರನ್ನು ಲೇಬಲಾಗಿ ಬಳಸಿದ್ದೀರಿ.
ನೀವು ಏನು ಕಂಡುಹಿಡಿದಿರಿ?
![ಹೊರಗಿನ ಮೌಲ್ಯಗಳು](../../../../translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.kn.png)
## ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಿ
ಬಾಲ್ಡ್ ಈಗಲ್ ಮತ್ತು ಪ್ರೇರೀ ಫಾಲ್ಕನ್, ಬಹುಶಃ ತುಂಬಾ ದೊಡ್ಡ ಪಕ್ಷಿಗಳು ಆಗಿದ್ದರೂ, ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಗೆ ಹೆಚ್ಚುವರಿ `0` ಸೇರಿಸಿರುವುದರಿಂದ ತಪ್ಪಾಗಿ ಲೇಬಲಾದಂತೆ ತೋರುತ್ತದೆ. 25 ಮೀಟರ್ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ಬಾಲ್ಡ್ ಈಗಲ್ ಅನ್ನು ನೀವು ಭೇಟಿಯಾಗುವುದು ಸಾಧ್ಯವಿಲ್ಲ, ಆದರೆ ಹಾಗಿದ್ದರೆ ದಯವಿಟ್ಟು ನಮಗೆ ತಿಳಿಸಿ! ಆ ಎರಡು ಹೊರಗಿನ ಮೌಲ್ಯಗಳನ್ನು ಹೊರತುಪಡಿಸಿ ಹೊಸ ಡೇಟಾಫ್ರೇಮ್ ರಚಿಸೋಣ:
```python
plt.title('Max Wingspan in Centimeters')
plt.ylabel('Wingspan (CM)')
plt.xlabel('Birds')
plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
for i in range(len(birds)):
x = birds['Name'][i]
y = birds['MaxWingspan'][i]
if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
plt.plot(x, y, 'bo')
plt.show()
```
ಹೊರಗಿನ ಮೌಲ್ಯಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಿದ ನಂತರ, ನಿಮ್ಮ ಡೇಟಾ ಈಗ ಹೆಚ್ಚು ಸಮ್ಮಿಲಿತ ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸುಲಭವಾಗಿದೆ.
![ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಗಳ ಸ್ಕ್ಯಾಟರ್‌ಪ್ಲಾಟ್](../../../../translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.kn.png)
ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ದೃಷ್ಟಿಯಿಂದ ಸ್ವಚ್ಛಗೊಳಿಸಿದ ಡೇಟಾಸೆಟ್ ಇದ್ದು, ಈ ಪಕ್ಷಿಗಳ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳೋಣ.
ರೇಖೆ ಮತ್ತು ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್‌ಗಳು ಡೇಟಾ ಮೌಲ್ಯಗಳು ಮತ್ತು ಅವುಗಳ ವಿತರಣೆಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿ ತೋರಿಸಬಹುದು, ಆದರೆ ನಾವು ಈ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿರುವ ಮೌಲ್ಯಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಬೇಕಾಗಿದೆ. ಪ್ರಮಾಣದ ಬಗ್ಗೆ ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು ನೀವು ದೃಶ್ಯೀಕರಣಗಳನ್ನು ರಚಿಸಬಹುದು:
> ಎಷ್ಟು ವರ್ಗದ ಪಕ್ಷಿಗಳು ಇವೆ ಮತ್ತು ಅವುಗಳ ಸಂಖ್ಯೆ ಎಷ್ಟು?
> ಎಷ್ಟು ಪಕ್ಷಿಗಳು ನಾಶವಾಗಿವೆ, ಅಪಾಯದಲ್ಲಿವೆ, ಅಪರೂಪವಾಗಿವೆ ಅಥವಾ ಸಾಮಾನ್ಯವಾಗಿವೆ?
> ಲಿನಿಯಸ್ ಅವರ ಪದಬಳಕೆಯ ಪ್ರಕಾರ ಎಷ್ಟು ಜೀನಸ್ ಮತ್ತು ಕ್ರಮಗಳಿವೆ?
## ಬಾರ್ ಚಾರ್ಟ್‌ಗಳನ್ನು ಅನ್ವೇಷಿಸಿ
ಬಾರ್ ಚಾರ್ಟ್‌ಗಳು ಡೇಟಾ ಗುಂಪುಗಳನ್ನು ತೋರಿಸಲು ಉಪಯುಕ್ತವಾಗಿವೆ. ಈ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಇರುವ ಪಕ್ಷಿಗಳ ವರ್ಗಗಳನ್ನು ಅನ್ವೇಷಿಸಿ ಯಾವುದು ಸಂಖ್ಯೆಯಲ್ಲಿ ಅತ್ಯಂತ ಸಾಮಾನ್ಯವಾಗಿದೆ ಎಂದು ನೋಡೋಣ.
ನೋಟ್‌ಬುಕ್ ಫೈಲ್‌ನಲ್ಲಿ, ಮೂಲ ಬಾರ್ ಚಾರ್ಟ್ ರಚಿಸಿ
✅ ಗಮನಿಸಿ, ನೀವು ಹಿಂದಿನ ವಿಭಾಗದಲ್ಲಿ ಗುರುತಿಸಿದ ಎರಡು ಹೊರಗಿನ ಮೌಲ್ಯಗಳ ಪಕ್ಷಿಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಬಹುದು, ಅವುಗಳ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ಟೈಪೋವನ್ನು ತಿದ್ದುಪಡಿ ಮಾಡಬಹುದು ಅಥವಾ ಈ ವ್ಯಾಯಾಮಗಳಿಗೆ ಅವುಗಳನ್ನು ಉಳಿಸಬಹುದು, ಏಕೆಂದರೆ ಇವು ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ಮೌಲ್ಯಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಿಲ್ಲ.
ನೀವು ಬಾರ್ ಚಾರ್ಟ್ ರಚಿಸಲು ಬಯಸಿದರೆ, ನೀವು ಗಮನಹರಿಸಬೇಕಾದ ಡೇಟಾವನ್ನು ಆಯ್ಕೆ ಮಾಡಬಹುದು. ಬಾರ್ ಚಾರ್ಟ್‌ಗಳು ಕಚ್ಚಾ ಡೇಟಾದಿಂದ ರಚಿಸಬಹುದು:
```python
birds.plot(x='Category',
kind='bar',
stacked=True,
title='Birds of Minnesota')
```
![ಪೂರ್ಣ ಡೇಟಾ ಬಾರ್ ಚಾರ್ಟ್ ಆಗಿ](../../../../translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.kn.png)
ಆದರೆ ಈ ಬಾರ್ ಚಾರ್ಟ್ ಓದಲು ಅಸಾಧ್ಯವಾಗಿದೆ ಏಕೆಂದರೆ ಅತಿಯಾದ ಗುಂಪುಬದ್ಧವಲ್ಲದ ಡೇಟಾ ಇದೆ. ನೀವು ಪ್ಲಾಟ್ ಮಾಡಲು ಬಯಸುವ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಆಯ್ಕೆ ಮಾಡಬೇಕು, ಆದ್ದರಿಂದ ಪಕ್ಷಿಗಳ ಉದ್ದವನ್ನು ಅವುಗಳ ವರ್ಗದ ಆಧಾರದ ಮೇಲೆ ನೋಡೋಣ.
ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಪಕ್ಷಿಗಳ ವರ್ಗವನ್ನು ಮಾತ್ರ ಒಳಗೊಂಡಂತೆ ಫಿಲ್ಟರ್ ಮಾಡಿ.
✅ ನೀವು ಪಾಂಡಾಸ್ ಬಳಸಿ ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸುತ್ತೀರಿ ಮತ್ತು ನಂತರ Matplotlib ಅನ್ನು ಚಾರ್ಟ್ ಮಾಡಲು ಬಿಡುತ್ತೀರಿ ಎಂದು ಗಮನಿಸಿ.
ಬಹುಮಾನ ವರ್ಗಗಳಿದ್ದರಿಂದ, ನೀವು ಈ ಚಾರ್ಟ್ ಅನ್ನು ಲಂಬವಾಗಿ ಪ್ರದರ್ಶಿಸಬಹುದು ಮತ್ತು ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಂತೆ ಅದರ ಎತ್ತರವನ್ನು ಸರಿಹೊಂದಿಸಬಹುದು:
```python
category_count = birds.value_counts(birds['Category'].values, sort=True)
plt.rcParams['figure.figsize'] = [6, 12]
category_count.plot.barh()
```
![ವರ್ಗ ಮತ್ತು ಉದ್ದ](../../../../translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.kn.png)
ಈ ಬಾರ್ ಚಾರ್ಟ್ ಪ್ರತಿ ವರ್ಗದಲ್ಲಿನ ಪಕ್ಷಿಗಳ ಸಂಖ್ಯೆಯ ಉತ್ತಮ ದೃಶ್ಯವನ್ನು ತೋರಿಸುತ್ತದೆ. ಕ್ಷಣದಲ್ಲಿಯೇ ನೀವು ಈ ಪ್ರದೇಶದಲ್ಲಿ ಅತಿ ಹೆಚ್ಚು ಪಕ್ಷಿಗಳು ಬಾತುಗಳು/ಗೀಸೆಗಳು/ನೀರಾಜೀವಿಗಳು ವರ್ಗದಲ್ಲಿವೆ ಎಂದು ನೋಡಬಹುದು. ಮಿನೆಸೋಟಾ '10,000 ಸರೋವರಗಳ ಭೂಮಿ' ಆಗಿರುವುದರಿಂದ ಇದು ಆಶ್ಚರ್ಯಕರವಲ್ಲ!
✅ ಈ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಇನ್ನಷ್ಟು ಎಣಿಕೆಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿ. ಏನಾದರೂ ನಿಮಗೆ ಆಶ್ಚರ್ಯಕರವೇ?
## ಡೇಟಾ ಹೋಲಿಕೆ
ನೀವು ಹೊಸ ಅಕ್ಷಗಳನ್ನು ರಚಿಸಿ ಗುಂಪುಬದ್ಧ ಡೇಟಾದ ವಿಭಿನ್ನ ಹೋಲಿಕೆಗಳನ್ನು ಪ್ರಯತ್ನಿಸಬಹುದು. ಪಕ್ಷಿಯ ಗರಿಷ್ಠ ಉದ್ದವನ್ನು ಅದರ ವರ್ಗದ ಆಧಾರದ ಮೇಲೆ ಹೋಲಿಸಿ:
```python
maxlength = birds['MaxLength']
plt.barh(y=birds['Category'], width=maxlength)
plt.rcParams['figure.figsize'] = [6, 12]
plt.show()
```
![ಡೇಟಾ ಹೋಲಿಕೆ](../../../../translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.kn.png)
ಇಲ್ಲಿ ಏನೂ ಆಶ್ಚರ್ಯಕರವಿಲ್ಲ: ಹುಮ್ಮಿಂಗ್‌ಬರ್ಡ್‌ಗಳು ಪೆಲಿಕಾನ್ಸ್ ಅಥವಾ ಗೀಸೆಗಳಿಗಿಂತ ಕಡಿಮೆ ಗರಿಷ್ಠ ಉದ್ದ ಹೊಂದಿವೆ. ಡೇಟಾ ತಾರ್ಕಿಕವಾಗಿದ್ದರೆ ಚೆನ್ನಾಗಿದೆ!
ನೀವು ಬಾರ್ ಚಾರ್ಟ್‌ಗಳ ಇನ್ನಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ರಚಿಸಬಹುದು ಡೇಟಾವನ್ನು ಒಟ್ಟುಗೂಡಿಸುವ ಮೂಲಕ. ನೀಡಲಾದ ಪಕ್ಷಿ ವರ್ಗದಲ್ಲಿ ಕನಿಷ್ಠ ಮತ್ತು ಗರಿಷ್ಠ ಉದ್ದವನ್ನು ಒಟ್ಟುಗೂಡಿಸೋಣ:
```python
minLength = birds['MinLength']
maxLength = birds['MaxLength']
category = birds['Category']
plt.barh(category, maxLength)
plt.barh(category, minLength)
plt.show()
```
ಈ ಪ್ಲಾಟ್‌ನಲ್ಲಿ, ನೀವು ಪಕ್ಷಿ ವರ್ಗದ ಪ್ರತಿ ಕನಿಷ್ಠ ಉದ್ದ ಮತ್ತು ಗರಿಷ್ಠ ಉದ್ದದ ವ್ಯಾಪ್ತಿಯನ್ನು ನೋಡಬಹುದು. ಈ ಡೇಟಾ ನೀಡಿದಂತೆ, ಪಕ್ಷಿ ದೊಡ್ಡದಾದಂತೆ ಅದರ ಉದ್ದದ ವ್ಯಾಪ್ತಿಯೂ ದೊಡ್ಡದಾಗುತ್ತದೆ ಎಂದು ನೀವು ಸುರಕ್ಷಿತವಾಗಿ ಹೇಳಬಹುದು. ಅದ್ಭುತ!
![ಒಟ್ಟುಗೂಡಿಸಿದ ಮೌಲ್ಯಗಳು](../../../../translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.kn.png)
## 🚀 ಸವಾಲು
ಈ ಪಕ್ಷಿ ಡೇಟಾಸೆಟ್ ಒಂದು ನಿರ್ದಿಷ್ಟ ಪರಿಸರದಲ್ಲಿ ವಿವಿಧ ರೀತಿಯ ಪಕ್ಷಿಗಳ ಬಗ್ಗೆ ಸಮೃದ್ಧ ಮಾಹಿತಿಯನ್ನು ನೀಡುತ್ತದೆ. ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಹುಡುಕಿ ಮತ್ತು ಇನ್ನಷ್ಟು ಪಕ್ಷಿ-ಕೇಂದ್ರಿತ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಕಂಡುಹಿಡಿಯಿರಿ. ಈ ಪಕ್ಷಿಗಳ ಸುತ್ತಲೂ ಚಾರ್ಟ್‌ಗಳು ಮತ್ತು ಗ್ರಾಫ್‌ಗಳನ್ನು ರಚಿಸುವ ಅಭ್ಯಾಸ ಮಾಡಿ ನೀವು ತಿಳಿಯದ ವಾಸ್ತವಗಳನ್ನು ಅನ್ವೇಷಿಸಿ.
## [ಪೋಸ್ಟ್-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/17)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಈ ಮೊದಲ ಪಾಠವು Matplotlib ಬಳಸಿ ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಬಗ್ಗೆ ನಿಮಗೆ ಕೆಲವು ಮಾಹಿತಿ ನೀಡಿದೆ. ದೃಶ್ಯೀಕರಣಕ್ಕಾಗಿ ಡೇಟಾಸೆಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಇತರ ವಿಧಾನಗಳ ಬಗ್ಗೆ ಸಂಶೋಧನೆ ಮಾಡಿ. [Plotly](https://github.com/plotly/plotly.py) ಒಂದು ಗ್ರಂಥಾಲಯವಾಗಿದೆ, ಇದನ್ನು ನಾವು ಈ ಪಾಠಗಳಲ್ಲಿ ಒಳಗೊಂಡಿಲ್ಲ, ಆದ್ದರಿಂದ ಅದು ಏನು ನೀಡಬಹುದು ಎಂದು ನೋಡಿ.
## ನಿಯೋಜನೆ
[ರೆಖೆಗಳು, ಸ್ಕ್ಯಾಟರ್‌ಗಳು ಮತ್ತು ಬಾರ್‌ಗಳು](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "ad163c4fda72c8278280b61cad317ff4",
"translation_date": "2025-12-19T16:17:36+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/assignment.md",
"language_code": "kn"
}
-->
# ರೇಖೆಗಳು, ಚಿತ್ತಾರಗಳು ಮತ್ತು ಬಾರ್‌ಗಳು
## ಸೂಚನೆಗಳು
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ರೇಖಾ ಚಾರ್ಟ್‌ಗಳು, ಚಿತ್ತಾರ ಪ್ಲಾಟ್‌ಗಳು ಮತ್ತು ಬಾರ್ ಚಾರ್ಟ್‌ಗಳೊಂದಿಗೆ ಈ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಆಸಕ್ತಿದಾಯಕ ವಾಸ್ತವಗಳನ್ನು ತೋರಿಸಲು ಕೆಲಸ ಮಾಡಿದ್ದೀರಿ. ಈ ನಿಯೋಜನೆಯಲ್ಲಿ, ನೀಡಲಾದ ಪಕ್ಷಿಯ ಪ್ರಕಾರದ ಬಗ್ಗೆ ಒಂದು ವಾಸ್ತವವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಇನ್ನಷ್ಟು ಆಳವಾಗಿ ಪರಿಶೀಲಿಸಿ. ಉದಾಹರಣೆಗೆ, ಸ್ನೋ ಗೀಸ್ ಬಗ್ಗೆ ನೀವು ಕಂಡುಹಿಡಿಯಬಹುದಾದ ಎಲ್ಲಾ ಆಸಕ್ತಿದಾಯಕ ಡೇಟಾವನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ರಚಿಸಿ. ಮೇಲ್ಕಂಡ ಮೂರು ಪ್ಲಾಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನಿಮ್ಮ ನೋಟ್ಬುಕ್‌ನಲ್ಲಿ ಒಂದು ಕಥೆಯನ್ನು ಹೇಳಿ.
## ಮೌಲ್ಯಮಾಪನ
ಉದಾಹರಣೆಯಾದ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ
--- | --- | -- |
ಒಳ್ಳೆಯ ಟಿಪ್ಪಣಿಗಳು, ದೃಢ ಕಥನಶೈಲಿ ಮತ್ತು ಆಕರ್ಷಕ ಗ್ರಾಫ್‌ಗಳೊಂದಿಗೆ ನೋಟ್ಬುಕ್ ಅನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ | ಈ ಅಂಶಗಳಲ್ಲಿ ಒಂದನ್ನು ನೋಟ್ಬುಕ್ ಹೊಂದಿಲ್ಲ | ಈ ಅಂಶಗಳಲ್ಲಿ ಎರಡು ನೋಟ್ಬುಕ್ ಹೊಂದಿಲ್ಲ
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,48 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ಹಕ್ಕಿಗಳ ಬಗ್ಗೆ ತಿಳಿಯೋಣ\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ಅಸ್ವೀಕರಣ**: \nಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.7.0",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.7.0 64-bit"
},
"interpreter": {
"hash": "70b38d7a306a849643e446cd70466270a13445e5987dfa1344ef2b127438fa4d"
},
"coopTranslator": {
"original_hash": "33e5c5d3f0630388e20f2e161bd4cdf3",
"translation_date": "2025-12-19T17:36:48+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/notebook.ipynb",
"language_code": "kn"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

@ -0,0 +1,219 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "80a20467e046d312809d008395051fc7",
"translation_date": "2025-12-19T15:55:45+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/README.md",
"language_code": "kn"
}
-->
# ವಿತರಣೆಯನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/10-Visualizing-Distributions.png)|
|:---:|
| ವಿತರಣೆಯನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು - _[@nitya](https://twitter.com/nitya) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್_ |
ಹಿಂದಿನ ಪಾಠದಲ್ಲಿ, ನೀವು ಮಿನೆಸೋಟಾದ ಪಕ್ಷಿಗಳ ಬಗ್ಗೆ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಕೆಲವು ಆಸಕ್ತಿದಾಯಕ ವಾಸ್ತವಗಳನ್ನು ಕಲಿತಿರಿ. ನೀವು ಔಟ್‌ಲೈಯರ್‌ಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಮೂಲಕ ಕೆಲವು ದೋಷಪೂರಿತ ಡೇಟಾವನ್ನು ಕಂಡುಹಿಡಿದಿರಿ ಮತ್ತು ಪಕ್ಷಿ ವರ್ಗಗಳ ಗರಿಷ್ಠ ಉದ್ದದ ನಡುವಿನ ವ್ಯತ್ಯಾಸಗಳನ್ನು ನೋಡಿದಿರಿ.
## [ಪೂರ್ವ-ಪಾಠ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/18)
## ಪಕ್ಷಿಗಳ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಅನ್ವೇಷಿಸಿ
ಡೇಟಾವನ್ನು ತವಕದಿಂದ ಪರಿಶೀಲಿಸುವ ಮತ್ತೊಂದು ವಿಧಾನವೆಂದರೆ ಅದರ ವಿತರಣೆಯನ್ನು ನೋಡುವುದು, ಅಥವಾ ಡೇಟಾ ಒಂದು ಅಕ್ಷದ ಮೇಲೆ ಹೇಗೆ ಸಂಘಟಿತವಾಗಿದೆ ಎಂಬುದನ್ನು ನೋಡುವುದು. ಉದಾಹರಣೆಗೆ, ನೀವು ಈ ಡೇಟಾಸೆಟ್‌ನ ಮಿನೆಸೋಟಾದ ಪಕ್ಷಿಗಳ ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರ ಅಥವಾ ಗರಿಷ್ಠ ದೇಹ ಭಾರದ ಸಾಮಾನ್ಯ ವಿತರಣೆಯನ್ನು ತಿಳಿದುಕೊಳ್ಳಲು ಇಚ್ಛಿಸಬಹುದು.
ಈ ಡೇಟಾಸೆಟ್‌ನ ಡೇಟಾ ವಿತರಣೆಯ ಬಗ್ಗೆ ಕೆಲವು ವಾಸ್ತವಗಳನ್ನು ಕಂಡುಹಿಡಿಯೋಣ. ಈ ಪಾಠದ ರೂಟ್ ಫೋಲ್ಡರ್‌ನ _notebook.ipynb_ ಫೈಲ್‌ನಲ್ಲಿ, Pandas, Matplotlib ಮತ್ತು ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಆಮದುಮಾಡಿ:
```python
import pandas as pd
import matplotlib.pyplot as plt
birds = pd.read_csv('../../data/birds.csv')
birds.head()
```
| | ಹೆಸರು | ವೈಜ್ಞಾನಿಕ ಹೆಸರು | ವರ್ಗ | ಕ್ರಮ | ಕುಟುಂಬ | ಜನಸ್ | ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿ | ಕನಿಷ್ಠ ಉದ್ದ | ಗರಿಷ್ಠ ಉದ್ದ | ಕನಿಷ್ಠ ದೇಹ ಭಾರ | ಗರಿಷ್ಠ ದೇಹ ಭಾರ | ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರ | ಗರಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರ |
| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
| 0 | ಕಪ್ಪು ಹೊಟ್ಟೆ ಹೊಳಪಿನ ಬಾತುಕೋಳಿ | Dendrocygna autumnalis | ಬಾತುಕೋಳಿ/ಹಂಸ/ನೀರಾಜೀವಿ | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 |
| 1 | ಫುಲ್ವಸ್ ಹೊಳಪಿನ ಬಾತುಕೋಳಿ | Dendrocygna bicolor | ಬಾತುಕೋಳಿ/ಹಂಸ/ನೀರಾಜೀವಿ | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 |
| 2 | ಹಿಮ ಹಂಸ | Anser caerulescens | ಬಾತುಕೋಳಿ/ಹಂಸ/ನೀರಾಜೀವಿ | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 |
| 3 | ರಾಸ್ ಹಂಸ | Anser rossii | ಬಾತುಕೋಳಿ/ಹಂಸ/ನೀರಾಜೀವಿ | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 |
| 4 | ದೊಡ್ಡ ಬಿಳಿ ಮುಂಭಾಗದ ಹಂಸ | Anser albifrons | ಬಾತುಕೋಳಿ/ಹಂಸ/ನೀರಾಜೀವಿ | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 |
ಸಾಮಾನ್ಯವಾಗಿ, ನೀವು ಹಿಂದಿನ ಪಾಠದಲ್ಲಿ ಮಾಡಿದಂತೆ ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್ ಬಳಸಿ ಡೇಟಾ ಹೇಗೆ ವಿತರಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ತ್ವರಿತವಾಗಿ ನೋಡಬಹುದು:
```python
birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
plt.title('Max Length per Order')
plt.ylabel('Order')
plt.xlabel('Max Length')
plt.show()
```
![max length per order](../../../../translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.kn.png)
ಇದು ಪಕ್ಷಿ ಕ್ರಮದ ಪ್ರತಿ ದೇಹ ಉದ್ದದ ಸಾಮಾನ್ಯ ವಿತರಣೆಯ ಅವಲೋಕನವನ್ನು ನೀಡುತ್ತದೆ, ಆದರೆ ಇದು ನಿಜವಾದ ವಿತರಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸಲು ಅತ್ಯುತ್ತಮ ವಿಧಾನವಲ್ಲ. ಆ ಕಾರ್ಯವನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸುವ ಮೂಲಕ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ.
## ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ
Matplotlib ಡೇಟಾ ವಿತರಣೆಯನ್ನು ದೃಶ್ಯೀಕರಿಸಲು ಅತ್ಯುತ್ತಮ ವಿಧಾನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಈ ರೀತಿಯ ಚಾರ್ಟ್ ಒಂದು ಬಾರ್ ಚಾರ್ಟ್ ಹೋಲುತ್ತದೆ, ಇಲ್ಲಿ ಬಾರ್‌ಗಳ ಏರಿಕೆ ಮತ್ತು ಇಳಿಕೆಯಿಂದ ವಿತರಣೆಯನ್ನು ನೋಡಬಹುದು. ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸಲು, ನಿಮಗೆ ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾ ಬೇಕಾಗುತ್ತದೆ. ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸಲು, 'hist' ಎಂಬ ಕಿಂಡ್ ಅನ್ನು ನಿರ್ಧರಿಸಿ ಚಾರ್ಟ್ ಅನ್ನು ಪ್ಲಾಟ್ ಮಾಡಬಹುದು. ಈ ಚಾರ್ಟ್ ಸಂಪೂರ್ಣ ಡೇಟಾಸೆಟ್‌ನ ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾದ ಶ್ರೇಣಿಗೆ ಸಂಬಂಧಿಸಿದ MaxBodyMass ವಿತರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ. ಡೇಟಾ ಸರಣಿಯನ್ನು ಸಣ್ಣ ಬಿನ್‌ಗಳಾಗಿ ವಿಭಜಿಸುವ ಮೂಲಕ, ಅದು ಡೇಟಾ ಮೌಲ್ಯಗಳ ವಿತರಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸಬಹುದು:
```python
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset](../../../../translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.kn.png)
ನೀವು ನೋಡಬಹುದು, ಈ ಡೇಟಾಸೆಟ್‌ನ 400+ ಪಕ್ಷಿಗಳಲ್ಲಿ ಬಹುತೇಕವು Max Body Mass ಗಾಗಿ 2000 ಕ್ಕಿಂತ ಕಡಿಮೆ ಶ್ರೇಣಿಯಲ್ಲಿ ಬರುತ್ತವೆ. `bins` ಪರಿಮಾಣವನ್ನು 30 ರಂತಹ ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಗೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ ಡೇಟಾದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಒಳನೋಟವನ್ನು ಪಡೆಯಿರಿ:
```python
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset with larger bins param](../../../../translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.kn.png)
ಈ ಚಾರ್ಟ್ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಸೂಕ್ಷ್ಮ ರೀತಿಯಲ್ಲಿ ವಿತರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ. ಎಡಕ್ಕೆ ಕಡಿಮೆ ತಿರುವು ಹೊಂದಿರುವ ಚಾರ್ಟ್ ಅನ್ನು ನೀವು ನೀಡಲಾದ ಶ್ರೇಣಿಯೊಳಗಿನ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಆಯ್ಕೆಮಾಡುವ ಮೂಲಕ ರಚಿಸಬಹುದು:
ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಿ, ದೇಹ ಭಾರವು 60 ಕ್ಕಿಂತ ಕಡಿಮೆ ಇರುವ ಪಕ್ಷಿಗಳನ್ನು ಮಾತ್ರ ತೆಗೆದುಕೊಳ್ಳಿ ಮತ್ತು 40 `bins` ತೋರಿಸಿ:
```python
filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
plt.show()
```
![filtered histogram](../../../../translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.kn.png)
✅ ಇನ್ನಷ್ಟು ಫಿಲ್ಟರ್‌ಗಳು ಮತ್ತು ಡೇಟಾ ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿ. ಡೇಟಾದ ಸಂಪೂರ್ಣ ವಿತರಣೆಯನ್ನು ನೋಡಲು, `['MaxBodyMass']` ಫಿಲ್ಟರ್ ಅನ್ನು ತೆಗೆದುಹಾಕಿ ಲೇಬಲ್ ಮಾಡಲಾದ ವಿತರಣೆಯನ್ನು ತೋರಿಸಿ.
ಹಿಸ್ಟೋಗ್ರಾಮ್ ಕೆಲವು ಸುಂದರ ಬಣ್ಣ ಮತ್ತು ಲೇಬಲಿಂಗ್ ಸುಧಾರಣೆಗಳನ್ನು ಸಹ ಒದಗಿಸುತ್ತದೆ:
ಎರಡು ವಿತರಣೆಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಹೋಲಿಸಲು 2D ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸಿ. `MaxBodyMass` ಮತ್ತು `MaxLength` ಅನ್ನು ಹೋಲಿಸಿ. Matplotlib ಪ್ರಕಾಶಮಾನ ಬಣ್ಣಗಳನ್ನು ಬಳಸಿ ಸಂಯೋಜನೆಯನ್ನು ತೋರಿಸುವ ನಿರ್ಮಿತ ವಿಧಾನವನ್ನು ಒದಗಿಸುತ್ತದೆ:
```python
x = filteredBirds['MaxBodyMass']
y = filteredBirds['MaxLength']
fig, ax = plt.subplots(tight_layout=True)
hist = ax.hist2d(x, y)
```
ಈ ಎರಡು ಅಂಶಗಳ ನಡುವೆ ನಿರೀಕ್ಷಿತ ಅಕ್ಷದ ಮೇಲೆ ನಿರೀಕ್ಷಿತ ಸಂಬಂಧವಿದೆ, ಒಂದು ವಿಶೇಷವಾಗಿ ಬಲವಾದ ಸಂಯೋಜನೆಯ ಬಿಂದುವಿನೊಂದಿಗೆ:
![2D plot](../../../../translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.kn.png)
ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾಗಾಗಿ ಡೀಫಾಲ್ಟ್‌ನಲ್ಲಿ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ಪಠ್ಯ ಡೇಟಾ ಪ್ರಕಾರ ವಿತರಣೆಯನ್ನು ನೋಡಬೇಕಾದರೆ ಏನು ಮಾಡಬೇಕು?
## ಪಠ್ಯ ಡೇಟಾ ಬಳಸಿ ವಿತರಣೆಯನ್ನು ಅನ್ವೇಷಿಸಿ
ಈ ಡೇಟಾಸೆಟ್ ಪಕ್ಷಿ ವರ್ಗ ಮತ್ತು ಅದರ ಜನಸ್, ಪ್ರಭೇದ ಮತ್ತು ಕುಟುಂಬದ ಜೊತೆಗೆ ಅದರ ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯ ಬಗ್ಗೆ ಉತ್ತಮ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಈ ಸಂರಕ್ಷಣಾ ಮಾಹಿತಿಯನ್ನು ಪರಿಶೀಲಿಸೋಣ. ಪಕ್ಷಿಗಳ ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯ ಪ್ರಕಾರ ವಿತರಣೆಯೇನು?
> ✅ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ, ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯನ್ನು ವಿವರಿಸಲು ಹಲವಾರು ಸಂಕ್ಷಿಪ್ತ ರೂಪಗಳನ್ನು ಬಳಸಲಾಗಿದೆ. ಈ ಸಂಕ್ಷಿಪ್ತ ರೂಪಗಳು [IUCN Red List Categories](https://www.iucnredlist.org/) ನಿಂದ ಬಂದಿವೆ, ಇದು ಪ್ರಭೇದಗಳ ಸ್ಥಿತಿಯನ್ನು ದಾಖಲಿಸುವ ಸಂಸ್ಥೆ.
>
> - CR: ಗಂಭೀರವಾಗಿ ಅಪಾಯದಲ್ಲಿದೆ
> - EN: ಅಪಾಯದಲ್ಲಿದೆ
> - EX: ನಾಶವಾಗಿದೆ
> - LC: ಕನಿಷ್ಠ ಚಿಂತನೆ
> - NT: ಸಮೀಪದ ಅಪಾಯದಲ್ಲಿದೆ
> - VU: ಅಸುರಕ್ಷಿತ
ಇವು ಪಠ್ಯ ಆಧಾರಿತ ಮೌಲ್ಯಗಳು ಆದ್ದರಿಂದ ನೀವು ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸಲು ಪರಿವರ್ತನೆ ಮಾಡಬೇಕಾಗುತ್ತದೆ. filteredBirds ಡೇಟಾಫ್ರೇಮ್ ಬಳಸಿ, ಅದರ ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯನ್ನು ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರದೊಂದಿಗೆ ಪ್ರದರ್ಶಿಸಿ. ನೀವು ಏನು ನೋಡುತ್ತೀರಿ?
```python
x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
kwargs = dict(alpha=0.5, bins=20)
plt.hist(x1, **kwargs, color='red', label='Extinct')
plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
plt.hist(x3, **kwargs, color='yellow', label='Endangered')
plt.hist(x4, **kwargs, color='green', label='Near Threatened')
plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
plt.hist(x6, **kwargs, color='gray', label='Least Concern')
plt.gca().set(title='Conservation Status', ylabel='Min Wingspan')
plt.legend();
```
![wingspan and conservation collation](../../../../translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.kn.png)
ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರ ಮತ್ತು ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯ ನಡುವೆ ಉತ್ತಮ ಸಂಬಂಧವಿಲ್ಲದಂತೆ ತೋರುತ್ತದೆ. ಈ ವಿಧಾನವನ್ನು ಬಳಸಿ ಡೇಟಾಸೆಟ್‌ನ ಇತರ ಅಂಶಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ. ನೀವು ಯಾವುದೇ ಸಂಬಂಧವನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತೀರಾ?
## ಸಾಂದ್ರತೆ ಪ್ಲಾಟ್‌ಗಳು
ನೀವು ಗಮನಿಸಿದ್ದೀರಾ, ನಾವು ಈಗಾಗಲೇ ನೋಡಿದ ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳು 'ಹಂತದ' ಆಗಿದ್ದು, ಸೌಮ್ಯವಾಗಿ ವಕ್ರವಾಗಿ ಹರಿಯುವುದಿಲ್ಲ. ಸೌಮ್ಯವಾದ ಸಾಂದ್ರತೆ ಚಾರ್ಟ್ ತೋರಿಸಲು, ನೀವು ಸಾಂದ್ರತೆ ಪ್ಲಾಟ್ ಪ್ರಯತ್ನಿಸಬಹುದು.
ಸಾಂದ್ರತೆ ಪ್ಲಾಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು, ಹೊಸ ಪ್ಲಾಟಿಂಗ್ ಲೈಬ್ರರಿ [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) ಅನ್ನು ಪರಿಚಯಿಸಿಕೊಳ್ಳಿ.
Seaborn ಅನ್ನು ಲೋಡ್ ಮಾಡಿ, ಮೂಲಭೂತ ಸಾಂದ್ರತೆ ಪ್ಲಾಟ್ ಪ್ರಯತ್ನಿಸಿ:
```python
import seaborn as sns
import matplotlib.pyplot as plt
sns.kdeplot(filteredBirds['MinWingspan'])
plt.show()
```
![Density plot](../../../../translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.kn.png)
ನೀವು ನೋಡಬಹುದು, ಈ ಪ್ಲಾಟ್ ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರದ ಡೇಟಾಗಾಗಿ ಹಿಂದಿನದನ್ನು ಪ್ರತಿಧ್ವನಿಸುತ್ತದೆ; ಅದು ಸ್ವಲ್ಪ ಸೌಮ್ಯವಾಗಿದೆ. Seaborn ನ ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ಪ್ರಕಾರ, "ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗೆ ಹೋಲಿಸಿದರೆ, KDE ಒಂದು ಚಾರ್ಟ್ ಅನ್ನು ಉತ್ಪಾದಿಸಬಹುದು ಅದು ಕಡಿಮೆ ಗೊಂದಲಕಾರಿಯಾಗಿದ್ದು ಮತ್ತು ಹೆಚ್ಚು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದಾಗಿದೆ, ವಿಶೇಷವಾಗಿ ಬಹು ವಿತರಣೆಗಳನ್ನು ಚಿತ್ರಿಸುವಾಗ. ಆದರೆ ಮೂಲ ವಿತರಣೆಯು ಸೀಮಿತ ಅಥವಾ ಸೌಮ್ಯವಲ್ಲದಿದ್ದರೆ ವಕ್ರತೆಯು ಬದಲಾವಣೆಗಳನ್ನು ಪರಿಚಯಿಸುವ ಸಾಧ್ಯತೆ ಇದೆ. ಹಿಸ್ಟೋಗ್ರಾಮ್ ಹೋಲಾಗಿ, ಪ್ರತಿನಿಧಾನದ ಗುಣಮಟ್ಟವು ಉತ್ತಮ ಸ್ಮೂಥಿಂಗ್ ಪರಿಮಾಣಗಳ ಆಯ್ಕೆಯ ಮೇಲೂ ಅವಲಂಬಿತವಾಗಿದೆ." [ಮೂಲ](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) ಎಂದರೆ, ಔಟ್‌ಲೈಯರ್‌ಗಳು ಯಾವಾಗಲೂ ನಿಮ್ಮ ಚಾರ್ಟ್‌ಗಳನ್ನು ಕೆಟ್ಟ ರೀತಿಯಲ್ಲಿ ವರ್ತಿಸುವಂತೆ ಮಾಡುತ್ತವೆ.
ನೀವು ಎರಡನೇ ಚಾರ್ಟ್‌ನಲ್ಲಿ ರಚಿಸಿದ ಆ ಜಾಗದ MaxBodyMass ರೇಖೆಯನ್ನು ಮರುಪರಿಶೀಲಿಸಲು ಬಯಸಿದರೆ, ಈ ವಿಧಾನವನ್ನು ಬಳಸಿ ಅದನ್ನು ಚೆನ್ನಾಗಿ ಸ್ಮೂಥ್ ಮಾಡಬಹುದು:
```python
sns.kdeplot(filteredBirds['MaxBodyMass'])
plt.show()
```
![smooth bodymass line](../../../../translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.kn.png)
ನೀವು ಸ್ಮೂಥ್ ಆಗಿದ್ದರೂ ಹೆಚ್ಚು ಸ್ಮೂಥ್ ಆಗದ ರೇಖೆಯನ್ನು ಬಯಸಿದರೆ, `bw_adjust` ಪರಿಮಾಣವನ್ನು ಸಂಪಾದಿಸಿ:
```python
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
plt.show()
```
![less smooth bodymass line](../../../../translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.kn.png)
✅ ಈ ರೀತಿಯ ಪ್ಲಾಟ್‌ಗೆ ಲಭ್ಯವಿರುವ ಪರಿಮಾಣಗಳ ಬಗ್ಗೆ ಓದಿ ಮತ್ತು ಪ್ರಯೋಗ ಮಾಡಿ!
ಈ ರೀತಿಯ ಚಾರ್ಟ್ ಸುಂದರವಾಗಿ ವಿವರಣಾತ್ಮಕ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಕೆಲವು ಸಾಲುಗಳ ಕೋಡ್‌ನೊಂದಿಗೆ, ಉದಾಹರಣೆಗೆ, ನೀವು ಪಕ್ಷಿ ಕ್ರಮ ಪ್ರತಿ ಗರಿಷ್ಠ ದೇಹ ಭಾರ ಸಾಂದ್ರತೆಯನ್ನು ತೋರಿಸಬಹುದು:
```python
sns.kdeplot(
data=filteredBirds, x="MaxBodyMass", hue="Order",
fill=True, common_norm=False, palette="crest",
alpha=.5, linewidth=0,
)
```
![bodymass per order](../../../../translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.kn.png)
ನೀವು ಒಂದೇ ಚಾರ್ಟ್‌ನಲ್ಲಿ ಹಲವಾರು ಚರಗಳ ಸಾಂದ್ರತೆಯನ್ನು ನಕ್ಷೆ ಮಾಡಬಹುದು. ಪಕ್ಷಿಯ MaxLength ಮತ್ತು MinLength ಅನ್ನು ಅದರ ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯೊಂದಿಗೆ ಹೋಲಿಸಿ:
```python
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
```
![multiple densities, superimposed](../../../../translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.kn.png)
ಬಹುಶಃ 'ಅಸುರಕ್ಷಿತ' ಪಕ್ಷಿಗಳ ಗುಂಪಿನ ಉದ್ದಗಳ ಪ್ರಕಾರ ಅರ್ಥಪೂರ್ಣತೆ ಇದೆ ಅಥವಾ ಇಲ್ಲವೆ ಎಂಬುದನ್ನು ಸಂಶೋಧಿಸುವುದು ಲಾಭದಾಯಕವಾಗಬಹುದು.
## 🚀 ಸವಾಲು
ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳು ಮೂಲ ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್‌ಗಳು, ಬಾರ್ ಚಾರ್ಟ್‌ಗಳು ಅಥವಾ ರೇಖಾ ಚಾರ್ಟ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚು ಸುಧಾರಿತ ಚಾರ್ಟ್‌ಗಳಾಗಿವೆ. ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳ ಬಳಕೆಯ ಉತ್ತಮ ಉದಾಹರಣೆಗಳನ್ನು ಹುಡುಕಿ. ಅವು ಹೇಗೆ ಬಳಸಲಾಗುತ್ತವೆ, ಏನು ಪ್ರದರ್ಶಿಸುತ್ತವೆ ಮತ್ತು ಯಾವ ಕ್ಷೇತ್ರಗಳು ಅಥವಾ ವಿಚಾರಣಾ ಪ್ರದೇಶಗಳಲ್ಲಿ ಅವು ಸಾಮಾನ್ಯವಾಗಿ ಬಳಸಲಾಗುತ್ತವೆ?
## [ಪೋಸ್ಟ್-ಪಾಠ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/19)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು Matplotlib ಅನ್ನು ಬಳಸಿದಿರಿ ಮತ್ತು ಹೆಚ್ಚು ಸುಧಾರಿತ ಚಾರ್ಟ್‌ಗಳನ್ನು ತೋರಿಸಲು Seaborn ನಲ್ಲಿ ಕೆಲಸ ಪ್ರಾರಂಭಿಸಿದಿರಿ. Seaborn ನಲ್ಲಿ `kdeplot` ಬಗ್ಗೆ ಸಂಶೋಧನೆ ಮಾಡಿ, ಇದು "ಒಂದು ಅಥವಾ ಹೆಚ್ಚು ಆಯಾಮಗಳಲ್ಲಿ ನಿರಂತರ ಸಾಧ್ಯತೆ ಸಾಂದ್ರತೆ ವಕ್ರ" ಆಗಿದೆ. ಅದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು [ಡಾಕ್ಯುಮೆಂಟೇಶನ್](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) ಓದಿ.
## ನಿಯೋಜನೆ
[ನಿಮ್ಮ ಕೌಶಲ್ಯಗಳನ್ನು ಅನ್ವಯಿಸಿ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕಾರ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "40eeb9b9f94009c537c7811f9f27f037",
"translation_date": "2025-12-19T15:57:18+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/assignment.md",
"language_code": "kn"
}
-->
# ನಿಮ್ಮ ಕೌಶಲ್ಯಗಳನ್ನು ಅನ್ವಯಿಸಿ
## ಸೂಚನೆಗಳು
ಇದುವರೆಗೆ, ನೀವು ಮಿನೆಸೋಟಾ ಪಕ್ಷಿಗಳ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಪಕ್ಷಿಗಳ ಪ್ರಮಾಣ ಮತ್ತು ಜನಸಂಖ್ಯಾ ಸಾಂದ್ರತೆ ಬಗ್ಗೆ ಮಾಹಿತಿ ಕಂಡುಹಿಡಿಯಲು ಕೆಲಸ ಮಾಡಿದ್ದೀರಿ. ಈ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸುವ ಅಭ್ಯಾಸವನ್ನು ಬೇರೆ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಪ್ರಯತ್ನಿಸಿ, ಬಹುಶಃ [Kaggle](https://www.kaggle.com/) ನಿಂದ ಪಡೆದಿರಬಹುದು. ಈ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಕಥೆಯನ್ನು ಹೇಳಲು ಒಂದು ನೋಟ್ಬುಕ್ ರಚಿಸಿ, ಮತ್ತು ಅದನ್ನು ಚರ್ಚಿಸುವಾಗ ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳನ್ನು ಬಳಸುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ.
## ಮೌಲ್ಯಮಾಪನ
ಉದಾಹರಣೆಯಾಗಿ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ
--- | --- | -- |
ಈ ಡೇಟಾಸೆಟ್‌ನ ಮೂಲವನ್ನು ಒಳಗೊಂಡಂತೆ ಟಿಪ್ಪಣಿಗಳೊಂದಿಗೆ ನೋಟ್ಬುಕ್ ಅನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ ಮತ್ತು ಡೇಟಾ ಬಗ್ಗೆ ತಥ್ಯಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಕನಿಷ್ಠ 5 ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳನ್ನು ಬಳಸಲಾಗಿದೆ. | ಟಿಪ್ಪಣಿಗಳು ಅಪೂರ್ಣವಾಗಿರುವ ಅಥವಾ ದೋಷಗಳಿರುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ. | ಟಿಪ್ಪಣಿಗಳಿಲ್ಲದೆ ಮತ್ತು ದೋಷಗಳಿರುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ಹಕ್ಕಿಗಳ ವಿತರಣೆಗಳು\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ಅಸ್ವೀಕಾರ**: \nಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "e5272cbcbffd1ddcc09e44d3d8e7e8cd",
"translation_date": "2025-12-19T17:35:23+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/notebook.ipynb",
"language_code": "kn"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,209 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "42119bcc97bee88254e381156d770f3c",
"translation_date": "2025-12-19T16:03:58+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/README.md",
"language_code": "kn"
}
-->
# ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/11-Visualizing-Proportions.png)|
|:---:|
|ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು - _[@nitya](https://twitter.com/nitya) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್_ |
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಪ್ರಾಕೃತಿಕ-ಕೇಂದ್ರೀಕೃತ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವಿರಿ, ಉದಾಹರಣೆಗೆ, ಮುಷ್ರೂಮ್ಗಳ ಬಗ್ಗೆ ನೀಡಲಾದ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಎಷ್ಟು ವಿಭಿನ್ನ ಪ್ರಕಾರದ ಫಂಗಿ ಇದ್ದಾರೆ ಎಂಬುದನ್ನು. ನಾವು ಈ ಆಕರ್ಷಕ ಫಂಗಿಗಳನ್ನು Audubon ನಿಂದ ಪಡೆದ 23 ಪ್ರಭೇದಗಳ ಗಿಲ್ಲ್ಡ್ ಮುಷ್ರೂಮ್ಗಳ ವಿವರಗಳನ್ನು ಹೊಂದಿರುವ ಡೇಟಾಸೆಟ್ ಬಳಸಿ ಅನ್ವೇಷಿಸೋಣ. ನೀವು ರುಚಿಕರವಾದ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಪ್ರಯೋಗಿಸಬಹುದು, ಉದಾಹರಣೆಗೆ:
- ಪೈ ಚಾರ್ಟ್‌ಗಳು 🥧
- ಡೋನಟ್ ಚಾರ್ಟ್‌ಗಳು 🍩
- ವಾಫಲ್ ಚಾರ್ಟ್‌ಗಳು 🧇
> 💡 ಮೈಕ್ರೋಸಾಫ್ಟ್ ರಿಸರ್ಚ್‌ನಿಂದ [Charticulator](https://charticulator.com) ಎಂಬ ಬಹಳ ಆಸಕ್ತಿದಾಯಕ ಯೋಜನೆ ಉಚಿತ ಡ್ರ್ಯಾಗ್ ಮತ್ತು ಡ್ರಾಪ್ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳಿಗೆ ನೀಡುತ್ತದೆ. ಅವರ ಟ್ಯುಟೋರಿಯಲ್‌ಗಳಲ್ಲಿ ಒಂದರಲ್ಲಿ ಅವರು ಈ ಮುಷ್ರೂಮ್ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಕೂಡ ಬಳಸುತ್ತಾರೆ! ಆದ್ದರಿಂದ ನೀವು ಡೇಟಾವನ್ನು ಅನ್ವೇಷಿಸಿ ಲೈಬ್ರರಿಯನ್ನು ಒಂದೇ ಸಮಯದಲ್ಲಿ ಕಲಿಯಬಹುದು: [Charticulator ಟ್ಯುಟೋರಿಯಲ್](https://charticulator.com/tutorials/tutorial4.html).
## [ಪೂರ್ವ-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/20)
## ನಿಮ್ಮ ಮುಷ್ರೂಮ್ಗಳನ್ನು ಪರಿಚಯಿಸಿಕೊಳ್ಳಿ 🍄
ಮುಷ್ರೂಮ್ಗಳು ಬಹಳ ಆಸಕ್ತಿದಾಯಕವಾಗಿವೆ. ಅವುಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆಮದು ಮಾಡೋಣ:
```python
import pandas as pd
import matplotlib.pyplot as plt
mushrooms = pd.read_csv('../../data/mushrooms.csv')
mushrooms.head()
```
ಒಂದು ಟೇಬಲ್ ವಿಶ್ಲೇಷಣೆಗೆ ಉತ್ತಮ ಡೇಟಾ ಸಹಿತ ಮುದ್ರಿತವಾಗಿದೆ:
| ವರ್ಗ | ಕ್ಯಾಪ್-ಆಕಾರ | ಕ್ಯಾಪ್-ಮೇಲ್ಮೈ | ಕ್ಯಾಪ್-ಬಣ್ಣ | ಗಾಯಗಳು | ವಾಸನೆ | ಗಿಲ್-ಸಂಯೋಜನೆ | ಗಿಲ್-ಅಂತರ | ಗಿಲ್-ಗಾತ್ರ | ಗಿಲ್-ಬಣ್ಣ | ಸ್ಟಾಕ್-ಆಕಾರ | ಸ್ಟಾಕ್-ಮೂಲ | ರಿಂಗ್ ಮೇಲಿನ ಸ್ಟಾಕ್-ಮೇಲ್ಮೈ | ರಿಂಗ್ ಕೆಳಗಿನ ಸ್ಟಾಕ್-ಮೇಲ್ಮೈ | ರಿಂಗ್ ಮೇಲಿನ ಸ್ಟಾಕ್-ಬಣ್ಣ | ರಿಂಗ್ ಕೆಳಗಿನ ಸ್ಟಾಕ್-ಬಣ್ಣ | ವೀಲ್-ಪ್ರಕಾರ | ವೀಲ್-ಬಣ್ಣ | ರಿಂಗ್-ಸಂಖ್ಯೆ | ರಿಂಗ್-ಪ್ರಕಾರ | ಸ್ಪೋರ್-ಪ್ರಿಂಟ್-ಬಣ್ಣ | ಜನಸಂಖ್ಯೆ | ವಾಸಸ್ಥಳ |
| --------- | --------- | ----------- | --------- | ------- | ------- | --------------- | ------------ | --------- | ---------- | ----------- | ---------- | ------------------------ | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
| ವಿಷಕಾರಿ | ಉಬ್ಬು | ಸ್ಮೂತ್ | ಬೂದು | ಗಾಯಗಳು | ತೀವ್ರ | ಮುಕ್ತ | ಹತ್ತಿರ | ಸಣ್ಣ | ಕಪ್ಪು | ವಿಸ್ತಾರಗೊಳ್ಳುವ | ಸಮಾನ | ಸ್ಮೂತ್ | ಸ್ಮೂತ್ | ಬಿಳಿ | ಬಿಳಿ | ಭಾಗಶಃ | ಬಿಳಿ | ಒಂದು | ಪೆಂಡೆಂಟ್ | ಕಪ್ಪು | ಹರಡಿದ | ನಗರ |
| ತಿನ್ನಬಹುದಾದ | ಉಬ್ಬು | ಸ್ಮೂತ್ | ಹಳದಿ | ಗಾಯಗಳು | ಬಾದಾಮಿ | ಮುಕ್ತ | ಹತ್ತಿರ | ಅಗಲ | ಕಪ್ಪು | ವಿಸ್ತಾರಗೊಳ್ಳುವ | ಕ್ಲಬ್ | ಸ್ಮೂತ್ | ಸ್ಮೂತ್ | ಬಿಳಿ | ಬಿಳಿ | ಭಾಗಶಃ | ಬಿಳಿ | ಒಂದು | ಪೆಂಡೆಂಟ್ | ಬೂದು | ಬಹಳಷ್ಟು | ಹುಲ್ಲುಗಳು |
| ತಿನ್ನಬಹುದಾದ | ಘಂಟೆ | ಸ್ಮೂತ್ | ಬಿಳಿ | ಗಾಯಗಳು | ಅನೀಸ್ | ಮುಕ್ತ | ಹತ್ತಿರ | ಅಗಲ | ಬೂದು | ವಿಸ್ತಾರಗೊಳ್ಳುವ | ಕ್ಲಬ್ | ಸ್ಮೂತ್ | ಸ್ಮೂತ್ | ಬಿಳಿ | ಬಿಳಿ | ಭಾಗಶಃ | ಬಿಳಿ | ಒಂದು | ಪೆಂಡೆಂಟ್ | ಬೂದು | ಬಹಳಷ್ಟು | ಮೇದೋಸ್ |
| ವಿಷಕಾರಿ | ಉಬ್ಬು | ತಿರುವು | ಬಿಳಿ | ಗಾಯಗಳು | ತೀವ್ರ | ಮುಕ್ತ | ಹತ್ತಿರ | ಸಣ್ಣ | ಬೂದು | ವಿಸ್ತಾರಗೊಳ್ಳುವ | ಸಮಾನ | ಸ್ಮೂತ್ | ಸ್ಮೂತ್ | ಬಿಳಿ | ಬಿಳಿ | ಭಾಗಶಃ | ಬಿಳಿ | ಒಂದು | ಪೆಂಡೆಂಟ್ | ಕಪ್ಪು | ಹರಡಿದ | ನಗರ |
ತಕ್ಷಣವೇ, ನೀವು ಗಮನಿಸುತ್ತೀರಿ ಎಲ್ಲಾ ಡೇಟಾ ಪಠ್ಯರೂಪದಲ್ಲಿದೆ. ಈ ಡೇಟಾವನ್ನು ಚಾರ್ಟ್‌ನಲ್ಲಿ ಬಳಸಲು ನೀವು ಪರಿವರ್ತನೆ ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಬಹುತೇಕ ಡೇಟಾ ವಾಸ್ತವದಲ್ಲಿ ಒಂದು ವಸ್ತುವಾಗಿ ಪ್ರತಿನಿಧಿಸಲಾಗಿದೆ:
```python
print(mushrooms.select_dtypes(["object"]).columns)
```
ಫಲಿತಾಂಶ:
```output
Index(['class', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor',
'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color',
'stalk-shape', 'stalk-root', 'stalk-surface-above-ring',
'stalk-surface-below-ring', 'stalk-color-above-ring',
'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number',
'ring-type', 'spore-print-color', 'population', 'habitat'],
dtype='object')
```
ಈ ಡೇಟಾವನ್ನು ತೆಗೆದುಕೊಂಡು 'class' ಕಾಲಮ್ ಅನ್ನು ವರ್ಗವಾಗಿ ಪರಿವರ್ತಿಸಿ:
```python
cols = mushrooms.select_dtypes(["object"]).columns
mushrooms[cols] = mushrooms[cols].astype('category')
```
```python
edibleclass=mushrooms.groupby(['class']).count()
edibleclass
```
ಈಗ, ನೀವು ಮುಷ್ರೂಮ್ ಡೇಟಾವನ್ನು ಮುದ್ರಿಸಿದರೆ, ಅದು ವಿಷಕಾರಿ/ತಿನ್ನಬಹುದಾದ ವರ್ಗಗಳ ಪ್ರಕಾರ ವರ್ಗೀಕೃತವಾಗಿದೆ ಎಂದು ಕಾಣಬಹುದು:
| | ಕ್ಯಾಪ್-ಆಕಾರ | ಕ್ಯಾಪ್-ಮೇಲ್ಮೈ | ಕ್ಯಾಪ್-ಬಣ್ಣ | ಗಾಯಗಳು | ವಾಸನೆ | ಗಿಲ್-ಸಂಯೋಜನೆ | ಗಿಲ್-ಅಂತರ | ಗಿಲ್-ಗಾತ್ರ | ಗಿಲ್-ಬಣ್ಣ | ಸ್ಟಾಕ್-ಆಕಾರ | ... | ರಿಂಗ್ ಕೆಳಗಿನ ಸ್ಟಾಕ್-ಮೇಲ್ಮೈ | ರಿಂಗ್ ಮೇಲಿನ ಸ್ಟಾಕ್-ಬಣ್ಣ | ರಿಂಗ್ ಕೆಳಗಿನ ಸ್ಟಾಕ್-ಬಣ್ಣ | ವೀಲ್-ಪ್ರಕಾರ | ವೀಲ್-ಬಣ್ಣ | ರಿಂಗ್-ಸಂಖ್ಯೆ | ರಿಂಗ್-ಪ್ರಕಾರ | ಸ್ಪೋರ್-ಪ್ರಿಂಟ್-ಬಣ್ಣ | ಜನಸಂಖ್ಯೆ | ವಾಸಸ್ಥಳ |
| --------- | --------- | ----------- | --------- | ------- | ---- | --------------- | ------------ | --------- | ---------- | ----------- | --- | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
| ವರ್ಗ | | | | | | | | | | | | | | | | | | | | | |
| ತಿನ್ನಬಹುದಾದ | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | ... | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 |
| ವಿಷಕಾರಿ | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | ... | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 |
ನೀವು ಈ ಟೇಬಲ್‌ನಲ್ಲಿ ನೀಡಲಾದ ಕ್ರಮವನ್ನು ಅನುಸರಿಸಿ ನಿಮ್ಮ ವರ್ಗದ ಲೇಬಲ್‌ಗಳನ್ನು ರಚಿಸಿದರೆ, ನೀವು ಪೈ ಚಾರ್ಟ್ ರಚಿಸಬಹುದು:
## ಪೈ!
```python
labels=['Edible','Poisonous']
plt.pie(edibleclass['population'],labels=labels,autopct='%.1f %%')
plt.title('Edible?')
plt.show()
```
ಇದು, ಈ ಎರಡು ಮುಷ್ರೂಮ್ ವರ್ಗಗಳ ಪ್ರಕಾರ ಈ ಡೇಟಾದ ಪ್ರಮಾಣಗಳನ್ನು ತೋರಿಸುವ ಪೈ ಚಾರ್ಟ್. ಲೇಬಲ್‌ಗಳ ಕ್ರಮವನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದು ಬಹಳ ಮುಖ್ಯ, ವಿಶೇಷವಾಗಿ ಇಲ್ಲಿ, ಆದ್ದರಿಂದ ಲೇಬಲ್ ಅರೆ ಅನ್ನು ರಚಿಸುವ ಕ್ರಮವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ!
![pie chart](../../../../translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.kn.png)
## ಡೋನಟ್ಸ್!
ಒಂದು ಸ್ವಲ್ಪ ಹೆಚ್ಚು ದೃಶ್ಯಾತ್ಮಕವಾಗಿ ಆಸಕ್ತಿದಾಯಕ ಪೈ ಚಾರ್ಟ್ ಡೋನಟ್ ಚಾರ್ಟ್ ಆಗಿದೆ, ಇದು ಮಧ್ಯದಲ್ಲಿ ರಂಧ್ರವಿರುವ ಪೈ ಚಾರ್ಟ್. ಈ ವಿಧಾನವನ್ನು ಬಳಸಿ ನಮ್ಮ ಡೇಟಾವನ್ನು ನೋಡೋಣ.
ಮುಷ್ರೂಮ್ಗಳು ಬೆಳೆಯುವ ವಿವಿಧ ವಾಸಸ್ಥಳಗಳನ್ನು ನೋಡಿ:
```python
habitat=mushrooms.groupby(['habitat']).count()
habitat
```
ಇಲ್ಲಿ, ನೀವು ನಿಮ್ಮ ಡೇಟಾವನ್ನು ವಾಸಸ್ಥಳದ ಪ್ರಕಾರ ಗುಂಪು ಮಾಡುತ್ತಿದ್ದೀರಿ. 7 ವಾಸಸ್ಥಳಗಳಿವೆ, ಅವುಗಳನ್ನು ನಿಮ್ಮ ಡೋನಟ್ ಚಾರ್ಟ್ ಲೇಬಲ್‌ಗಳಾಗಿ ಬಳಸಿ:
```python
labels=['Grasses','Leaves','Meadows','Paths','Urban','Waste','Wood']
plt.pie(habitat['class'], labels=labels,
autopct='%1.1f%%', pctdistance=0.85)
center_circle = plt.Circle((0, 0), 0.40, fc='white')
fig = plt.gcf()
fig.gca().add_artist(center_circle)
plt.title('Mushroom Habitats')
plt.show()
```
![donut chart](../../../../translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.kn.png)
ಈ ಕೋಡ್ ಒಂದು ಚಾರ್ಟ್ ಮತ್ತು ಮಧ್ಯದ ವೃತ್ತವನ್ನು ರಚಿಸುತ್ತದೆ, ನಂತರ ಆ ಮಧ್ಯದ ವೃತ್ತವನ್ನು ಚಾರ್ಟ್‌ನಲ್ಲಿ ಸೇರಿಸುತ್ತದೆ. ಮಧ್ಯದ ವೃತ್ತದ ಅಗಲವನ್ನು `0.40` ಅನ್ನು ಬೇರೆ ಮೌಲ್ಯಕ್ಕೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ ಸಂಪಾದಿಸಬಹುದು.
ಡೋನಟ್ ಚಾರ್ಟ್‌ಗಳನ್ನು ಲೇಬಲ್‌ಗಳನ್ನು ಬದಲಾಯಿಸಲು ಹಲವು ರೀತಿಯಲ್ಲಿ ತಿದ್ದುಪಡಿ ಮಾಡಬಹುದು. ವಿಶೇಷವಾಗಿ ಲೇಬಲ್‌ಗಳನ್ನು ಓದಲು ಸುಲಭವಾಗುವಂತೆ ಹೈಲೈಟ್ ಮಾಡಬಹುದು. ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ [ಡಾಕ್ಸ್](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut) ನೋಡಿ.
ನೀವು ಈಗ ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಗುಂಪುಮಾಡಿ ಅದನ್ನು ಪೈ ಅಥವಾ ಡೋನಟ್ ಆಗಿ ಪ್ರದರ್ಶಿಸುವುದನ್ನು ತಿಳಿದಿದ್ದೀರಿ, ನೀವು ಇತರ ಚಾರ್ಟ್‌ಗಳನ್ನೂ ಅನ್ವೇಷಿಸಬಹುದು. ವಾಫಲ್ ಚಾರ್ಟ್ ಅನ್ನು ಪ್ರಯತ್ನಿಸಿ, ಇದು ಪ್ರಮಾಣವನ್ನು ಅನ್ವೇಷಿಸುವ ಬೇರೆ ರೀತಿಯ ವಿಧಾನ.
## ವಾಫಲ್ಸ್!
'ವಾಫಲ್' ಪ್ರಕಾರದ ಚಾರ್ಟ್ ಪ್ರಮಾಣಗಳನ್ನು 2D ಚೌಕಗಳ ಸರಣಿಯಾಗಿ ದೃಶ್ಯೀಕರಿಸುವ ಬೇರೆ ವಿಧಾನ. ಈ ಡೇಟಾಸೆಟ್‌ನ ಮುಷ್ರೂಮ್ ಕ್ಯಾಪ್ ಬಣ್ಣಗಳ ವಿಭಿನ್ನ ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸಲು ಪ್ರಯತ್ನಿಸಿ. ಇದಕ್ಕಾಗಿ, ನೀವು [PyWaffle](https://pypi.org/project/pywaffle/) ಎಂಬ ಸಹಾಯಕ ಲೈಬ್ರರಿಯನ್ನು ಸ್ಥಾಪಿಸಿ Matplotlib ಬಳಸಿ:
```python
pip install pywaffle
```
ನಿಮ್ಮ ಡೇಟಾದ ಒಂದು ಭಾಗವನ್ನು ಗುಂಪುಮಾಡಿ:
```python
capcolor=mushrooms.groupby(['cap-color']).count()
capcolor
```
ಲೇಬಲ್‌ಗಳನ್ನು ರಚಿಸಿ ನಂತರ ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಗುಂಪುಮಾಡಿ ವಾಫಲ್ ಚಾರ್ಟ್ ರಚಿಸಿ:
```python
import pandas as pd
import matplotlib.pyplot as plt
from pywaffle import Waffle
data ={'color': ['brown', 'buff', 'cinnamon', 'green', 'pink', 'purple', 'red', 'white', 'yellow'],
'amount': capcolor['class']
}
df = pd.DataFrame(data)
fig = plt.figure(
FigureClass = Waffle,
rows = 100,
values = df.amount,
labels = list(df.color),
figsize = (30,30),
colors=["brown", "tan", "maroon", "green", "pink", "purple", "red", "whitesmoke", "yellow"],
)
```
ವಾಫಲ್ ಚಾರ್ಟ್ ಬಳಸಿ, ನೀವು ಈ ಮುಷ್ರೂಮ್ ಡೇಟಾಸೆಟ್‌ನ ಕ್ಯಾಪ್ ಬಣ್ಣಗಳ ಪ್ರಮಾಣಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ನೋಡಬಹುದು. ಆಸಕ್ತಿದಾಯಕವಾಗಿ, ಇಲ್ಲಿ ಹಲವಾರು ಹಸಿರು ಕ್ಯಾಪ್ ಮುಷ್ರೂಮ್ಗಳು ಇವೆ!
![waffle chart](../../../../translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.kn.png)
✅ Pywaffle ಚಾರ್ಟ್‌ಗಳಲ್ಲಿ [Font Awesome](https://fontawesome.com/) ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಯಾವುದೇ ಐಕಾನ್‌ಗಳನ್ನು ಬಳಸುವ ಐಕಾನ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಚೌಕಗಳ ಬದಲು ಐಕಾನ್‌ಗಳನ್ನು ಬಳಸಿ ಇನ್ನಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ವಾಫಲ್ ಚಾರ್ಟ್ ರಚಿಸಲು ಪ್ರಯೋಗ ಮಾಡಿ.
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಮೂರು ವಿಧಾನಗಳನ್ನು ಕಲಿತಿರಿ. ಮೊದಲು, ನಿಮ್ಮ ಡೇಟಾವನ್ನು ವರ್ಗಗಳಾಗಿ ಗುಂಪುಮಾಡಿ ನಂತರ ಡೇಟಾವನ್ನು ಪ್ರದರ್ಶಿಸುವ ಅತ್ಯುತ್ತಮ ವಿಧಾನವನ್ನು ನಿರ್ಧರಿಸಿ - ಪೈ, ಡೋನಟ್ ಅಥವಾ ವಾಫಲ್. ಎಲ್ಲವೂ ರುಚಿಕರವಾಗಿವೆ ಮತ್ತು ಬಳಕೆದಾರರಿಗೆ ಡೇಟಾಸೆಟ್‌ನ ತಕ್ಷಣದ ದೃಶ್ಯವನ್ನು ನೀಡುತ್ತವೆ.
## 🚀 ಸವಾಲು
ಈ ರುಚಿಕರ ಚಾರ್ಟ್‌ಗಳನ್ನು [Charticulator](https://charticulator.com) ನಲ್ಲಿ ಮರುಸೃಷ್ಟಿಸುವ ಪ್ರಯತ್ನ ಮಾಡಿ.
## [ಪೋಸ್ಟ್-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/21)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಯಾವಾಗ ಪೈ, ಡೋನಟ್ ಅಥವಾ ವಾಫಲ್ ಚಾರ್ಟ್ ಬಳಸಬೇಕೆಂದು ಸ್ಪಷ್ಟವಾಗದಿದ್ದಾಗ ಕೆಲವೊಂದು ಲೇಖನಗಳನ್ನು ಓದಿ:
https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart
https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce
https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm
https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402
ಈ ಸಂಕೀರ್ಣ ನಿರ್ಧಾರ ಕುರಿತು ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ ಸಂಶೋಧನೆ ಮಾಡಿ.
## ಹುದ್ದೆ
[Excel ನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ತಪ್ಪುಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "1e00fe6a244c2f8f9a794c862661dd4f",
"translation_date": "2025-12-19T16:05:27+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/assignment.md",
"language_code": "kn"
}
-->
# Excel ನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿ
## ಸೂಚನೆಗಳು
ನೀವು Excel ನಲ್ಲಿ ಡೋನಟ್, ಪೈ, ಮತ್ತು ವಾಫಲ್ ಚಾರ್ಟ್‌ಗಳನ್ನು ರಚಿಸಬಹುದು ಎಂದು ನಿಮಗೆ ಗೊತ್ತಾ? ನಿಮ್ಮ ಆಯ್ಕೆದ ಡೇಟಾಸೆಟ್ ಬಳಸಿ, ಈ ಮೂರು ಚಾರ್ಟ್‌ಗಳನ್ನು Excel ಸ್ಪ್ರೆಡ್ಶೀಟ್‌ನಲ್ಲಿ ನೇರವಾಗಿ ರಚಿಸಿ.
## ಮೌಲ್ಯಮಾಪನ
| ಉದಾಹರಣೀಯ | ಸಮರ್ಪಕ | ಸುಧಾರಣೆಯ ಅಗತ್ಯ |
| ------------------------------------------------------- | ------------------------------------------------- | ------------------------------------------------------ |
| ಎಲ್ಲಾ ಮೂರು ಚಾರ್ಟ್‌ಗಳೊಂದಿಗೆ Excel ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ | ಎರಡು ಚಾರ್ಟ್‌ಗಳೊಂದಿಗೆ Excel ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ | ಒಂದೇ ಚಾರ್ಟ್‌ನೊಂದಿಗೆ Excel ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಪ್ರಮುಖ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# 🍄 ಕಾಳುಗಳ ಪ್ರಮಾಣಗಳು\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ಅಸ್ವೀಕರಣ**: \nಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಪ್ರಮುಖ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "397e9bbc0743761dbf72e5f16b7043e6",
"translation_date": "2025-12-19T17:35:57+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/notebook.ipynb",
"language_code": "kn"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

@ -0,0 +1,190 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "0764fd4077f3f04a1d968ec371227744",
"translation_date": "2025-12-19T15:58:52+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/README.md",
"language_code": "kn"
}
-->
# ಸಂಬಂಧಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು: ಜೇನುತುಪ್ಪ ಬಗ್ಗೆ ಎಲ್ಲವೂ 🍯
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/12-Visualizing-Relationships.png)|
|:---:|
|ಸಂಬಂಧಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು - _[@nitya](https://twitter.com/nitya) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್_ |
ನಮ್ಮ ಸಂಶೋಧನೆಯ ಪ್ರಕೃತಿ ಕೇಂದ್ರೀಕೃತ ವಿಷಯವನ್ನು ಮುಂದುವರೆಸುತ್ತಾ, [ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ ಡಿಪಾರ್ಟ್‌ಮೆಂಟ್ ಆಫ್ ಅಗ್ರಿಕಲ್ಚರ್](https://www.nass.usda.gov/About_NASS/index.php) ನಿಂದ ಪಡೆದ ಡೇಟಾಸೆಟ್ ಪ್ರಕಾರ ವಿವಿಧ ರೀತಿಯ ಜೇನುತುಪ್ಪಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳನ್ನು ತೋರಿಸಲು ಆಸಕ್ತಿದಾಯಕ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಕಂಡುಹಿಡಿಯೋಣ.
ಈ ಸುಮಾರು 600 ಐಟಂಗಳ ಡೇಟಾಸೆಟ್ ಅಮೆರಿಕದ ಹಲವಾರು ರಾಜ್ಯಗಳಲ್ಲಿ ಜೇನುತುಪ್ಪ ಉತ್ಪಾದನೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ನೀವು ಪ್ರತಿ ರಾಜ್ಯದ ಪ್ರತಿ ವರ್ಷದ ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ, ಪ್ರತಿ ಕಾಲೋನಿಯ ಉತ್ಪಾದನೆ, ಒಟ್ಟು ಉತ್ಪಾದನೆ, ಸ್ಟಾಕ್‌ಗಳು, ಪೌಂಡ್ ಪ್ರತಿ ಬೆಲೆ ಮತ್ತು ಉತ್ಪಾದನೆಯ ಮೌಲ್ಯವನ್ನು 1998-2012 ರವರೆಗೆ ನೋಡಬಹುದು.
ನೀವು ಒಂದು ರಾಜ್ಯದ ಪ್ರತಿ ವರ್ಷದ ಉತ್ಪಾದನೆ ಮತ್ತು ಆ ರಾಜ್ಯದ ಜೇನುತುಪ್ಪ ಬೆಲೆಯ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು ಆಸಕ್ತಿದಾಯಕವಾಗಿರುತ್ತದೆ. ಬದಲಾಗಿ, ರಾಜ್ಯಗಳ ಜೇನುತುಪ್ಪ ಉತ್ಪಾದನೆ ಪ್ರತಿ ಕಾಲೋನಿಯ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ದೃಶ್ಯೀಕರಿಸಬಹುದು. ಈ ವರ್ಷಾವಧಿ 2006 ರಲ್ಲಿ ಮೊದಲ ಬಾರಿಗೆ ಕಂಡುಬಂದ 'CCD' ಅಥವಾ 'ಕಾಲೋನಿ ಕಾಲಾಪ್ಸ್ ಡಿಸಾರ್ಡರ್' (http://npic.orst.edu/envir/ccd.html) ನಾಶಕಾರಿ ಪರಿಣಾಮಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಆದ್ದರಿಂದ ಇದು ಅಧ್ಯಯನಕ್ಕೆ ಸೂಕ್ತವಾದ ಡೇಟಾಸೆಟ್ ಆಗಿದೆ. 🐝
## [ಪೂರ್ವ-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/22)
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಮುಂಚೆ ಬಳಸಿದ Seaborn ಅನ್ನು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸಲು ಉತ್ತಮ ಗ್ರಂಥಾಲಯವಾಗಿ ಬಳಸಬಹುದು. ವಿಶೇಷವಾಗಿ, Seaborn ನ `relplot` ಫಂಕ್ಷನ್ ಅನ್ನು ಬಳಸುವುದು ಆಸಕ್ತಿದಾಯಕ, ಇದು ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್‌ಗಳು ಮತ್ತು ಲೈನ್ ಪ್ಲಾಟ್‌ಗಳನ್ನು ತ್ವರಿತವಾಗಿ '[ಸಾಂಖ್ಯಿಕ ಸಂಬಂಧಗಳು](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)' ಎಂದು ದೃಶ್ಯೀಕರಿಸಲು ಅನುಮತಿಸುತ್ತದೆ, ಇದು ಡೇಟಾ ವಿಜ್ಞಾನಿಗೆ ವ್ಯತ್ಯಾಸಗಳು ಪರಸ್ಪರ ಹೇಗೆ ಸಂಬಂಧ ಹೊಂದಿವೆ ಎಂಬುದನ್ನು ಉತ್ತಮವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
## ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್‌ಗಳು
ಪ್ರತಿ ರಾಜ್ಯದ ಪ್ರತಿ ವರ್ಷದ ಜೇನುತುಪ್ಪ ಬೆಲೆ ಹೇಗೆ ಬದಲಾಗಿದೆ ಎಂಬುದನ್ನು ತೋರಿಸಲು ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್ ಅನ್ನು ಬಳಸಿ. Seaborn, `relplot` ಬಳಸಿ, ರಾಜ್ಯದ ಡೇಟಾವನ್ನು ಗುಂಪುಮಾಡಿ ವರ್ಗೀಕೃತ ಮತ್ತು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾ ಎರಡಕ್ಕೂ ಡೇಟಾ ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ.
ಡೇಟಾ ಮತ್ತು Seaborn ಅನ್ನು ಆಮದು ಮಾಡುವುದರಿಂದ ಪ್ರಾರಂಭಿಸೋಣ:
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
honey = pd.read_csv('../../data/honey.csv')
honey.head()
```
ನೀವು ಗಮನಿಸುವಿರಿ ಜೇನುತುಪ್ಪ ಡೇಟಾದಲ್ಲಿ ವರ್ಷ ಮತ್ತು ಪೌಂಡ್ ಪ್ರತಿ ಬೆಲೆ ಸೇರಿದಂತೆ ಹಲವಾರು ಆಸಕ್ತಿದಾಯಕ ಕಾಲಮ್‌ಗಳಿವೆ. ಅಮೆರಿಕದ ರಾಜ್ಯಗಳ ಪ್ರಕಾರ ಈ ಡೇಟಾವನ್ನು ಗುಂಪುಮಾಡಿ ಅನ್ವೇಷಿಸೋಣ:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 |
| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 |
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
ಜೇನುತುಪ್ಪ ಬೆಲೆ ಮತ್ತು ಅದರ ಅಮೆರಿಕದ ಮೂಲ ರಾಜ್ಯದ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ತೋರಿಸಲು ಮೂಲಭೂತ ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್ ರಚಿಸಿ. ಎಲ್ಲಾ ರಾಜ್ಯಗಳನ್ನು ಪ್ರದರ್ಶಿಸಲು `y` ಅಕ್ಷವನ್ನು ಎತ್ತರವಾಗಿರಿಸಿ:
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.kn.png)
ಈಗ, ವರ್ಷಗಳ ಪ್ರಗತಿಯನ್ನು ತೋರಿಸಲು ಜೇನುತುಪ್ಪ ಬಣ್ಣದ ಯೋಜನೆಯನ್ನು ಬಳಸಿ ಅದೇ ಡೇಟಾವನ್ನು ತೋರಿಸಿ. ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬದಲಾವಣೆಯನ್ನು ತೋರಿಸಲು 'hue' ಪರಿಮಾಣವನ್ನು ಸೇರಿಸಬಹುದು:
> ✅ Seaborn ನಲ್ಲಿ ನೀವು ಬಳಸಬಹುದಾದ [ಬಣ್ಣ ಪ್ಯಾಲೆಟ್‌ಗಳ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿಯಿರಿ](https://seaborn.pydata.org/tutorial/color_palettes.html) - ಸುಂದರವಾದ ರೇನ್ಬೋ ಬಣ್ಣ ಯೋಜನೆಯನ್ನು ಪ್ರಯತ್ನಿಸಿ!
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.kn.png)
ಈ ಬಣ್ಣ ಯೋಜನೆಯ ಬದಲಾವಣೆಯಿಂದ, ಜೇನುತುಪ್ಪ ಬೆಲೆ ಪ್ರತಿ ಪೌಂಡ್ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚುತ್ತಿರುವುದು ಕಾಣುತ್ತದೆ. ನಿಜವಾಗಿಯೂ, ಡೇಟಾದ ಒಂದು ಮಾದರಿ ಸೆಟ್ (ಉದಾಹರಣೆಗೆ, ಅರಿಜೋನಾ ರಾಜ್ಯ) ನೋಡಿದರೆ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬೆಲೆ ಏರಿಕೆಯ ಮಾದರಿಯನ್ನು ಕೆಲವು ಅಪವಾದಗಳೊಂದಿಗೆ ಕಾಣಬಹುದು:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 |
| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 |
| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 |
| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 |
| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 |
| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 |
| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 |
| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 |
| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 |
| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 |
| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 |
| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 |
| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 |
| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 |
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
ಬಣ್ಣದ ಬದಲು ಗಾತ್ರವನ್ನು ಬಳಸಿಕೊಂಡು ಈ ಪ್ರಗತಿಯನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಮತ್ತೊಂದು ವಿಧಾನ ಇದೆ. ಬಣ್ಣದ ದೃಷ್ಟಿ ಸಮಸ್ಯೆ ಇರುವ ಬಳಕೆದಾರರಿಗೆ ಇದು ಉತ್ತಮ ಆಯ್ಕೆಯಾಗಬಹುದು. ಬೆಲೆಯ ಏರಿಕೆಯನ್ನು ಬಿಂದುಗಳ ವೃತ್ತಾಕಾರದ ವಿಸ್ತಾರದಲ್ಲಿ ತೋರಿಸಲು ನಿಮ್ಮ ದೃಶ್ಯೀಕರಣವನ್ನು ಸಂಪಾದಿಸಿ:
```python
sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
```
ನೀವು ಬಿಂದುಗಳ ಗಾತ್ರ ಕ್ರಮೇಣ ಹೆಚ್ಚುತ್ತಿರುವುದನ್ನು ಕಾಣಬಹುದು.
![scatterplot 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.kn.png)
ಇದು ಸರಳ ಸರಬರಾಜು ಮತ್ತು ಬೇಡಿಕೆ ಪ್ರಕರಣವೇ? ಹವಾಮಾನ ಬದಲಾವಣೆ ಮತ್ತು ಕಾಲೋನಿ ಕಾಲಾಪ್ಸ್ ಮುಂತಾದ ಕಾರಣಗಳಿಂದ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಕಡಿಮೆ ಜೇನುತುಪ್ಪ ಲಭ್ಯವಿದೆಯೇ, ಆದ್ದರಿಂದ ಬೆಲೆ ಏರಿಕೆಯಾಗುತ್ತಿದೆಯೇ?
ಈ ಡೇಟಾಸೆಟ್‌ನ ಕೆಲವು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು, ಕೆಲವು ಲೈನ್ ಚಾರ್ಟ್‌ಗಳನ್ನು ಅನ್ವೇಷಿಸೋಣ.
## ಲೈನ್ ಚಾರ್ಟ್‌ಗಳು
ಪ್ರಶ್ನೆ: ಜೇನುತುಪ್ಪ ಬೆಲೆ ಪ್ರತಿ ಪೌಂಡ್ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಏರಿದೆಯೇ? ನೀವು ಇದನ್ನು ಸುಲಭವಾಗಿ ಕಂಡುಹಿಡಿಯಲು ಒಂದು ಲೈನ್ ಚಾರ್ಟ್ ರಚಿಸಬಹುದು:
```python
sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
ಉತ್ತರ: ಹೌದು, 2003 ರ ಸುತ್ತಲೂ ಕೆಲವು ಅಪವಾದಗಳೊಂದಿಗೆ:
![line chart 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.kn.png)
✅ Seaborn ಒಂದು ಲೈನ್ ಸುತ್ತಲೂ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದರಿಂದ, "ಪ್ರತಿ x ಮೌಲ್ಯದ ಮೇಲೆ ಹಲವಾರು ಅಳೆಯುವಿಕೆಗಳನ್ನು ಸರಾಸರಿ ಮತ್ತು ಸರಾಸರಿಯ ಸುತ್ತಲೂ 95% ವಿಶ್ವಾಸಾಂಶವನ್ನು ಪ್ಲಾಟ್ ಮಾಡುತ್ತದೆ". [ಮೂಲ](https://seaborn.pydata.org/tutorial/relational.html). ಈ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುವ ವರ್ತನೆಯನ್ನು `ci=None` ಸೇರಿಸುವ ಮೂಲಕ ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಬಹುದು.
ಪ್ರಶ್ನೆ: 2003 ರಲ್ಲಿ ಜೇನುತುಪ್ಪ ಸರಬರಾಜಿನಲ್ಲಿ ಏರಿಕೆ ಕಾಣಬಹುದೇ? ಒಟ್ಟು ಉತ್ಪಾದನೆ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಹೇಗಿದೆ?
```python
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.kn.png)
ಉತ್ತರ: ಅಲ್ಲ. ಒಟ್ಟು ಉತ್ಪಾದನೆ ನೋಡಿದರೆ, ಆ ವಿಶೇಷ ವರ್ಷದಲ್ಲಿ ಅದು ಹೆಚ್ಚಿದಂತೆ ತೋರುತ್ತದೆ, ಆದರೂ ಸಾಮಾನ್ಯವಾಗಿ ಈ ವರ್ಷಗಳಲ್ಲಿ ಜೇನುತುಪ್ಪ ಉತ್ಪಾದನೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
ಪ್ರಶ್ನೆ: ಆ ಸಂದರ್ಭದಲ್ಲಿ, 2003 ರ ಸುತ್ತಲೂ ಜೇನುತುಪ್ಪ ಬೆಲೆಯ ಏರಿಕೆಗೆ ಕಾರಣವೇನು?
ಇದನ್ನು ಕಂಡುಹಿಡಿಯಲು, ನೀವು ಫೇಸಟ್ ಗ್ರಿಡ್ ಅನ್ನು ಅನ್ವೇಷಿಸಬಹುದು.
## ಫೇಸಟ್ ಗ್ರಿಡ್‌ಗಳು
ಫೇಸಟ್ ಗ್ರಿಡ್ ನಿಮ್ಮ ಡೇಟಾಸೆಟ್‌ನ ಒಂದು ಭಾಗವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ (ನಮ್ಮ ಪ್ರಕರಣದಲ್ಲಿ, ನೀವು 'ವರ್ಷ' ಆಯ್ಕೆಮಾಡಬಹುದು, ಹೆಚ್ಚು ಫೇಸಟ್‌ಗಳು ಉತ್ಪಾದನೆಯಾಗದಂತೆ). ನಂತರ Seaborn ಆಯ್ಕೆಮಾಡಿದ x ಮತ್ತು y ಸಂಯೋಜನೆಗಳ ಪ್ರತಿಯೊಂದು ಫೇಸಟ್‌ಗೆ ಪ್ಲಾಟ್ ರಚಿಸುತ್ತದೆ, ಸುಲಭ ದೃಶ್ಯಾತ್ಮಕ ಹೋಲಿಕೆಗೆ. 2003 ಈ ರೀತಿಯ ಹೋಲಿಕೆಯಲ್ಲಿ ಹೊರಹೊಮ್ಮುತ್ತದೆಯೇ?
Seaborn ನ [ಡಾಕ್ಯುಮೆಂಟೇಶನ್](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid) ಪ್ರಕಾರ `relplot` ಬಳಸಿ ಫೇಸಟ್ ಗ್ರಿಡ್ ರಚಿಸಿ.
```python
sns.relplot(
data=honey,
x="yieldpercol", y="numcol",
col="year",
col_wrap=3,
kind="line"
)
```
ಈ ದೃಶ್ಯೀಕರಣದಲ್ಲಿ, ನೀವು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಪ್ರತಿ ಕಾಲೋನಿಯ ಉತ್ಪಾದನೆಯನ್ನು ಹೋಲಿಸಬಹುದು, ಕಾಲಮ್‌ಗಳಿಗೆ 3 ರಲ್ಲಿ ರ್ಯಾಪ್ ಹೊಂದಿಸಿ:
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.kn.png)
ಈ ಡೇಟಾಸೆಟ್‌ಗೆ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ ವಿಶೇಷವಾಗಿ ಹೊರಹೊಮ್ಮುವುದಿಲ್ಲ. ಈ ಎರಡು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬೇರೆ ವಿಧಾನವಿದೆಯೇ?
## ಡ್ಯುಯಲ್-ಲೈನ್ ಪ್ಲಾಟ್‌ಗಳು
Seaborn ನ 'despine' ಬಳಸಿ ಎರಡು ಲೈನ್ ಪ್ಲಾಟ್‌ಗಳನ್ನು ಒಟ್ಟಿಗೆ ಮ-superimpose ಮಾಡಿ, ಮೇಲ್ಭಾಗ ಮತ್ತು ಬಲಭಾಗದ ಸ್ಪೈನ್‌ಗಳನ್ನು ತೆಗೆದುಹಾಕಿ, ಮತ್ತು `ax.twinx` [Matplotlib ನಿಂದ ಪಡೆದ](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html) ವಿಧಾನವನ್ನು ಬಳಸಿ. Twinx ಒಂದು ಚಾರ್ಟ್‌ಗೆ x ಅಕ್ಷವನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ಮತ್ತು ಎರಡು y ಅಕ್ಷಗಳನ್ನು ಪ್ರದರ್ಶಿಸಲು ಅನುಮತಿಸುತ್ತದೆ. ಆದ್ದರಿಂದ, ಪ್ರತಿ ಕಾಲೋನಿಯ ಉತ್ಪಾದನೆ ಮತ್ತು ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಒಟ್ಟಿಗೆ ಪ್ರದರ್ಶಿಸಿ:
```python
fig, ax = plt.subplots(figsize=(12,6))
lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey,
label = 'Number of bee colonies', legend=False)
sns.despine()
plt.ylabel('# colonies')
plt.title('Honey Production Year over Year');
ax2 = ax.twinx()
lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r",
label ='Yield per colony', legend=False)
sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.kn.png)
2003 ರ ಸುತ್ತಲೂ ಯಾವುದೇ ಸ್ಪಷ್ಟ ಬದಲಾವಣೆ ಕಾಣಿಸದಿದ್ದರೂ, ಈ ಪಾಠವನ್ನು ಸ್ವಲ್ಪ ಸಂತೋಷಕರವಾಗಿ ಮುಗಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ: ಒಟ್ಟು ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯಾದರೂ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಸ್ಥಿರವಾಗುತ್ತಿದೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆ ಪ್ರತಿ ಕಾಲೋನಿಗೂ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
ಹೋಗಿ, ಜೇನುಗಳು, ಹೋಗಿ!
🐝❤️
## 🚀 ಸವಾಲು
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್‌ಗಳು ಮತ್ತು ಲೈನ್ ಗ್ರಿಡ್‌ಗಳ ಇತರ ಬಳಕೆಗಳ ಬಗ್ಗೆ ಸ್ವಲ್ಪ ತಿಳಿದುಕೊಂಡಿದ್ದೀರಿ, ಫೇಸಟ್ ಗ್ರಿಡ್‌ಗಳ ಸಹಿತ. ಬೇರೆ ಡೇಟಾಸೆಟ್ ಬಳಸಿ ಫೇಸಟ್ ಗ್ರಿಡ್ ರಚಿಸುವ ಸವಾಲು ಸ್ವೀಕರಿಸಿ, ಬಹುಶಃ ನೀವು ಈ ಪಾಠಗಳ ಮೊದಲು ಬಳಸಿದ ಡೇಟಾಸೆಟ್. ಅವು ರಚಿಸಲು ಎಷ್ಟು ಸಮಯ ಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ಈ ತಂತ್ರಗಳನ್ನು ಬಳಸಿ ಎಷ್ಟು ಗ್ರಿಡ್‌ಗಳನ್ನು ರಚಿಸಬೇಕೆಂದು ಎಚ್ಚರಿಕೆಯಿಂದ ಇರಬೇಕಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಗಮನಿಸಿ.
## [ಪೋಸ್ಟ್-ಪಾಠ ಪ್ರಶ್ನೋತ್ತರ](https://ff-quizzes.netlify.app/en/ds/quiz/23)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಲೈನ್ ಪ್ಲಾಟ್‌ಗಳು ಸರಳವಾಗಿರಬಹುದು ಅಥವಾ ಬಹಳ ಸಂಕೀರ್ಣವಾಗಿರಬಹುದು. [Seaborn ಡಾಕ್ಯುಮೆಂಟೇಶನ್](https://seaborn.pydata.org/generated/seaborn.lineplot.html) ನಲ್ಲಿ ಅವುಗಳನ್ನು ರಚಿಸುವ ವಿವಿಧ ವಿಧಾನಗಳ ಬಗ್ಗೆ ಸ್ವಲ್ಪ ಓದಿಕೊಳ್ಳಿ. ಈ ಪಾಠದಲ್ಲಿ ನೀವು ರಚಿಸಿದ ಲೈನ್ ಚಾರ್ಟ್‌ಗಳನ್ನು ಡಾಕ್ಯುಮೆಂಟ್‌ನಲ್ಲಿ ನೀಡಲಾದ ಇತರ ವಿಧಾನಗಳೊಂದಿಗೆ ಸುಧಾರಿಸಲು ಪ್ರಯತ್ನಿಸಿ.
## ನಿಯೋಜನೆ
[ಜೇನುಮಡಿಗೆ ಒಳಗಡೆ ತೊಡಗಿಸಿಕೊಳ್ಳಿ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "680419753c086eef51be86607c623945",
"translation_date": "2025-12-19T16:00:21+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/assignment.md",
"language_code": "kn"
}
-->
# ಜೇನುಮಡಿಗೆಗೆ ಡೈವ್ ಮಾಡಿ
## ಸೂಚನೆಗಳು
ಈ ಪಾಠದಲ್ಲಿ ನೀವು ಜೇನುಗಳು ಮತ್ತು ಅವುಗಳ ಜೇನು ಉತ್ಪಾದನೆ ಕುರಿತಾದ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಪರಿಶೀಲಿಸಲು ಪ್ರಾರಂಭಿಸಿದ್ದೀರಿ, ಇದು ಒಟ್ಟು ಜೇನು ಕಾಲೋನಿಯ ಜನಸಂಖ್ಯೆಯಲ್ಲಿ ನಷ್ಟಗಳನ್ನು ಕಂಡಿದೆ. ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಇನ್ನಷ್ಟು ಆಳವಾಗಿ ಪರಿಶೀಲಿಸಿ ಮತ್ತು ರಾಜ್ಯ ಮತ್ತು ವರ್ಷ ಪ್ರತಿ ವರ್ಷ ಜೇನು ಜನಸಂಖ್ಯೆಯ ಆರೋಗ್ಯದ ಕಥೆಯನ್ನು ಹೇಳಬಲ್ಲ ನೋಟ್ಬುಕ್ ಅನ್ನು ನಿರ್ಮಿಸಿ. ಈ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ನೀವು ಯಾವುದೇ ಆಸಕ್ತಿದಾಯಕ ವಿಷಯವನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತೀರಾ?
## ರೂಬ್ರಿಕ್
| ಉದಾಹರಣೀಯ | ತೃಪ್ತಿಕರ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ |
| ------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------- | ---------------------------------------- |
| ಕನಿಷ್ಠ ಮೂರು ವಿಭಿನ್ನ ಚಾರ್ಟ್‌ಗಳೊಂದಿಗೆ ಡೇಟಾಸೆಟ್‌ನ ಅಂಶಗಳನ್ನು, ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ ಮತ್ತು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ತೋರಿಸುವ ಕಥೆಯೊಂದಿಗೆ ನೋಟ್ಬುಕ್ ಅನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ | ನೋಟ್ಬುಕ್ ಈ ಅಂಶಗಳಲ್ಲಿ ಒಂದನ್ನು欠缺 ಮಾಡಿದೆ | ನೋಟ್ಬುಕ್ ಈ ಅಂಶಗಳಲ್ಲಿ ಎರಡು欠缺 ಮಾಡಿದೆ |
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# ಜೇನು ಉತ್ಪಾದನೆಯ ದೃಶ್ಯೀಕರಣ 🍯 🐝\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ಅಸ್ವೀಕರಣ**: \nಈ ದಸ್ತಾವೇಜು [Co-op Translator](https://github.com/Azure/co-op-translator) ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "0f988634b7192626d91cc33b4b6388c5",
"translation_date": "2025-12-19T17:35:39+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/notebook.ipynb",
"language_code": "kn"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,184 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "cfb068050337a36e348debaa502a24fa",
"translation_date": "2025-12-19T16:10:02+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/README.md",
"language_code": "kn"
}
-->
# ಅರ್ಥಪೂರ್ಣ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಮಾಡುವುದು
|![ [(@sketchthedocs)](https://sketchthedocs.dev) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್ ](../../sketchnotes/13-MeaningfulViz.png)|
|:---:|
| ಅರ್ಥಪೂರ್ಣ ದೃಶ್ಯೀಕರಣಗಳು - _[@nitya](https://twitter.com/nitya) ಅವರಿಂದ ಸ್ಕೆಚ್ ನೋಟ್_ |
> "ನೀವು ಡೇಟಾವನ್ನು ಸಾಕಷ್ಟು ಕಾಲ ಹಿಂಸಿಸಿದರೆ, ಅದು ಯಾವುದಕ್ಕೂ ಒಪ್ಪಿಕೊಳ್ಳುತ್ತದೆ" -- [ರೋನಾಲ್ಡ್ ಕೋಸ್](https://en.wikiquote.org/wiki/Ronald_Coase)
ಡೇಟಾ ವಿಜ್ಞಾನಿಯ ಮೂಲ ಕೌಶಲ್ಯಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಅರ್ಥಪೂರ್ಣ ಡೇಟಾ ದೃಶ್ಯೀಕರಣವನ್ನು ರಚಿಸುವ ಸಾಮರ್ಥ್ಯ, ಇದು ನೀವು ಹೊಂದಿರುವ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ನಿಮ್ಮ ಡೇಟಾವನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಮೊದಲು, ನೀವು ಅದನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ ಸಿದ್ಧಪಡಿಸಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಬೇಕು, ನೀವು ಹಿಂದಿನ ಪಾಠಗಳಲ್ಲಿ ಮಾಡಿದಂತೆ. ಅದಾದ ನಂತರ, ನೀವು ಡೇಟಾವನ್ನು ಹೇಗೆ ಉತ್ತಮವಾಗಿ ಪ್ರದರ್ಶಿಸಬಹುದು ಎಂದು ನಿರ್ಧರಿಸಬಹುದು.
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಪರಿಶೀಲಿಸುವಿರಿ:
1. ಸರಿಯಾದ ಚಾರ್ಟ್ ಪ್ರಕಾರವನ್ನು ಹೇಗೆ ಆಯ್ಕೆಮಾಡುವುದು
2. ಮೋಸಮಯ ಚಾರ್ಟಿಂಗ್ ಅನ್ನು ಹೇಗೆ ತಪ್ಪಿಸುವುದು
3. ಬಣ್ಣದೊಂದಿಗೆ ಹೇಗೆ ಕೆಲಸ ಮಾಡುವುದು
4. ಓದಲು ಸುಲಭವಾಗುವಂತೆ ನಿಮ್ಮ ಚಾರ್ಟ್‌ಗಳನ್ನು ಹೇಗೆ ಶೈಲಿಮಾಡುವುದು
5. ಅನಿಮೇಟೆಡ್ ಅಥವಾ 3D ಚಾರ್ಟಿಂಗ್ ಪರಿಹಾರಗಳನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸುವುದು
6. ಸೃಜನಾತ್ಮಕ ದೃಶ್ಯೀಕರಣವನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸುವುದು
## [ಪೂರ್ವ-ಪಾಠ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/24)
## ಸರಿಯಾದ ಚಾರ್ಟ್ ಪ್ರಕಾರವನ್ನು ಆಯ್ಕೆಮಾಡಿ
ಹಿಂದಿನ ಪಾಠಗಳಲ್ಲಿ, ನೀವು Matplotlib ಮತ್ತು Seaborn ಬಳಸಿ ವಿವಿಧ ರಕಮದ ಆಸಕ್ತಿದಾಯಕ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ನಿರ್ಮಿಸುವ ಪ್ರಯೋಗ ಮಾಡಿದ್ದೀರಿ. ಸಾಮಾನ್ಯವಾಗಿ, ನೀವು ಕೇಳುತ್ತಿರುವ ಪ್ರಶ್ನೆಗೆ ಸರಿಯಾದ ಚಾರ್ಟ್ ಪ್ರಕಾರವನ್ನು ಈ ಟೇಬಲ್ ಬಳಸಿ ಆಯ್ಕೆಮಾಡಬಹುದು:
| ನೀವು ಬೇಕಾದದ್ದು: | ನೀವು ಬಳಸಬೇಕು: |
| -------------------------- | ----------------------------- |
| ಸಮಯದೊಂದಿಗೆ ಡೇಟಾ ಪ್ರವೃತ್ತಿಗಳನ್ನು ತೋರಿಸಿ | ಲೈನ್ |
| ವರ್ಗಗಳನ್ನು ಹೋಲಿಸಿ | ಬಾರ್, ಪೈ |
| ಒಟ್ಟುಗಳನ್ನು ಹೋಲಿಸಿ | ಪೈ, ಸ್ಟ್ಯಾಕ್ಡ್ ಬಾರ್ |
| ಸಂಬಂಧಗಳನ್ನು ತೋರಿಸಿ | ಸ್ಕ್ಯಾಟರ್, ಲೈನ್, ಫೇಸಟ್, ಡ್ಯುಯಲ್ ಲೈನ್ |
| ವಿತರಣೆಗಳನ್ನು ತೋರಿಸಿ | ಸ್ಕ್ಯಾಟರ್, ಹಿಸ್ಟೋಗ್ರಾಮ್, ಬಾಕ್ಸ್ |
| ಅನುಪಾತಗಳನ್ನು ತೋರಿಸಿ | ಪೈ, ಡೋನಟ್, ವಾಫಲ್ |
> ✅ ನಿಮ್ಮ ಡೇಟಾದ ರಚನೆಯ ಮೇಲೆ ಅವಲಂಬಿಸಿ, ನೀವು ಡೇಟಾವನ್ನು ಪಠ್ಯದಿಂದ ಸಂಖ್ಯಾತ್ಮಕಕ್ಕೆ ಪರಿವರ್ತಿಸಲು ಅಗತ್ಯವಿರಬಹುದು, ನಿರ್ದಿಷ್ಟ ಚಾರ್ಟ್ ಅದನ್ನು ಬೆಂಬಲಿಸಲು.
## ಮೋಸ ತಪ್ಪಿಸಿ
ಒಂದು ಡೇಟಾ ವಿಜ್ಞಾನಿ ಸರಿಯಾದ ಡೇಟಾಗೆ ಸರಿಯಾದ ಚಾರ್ಟ್ ಆಯ್ಕೆಮಾಡಿದರೂ ಸಹ, ಡೇಟಾವನ್ನು ತೋರಿಸುವ ಹಲವು ಮಾರ್ಗಗಳಿವೆ, ಅವು ಡೇಟಾವನ್ನು ಹಾಳುಮಾಡುವ ಬೆಲೆಗಾಗಿ ಒಂದು ವಿಷಯವನ್ನು ಸಾಬೀತುಪಡಿಸಲು. ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳು ಮತ್ತು ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್‌ಗಳ ಅನೇಕ ಉದಾಹರಣೆಗಳಿವೆ!
[![ಅಲ್ಬೆರ್ಟೋ ಕೈರೋ ಅವರ "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ"](../../../../translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.kn.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
> 🎥 ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳ ಬಗ್ಗೆ ಸಮ್ಮೇಳನ ಮಾತುಕತೆಗಾಗಿ
ಈ ಚಾರ್ಟ್ X ಅಕ್ಷವನ್ನು ತಿರುಗಿಸಿ ಸತ್ಯದ ವಿರುದ್ಧ ತೋರಿಸುತ್ತದೆ, ದಿನಾಂಕ ಆಧಾರಿತವಾಗಿ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 1](../../../../translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.kn.png)
[ಈ ಚಾರ್ಟ್](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ಇನ್ನೂ ಹೆಚ್ಚು ಮೋಸಮಯವಾಗಿದೆ, ಕಣ್ಣು ಬಲಕ್ಕೆ ಸೆಳೆಯುತ್ತದೆ ಮತ್ತು ಸಮಯದೊಂದಿಗೆ COVID ಪ್ರಕರಣಗಳು ವಿವಿಧ ಜಿಲ್ಲೆಗಳಲ್ಲಿ ಕಡಿಮೆಯಾಗಿವೆ ಎಂದು ತೀರ್ಮಾನಿಸುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ದಿನಾಂಕಗಳನ್ನು ಗಮನದಿಂದ ನೋಡಿದರೆ, ಅವು ಮೋಸಮಯ ಇಳಿಜಾರಿನ ಪ್ರವೃತ್ತಿಯನ್ನು ನೀಡಲು ಮರುಕ್ರಮಿಸಲಾಗಿದೆ.
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 2](../../../../translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.kn.jpg)
ಈ ಪ್ರಸಿದ್ಧ ಉದಾಹರಣೆ ಬಣ್ಣ ಮತ್ತು ತಿರುಗಿದ Y ಅಕ್ಷವನ್ನು ಬಳಸಿಕೊಂಡು ಮೋಸ ಮಾಡುತ್ತದೆ: ಗನ್-ಸ್ನೇಹಿ ಕಾನೂನುಗಳ ಅಂಗೀಕಾರದ ನಂತರ ಗನ್ ಸಾವುಗಳು ಏರಿಕೆಯಾಗಿವೆ ಎಂದು ತೀರ್ಮಾನಿಸುವ ಬದಲು, ಕಣ್ಣು ವಿರುದ್ಧವನ್ನು ನಂಬುವಂತೆ ಮೋಸ ಮಾಡುತ್ತದೆ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 3](../../../../translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.kn.jpg)
ಈ ವಿಚಿತ್ರ ಚಾರ್ಟ್ ಅನುಪಾತವನ್ನು ಹೇಗೆ ಮ್ಯಾನಿಪ್ಯುಲೇಟ್ ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ಹಾಸ್ಯಾಸ್ಪದ ಪರಿಣಾಮದೊಂದಿಗೆ ತೋರಿಸುತ್ತದೆ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 4](../../../../translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.kn.jpg)
ತೋಲಿಸಲಾಗದ ವಸ್ತುಗಳನ್ನು ಹೋಲಿಸುವುದು ಇನ್ನೊಂದು ಅನುಮಾನಾಸ್ಪದ ತಂತ್ರ. 'ಸ್ಪ್ಯೂರಿಯಸ್ ಕೊರಿಲೇಶನ್ಸ್' ಬಗ್ಗೆ ಸಂಪೂರ್ಣ ವೆಬ್‌ಸೈಟ್ ಇದೆ, ಇದು ಮೇನ್‌ನ ವಿಚ್ಛೇದನ ದರ ಮತ್ತು ಮಾರ್ಗರಿನ್ ಸೇವನೆ ಮುಂತಾದ ವಿಷಯಗಳನ್ನು ಹೊಂದಿರುವ 'ತಥ್ಯಗಳನ್ನು' ತೋರಿಸುತ್ತದೆ. ರೆಡಿಟ್ ಗುಂಪು ಕೂಡ ಡೇಟಾ ಬಳಕೆಯ [ಕಿರುಕುಳಗಳನ್ನು](https://www.reddit.com/r/dataisugly/top/?t=all) ಸಂಗ್ರಹಿಸುತ್ತದೆ.
ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳಿಂದ ಕಣ್ಣು ಎಷ್ಟು ಸುಲಭವಾಗಿ ಮೋಸಗೊಳ್ಳಬಹುದು ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಮುಖ್ಯ. ಡೇಟಾ ವಿಜ್ಞಾನಿಯ ಉದ್ದೇಶ ಉತ್ತಮವಾದರೂ ಸಹ, ಪೈ ಚಾರ್ಟ್‌ನಲ್ಲಿ ತುಂಬಾ ವರ್ಗಗಳನ್ನು ತೋರಿಸುವಂತಹ ಕೆಟ್ಟ ಚಾರ್ಟ್ ಆಯ್ಕೆ ಮೋಸಮಯವಾಗಬಹುದು.
## ಬಣ್ಣ
ಮೇಲಿನ 'ಫ್ಲೋರಿಡಾ ಗನ್ ಹಿಂಸಾಚಾರ' ಚಾರ್ಟ್‌ನಲ್ಲಿ ನೀವು ನೋಡಿದಂತೆ, ಬಣ್ಣವು ಚಾರ್ಟ್‌ಗಳಿಗೆ ಹೆಚ್ಚುವರಿ ಅರ್ಥದ ಪದರವನ್ನು ನೀಡಬಹುದು, ವಿಶೇಷವಾಗಿ Matplotlib ಮತ್ತು Seaborn ಮುಂತಾದ ಗ್ರಂಥಾಲಯಗಳನ್ನು ಬಳಸದೆ ಕೈಯಿಂದ ಚಾರ್ಟ್ ಮಾಡುತ್ತಿರುವಾಗ. ನೀವು ಕೈಯಿಂದ ಚಾರ್ಟ್ ಮಾಡುತ್ತಿದ್ದರೆ, [ಬಣ್ಣ ಸಿದ್ಧಾಂತ](https://colormatters.com/color-and-design/basic-color-theory) ಬಗ್ಗೆ ಸ್ವಲ್ಪ ಅಧ್ಯಯನ ಮಾಡಿ.
> ✅ ಚಾರ್ಟ್‌ಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವಾಗ, ಪ್ರವೇಶಾರ್ಹತೆ ದೃಶ್ಯೀಕರಣದ ಪ್ರಮುಖ ಅಂಶವಾಗಿದೆ ಎಂದು ಗಮನಿಸಿ. ನಿಮ್ಮ ಬಳಕೆದಾರರಲ್ಲಿ ಕೆಲವರು ಬಣ್ಣ ಅಂಧರಾಗಿರಬಹುದು - ನಿಮ್ಮ ಚಾರ್ಟ್ ದೃಷ್ಟಿ ಅಶಕ್ತರುಳ್ಳ ಬಳಕೆದಾರರಿಗೆ ಚೆನ್ನಾಗಿ ತೋರಿಸುತ್ತದೆಯೇ?
ನಿಮ್ಮ ಚಾರ್ಟ್‌ಗೆ ಬಣ್ಣಗಳನ್ನು ಆಯ್ಕೆಮಾಡುವಾಗ ಜಾಗರೂಕವಾಗಿರಿ, ಏಕೆಂದರೆ ಬಣ್ಣವು ನೀವು ಉದ್ದೇಶಿಸದ ಅರ್ಥವನ್ನು ನೀಡಬಹುದು. ಮೇಲಿನ 'ಎತ್ತರ' ಚಾರ್ಟ್‌ನ 'ಪಿಂಕ್ ಲೇಡೀಸ್' ಸ್ಪಷ್ಟವಾಗಿ 'ಸ್ತ್ರೀಯ' ಅರ್ಥವನ್ನು ನೀಡುತ್ತವೆ, ಇದು ಚಾರ್ಟ್‌ನ ವಿಚಿತ್ರತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
ವಿಶ್ವದ ವಿಭಿನ್ನ ಭಾಗಗಳಲ್ಲಿ [ಬಣ್ಣದ ಅರ್ಥ](https://colormatters.com/color-symbolism/the-meanings-of-colors) ವಿಭಿನ್ನವಾಗಿರಬಹುದು ಮತ್ತು ಅವುಗಳ ಛಾಯೆಯ ಪ್ರಕಾರ ಅರ್ಥ ಬದಲಾಗಬಹುದು. ಸಾಮಾನ್ಯವಾಗಿ, ಬಣ್ಣದ ಅರ್ಥಗಳು ಇವುಗಳಾಗಿವೆ:
| ಬಣ್ಣ | ಅರ್ಥ |
| ------- | ------------------- |
| ಕೆಂಪು | ಶಕ್ತಿ |
| ನೀಲಿ | ನಂಬಿಕೆ, ನಿಷ್ಠೆ |
| ಹಳದಿ | ಸಂತೋಷ, ಎಚ್ಚರಿಕೆ |
| ಹಸಿರು | ಪರಿಸರ, ಭಾಗ್ಯ, ಹಿಂಸೆ |
| ನೇರಳೆ | ಸಂತೋಷ |
| ಕಿತ್ತಳೆ | ಚೈತನ್ಯ |
ನೀವು ಕಸ್ಟಮ್ ಬಣ್ಣಗಳೊಂದಿಗೆ ಚಾರ್ಟ್ ನಿರ್ಮಿಸುವ ಜವಾಬ್ದಾರಿಯನ್ನು ಹೊಂದಿದ್ದರೆ, ನಿಮ್ಮ ಚಾರ್ಟ್‌ಗಳು ಪ್ರವೇಶಾರ್ಹವಾಗಿರಬೇಕು ಮತ್ತು ನೀವು ನೀಡಲು ಯತ್ನಿಸುತ್ತಿರುವ ಅರ್ಥಕ್ಕೆ ಬಣ್ಣ ಹೊಂದಿರಬೇಕು ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ.
## ಓದಲು ಸುಲಭವಾಗುವಂತೆ ನಿಮ್ಮ ಚಾರ್ಟ್‌ಗಳನ್ನು ಶೈಲಿಮಾಡುವುದು
ಚಾರ್ಟ್‌ಗಳು ಓದಲು ಸಾಧ್ಯವಾಗದಿದ್ದರೆ ಅರ್ಥಪೂರ್ಣವಾಗುವುದಿಲ್ಲ! ನಿಮ್ಮ ಡೇಟಾದೊಂದಿಗೆ ಚೆನ್ನಾಗಿ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ನಿಮ್ಮ ಚಾರ್ಟ್‌ನ ಅಗಲ ಮತ್ತು ಎತ್ತರವನ್ನು ಶೈಲಿಮಾಡಲು ಒಂದು ಕ್ಷಣ ತೆಗೆದುಕೊಳ್ಳಿ. ಒಂದು ವ್ಯತ್ಯಯ (ಉದಾಹರಣೆಗೆ ಎಲ್ಲಾ 50 ರಾಜ್ಯಗಳು) ಪ್ರದರ್ಶಿಸಬೇಕಾದರೆ, ಸಾಧ್ಯವಾದರೆ ಅವುಗಳನ್ನು Y ಅಕ್ಷದಲ್ಲಿ ಲಂಬವಾಗಿ ತೋರಿಸಿ, ಹೋರಿಜಾಂಟಲ್ ಸ್ಕ್ರೋಲಿಂಗ್ ಚಾರ್ಟ್ ತಪ್ಪಿಸಲು.
ನಿಮ್ಮ ಅಕ್ಷಗಳನ್ನು ಲೇಬಲ್ ಮಾಡಿ, ಅಗತ್ಯವಿದ್ದರೆ ಲೆಜೆಂಡ್ ನೀಡಿ, ಮತ್ತು ಡೇಟಾ ಉತ್ತಮವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಟೂಲ್‌ಟಿಪ್‌ಗಳನ್ನು ಒದಗಿಸಿ.
ನಿಮ್ಮ ಡೇಟಾ ಪಠ್ಯರೂಪದಲ್ಲಿದ್ದರೆ ಮತ್ತು X ಅಕ್ಷದಲ್ಲಿ ಬಹುಶಃVerbose ಆಗಿದ್ದರೆ, ಓದಲು ಸುಲಭವಾಗಲು ಪಠ್ಯವನ್ನು ತಿರುಗಿಸಬಹುದು. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) 3D ಪ್ಲಾಟಿಂಗ್ ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ನಿಮ್ಮ ಡೇಟಾ ಅದನ್ನು ಬೆಂಬಲಿಸಿದರೆ. ಸುಧಾರಿತ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳನ್ನು `mpl_toolkits.mplot3d` ಬಳಸಿ ಉತ್ಪಾದಿಸಬಹುದು.
![3D ಪ್ಲಾಟ್‌ಗಳು](../../../../translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.kn.png)
## ಅನಿಮೇಶನ್ ಮತ್ತು 3D ಚಾರ್ಟ್ ಪ್ರದರ್ಶನ
ಇಂದಿನ ಅತ್ಯುತ್ತಮ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳಲ್ಲಿ ಕೆಲವು ಅನಿಮೇಟೆಡ್ ಆಗಿವೆ. ಶಿರ್ಲಿ ವು D3 ಬಳಸಿ ಅದ್ಭುತವಾದವುಗಳನ್ನು ಮಾಡಿದ್ದಾಳೆ, ಉದಾಹರಣೆಗೆ '[ಫಿಲ್ಮ್ ಫ್ಲವರ್ಸ್](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ಇಲ್ಲಿ ಪ್ರತಿ ಹೂವು ಒಂದು ಚಲನಚಿತ್ರದ ದೃಶ್ಯೀಕರಣವಾಗಿದೆ. ಇನ್ನೊಂದು ಉದಾಹರಣೆ ಗಾರ್ಡಿಯನ್‌ನ 'ಬಸ್ಸ್ಡ್ ಔಟ್', ಇದು ಗ್ರೀನ್ಸಾಕ್ ಮತ್ತು D3 ಜೊತೆಗೆ ಸ್ಕ್ರೋಲಿಟೆಲಿಂಗ್ ಲೇಖನ ಫಾರ್ಮ್ಯಾಟ್ ಅನ್ನು ಸಂಯೋಜಿಸಿ NYC ತನ್ನ ಬಡವರ ಸಮಸ್ಯೆಯನ್ನು ಬಸ್ಸಿಂಗ್ ಮೂಲಕ ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುವ ಇಂಟರಾಕ್ಟಿವ್ ಅನುಭವ.
![ಬಸ್ಸಿಂಗ್](../../../../translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.kn.png)
> "ಬಸ್ಸ್ಡ್ ಔಟ್: ಅಮೆರಿಕ ತನ್ನ ಬಡವರನ್ನು ಹೇಗೆ ಸಾಗಿಸುತ್ತದೆ" [ಗಾರ್ಡಿಯನ್](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) ನಿಂದ. ದೃಶ್ಯೀಕರಣಗಳು ನಾಡಿಯೆ ಬ್ರೆಮರ್ ಮತ್ತು ಶಿರ್ಲಿ ವು ಅವರಿಂದ
ಈ ಪಾಠವು ಈ ಶಕ್ತಿಶಾಲಿ ದೃಶ್ಯೀಕರಣ ಗ್ರಂಥಾಲಯಗಳನ್ನು ಆಳವಾಗಿ ಕಲಿಸಲು ಸಾಕಾಗದಿದ್ದರೂ, Vue.js ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ D3 ಬಳಸಿ "ಡೇಂಜರಸ್ ಲಿಯಾಸನ್ಸ್" ಪುಸ್ತಕದ ಅನಿಮೇಟೆಡ್ ಸಾಮಾಜಿಕ ಜಾಲತಾಣದ ದೃಶ್ಯೀಕರಣವನ್ನು ಪ್ರದರ್ಶಿಸಲು ಪ್ರಯತ್ನಿಸಿ.
> "ಲೆಸ್ ಲಿಯಾಸನ್ಸ್ ಡಾಂಜೆರೆಸ್" ಒಂದು ಪತ್ರಿಕಾದ ಕಾದಂಬರಿ, ಅಥವಾ ಸರಣಿಯ ಪತ್ರಗಳಾಗಿ ಪ್ರಸ್ತುತಪಡಿಸಲಾದ ಕಾದಂಬರಿ. 1782 ರಲ್ಲಿ ಚೋಡರ್ಲೋಸ್ ಡೆ ಲಾಕ್ಲೋಸ್ ಬರೆದಿದ್ದು, 18ನೇ ಶತಮಾನದ ಕೊನೆಯಲ್ಲಿ ಫ್ರೆಂಚ್ ಅರಿಸ್ಟೊಕ್ರಸಿ‌ನ ಎರಡು ಪ್ರತಿಸ್ಪರ್ಧಿ ನಾಯಕರು ವಿಕಾಂಟ್ ಡೆ ವಾಲ್ಮೋಂಟ್ ಮತ್ತು ಮಾರ್ಕ್ವಿಸ್ ಡೆ ಮೆರ್ಟೆಯುಲ್ ಅವರ ದುಷ್ಟ, ನೈತಿಕವಾಗಿ ಕುಸಿತ ಸಾಮಾಜಿಕ ಚಟುವಟಿಕೆಗಳ ಕಥೆಯನ್ನು ಹೇಳುತ್ತದೆ. ಇಬ್ಬರೂ ಕೊನೆಯಲ್ಲಿ ತಮ್ಮ ಅಂತ್ಯವನ್ನು ಎದುರಿಸುತ್ತಾರೆ ಆದರೆ ಬಹಳ ಸಾಮಾಜಿಕ ಹಾನಿಯನ್ನುಂಟುಮಾಡಿ. ಕಾದಂಬರಿ ಅವರ ವಲಯದ ವಿವಿಧ ಜನರಿಗೆ ಬರೆದ ಪತ್ರಗಳ ಸರಣಿಯಾಗಿ ಬೆಳೆಯುತ್ತದೆ, ಪ್ರತೀಕಾರಕ್ಕಾಗಿ ಅಥವಾ ಕೇವಲ ಸಮಸ್ಯೆ ಸೃಷ್ಟಿಸಲು. ಈ ಪತ್ರಗಳ ದೃಶ್ಯೀಕರಣವನ್ನು ರಚಿಸಿ ಕಥೆಯ ಪ್ರಮುಖ ನಾಯಕರು ಯಾರು ಎಂದು ದೃಶ್ಯವಾಗಿ ಕಂಡುಹಿಡಿಯಿರಿ.
ನೀವು ಈ ಸಾಮಾಜಿಕ ಜಾಲತಾಣದ ಅನಿಮೇಟೆಡ್ ವೀಕ್ಷಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸುವ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಪೂರ್ಣಗೊಳಿಸುವಿರಿ. ಇದು Vue.js ಮತ್ತು D3 ಬಳಸಿ [ಜಾಲತಾಣದ ದೃಶ್ಯ](https://github.com/emiliorizzo/vue-d3-network) ರಚಿಸಲು ನಿರ್ಮಿಸಲಾದ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್ ಚಾಲನೆಯಲ್ಲಿದ್ದಾಗ, ನೀವು ಡೇಟಾವನ್ನು ಮರುಕ್ರಮಿಸಲು ಪರದೆ ಮೇಲೆ ನೋಡ್‌ಗಳನ್ನು ಎಳೆಯಬಹುದು.
![ಲಿಯಾಸನ್ಸ್](../../../../translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.kn.png)
## ಪ್ರಾಜೆಕ್ಟ್: D3.js ಬಳಸಿ ಜಾಲತಾಣವನ್ನು ತೋರಿಸಲು ಚಾರ್ಟ್ ನಿರ್ಮಿಸಿ
> ಈ ಪಾಠ ಫೋಲ್ಡರ್‌ನಲ್ಲಿ `solution` ಫೋಲ್ಡರ್ ಇದೆ, ಅಲ್ಲಿ ನೀವು ಪೂರ್ಣಗೊಂಡ ಪ್ರಾಜೆಕ್ಟ್ ಅನ್ನು ನಿಮ್ಮ ಉಲ್ಲೇಖಕ್ಕಾಗಿ ಕಾಣಬಹುದು.
1. ಸ್ಟಾರ್ಟರ್ ಫೋಲ್ಡರ್‌ನ ರೂಟ್‌ನಲ್ಲಿ README.md ಫೈಲ್‌ನ ಸೂಚನೆಗಳನ್ನು ಅನುಸರಿಸಿ. ನಿಮ್ಮ ಯಂತ್ರದಲ್ಲಿ NPM ಮತ್ತು Node.js ಚಾಲನೆಯಲ್ಲಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿ, ನಂತರ ನಿಮ್ಮ ಪ್ರಾಜೆಕ್ಟ್ ಅವಲಂಬನೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿ.
2. `starter/src` ಫೋಲ್ಡರ್ ತೆರೆಯಿರಿ. ನೀವು ಅಲ್ಲಿ `assets` ಫೋಲ್ಡರ್ ಕಾಣುತ್ತೀರಿ, ಅದರಲ್ಲಿ ಕಾದಂಬರಿಯಿಂದ ಎಲ್ಲಾ ಪತ್ರಗಳ .json ಫೈಲ್ ಇದೆ, ಸಂಖ್ಯೆಬದ್ಧವಾಗಿ, 'to' ಮತ್ತು 'from' ಟ್ಯಾಗ್‌ಗಳೊಂದಿಗೆ.
3. `components/Nodes.vue` ನಲ್ಲಿ ಕೋಡ್ ಪೂರ್ಣಗೊಳಿಸಿ ದೃಶ್ಯೀಕರಣಕ್ಕೆ ಅನುಕೂಲವಾಗುವಂತೆ. `createLinks()` ಎಂಬ ವಿಧಾನವನ್ನು ಹುಡುಕಿ ಮತ್ತು ಕೆಳಗಿನ ನೆಸ್ಟೆಡ್ ಲೂಪ್ ಅನ್ನು ಸೇರಿಸಿ.
.json ವಸ್ತುವಿನ ಮೂಲಕ ಲೂಪ್ ಮಾಡಿ ಪತ್ರಗಳ 'to' ಮತ್ತು 'from' ಡೇಟಾವನ್ನು ಹಿಡಿದು `links` ವಸ್ತುವನ್ನು ನಿರ್ಮಿಸಿ, ಇದರಿಂದ ದೃಶ್ಯೀಕರಣ ಗ್ರಂಥಾಲಯ ಅದನ್ನು ಬಳಸಬಹುದು:
```javascript
//ಅಕ್ಷರಗಳ ಮೂಲಕ ಲೂಪ್ ಮಾಡಿ
let f = 0;
let t = 0;
for (var i = 0; i < letters.length; i++) {
for (var j = 0; j < characters.length; j++) {
if (characters[j] == letters[i].from) {
f = j;
}
if (characters[j] == letters[i].to) {
t = j;
}
}
this.links.push({ sid: f, tid: t });
}
```
ಟರ್ಮಿನಲ್‌ನಿಂದ ನಿಮ್ಮ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಚಾಲನೆ ಮಾಡಿ (npm run serve) ಮತ್ತು ದೃಶ್ಯೀಕರಣವನ್ನು ಆನಂದಿಸಿ!
## 🚀 ಸವಾಲು
ಮೋಸಮಯ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಸುತ್ತಾಡಿ. ಲೇಖಕ ಬಳಕೆದಾರರನ್ನು ಹೇಗೆ ಮೋಸಗೊಳಿಸುತ್ತಾನೆ, ಮತ್ತು ಅದು ಉದ್ದೇಶಿತವೇ? ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸರಿಪಡಿಸಲು ಪ್ರಯತ್ನಿಸಿ ಅವು ಹೇಗೆ ಕಾಣಬೇಕು ಎಂದು ತೋರಿಸಲು.
## [ಪೋಸ್ಟ್-ಪಾಠ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/25)
## ವಿಮರ್ಶೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ
ಮೋಸಮಯ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳ ಬಗ್ಗೆ ಓದಲು ಕೆಲವು ಲೇಖನಗಳು ಇಲ್ಲಿವೆ:
https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
ಇತಿಹಾಸಿಕ ಆಸ್ತಿ ಮತ್ತು ವಸ್ತುಗಳ ಆಸಕ್ತಿದಾಯಕ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ನೋಡಿ:
https://handbook.pubpub.org/
ಅನಿಮೇಶನ್ ನಿಮ್ಮ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಹೇಗೆ ಸುಧಾರಿಸಬಹುದು ಎಂಬ ಲೇಖನವನ್ನು ನೋಡಿ:
https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
## ಹುದ್ದೆ
[ನಿಮ್ಮ ಸ್ವಂತ ಕಸ್ಟಮ್ ದೃಶ್ಯೀಕರಣವನ್ನು ನಿರ್ಮಿಸಿ](assignment.md)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಪ್ರಮುಖ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,27 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "e56df4c0f49357e30ac8fc77aa439dd4",
"translation_date": "2025-12-19T16:11:44+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/assignment.md",
"language_code": "kn"
}
-->
# ನಿಮ್ಮ ಸ್ವಂತ ಕಸ್ಟಮ್ ವಿಸ್ನ್ನು ನಿರ್ಮಿಸಿ
## ಸೂಚನೆಗಳು
ಈ ಪ್ರಾಜೆಕ್ಟ್‌ನ ಕೋಡ್ ಮಾದರಿಯನ್ನು ಬಳಸಿ ಸಾಮಾಜಿಕ ಜಾಲತಾಣವನ್ನು ರಚಿಸಿ, ನಿಮ್ಮ ಸ್ವಂತ ಸಾಮಾಜಿಕ ಸಂವಹನಗಳ ಡೇಟಾವನ್ನು ಮಾದರಿಮಾಡಿ. ನೀವು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಬಳಕೆಯನ್ನು ನಕ್ಷೆ ಮಾಡಬಹುದು ಅಥವಾ ನಿಮ್ಮ ಕುಟುಂಬ ಸದಸ್ಯರ ಡಯಾಗ್ರಾಮ್ ಮಾಡಬಹುದು. ಸಾಮಾಜಿಕ ಜಾಲತಾಣದ ವಿಶಿಷ್ಟ ದೃಶ್ಯೀಕರಣವನ್ನು ತೋರಿಸುವ ಆಸಕ್ತಿದಾಯಕ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ರಚಿಸಿ.
## ರೂಬ್ರಿಕ್
ಉದಾಹರಣೀಯ | ತಕ್ಕಮಟ್ಟಿಗೆ | ಸುಧಾರಣೆಯ ಅಗತ್ಯವಿದೆ
--- | --- | -- |
GitHub ರೆಪೊ ಕೋಡ್ ಸರಿಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ (ಸ್ಥಿರ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಆಗಿ ನಿಯೋಜಿಸಲು ಪ್ರಯತ್ನಿಸಿ) ಮತ್ತು ಪ್ರಾಜೆಕ್ಟ್ ವಿವರಿಸುವ README ಹೊಂದಿದೆ | ರೆಪೊ ಸರಿಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ ಅಥವಾ ಚೆನ್ನಾಗಿ ದಾಖಲಾಗಿಲ್ಲ | ರೆಪೊ ಸರಿಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ ಮತ್ತು ಚೆನ್ನಾಗಿ ದಾಖಲಾಗಿಲ್ಲ
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "5c51a54dd89075a7a362890117b7ed9e",
"translation_date": "2025-12-19T16:19:08+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/solution/README.md",
"language_code": "kn"
}
-->
# ಡೇಂಜರಸ್ ಲಿಯಾಜನ್ಸ್ ಡೇಟಾ ವಿಸುಯಲೈಜೆಷನ್ ಪ್ರಾಜೆಕ್ಟ್
ಪ್ರಾರಂಭಿಸಲು, ನಿಮ್ಮ ಯಂತ್ರದಲ್ಲಿ NPM ಮತ್ತು Node ಚಾಲನೆಯಲ್ಲಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಬೇಕು. ಅವಲಂಬನೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿ (npm install) ಮತ್ತು ನಂತರ ಪ್ರಾಜೆಕ್ಟ್ ಅನ್ನು ಸ್ಥಳೀಯವಾಗಿ ಚಾಲನೆ ಮಾಡಿ (npm run serve):
## ಪ್ರಾಜೆಕ್ಟ್ ಸೆಟಪ್
```
npm install
```
### ಅಭಿವೃದ್ಧಿಗಾಗಿ ಸಂಯೋಜಿಸಿ ಮತ್ತು ಹಾಟ್-ರಿಲೋಡ್ ಮಾಡಿ
```
npm run serve
```
### ಉತ್ಪಾದನೆಗಾಗಿ ಸಂಯೋಜಿಸಿ ಮತ್ತು ಮಿನಿಫೈ ಮಾಡಿ
```
npm run build
```
### ಫೈಲ್‌ಗಳನ್ನು ಲಿಂಟ್ ಮಾಡಿ ಮತ್ತು ಸರಿಪಡಿಸಿ
```
npm run lint
```
### ಕಸ್ಟಮೈಸ್ ಕಾನ್ಫಿಗರೇಶನ್
[Configuration Reference](https://cli.vuejs.org/config/) ಅನ್ನು ನೋಡಿ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -0,0 +1,42 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "5c51a54dd89075a7a362890117b7ed9e",
"translation_date": "2025-12-19T16:18:22+00:00",
"source_file": "3-Data-Visualization/13-meaningful-visualizations/starter/README.md",
"language_code": "kn"
}
-->
# ಡೇಂಜರಸ್ ಲಿಯಾಜನ್ಸ್ ಡೇಟಾ ವಿಸುಯಲೈಜೆಷನ್ ಪ್ರಾಜೆಕ್ಟ್
ಪ್ರಾರಂಭಿಸಲು, ನಿಮ್ಮ ಯಂತ್ರದಲ್ಲಿ NPM ಮತ್ತು Node ಚಾಲನೆಯಲ್ಲಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಬೇಕು. ಅವಲಂಬನೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿ (npm install) ಮತ್ತು ನಂತರ ಪ್ರಾಜೆಕ್ಟ್ ಅನ್ನು ಸ್ಥಳೀಯವಾಗಿ ಚಾಲನೆ ಮಾಡಿ (npm run serve):
## ಪ್ರಾಜೆಕ್ಟ್ ಸೆಟಪ್
```
npm install
```
### ಅಭಿವೃದ್ಧಿಗಾಗಿ ಸಂಯೋಜಿಸಿ ಮತ್ತು ಹಾಟ್-ರಿಲೋಡ್ ಮಾಡುತ್ತದೆ
```
npm run serve
```
### ಉತ್ಪಾದನೆಗಾಗಿ ಸಂಯೋಜಿಸಿ ಮತ್ತು ಮಿನಿಫೈ ಮಾಡುತ್ತದೆ
```
npm run build
```
### ಫೈಲ್‌ಗಳನ್ನು ಲಿಂಟ್ ಮಾಡಿ ಮತ್ತು ಸರಿಪಡಿಸುತ್ತದೆ
```
npm run lint
```
### ಕಸ್ಟಮೈಸ್ ಕಾನ್ಫಿಗರೇಶನ್
[Configuration Reference](https://cli.vuejs.org/config/) ಅನ್ನು ನೋಡಿ.
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ಅಸ್ವೀಕರಣ**:
ಈ ದಸ್ತಾವೇಜು AI ಅನುವಾದ ಸೇವೆ [Co-op Translator](https://github.com/Azure/co-op-translator) ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯಿಗಾಗಿ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ತಪ್ಪುಗಳು ಇರಬಹುದು ಎಂದು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
Loading…
Cancel
Save