ಇದು, ಈ ಎರಡು ಮುಷ್ರೂಮ್ ವರ್ಗಗಳ ಪ್ರಕಾರ ಈ ಡೇಟಾದ ಪ್ರಮಾಣಗಳನ್ನು ತೋರಿಸುವ ಪೈ ಚಾರ್ಟ್. ಲೇಬಲ್ಗಳ ಕ್ರಮವನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದು ಬಹಳ ಮುಖ್ಯ, ವಿಶೇಷವಾಗಿ ಇಲ್ಲಿ, ಆದ್ದರಿಂದ ಲೇಬಲ್ ಅರೆ ಅನ್ನು ರಚಿಸುವ ಕ್ರಮವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ!
ಈ ಕೋಡ್ ಒಂದು ಚಾರ್ಟ್ ಮತ್ತು ಮಧ್ಯದ ವೃತ್ತವನ್ನು ರಚಿಸುತ್ತದೆ, ನಂತರ ಆ ಮಧ್ಯದ ವೃತ್ತವನ್ನು ಚಾರ್ಟ್ನಲ್ಲಿ ಸೇರಿಸುತ್ತದೆ. ಮಧ್ಯದ ವೃತ್ತದ ಅಗಲವನ್ನು `0.40` ಅನ್ನು ಬೇರೆ ಮೌಲ್ಯಕ್ಕೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ ಸಂಪಾದಿಸಬಹುದು.
@ -171,7 +171,7 @@ fig = plt.figure(
ವಾಫಲ್ ಚಾರ್ಟ್ ಬಳಸಿ, ನೀವು ಈ ಮುಷ್ರೂಮ್ ಡೇಟಾಸೆಟ್ನ ಕ್ಯಾಪ್ ಬಣ್ಣಗಳ ಪ್ರಮಾಣಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ನೋಡಬಹುದು. ಆಸಕ್ತಿದಾಯಕವಾಗಿ, ಇಲ್ಲಿ ಹಲವಾರು ಹಸಿರು ಕ್ಯಾಪ್ ಮುಷ್ರೂಮ್ಗಳು ಇವೆ!
✅ Pywaffle ಚಾರ್ಟ್ಗಳಲ್ಲಿ [Font Awesome](https://fontawesome.com/) ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಯಾವುದೇ ಐಕಾನ್ಗಳನ್ನು ಬಳಸುವ ಐಕಾನ್ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಚೌಕಗಳ ಬದಲು ಐಕಾನ್ಗಳನ್ನು ಬಳಸಿ ಇನ್ನಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ವಾಫಲ್ ಚಾರ್ಟ್ ರಚಿಸಲು ಪ್ರಯೋಗ ಮಾಡಿ.
ಈಗ, ವರ್ಷಗಳ ಪ್ರಗತಿಯನ್ನು ತೋರಿಸಲು ಜೇನುತುಪ್ಪ ಬಣ್ಣದ ಯೋಜನೆಯನ್ನು ಬಳಸಿ ಅದೇ ಡೇಟಾವನ್ನು ತೋರಿಸಿ. ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬದಲಾವಣೆಯನ್ನು ತೋರಿಸಲು 'hue' ಪರಿಮಾಣವನ್ನು ಸೇರಿಸಬಹುದು:
ಈ ಬಣ್ಣ ಯೋಜನೆಯ ಬದಲಾವಣೆಯಿಂದ, ಜೇನುತುಪ್ಪ ಬೆಲೆ ಪ್ರತಿ ಪೌಂಡ್ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚುತ್ತಿರುವುದು ಕಾಣುತ್ತದೆ. ನಿಜವಾಗಿಯೂ, ಡೇಟಾದ ಒಂದು ಮಾದರಿ ಸೆಟ್ (ಉದಾಹರಣೆಗೆ, ಅರಿಜೋನಾ ರಾಜ್ಯ) ನೋಡಿದರೆ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬೆಲೆ ಏರಿಕೆಯ ಮಾದರಿಯನ್ನು ಕೆಲವು ಅಪವಾದಗಳೊಂದಿಗೆ ಕಾಣಬಹುದು:
ಇದು ಸರಳ ಸರಬರಾಜು ಮತ್ತು ಬೇಡಿಕೆ ಪ್ರಕರಣವೇ? ಹವಾಮಾನ ಬದಲಾವಣೆ ಮತ್ತು ಕಾಲೋನಿ ಕಾಲಾಪ್ಸ್ ಮುಂತಾದ ಕಾರಣಗಳಿಂದ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಕಡಿಮೆ ಜೇನುತುಪ್ಪ ಲಭ್ಯವಿದೆಯೇ, ಆದ್ದರಿಂದ ಬೆಲೆ ಏರಿಕೆಯಾಗುತ್ತಿದೆಯೇ?
✅ Seaborn ಒಂದು ಲೈನ್ ಸುತ್ತಲೂ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದರಿಂದ, "ಪ್ರತಿ x ಮೌಲ್ಯದ ಮೇಲೆ ಹಲವಾರು ಅಳೆಯುವಿಕೆಗಳನ್ನು ಸರಾಸರಿ ಮತ್ತು ಸರಾಸರಿಯ ಸುತ್ತಲೂ 95% ವಿಶ್ವಾಸಾಂಶವನ್ನು ಪ್ಲಾಟ್ ಮಾಡುತ್ತದೆ". [ಮೂಲ](https://seaborn.pydata.org/tutorial/relational.html). ಈ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುವ ವರ್ತನೆಯನ್ನು `ci=None` ಸೇರಿಸುವ ಮೂಲಕ ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಬಹುದು.
ಈ ಡೇಟಾಸೆಟ್ಗೆ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ ವಿಶೇಷವಾಗಿ ಹೊರಹೊಮ್ಮುವುದಿಲ್ಲ. ಈ ಎರಡು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬೇರೆ ವಿಧಾನವಿದೆಯೇ?
2003 ರ ಸುತ್ತಲೂ ಯಾವುದೇ ಸ್ಪಷ್ಟ ಬದಲಾವಣೆ ಕಾಣಿಸದಿದ್ದರೂ, ಈ ಪಾಠವನ್ನು ಸ್ವಲ್ಪ ಸಂತೋಷಕರವಾಗಿ ಮುಗಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ: ಒಟ್ಟು ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯಾದರೂ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಸ್ಥಿರವಾಗುತ್ತಿದೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆ ಪ್ರತಿ ಕಾಲೋನಿಗೂ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
ಒಂದು ಡೇಟಾ ವಿಜ್ಞಾನಿ ಸರಿಯಾದ ಡೇಟಾಗೆ ಸರಿಯಾದ ಚಾರ್ಟ್ ಆಯ್ಕೆಮಾಡಿದರೂ ಸಹ, ಡೇಟಾವನ್ನು ತೋರಿಸುವ ಹಲವು ಮಾರ್ಗಗಳಿವೆ, ಅವು ಡೇಟಾವನ್ನು ಹಾಳುಮಾಡುವ ಬೆಲೆಗಾಗಿ ಒಂದು ವಿಷಯವನ್ನು ಸಾಬೀತುಪಡಿಸಲು. ಮೋಸಮಯ ಚಾರ್ಟ್ಗಳು ಮತ್ತು ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್ಗಳ ಅನೇಕ ಉದಾಹರಣೆಗಳಿವೆ!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
> 🎥 ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ ಮೋಸಮಯ ಚಾರ್ಟ್ಗಳ ಬಗ್ಗೆ ಸಮ್ಮೇಳನ ಮಾತುಕತೆಗಾಗಿ
ಈ ಚಾರ್ಟ್ X ಅಕ್ಷವನ್ನು ತಿರುಗಿಸಿ ಸತ್ಯದ ವಿರುದ್ಧ ತೋರಿಸುತ್ತದೆ, ದಿನಾಂಕ ಆಧಾರಿತವಾಗಿ:
[ಈ ಚಾರ್ಟ್](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ಇನ್ನೂ ಹೆಚ್ಚು ಮೋಸಮಯವಾಗಿದೆ, ಕಣ್ಣು ಬಲಕ್ಕೆ ಸೆಳೆಯುತ್ತದೆ ಮತ್ತು ಸಮಯದೊಂದಿಗೆ COVID ಪ್ರಕರಣಗಳು ವಿವಿಧ ಜಿಲ್ಲೆಗಳಲ್ಲಿ ಕಡಿಮೆಯಾಗಿವೆ ಎಂದು ತೀರ್ಮಾನಿಸುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ದಿನಾಂಕಗಳನ್ನು ಗಮನದಿಂದ ನೋಡಿದರೆ, ಅವು ಮೋಸಮಯ ಇಳಿಜಾರಿನ ಪ್ರವೃತ್ತಿಯನ್ನು ನೀಡಲು ಮರುಕ್ರಮಿಸಲಾಗಿದೆ.
ಈ ಪ್ರಸಿದ್ಧ ಉದಾಹರಣೆ ಬಣ್ಣ ಮತ್ತು ತಿರುಗಿದ Y ಅಕ್ಷವನ್ನು ಬಳಸಿಕೊಂಡು ಮೋಸ ಮಾಡುತ್ತದೆ: ಗನ್-ಸ್ನೇಹಿ ಕಾನೂನುಗಳ ಅಂಗೀಕಾರದ ನಂತರ ಗನ್ ಸಾವುಗಳು ಏರಿಕೆಯಾಗಿವೆ ಎಂದು ತೀರ್ಮಾನಿಸುವ ಬದಲು, ಕಣ್ಣು ವಿರುದ್ಧವನ್ನು ನಂಬುವಂತೆ ಮೋಸ ಮಾಡುತ್ತದೆ:
ತೋಲಿಸಲಾಗದ ವಸ್ತುಗಳನ್ನು ಹೋಲಿಸುವುದು ಇನ್ನೊಂದು ಅನುಮಾನಾಸ್ಪದ ತಂತ್ರ. 'ಸ್ಪ್ಯೂರಿಯಸ್ ಕೊರಿಲೇಶನ್ಸ್' ಬಗ್ಗೆ ಸಂಪೂರ್ಣ ವೆಬ್ಸೈಟ್ ಇದೆ, ಇದು ಮೇನ್ನ ವಿಚ್ಛೇದನ ದರ ಮತ್ತು ಮಾರ್ಗರಿನ್ ಸೇವನೆ ಮುಂತಾದ ವಿಷಯಗಳನ್ನು ಹೊಂದಿರುವ 'ತಥ್ಯಗಳನ್ನು' ತೋರಿಸುತ್ತದೆ. ರೆಡಿಟ್ ಗುಂಪು ಕೂಡ ಡೇಟಾ ಬಳಕೆಯ [ಕಿರುಕುಳಗಳನ್ನು](https://www.reddit.com/r/dataisugly/top/?t=all) ಸಂಗ್ರಹಿಸುತ್ತದೆ.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
ನಿಮ್ಮ ಡೇಟಾ ಪಠ್ಯರೂಪದಲ್ಲಿದ್ದರೆ ಮತ್ತು X ಅಕ್ಷದಲ್ಲಿ ಬಹುಶಃVerbose ಆಗಿದ್ದರೆ, ಓದಲು ಸುಲಭವಾಗಲು ಪಠ್ಯವನ್ನು ತಿರುಗಿಸಬಹುದು. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) 3D ಪ್ಲಾಟಿಂಗ್ ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ನಿಮ್ಮ ಡೇಟಾ ಅದನ್ನು ಬೆಂಬಲಿಸಿದರೆ. ಸುಧಾರಿತ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳನ್ನು `mpl_toolkits.mplot3d` ಬಳಸಿ ಉತ್ಪಾದಿಸಬಹುದು.
ಇಂದಿನ ಅತ್ಯುತ್ತಮ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳಲ್ಲಿ ಕೆಲವು ಅನಿಮೇಟೆಡ್ ಆಗಿವೆ. ಶಿರ್ಲಿ ವು D3 ಬಳಸಿ ಅದ್ಭುತವಾದವುಗಳನ್ನು ಮಾಡಿದ್ದಾಳೆ, ಉದಾಹರಣೆಗೆ '[ಫಿಲ್ಮ್ ಫ್ಲವರ್ಸ್](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ಇಲ್ಲಿ ಪ್ರತಿ ಹೂವು ಒಂದು ಚಲನಚಿತ್ರದ ದೃಶ್ಯೀಕರಣವಾಗಿದೆ. ಇನ್ನೊಂದು ಉದಾಹರಣೆ ಗಾರ್ಡಿಯನ್ನ 'ಬಸ್ಸ್ಡ್ ಔಟ್', ಇದು ಗ್ರೀನ್ಸಾಕ್ ಮತ್ತು D3 ಜೊತೆಗೆ ಸ್ಕ್ರೋಲಿಟೆಲಿಂಗ್ ಲೇಖನ ಫಾರ್ಮ್ಯಾಟ್ ಅನ್ನು ಸಂಯೋಜಿಸಿ NYC ತನ್ನ ಬಡವರ ಸಮಸ್ಯೆಯನ್ನು ಬಸ್ಸಿಂಗ್ ಮೂಲಕ ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುವ ಇಂಟರಾಕ್ಟಿವ್ ಅನುಭವ.
> "ಬಸ್ಸ್ಡ್ ಔಟ್: ಅಮೆರಿಕ ತನ್ನ ಬಡವರನ್ನು ಹೇಗೆ ಸಾಗಿಸುತ್ತದೆ" [ಗಾರ್ಡಿಯನ್](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) ನಿಂದ. ದೃಶ್ಯೀಕರಣಗಳು ನಾಡಿಯೆ ಬ್ರೆಮರ್ ಮತ್ತು ಶಿರ್ಲಿ ವು ಅವರಿಂದ
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
ನೀವು ಈ ಸಾಮಾಜಿಕ ಜಾಲತಾಣದ ಅನಿಮೇಟೆಡ್ ವೀಕ್ಷಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸುವ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಪೂರ್ಣಗೊಳಿಸುವಿರಿ. ಇದು Vue.js ಮತ್ತು D3 ಬಳಸಿ [ಜಾಲತಾಣದ ದೃಶ್ಯ](https://github.com/emiliorizzo/vue-d3-network) ರಚಿಸಲು ನಿರ್ಮಿಸಲಾದ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್ ಚಾಲನೆಯಲ್ಲಿದ್ದಾಗ, ನೀವು ಡೇಟಾವನ್ನು ಮರುಕ್ರಮಿಸಲು ಪರದೆ ಮೇಲೆ ನೋಡ್ಗಳನ್ನು ಎಳೆಯಬಹುದು.
ಇಲ್ಲಿ, ನೀವು `ggplot2` ಪ್ಯಾಕೇಜ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿ ನಂತರ `library("ggplot2")` ಕಮಾಂಡ್ ಬಳಸಿ ವರ್ಕ್ಸ್ಪೇಸ್ಗೆ ಆಮದುಮಾಡುತ್ತೀರಿ. ggplot ನಲ್ಲಿ ಯಾವುದೇ ಪ್ಲಾಟ್ ರಚಿಸಲು `ggplot()` ಫಂಕ್ಷನ್ ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ಡೇಟಾಸೆಟ್, x ಮತ್ತು y ಚರಗಳನ್ನು ಗುಣಲಕ್ಷಣಗಳಾಗಿ ಸೂಚಿಸಲಾಗುತ್ತದೆ. ಈ ಪ್ರಕರಣದಲ್ಲಿ, ನಾವು ರೇಖಾ ಪ್ಲಾಟ್ ರಚಿಸಲು `geom_line()` ಫಂಕ್ಷನ್ ಬಳಸುತ್ತೇವೆ.
ನೀವು ತಕ್ಷಣವೇ ಏನು ಗಮನಿಸುತ್ತೀರಿ? ಕನಿಷ್ಠ ಒಂದು ಹೊರಗಿನ ಮೌಲ್ಯವಿದೆ - ಅದು ತುಂಬಾ ದೊಡ್ಡ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ! 2000+ ಸೆಂ.ಮೀ. ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ 20 ಮೀಟರ್ಗಿಂತ ಹೆಚ್ಚು - ಮಿನೆಸೋಟಾದಲ್ಲಿ ಪ್ಟೆರೋಡ್ಯಾಕ್ಟೈಲ್ಸ್ ಓಡಾಡುತ್ತಿವೆಯೇ? ಪರಿಶೀಲಿಸೋಣ.
ನಾವು `theme` ನಲ್ಲಿ ಕೋನವನ್ನು ಸೂಚಿಸುತ್ತೇವೆ ಮತ್ತು `xlab()` ಮತ್ತು `ylab()` ನಲ್ಲಿ ಕ್ರಮವಾಗಿ x ಮತ್ತು y ಅಕ್ಷದ ಲೇಬಲ್ಗಳನ್ನು ನಿಗದಿಪಡಿಸುತ್ತೇವೆ. `ggtitle()` ಗ್ರಾಫ್/ಪ್ಲಾಟ್ಗೆ ಹೆಸರು ನೀಡುತ್ತದೆ.
ಲೇಬಲ್ಗಳ ತಿರುಗುವಿಕೆಯನ್ನು 45 ಡಿಗ್ರಿ ಗೆ ಹೊಂದಿಸಿದರೂ, ಓದಲು ತುಂಬಾ ಹೆಚ್ಚು ಇದೆ. ಬೇರೆ ತಂತ್ರವನ್ನು ಪ್ರಯತ್ನಿಸೋಣ: ಹೊರಗಿನ ಮೌಲ್ಯಗಳಿಗೆ ಮಾತ್ರ ಲೇಬಲ್ಗಳನ್ನು ನೀಡಿ ಮತ್ತು ಲೇಬಲ್ಗಳನ್ನು ಚಾರ್ಟ್ ಒಳಗೆ ಸೆಟ್ ಮಾಡಿ. ಲೇಬಲಿಂಗ್ಗೆ ಹೆಚ್ಚು ಜಾಗ ಮಾಡಲು ಸ್ಕ್ಯಾಟರ್ ಚಾರ್ಟ್ ಬಳಸಬಹುದು:
ನಾವು ಹೊಸ ಡೇಟಾಫ್ರೇಮ್ `birds_filtered` ರಚಿಸಿ ನಂತರ ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್ ರಚಿಸಿದ್ದೇವೆ. ಹೊರಗಿನ ಮೌಲ್ಯಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಿದ ನಂತರ, ನಿಮ್ಮ ಡೇಟಾ ಈಗ ಹೆಚ್ಚು ಸಮ್ಮಿಲಿತ ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದಾಗಿದೆ.
ಕೆಳಗಿನ ಸ্নಿಪೆಟ್ನಲ್ಲಿ, ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಶನ್ ಮತ್ತು ಗುಂಪು ಮಾಡಲು ಸಹಾಯ ಮಾಡುವ [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ಮತ್ತು [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) ಪ್ಯಾಕೇಜ್ಗಳನ್ನು ಸ್ಥಾಪಿಸುತ್ತೇವೆ. ಮೊದಲು, ನೀವು ಪಕ್ಷಿಯ `Category` ಮೂಲಕ ಡೇಟಾವನ್ನು ಗುಂಪುಮಾಡಿ ನಂತರ `MinLength`, `MaxLength`, `MinBodyMass`, `MaxdyMass`, `MinWingspan`, `MaxWingspan` ಕಾಲಮ್ಗಳನ್ನು ಸಾರಾಂಶಗೊಳಿಸುತ್ತೀರಿ. ನಂತರ, `ggplot2` ಪ್ಯಾಕೇಜ್ ಬಳಸಿ ಬಾರ್ ಚಾರ್ಟ್ ಅನ್ನು ಪ್ಲಾಟ್ ಮಾಡಿ ವಿಭಿನ್ನ ವರ್ಗಗಳಿಗೆ ಬಣ್ಣಗಳನ್ನು ಮತ್ತು ಲೇಬಲ್ಗಳನ್ನು ಸೂಚಿಸುತ್ತೀರಿ.


ಈ ಬಾರ್ ಚಾರ್ಟ್ ಓದಲು ಅಸಾಧ್ಯವಾಗಿದೆ ಏಕೆಂದರೆ ಅತಿಯಾದ ಗುಂಪುಮಾಡದ ಡೇಟಾ ಇದೆ. ನೀವು ಪ್ಲಾಟ್ ಮಾಡಲು ಬಯಸುವ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಆಯ್ಕೆಮಾಡಬೇಕು, ಆದ್ದರಿಂದ ಪಕ್ಷಿಗಳ ಉದ್ದವನ್ನು ಅವುಗಳ ವರ್ಗದ ಆಧಾರದ ಮೇಲೆ ನೋಡೋಣ.
ಮೊದಲು ನೀವು `Category` ಕಾಲಮ್ನ ವಿಶಿಷ್ಟ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸಿ ನಂತರ ಅವುಗಳನ್ನು ಹೊಸ ಡೇಟಾಫ್ರೇಮ್ `birds_count` ಗೆ ಸರಿಸುಮಾರು ಮಾಡುತ್ತೀರಿ. ಈ ಸರಿಗೊಳಿಸಿದ ಡೇಟಾವನ್ನು ಅದೇ ಮಟ್ಟದಲ್ಲಿ ಫ್ಯಾಕ್ಟರ್ ಮಾಡಿ ಆದ್ದರಿಂದ ಅದು ಸರಿಗೊಳಿಸಿದ ರೀತಿಯಲ್ಲಿ ಪ್ಲಾಟ್ ಆಗುತ್ತದೆ. ನಂತರ `ggplot2` ಬಳಸಿ ಬಾರ್ ಚಾರ್ಟ್ ರಚಿಸುತ್ತೀರಿ. `coord_flip()` ಹೋರಿಜಾಂಟಲ್ ಬಾರ್ಗಳನ್ನು ಪ್ಲಾಟ್ ಮಾಡುತ್ತದೆ.
ಈ ಬಾರ್ ಚಾರ್ಟ್ ಪ್ರತಿ ವರ್ಗದಲ್ಲಿನ ಪಕ್ಷಿಗಳ ಸಂಖ್ಯೆಯ ಉತ್ತಮ ದೃಶ್ಯವನ್ನು ತೋರಿಸುತ್ತದೆ. ಕ್ಷಣದಲ್ಲಿಯೇ ನೀವು ಈ ಪ್ರದೇಶದಲ್ಲಿ Ducks/Geese/Waterfowl ವರ್ಗದಲ್ಲಿರುವ ಪಕ್ಷಿಗಳ ಸಂಖ್ಯೆ ಅತ್ಯಂತ ಹೆಚ್ಚು ಎಂದು ನೋಡಬಹುದು. ಮಿನೆಸೋಟಾ '10,000 ಸರೋವರಗಳ ಭೂಮಿ' ಆಗಿರುವುದರಿಂದ ಇದು ಆಶ್ಚರ್ಯಕರವಲ್ಲ!


ಇದು ಪಕ್ಷಿ ಕ್ರಮದ ಪ್ರತಿ ದೇಹ ಉದ್ದದ ಸಾಮಾನ್ಯ ವಿತರಣೆಯ ಅವಲೋಕನವನ್ನು ನೀಡುತ್ತದೆ, ಆದರೆ ಇದು ನಿಜವಾದ ವಿತರಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸಲು ಅತ್ಯುತ್ತಮ ವಿಧಾನವಲ್ಲ. ಆ ಕಾರ್ಯವನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸುವ ಮೂಲಕ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ.


ನೀವು ನೋಡಬಹುದು, ಈ ಡೇಟಾಸೆಟ್ನ 400+ ಪಕ್ಷಿಗಳ ಬಹುತೇಕವು ಗರಿಷ್ಠ ದೇಹ ಭಾರದ 2000 ಕ್ಕಿಂತ ಕಡಿಮೆ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಬರುತ್ತವೆ. `bins` ಪರಿಮಾಣವನ್ನು 30 ರಂತಹ ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಗೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ ಡೇಟಾದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಒಳನೋಟವನ್ನು ಪಡೆಯಿರಿ:
ಈ ಚಾರ್ಟ್ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಸೂಕ್ಷ್ಮ ರೀತಿಯಲ್ಲಿ ವಿತರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ. ಎಡಕ್ಕೆ ಕಡಿಮೆ ತಿರುವು ಹೊಂದಿರುವ ಚಾರ್ಟ್ ಅನ್ನು ನೀವು ನಿರ್ದಿಷ್ಟ ವ್ಯಾಪ್ತಿಯೊಳಗಿನ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಆಯ್ಕೆಮಾಡುವ ಮೂಲಕ ರಚಿಸಬಹುದು:
✅ ಇನ್ನಷ್ಟು ಫಿಲ್ಟರ್ಗಳು ಮತ್ತು ಡೇಟಾ ಪಾಯಿಂಟ್ಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿ. ಡೇಟಾದ ಸಂಪೂರ್ಣ ವಿತರಣೆಯನ್ನು ನೋಡಲು, ಲೇಬಲ್ ಮಾಡಲಾದ ವಿತರಣೆಯನ್ನು ತೋರಿಸಲು `['MaxBodyMass']` ಫಿಲ್ಟರ್ ಅನ್ನು ತೆಗೆದುಹಾಕಿ.


ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರ ಮತ್ತು ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯ ನಡುವೆ ಉತ್ತಮ ಸಂಬಂಧವಿಲ್ಲದಂತೆ ತೋರುತ್ತದೆ. ಈ ವಿಧಾನವನ್ನು ಬಳಸಿ ಡೇಟಾಸೆಟ್ನ ಇತರ ಅಂಶಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ. ನೀವು ಯಾವುದೇ ಸಂಬಂಧವನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತೀರಾ?
ನೀವು ನೋಡಬಹುದು, ಈ ಪ್ಲಾಟ್ ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರದ ಡೇಟಾಗಾಗಿ ಹಿಂದಿನದನ್ನು ಪ್ರತಿಧ್ವನಿಸುತ್ತದೆ; ಅದು ಸ್ವಲ್ಪ ಸ್ಮೂತ್ ಆಗಿದೆ. ನೀವು ಎರಡನೇ ಚಾರ್ಟ್ನಲ್ಲಿ ರಚಿಸಿದ ಜಾಗೃತ MaxBodyMass ರೇಖೆಯನ್ನು ಮರುಸೃಷ್ಟಿಸುವ ಮೂಲಕ ಅದನ್ನು ಚೆನ್ನಾಗಿ ಸ್ಮೂತ್ ಮಾಡಬಹುದು:
ಇದು, ಈ ಡೇಟಾದ ಪ್ರಮಾಣಗಳನ್ನು ಈ ಎರಡು ಮಶ್ರೂಮ್ ವರ್ಗಗಳ ಪ್ರಕಾರ ತೋರಿಸುವ ಪೈ ಚಾರ್ಟ್. ಲೇಬಲ್ಗಳ ಕ್ರಮವನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದು ಬಹಳ ಮುಖ್ಯ, ವಿಶೇಷವಾಗಿ ಇಲ್ಲಿ, ಆದ್ದರಿಂದ ಲೇಬಲ್ ಅರೆ ಅನ್ನು ರಚಿಸುವ ಕ್ರಮವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ!
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಮೂರು ವಿಧಾನಗಳನ್ನು ಕಲಿತಿರಿ. ಮೊದಲು, ನಿಮ್ಮ ಡೇಟಾವನ್ನು ವರ್ಗಗಳಾಗಿ ಗುಂಪುಮಾಡಬೇಕು ಮತ್ತು ನಂತರ ಡೇಟಾವನ್ನು ಪ್ರದರ್ಶಿಸುವ ಅತ್ಯುತ್ತಮ ವಿಧಾನವನ್ನು ನಿರ್ಧರಿಸಬೇಕು - ಪೈ, ಡೋನಟ್ ಅಥವಾ ವಾಫಲ್. ಎಲ್ಲವೂ ರುಚಿಕರವಾಗಿವೆ ಮತ್ತು ಬಳಕೆದಾರರಿಗೆ ಡೇಟಾಸೆಟ್ನ ತಕ್ಷಣದ ದೃಶ್ಯವನ್ನು ನೀಡುತ್ತವೆ.
ಈಗ, ವರ್ಷಗಳ ಪ್ರಗತಿಯನ್ನು ತೋರಿಸಲು ಜೇನುತುಪ್ಪ ಬಣ್ಣದ ಸ್ಕೀಮ್ ಬಳಸಿ ಅದೇ ಡೇಟಾವನ್ನು ತೋರಿಸಿ. ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬದಲಾವಣೆಯನ್ನು ತೋರಿಸಲು 'scale_color_gradientn' ಪರಿಮಾಣವನ್ನು ಸೇರಿಸಬಹುದು:
ಈ ಬಣ್ಣದ ಸ್ಕೀಮ್ ಬದಲಾವಣೆಯಿಂದ, ಜೇನುತುಪ್ಪದ ಪೌಂಡ್ ಪ್ರತಿ ಬೆಲೆಯು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚುತ್ತಿರುವುದು ಕಾಣುತ್ತದೆ. ನಿಜವಾಗಿಯೂ, ಡೇಟಾದ ಒಂದು ಮಾದರಿ ಸೆಟ್ (ಉದಾಹರಣೆಗೆ ಅರೆಜೋನಾದ ಒಂದು ರಾಜ್ಯ) ನೋಡಿದರೆ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬೆಲೆ ಏರಿಕೆಯ ಮಾದರಿಯನ್ನು ಕಾಣಬಹುದು, ಕೆಲವೊಂದು ಹೊರತುಪಡಿಸಿ:
ಇದು ಸರಳ ಸರಬರಾಜು ಮತ್ತು ಬೇಡಿಕೆ ಪ್ರಕರಣವೇ? ಹವಾಮಾನ ಬದಲಾವಣೆ ಮತ್ತು ಕಾಲೋನಿ ಕಾಲಾಪ್ಸ್ ಮುಂತಾದ ಕಾರಣಗಳಿಂದ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಖರೀದಿಗೆ ಲಭ್ಯವಿರುವ ಜೇನುತುಪ್ಪ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯೇ, ಆದ್ದರಿಂದ ಬೆಲೆ ಏರುತ್ತಿದೆಯೇ?
ಉತ್ತರ: ಅಷ್ಟು ಅಲ್ಲ. ಒಟ್ಟು ಉತ್ಪಾದನೆಯನ್ನು ನೋಡಿದರೆ, ಆ ವಿಶೇಷ ವರ್ಷದಲ್ಲಿ ಅದು ಹೆಚ್ಚಿದಂತೆ ತೋರುತ್ತದೆ, ಆದರೂ ಸಾಮಾನ್ಯವಾಗಿ ಈ ವರ್ಷಗಳಲ್ಲಿ ಜೇನುತುಪ್ಪದ ಉತ್ಪಾದನೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
ಈ ದೃಶ್ಯೀಕರಣದಲ್ಲಿ, ನೀವು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ yield per colony ಮತ್ತು ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪಕ್ಕಪಕ್ಕವಾಗಿ 3 ಕಾಲಮ್ಗಳೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು:
ಈ ಡೇಟಾಸೆಟ್ಗೆ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆಯ ಕುರಿತು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ ವಿಶೇಷವಾಗಿ ಏನೂ ಹೊರಹೊಮ್ಮುವುದಿಲ್ಲ. ಈ ಎರಡು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬೇರೆ ವಿಧಾನವಿದೆಯೇ?
2003 ರ ಸುತ್ತಲೂ ಏನೂ ವಿಶೇಷವಾಗಿ ಗಮನ ಸೆಳೆಯದಿದ್ದರೂ, ಈ ಪಾಠವನ್ನು ಸ್ವಲ್ಪ ಸಂತೋಷಕರವಾಗಿ ಮುಗಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ: ಒಟ್ಟಾರೆ ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯಾದರೂ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಸ್ಥಿರವಾಗುತ್ತಿದೆ ಮತ್ತು ಅವರ yield per colony ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
ಒಂದು ಡೇಟಾ ವಿಜ್ಞಾನಿ ಸರಿಯಾದ ಡೇಟಾ ಗೆ ಸರಿಯಾದ ಚಾರ್ಟ್ ಆಯ್ಕೆಮಾಡಿದರೂ ಸಹ, ಡೇಟಾವನ್ನು ತೋರಿಸುವ ಹಲವು ಮಾರ್ಗಗಳಿವೆ, ಅವು ಡೇಟಾವನ್ನು ಹಾಳುಮಾಡುವ ಬೆಲೆಗಾಗಿ ಒಂದು ವಿಷಯವನ್ನು ಸಾಬೀತುಪಡಿಸಲು. ಮೋಸಮಯ ಚಾರ್ಟ್ಗಳು ಮತ್ತು ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್ಗಳ ಅನೇಕ ಉದಾಹರಣೆಗಳಿವೆ!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
> 🎥 ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ ಮೋಸಮಯ ಚಾರ್ಟ್ಗಳ ಬಗ್ಗೆ ಸಮ್ಮೇಳನ ಮಾತುಕತೆ ನೋಡಿರಿ
ಈ ಚಾರ್ಟ್ X ಅಕ್ಷವನ್ನು ತಿರುಗಿಸಿ ಸತ್ಯದ ವಿರುದ್ಧ ತೋರಿಸುತ್ತದೆ, ದಿನಾಂಕ ಆಧಾರಿತ:
[ಈ ಚಾರ್ಟ್](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ಇನ್ನೂ ಹೆಚ್ಚು ಮೋಸಮಯವಾಗಿದೆ, ಕಣ್ಣು ಬಲಕ್ಕೆ ಸೆಳೆಯುತ್ತದೆ ಮತ್ತು ಸಮಯದೊಂದಿಗೆ COVID ಪ್ರಕರಣಗಳು ವಿವಿಧ ಜಿಲ್ಲೆಗಳಲ್ಲಿ ಕಡಿಮೆಯಾದಂತೆ ತೋರುತ್ತದೆ. ನಿಜವಾಗಿ, ದಿನಾಂಕಗಳನ್ನು ಗಮನದಿಂದ ನೋಡಿದರೆ, ಅವು ಮೋಸಮಯ ಇಳಿಜಾರಿನ ಪ್ರವೃತ್ತಿಯನ್ನು ನೀಡಲು ಮರುಕ್ರಮಿಸಲಾಗಿದೆ.
ಈ ಪ್ರಸಿದ್ಧ ಉದಾಹರಣೆ ಬಣ್ಣ ಮತ್ತು ತಿರುಗಿದ Y ಅಕ್ಷವನ್ನು ಬಳಸಿಕೊಂಡು ಮೋಸ ಮಾಡುತ್ತದೆ: ಗನ್-ಸ್ನೇಹಿ ಕಾನೂನುಗಳ ಅಂಗೀಕಾರದ ನಂತರ ಗನ್ ಸಾವುಗಳು ಏರಿಕೆಯಾಗಿವೆ ಎಂದು ನಿರ್ಣಯಿಸುವ ಬದಲು, ಕಣ್ಣು ವಿರುದ್ಧವನ್ನು ನಂಬುವಂತೆ ಮಾಡುತ್ತದೆ:
ತೂಕಮಾಡಲಾಗದ ವಸ್ತುಗಳನ್ನು ಹೋಲಿಸುವುದು ಇನ್ನೊಂದು ಅನುಮಾನಾಸ್ಪದ ತಂತ್ರ. 'ಸ್ಪ್ಯೂರಿಯಸ್ ಕೊರಿಲೇಶನ್ಸ್' ಬಗ್ಗೆ ಒಂದು [ಅದ್ಭುತ ವೆಬ್ ಸೈಟ್](https://tylervigen.com/spurious-correlations) ಇದೆ, ಇದು ಮೇನ್ನ ವಿಚ್ಛೇದನ ದರ ಮತ್ತು ಮಾರ್ಜರಿನ್ ಬಳಕೆಯಂತಹ ವಿಷಯಗಳನ್ನು ಹೊಂದಿರುವ 'ವಾಸ್ತವಗಳನ್ನು' ತೋರಿಸುತ್ತದೆ. ರೆಡ್ಡಿಟ್ ಗುಂಪು ಕೂಡ ಡೇಟಾ ಬಳಕೆಯ [ಕಿರುಕುಳಗಳನ್ನು](https://www.reddit.com/r/dataisugly/top/?t=all) ಸಂಗ್ರಹಿಸುತ್ತದೆ.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
ನಿಮ್ಮ ಡೇಟಾ ಪಠ್ಯಾತ್ಮಕ ಮತ್ತು X ಅಕ್ಷದಲ್ಲಿ ವಿಸ್ತಾರವಾಗಿದ್ದರೆ, ಓದಲು ಸುಲಭವಾಗಲು ಪಠ್ಯವನ್ನು ತಿರುಗಿಸಬಹುದು. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D ಪ್ಲಾಟಿಂಗ್ ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ನಿಮ್ಮ ಡೇಟಾ ಅದನ್ನು ಬೆಂಬಲಿಸಿದರೆ. ಅದನ್ನು ಬಳಸಿ ಸುಧಾರಿತ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸೃಷ್ಟಿಸಬಹುದು.
ಇಂದಿನ ಅತ್ಯುತ್ತಮ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳಲ್ಲಿ ಕೆಲವು ಅನಿಮೇಟೆಡ್ ಆಗಿವೆ. ಶಿರ್ಲಿ ವು D3 ಬಳಸಿ ಅದ್ಭುತ ಅನಿಮೇಟೆಡ್ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಮಾಡಿದ್ದಾಳೆ, ಉದಾಹರಣೆಗೆ '[ಫಿಲ್ಮ್ ಫ್ಲವರ್ಸ್](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ಇಲ್ಲಿ ಪ್ರತಿ ಹೂವು ಒಂದು ಚಲನಚಿತ್ರದ ದೃಶ್ಯೀಕರಣವಾಗಿದೆ. ಇನ್ನೊಂದು ಉದಾಹರಣೆ ಗಾರ್ಡಿಯನ್ನ 'ಬಸ್ಸ್ಡ್ ಔಟ್', ಇದು ಗ್ರೀನ್ಸಾಕ್ ಮತ್ತು D3 ಜೊತೆಗೆ ಇಂಟರಾಕ್ಟಿವ್ ಅನುಭವ ಮತ್ತು ಸ್ಕ್ರೋಲಿಟೆಲ್ಲಿಂಗ್ ಲೇಖನ ರೂಪದಲ್ಲಿ NYC ತನ್ನ ಗೃಹವಿಹೀನ ಸಮಸ್ಯೆಯನ್ನು ಬಸ್ಸಿಂಗ್ ಮೂಲಕ ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ.
> "ಬಸ್ಸ್ಡ್ ಔಟ್: ಅಮೆರಿಕ ಗೃಹವಿಹೀನರನ್ನು ಹೇಗೆ ಸಾಗಿಸುತ್ತದೆ" [ಗಾರ್ಡಿಯನ್](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) ನಿಂದ. ದೃಶ್ಯೀಕರಣಗಳು ನಾಡಿಯೆ ಬ್ರೆಮರ್ ಮತ್ತು ಶಿರ್ಲಿ ವು ಅವರಿಂದ
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
ನೀವು ಈ ಸಾಮಾಜಿಕ ಜಾಲದೃಶ್ಯೀಕರಣದ ಅನಿಮೇಟೆಡ್ ವೀಕ್ಷಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸುವ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಪೂರ್ಣಗೊಳಿಸುವಿರಿ. ಇದು Vue.js ಮತ್ತು D3 ಬಳಸಿ [ಜಾಲದೃಶ್ಯ](https://github.com/emiliorizzo/vue-d3-network) ಸೃಷ್ಟಿಸಲು ನಿರ್ಮಿಸಲಾದ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್ ಚಾಲನೆಯಲ್ಲಿದ್ದಾಗ, ನೀವು ನೊಡ್ಗಳನ್ನು ಪರದೆ ಮೇಲೆ ಎಳೆಯಬಹುದು ಮತ್ತು ಡೇಟಾವನ್ನು ಮರುಸಂರಚಿಸಬಹುದು.


> ಫೋಟೋ <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಜೆನ್ನಾ ಲೀ</a> ಅವರಿಂದ <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅನ್ಸ್ಪ್ಲ್ಯಾಶ್</a> ನಲ್ಲಿ
ಈ ಪಾಠವು ಜೀವನಚಕ್ರದ 3 ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ: ಸೆರೆಹಿಡಿಯುವುದು, ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು ಮತ್ತು ನಿರ್ವಹಣೆ.


> ಚಿತ್ರ: [ಬರ್ಕ್ಲಿ ಮಾಹಿತಿ ಶಾಲೆ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## ಸೆರೆಹಿಡಿಯುವುದು
@ -97,7 +97,7 @@ CO_OP_TRANSLATOR_METADATA:
|ಟೀಮ್ ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆ (TDSP)|ಕ್ರಾಸ್-ಇಂಡಸ್ಟ್ರಿ ಸ್ಟ್ಯಾಂಡರ್ಡ್ ಪ್ರಕ್ರಿಯೆ ಫಾರ್ ಡೇಟಾ ಮೈನಿಂಗ್ (CRISP-DM)|
|--|--|
| |  |
| |  |
| ಚಿತ್ರ: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ಚಿತ್ರ: [ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆ ಅಲಯನ್ಸ್](https://www.datascience-pm.com/crisp-dm-2/) |
> ಫೋಟೋ <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಹೆಡ್ವೇ</a> ಅವರಿಂದ <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅನ್ಸ್ಪ್ಲ್ಯಾಶ್</a> ನಲ್ಲಿ
ಈ ಪಾಠಗಳಲ್ಲಿ, ನೀವು ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರದ ಕೆಲವು ಅಂಶಗಳನ್ನು, ಡೇಟಾ ಸುತ್ತಲೂ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಸಂವಹನವನ್ನು ಅನ್ವೇಷಿಸುವಿರಿ.
ಯೋಜನೆಗಳನ್ನು ರಚಿಸುವುದು ಮತ್ತು ನಿರ್ಮಿಸುವುದು ನಿಮ್ಮ ಕೌಶಲ್ಯ ಮತ್ತು ಜ್ಞಾನವನ್ನು ಪರೀಕ್ಷಿಸಲು ಅತ್ಯುತ್ತಮ ಮಾರ್ಗವೆಂದು ಯಾವುದೇ ಸಂಶಯವಿಲ್ಲ. ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ಅಜೂರ್ ಎಂಎಲ್ ಸ್ಟುಡಿಯೋದಲ್ಲಿ ಹೃದಯ ವೈಫಲ್ಯ ದಾಳಿಗಳ ಭವಿಷ್ಯವಾಣಿಗಾಗಿ ಡೇಟಾ ಸೈನ್ಸ್ ಯೋಜನೆಯನ್ನು ಎರಡು ವಿಭಿನ್ನ ವಿಧಾನಗಳಲ್ಲಿ ಅನ್ವೇಷಿಸುವೆವು: ಲೋ ಕೋಡ್/ನೋ ಕೋಡ್ ಮತ್ತು ಅಜೂರ್ ಎಂಎಲ್ SDK ಮೂಲಕ, ಕೆಳಗಿನ ಚಿತ್ರಣದಂತೆ:
ಪ್ರತಿ ವಿಧಾನಕ್ಕೂ ತನ್ನದೇ ಆದ ಲಾಭ ಮತ್ತು ನಷ್ಟಗಳಿವೆ. ಲೋ ಕೋಡ್/ನೋ ಕೋಡ್ ವಿಧಾನವು GUI (ಗ್ರಾಫಿಕಲ್ ಯೂಸರ್ ಇಂಟರ್ಫೇಸ್) ಜೊತೆಗೆ ಸಂವಹನ ಮಾಡುವುದರಿಂದ ಪ್ರಾರಂಭಿಸಲು ಸುಲಭವಾಗಿದೆ, ಕೋಡ್ ಬಗ್ಗೆ ಪೂರ್ವಜ್ಞಾನ ಅಗತ್ಯವಿಲ್ಲ. ಈ ವಿಧಾನವು ಯೋಜನೆಯ ಸಾಧ್ಯತೆಯನ್ನು ತ್ವರಿತವಾಗಿ ಪರೀಕ್ಷಿಸಲು ಮತ್ತು POC (ಪ್ರೂಫ್ ಆಫ್ ಕಾಂಸೆಪ್ಟ್) ರಚಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಆದರೆ, ಯೋಜನೆ ವಿಸ್ತಾರವಾಗುತ್ತಾ ಮತ್ತು ಉತ್ಪಾದನೆಗೆ ಸಿದ್ಧವಾಗಬೇಕಾದಾಗ, GUI ಮೂಲಕ ಸಂಪನ್ಮೂಲಗಳನ್ನು ರಚಿಸುವುದು ಸಾಧ್ಯವಿಲ್ಲ. ಸಂಪನ್ಮೂಲಗಳ ರಚನೆ, ಮಾದರಿ ನಿಯೋಜನೆ ಸೇರಿದಂತೆ ಎಲ್ಲವನ್ನೂ ಪ್ರೋಗ್ರಾಮ್ಯಾಟಿಕಾಗಿ ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಬೇಕಾಗುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ ಅಜೂರ್ ಎಂಎಲ್ SDK ಬಳಕೆ ತಿಳಿದುಕೊಳ್ಳುವುದು ಅತ್ಯಂತ ಮುಖ್ಯ.
@ -115,15 +115,15 @@ CO_OP_TRANSLATOR_METADATA:
1. ನಿಮ್ಮ ಅಜೂರ್ ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್ಗೆ ಸಂಬಂಧಿಸಿದ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಕ್ರೆಡೆನ್ಷಿಯಲ್ಸ್ ಬಳಸಿ [ಅಜೂರ್ ಪೋರ್ಟಲ್](https://ms.portal.azure.com/) ಗೆ ಸೈನ್ ಇನ್ ಆಗಿ.
- ರಚಿಸಿ + ಪರಿಶೀಲಿಸಿ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ನಂತರ ರಚನೆ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ
3. ನಿಮ್ಮ ವರ್ಕ್ಸ್ಪೇಸ್ ರಚನೆಗೆ ಕೆಲವು ನಿಮಿಷಗಳು ಬೇಕಾಗಬಹುದು. ನಂತರ ಪೋರ್ಟಲ್ನಲ್ಲಿ ಅದಕ್ಕೆ ಹೋಗಿ. ನೀವು ಅದನ್ನು ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಅಜೂರ್ ಸೇವೆಯ ಮೂಲಕ ಹುಡುಕಬಹುದು.
4. ನಿಮ್ಮ ವರ್ಕ್ಸ್ಪೇಸ್ನ ಅವಲೋಕನ ಪುಟದಲ್ಲಿ, ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋವನ್ನು ಪ್ರಾರಂಭಿಸಿ (ಅಥವಾ ಹೊಸ ಬ್ರೌಸರ್ ಟ್ಯಾಬ್ ತೆರೆಯಿರಿ ಮತ್ತು https://ml.azure.com ಗೆ ಹೋಗಿ), ಮತ್ತು ನಿಮ್ಮ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಖಾತೆ ಬಳಸಿ ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋದಲ್ಲಿ ಸೈನ್ ಇನ್ ಆಗಿ. ಕೇಳಿದರೆ, ನಿಮ್ಮ ಅಜೂರ್ ಡೈರೆಕ್ಟರಿ ಮತ್ತು ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್ ಮತ್ತು ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ವರ್ಕ್ಸ್ಪೇಸ್ ಆಯ್ಕೆಮಾಡಿ.
5. ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋದಲ್ಲಿ, ಎಡಮೇಲೆ ಇರುವ ☰ ಐಕಾನ್ ಅನ್ನು ಟಾಗಲ್ ಮಾಡಿ ಇಂಟರ್ಫೇಸ್ನ ವಿವಿಧ ಪುಟಗಳನ್ನು ವೀಕ್ಷಿಸಿ. ನೀವು ಈ ಪುಟಗಳನ್ನು ನಿಮ್ಮ ವರ್ಕ್ಸ್ಪೇಸ್ನ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಬಳಸಬಹುದು.
ನೀವು ಅಜೂರ್ ಪೋರ್ಟಲ್ ಬಳಸಿ ನಿಮ್ಮ ವರ್ಕ್ಸ್ಪೇಸ್ ಅನ್ನು ನಿರ್ವಹಿಸಬಹುದು, ಆದರೆ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಕಾರ್ಯಾಚರಣೆ ಇಂಜಿನಿಯರ್ಗಳಿಗೆ, ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋ ವರ್ಕ್ಸ್ಪೇಸ್ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಹೆಚ್ಚು ಕೇಂದ್ರೀಕೃತ ಬಳಕೆದಾರ ಇಂಟರ್ಫೇಸ್ ಒದಗಿಸುತ್ತದೆ.
@ -193,18 +193,18 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ML ವರ್ಕ್ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ, ಗಣನೆಗೆ ಹೋಗಿ ನಾವು ಈಗಾಗಲೇ ಚರ್ಚಿಸಿದ ವಿವಿಧ ಗಣನೆ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನೋಡಬಹುದು (ಅಂದರೆ ಗಣನೆ ಉದಾಹರಣೆಗಳು, ಗಣನೆ ಕ್ಲಸ್ಟರ್ಗಳು, ಅನುವಾದ ಕ್ಲಸ್ಟರ್ಗಳು ಮತ್ತು ಸಂಯೋಜಿತ ಗಣನೆ). ಈ ಯೋಜನೆಗಾಗಿ, ನಮಗೆ ಮಾದರಿ ತರಬೇತಿಗೆ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ಬೇಕಾಗುತ್ತದೆ. ಸ್ಟುಡಿಯೋದಲ್ಲಿ, "Compute" ಮೆನು ಕ್ಲಿಕ್ ಮಾಡಿ, ನಂತರ "Compute cluster" ಟ್ಯಾಬ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು "+ New" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ರಚಿಸಲು.
1. ನಿಮ್ಮ ಆಯ್ಕೆಗಳನ್ನು ಆರಿಸಿ: ನಿರ್ದಿಷ್ಟ ವಿರುದ್ಧ ಕಡಿಮೆ ಪ್ರಾಥಮಿಕತೆ, CPU ಅಥವಾ GPU, VM ಗಾತ್ರ ಮತ್ತು ಕೋರ್ ಸಂಖ್ಯೆ (ಈ ಯೋಜನೆಗಾಗಿ ಡೀಫಾಲ್ಟ್ ಸೆಟ್ಟಿಂಗ್ಗಳನ್ನು ಇಡಬಹುದು).
4. ನಿಮ್ಮ ಆಯ್ಕೆಗಳನ್ನು ಆರಿಸಿ: ಕನಿಷ್ಠ/ಗರಿಷ್ಠ ನೋಡ್ಗಳ ಸಂಖ್ಯೆ, ಸ್ಕೇಲ್ ಡೌನ್ ಮಾಡುವ ಮೊದಲು ನಿರ್ಜೀವ ಸೆಕೆಂಡುಗಳು, SSH ಪ್ರವೇಶ. ಕನಿಷ್ಠ ನೋಡ್ಗಳ ಸಂಖ್ಯೆ 0 ಇದ್ದರೆ, ಕ್ಲಸ್ಟರ್ ನಿರ್ಜೀವವಾಗಿರುವಾಗ ನೀವು ಹಣ ಉಳಿಸಬಹುದು. ಗರಿಷ್ಠ ನೋಡ್ಗಳ ಸಂಖ್ಯೆ ಹೆಚ್ಚಾದರೆ ತರಬೇತಿ ಕಡಿಮೆ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಶಿಫಾರಸು ಮಾಡಲಾದ ಗರಿಷ್ಠ ನೋಡ್ಗಳ ಸಂಖ್ಯೆ 3.
5. "Create" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ. ಈ ಹಂತಕ್ಕೆ ಕೆಲವು ನಿಮಿಷಗಳು ಬೇಕಾಗಬಹುದು.
ಅದ್ಭುತ! ಈಗ ನಮಗೆ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ಇದೆ, ನಾವು ಡೇಟಾವನ್ನು ಅಜೂರ್ ML ಸ್ಟುಡಿಯೋಗೆ ಲೋಡ್ ಮಾಡಬೇಕಾಗಿದೆ.
@ -212,15 +212,15 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
1. ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ML ವರ್ಕ್ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ, ಎಡ ಮೆನುದಲ್ಲಿ "Datasets" ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು "+ Create dataset" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಡೇಟಾಸೆಟ್ ರಚಿಸಲು. "From local files" ಆಯ್ಕೆ ಮಾಡಿ ಮತ್ತು ನಾವು ಮೊದಲು ಡೌನ್ಲೋಡ್ ಮಾಡಿದ ಕಾಗಲ್ ಡೇಟಾಸೆಟ್ ಆಯ್ಕೆಮಾಡಿ.
3. ಸ್ಕೀಮಾನಲ್ಲಿ, ಕೆಳಗಿನ ವೈಶಿಷ್ಟ್ಯಗಳಿಗಾಗಿ ಡೇಟಾ ಪ್ರಕಾರವನ್ನು ಬೂಲಿಯನ್ಗೆ ಬದಲಾಯಿಸಿ: ಅನೀಮಿಯಾ, ಡಯಾಬಿಟಿಸ್, ಹೈ ಬ್ಲಡ್ ಪ್ರೆಶರ್, ಲಿಂಗ, ಧೂಮಪಾನ, ಮತ್ತು DEATH_EVENT. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ರಚಿಸಿ ಕ್ಲಿಕ್ ಮಾಡಿ.
ಚೆನ್ನಾಗಿದೆ! ಈಗ ಡೇಟಾಸೆಟ್ ಸಿದ್ಧವಾಗಿದೆ ಮತ್ತು ಗಣನೆ ಕ್ಲಸ್ಟರ್ ರಚಿಸಲಾಗಿದೆ, ನಾವು ಮಾದರಿ ತರಬೇತಿಯನ್ನು ಪ್ರಾರಂಭಿಸಬಹುದು!
@ -231,19 +231,19 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
1. ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ML ವರ್ಕ್ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ ಎಡ ಮೆನುದಲ್ಲಿ "Automated ML" ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ನೀವು appena ಅಪ್ಲೋಡ್ ಮಾಡಿದ ಡೇಟಾಸೆಟ್ ಆಯ್ಕೆಮಾಡಿ. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
ಇಲ್ಲಿ ನೀವು AutoML ರಚಿಸಿದ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯ ವಿವರವಾದ ವಿವರಣೆಯನ್ನು ನೋಡಬಹುದು. ನೀವು ಮಾದರಿಗಳ ಟ್ಯಾಬ್ನಲ್ಲಿ ಇತರ ಮಾದರಿಗಳನ್ನು ಸಹ ಅನ್ವೇಷಿಸಬಹುದು. ವಿವರಣೆಗಳಲ್ಲಿ (ಪೂರ್ವವೀಕ್ಷಣಾ ಬಟನ್) ಕೆಲವು ನಿಮಿಷಗಳನ್ನು ತೆಗೆದು ಮಾದರಿಗಳನ್ನು ಪರಿಶೀಲಿಸಿ. ನೀವು ಬಳಸಲು ಬಯಸುವ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆಮಾಡಿದ ನಂತರ (ಇಲ್ಲಿ ನಾವು AutoML ಆಯ್ಕೆಮಾಡಿದ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆಮಾಡುತ್ತೇವೆ), ನಾವು ಅದನ್ನು ಹೇಗೆ ನಿಯೋಜಿಸಬಹುದು ಎಂದು ನೋಡೋಣ.
@ -254,15 +254,15 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
ಅತ್ಯುತ್ತಮ ಮಾದರಿ ವಿವರಣೆಯಲ್ಲಿ, "Deploy" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
15. ಅದಕ್ಕೆ ಹೆಸರು, ವಿವರಣೆ, ಗಣನೆ ಪ್ರಕಾರ (Azure Container Instance), ಪ್ರಮಾಣೀಕರಣ ಸಕ್ರಿಯಗೊಳಿಸಿ ಮತ್ತು Deploy ಕ್ಲಿಕ್ ಮಾಡಿ. ಈ ಹಂತವು ಪೂರ್ಣಗೊಳ್ಳಲು ಸುಮಾರು 20 ನಿಮಿಷ ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ನಿಯೋಜನೆ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಮಾದರಿಯನ್ನು ನೋಂದಾಯಿಸುವುದು, ಸಂಪನ್ಮೂಲಗಳನ್ನು ರಚಿಸುವುದು ಮತ್ತು ಅವುಗಳನ್ನು ವೆಬ್ ಸೇವೆಗೆ ಸಂರಚಿಸುವುದು ಸೇರಿವೆ. Deploy ಸ್ಥಿತಿಯಡಿ ಸ್ಥಿತಿ ಸಂದೇಶ ಕಾಣಿಸುತ್ತದೆ. ನಿಯೋಜನೆ ಸ್ಥಿತಿಯನ್ನು ಪರಿಶೀಲಿಸಲು Refresh periodically ಆಯ್ಕೆಮಾಡಿ. ಸ್ಥಿತಿ "Healthy" ಆಗಿದ್ದಾಗ ಅದು ನಿಯೋಜಿತ ಮತ್ತು ಚಾಲನೆಯಲ್ಲಿ ಇದೆ.
16. ನಿಯೋಜನೆಯಾದ ನಂತರ, Endpoint ಟ್ಯಾಬ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ನೀವು appena ನಿಯೋಜಿಸಿದ ಎಂಡ್ಪಾಯಿಂಟ್ ಕ್ಲಿಕ್ ಮಾಡಿ. ಇಲ್ಲಿ ನೀವು ಎಂಡ್ಪಾಯಿಂಟ್ ಬಗ್ಗೆ ಬೇಕಾದ ಎಲ್ಲಾ ವಿವರಗಳನ್ನು ಕಾಣಬಹುದು.
[ಹಿಂದಿನ ಪಾಠದಲ್ಲಿ](../18-Low-Code/README.md), ನಾವು ಕಡಿಮೆ ಕೋಡ್/ಕೋಡ್ ಇಲ್ಲದ ರೀತಿಯಲ್ಲಿ ಮಾದರಿಯನ್ನು ತರಬೇತಿ, ನಿಯೋಜನೆ ಮತ್ತು ಬಳಕೆ ಮಾಡುವುದು ಹೇಗೆ ಎಂದು ನೋಡಿದ್ದೇವೆ. ನಾವು ಹೃದಯ ವೈಫಲ್ಯ ಡೇಟಾಸೆಟ್ ಬಳಸಿ ಹೃದಯ ವೈಫಲ್ಯ ಭವಿಷ್ಯವಾಣಿ ಮಾದರಿಯನ್ನು ರಚಿಸಿದ್ದೇವೆ. ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ಅದೇ ಕಾರ್ಯವನ್ನು ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಎಸ್ಡಿಕೆ ಬಳಸಿ ಮಾಡಲಿದ್ದೇವೆ.
> ಫೋಟೋ [Jelleke Vanooteghem](https://unsplash.com/@ilumire) ಅವರಿಂದ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
ಬೃಹತ್ ಡೇಟಾ ಜೊತೆಗೆ ಡೇಟಾ ಸೈನ್ಸ್ ಮಾಡುವಾಗ, ಕ್ಲೌಡ್ ಒಂದು ಆಟ ಬದಲಿಸುವುದಾಗಿ ಇರಬಹುದು. ಮುಂದಿನ ಮೂರು ಪಾಠಗಳಲ್ಲಿ, ನಾವು ಕ್ಲೌಡ್ ಎಂದರೇನು ಮತ್ತು ಅದು ಏಕೆ ಬಹಳ ಸಹಾಯಕವಾಗಬಹುದು ಎಂಬುದನ್ನು ನೋಡಲಿದ್ದೇವೆ. ನಾವು ಹೃದಯ ವೈಫಲ್ಯ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಅನ್ವೇಷಿಸಿ, ಯಾರಿಗಾದರೂ ಹೃದಯ ವೈಫಲ್ಯ ಇರುವ ಸಾಧ್ಯತೆಯನ್ನು ಅಂದಾಜಿಸಲು ಸಹಾಯ ಮಾಡುವ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲಿದ್ದೇವೆ. ನಾವು ಮಾದರಿಯನ್ನು ತರಬೇತಿ, ನಿಯೋಜನೆ ಮತ್ತು ಬಳಕೆ ಮಾಡಲು ಕ್ಲೌಡ್ ಶಕ್ತಿಯನ್ನು ಎರಡು ವಿಭಿನ್ನ ರೀತಿಗಳಲ್ಲಿ ಬಳಸಲಿದ್ದೇವೆ. ಒಂದು ಮಾರ್ಗವು ಕೇವಲ ಬಳಕೆದಾರ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಲೋ ಕೋಡ್/ನೋ ಕೋಡ್ ಶೈಲಿಯಲ್ಲಿ, ಮತ್ತೊಂದು ಮಾರ್ಗವು ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸಾಫ್ಟ್ವೇರ್ ಡೆವಲಪರ್ ಕಿಟ್ (Azure ML SDK) ಬಳಸಿ.
* [ಆರೋಗ್ಯ ಸೇವೆಯಲ್ಲಿ ಡೇಟಾ ಸೈನ್ಸ್](https://data-flair.training/blogs/data-science-in-healthcare/) - ವೈದ್ಯಕೀಯ ಚಿತ್ರಣ (ಉದಾ: MRI, X-ರೇ, CT-ಸ್ಕ್ಯಾನ್), ಜಿನೋಮಿಕ್ಸ್ (DNA ಕ್ರಮಬದ್ಧತೆ), ಔಷಧಿ ಅಭಿವೃದ್ಧಿ (ಅಪಾಯ ಮೌಲ್ಯಮಾಪನ, ಯಶಸ್ಸಿನ ಭವಿಷ್ಯವಾಣಿ), ಭವಿಷ್ಯವಾಣಿ ವಿಶ್ಲೇಷಣೆ (ರೋಗಿ ಆರೈಕೆ ಮತ್ತು ಸರಬರಾಜು ಲಾಜಿಸ್ಟಿಕ್ಸ್), ರೋಗ ಟ್ರ್ಯಾಕಿಂಗ್ ಮತ್ತು ತಡೆ ಮುಂತಾದ ಅನ್ವಯಿಕೆಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ.
 ಚಿತ್ರ ಕ್ರೆಡಿಟ್: [ಡೇಟಾ ಫ್ಲೇರ್: 6 ಅದ್ಭುತ ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ವಯಿಕೆಗಳು](https://data-flair.training/blogs/data-science-applications/)
 ಚಿತ್ರ ಕ್ರೆಡಿಟ್: [ಡೇಟಾ ಫ್ಲೇರ್: 6 ಅದ್ಭುತ ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ವಯಿಕೆಗಳು](https://data-flair.training/blogs/data-science-applications/)
ಚಿತ್ರವು ಡೇಟಾ ಸೈನ್ಸ್ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸುವ ಇತರ ಕ್ಷೇತ್ರಗಳು ಮತ್ತು ಉದಾಹರಣೆಗಳನ್ನು ತೋರಿಸುತ್ತದೆ. ಇತರ ಅನ್ವಯಿಕೆಗಳನ್ನು ಅನ್ವೇಷಿಸಲು ಬಯಸುತ್ತೀರಾ? ಕೆಳಗಿನ [ಪರಿಶೀಲನೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) ವಿಭಾಗವನ್ನು ಪರಿಶೀಲಿಸಿ.
2. ಡೇಟಾಸೆಟ್ [ಕ್ಯಾಟಲಾಗ್](https://planetarycomputer.microsoft.com/catalog) ಅನ್ನು ಅನ್ವೇಷಿಸಿ - ಪ್ರತಿ ಡೇಟಾಸೆಟ್ ಉದ್ದೇಶವನ್ನು ತಿಳಿದುಕೊಳ್ಳಿ.
3. ಎಕ್ಸ್ಪ್ಲೋರರ್ ಬಳಸಿ - ಆಸಕ್ತಿಯ ಡೇಟಾಸೆಟ್ ಆಯ್ಕೆಮಾಡಿ, ಸಂಬಂಧಿತ ಪ್ರಶ್ನೆ ಮತ್ತು ರೆಂಡರಿಂಗ್ ಆಯ್ಕೆಯನ್ನು ಆರಿಸಿ.


`ನಿಮ್ಮ ಕಾರ್ಯ:`
ಈಗ ಬ್ರೌಸರ್ನಲ್ಲಿ ರೆಂಡರ್ ಆಗಿರುವ ದೃಶ್ಯೀಕರಣವನ್ನು ಅಧ್ಯಯನ ಮಾಡಿ ಮತ್ತು ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಿ:
| ಡೇಟಾ ಸೈನ್ಸ್ ಆರಂಭಿಕರಿಗೆ - _ಸ್ಕೆಟ್ಚ್ನೋಟ್ ಇಂದ [@nitya](https://twitter.com/nitya)_ |
@ -52,7 +52,7 @@ Microsoft ನ Azure Cloud Advocates ಗಳು ಡೇಟಾ ಸೈನ್ಸ್
ನಾವು ಡಿಸ್ಕಾರ್ಡ್ನಲ್ಲಿ "Learn with AI" ಸರಣಿಯನ್ನು ನಡೆಸುತ್ತಿದ್ದೇವೆ — ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ ಮತ್ತು 18 - 30 September, 2025 ರ ನಡುವೆ ನಮ್ಮೊಂದಿಗೆ ಸೇರುವಿರಿ: [Learn with AI Series](https://aka.ms/learnwithai/discord). ನೀವು GitHub Copilot ಅನ್ನು ಡೇಟಾ ಸೈನ್ಸ್ ಕಾರ್ಯಗಳಿಗಾಗಿ ಬಳಸುವ ಸಲಹೆಗಳು ಮತ್ತು ಚತುರ್ತೆಯನ್ನು ಪಡೆಯುತ್ತೀರಿ.


# ನೀವು ವಿದ್ಯಾರ್ಥಿ?
@ -132,7 +132,7 @@ Microsoft ನ Azure Cloud Advocates ಗಳು ಡೇಟಾ ಸೈನ್ಸ್
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [강의 전 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -153,7 +153,7 @@ CO_OP_TRANSLATOR_METADATA:
이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어 보겠습니다:


[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 읽어보세요. 코드를 실행하여 모든 데이터 변환이 실시간으로 어떻게 수행되는지 확인할 수도 있습니다.
우리의 데이터는 서로 다른 선수 **포지션**에 대한 정보를 포함하고 있으므로, 포지션별로 박스 플롯을 작성할 수도 있습니다. 이를 통해 포지션별로 매개변수 값이 어떻게 다른지 알 수 있습니다. 이번에는 키를 고려해 봅시다:


이 다이어그램은 평균적으로 1루수의 키가 2루수의 키보다 더 높다는 것을 시사합니다. 이 강의 후반부에서는 이 가설을 더 공식적으로 검증하는 방법과 데이터가 통계적으로 유의미함을 보여주는 방법을 배울 것입니다.
@ -94,7 +94,7 @@ CO_OP_TRANSLATOR_METADATA:
우리 데이터의 분포를 확인하려면 **히스토그램**이라는 그래프를 그릴 수 있습니다. X축에는 다양한 몸무게 구간(즉, **빈**)이 포함되고, Y축에는 해당 구간에 속한 샘플의 개수가 표시됩니다.


이 히스토그램에서 모든 값이 특정 평균 몸무게를 중심으로 집중되어 있으며, 평균에서 멀어질수록 해당 값의 몸무게가 나타날 확률이 낮아진다는 것을 알 수 있습니다. 즉, 야구 선수의 몸무게가 평균 몸무게와 크게 다를 확률은 매우 낮습니다. 몸무게의 분산은 평균에서 얼마나 벗어날 가능성이 있는지를 보여줍니다.
생성된 샘플의 히스토그램을 그리면 위에서 본 그림과 매우 유사한 모습을 볼 수 있습니다. 샘플 수와 빈 수를 늘리면 이상적인 정규 분포에 더 가까운 그림을 생성할 수 있습니다:


*평균=0, 표준 편차=1인 정규 분포*
@ -233,7 +233,7 @@ array([[1. , 0.52959196],
이 경우, 값 0.53은 사람의 체중과 키 간에 어느 정도 상관관계가 있음을 나타냅니다. 또한, 한 값을 다른 값에 대해 산점도로 나타내어 관계를 시각적으로 확인할 수 있습니다:


> 상관관계와 공분산에 대한 더 많은 예제는 [첨부된 노트북](notebook.ipynb)에서 확인할 수 있습니다.
데이터베이스는 데이터를 저장하고 쿼리 언어를 사용하여 데이터를 조회하는 데 매우 효율적인 방법을 제공하지만, 데이터 처리를 가장 유연하게 수행하는 방법은 직접 프로그램을 작성하여 데이터를 조작하는 것입니다. 많은 경우 데이터베이스 쿼리가 더 효과적인 방법일 수 있습니다. 하지만 더 복잡한 데이터 처리가 필요한 경우 SQL로 쉽게 처리할 수 없는 경우도 있습니다.
데이터 처리는 어떤 프로그래밍 언어로도 작성할 수 있지만, 데이터 작업에 있어 더 높은 수준의 언어들이 있습니다. 데이터 과학자들은 일반적으로 다음 언어들 중 하나를 선호합니다:
@ -73,7 +73,7 @@ print(f"Length of index is {len(idx)}")


> **참고**: 단순한 문법 `total_items+additional_items`을 사용하지 않았습니다. 그렇게 하면 결과 시리즈에 많은 `NaN`(*Not a Number*) 값이 생깁니다. 이는 `additional_items` 시리즈의 일부 인덱스 포인트에 값이 없기 때문이며, `NaN`을 다른 값에 더하면 결과는 `NaN`이 됩니다. 따라서 덧셈 중에 `fill_value` 매개변수를 지정해야 합니다.
@ -93,7 +93,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### 데이터프레임 (DataFrame)
@ -219,7 +219,7 @@ df = pd.read_csv('file.csv')
데이터를 다루는 방법을 보여주기 위해 [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb)를 열어 처음부터 끝까지 읽어보시길 권장합니다. 셀을 실행하고, 마지막에 남겨둔 몇 가지 도전을 수행할 수도 있습니다.
> 사진 제공: <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> on <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터를 관리, 조작, 그리고 애플리케이션에서 활용하는 다양한 방법을 배우게 됩니다. 관계형 및 비관계형 데이터베이스에 대해 배우고, 데이터가 어떻게 저장될 수 있는지 알아볼 것입니다. 또한, 데이터를 관리하기 위해 Python을 사용하는 기본 원리를 배우고, Python을 활용하여 데이터를 관리하고 분석하는 다양한 방법을 발견하게 될 것입니다.
✅ Seaborn은 데이터를 하나의 선으로 집계하며, "각 x 값에서 여러 측정을 평균과 평균 주변의 95% 신뢰 구간을 표시하여 플로팅합니다". [출처](https://seaborn.pydata.org/tutorial/relational.html). 이 시간 소모적인 동작은 `ci=None`을 추가하여 비활성화할 수 있습니다.
여기서는 `ggplot2` 패키지를 설치한 후 `library("ggplot2")` 명령을 사용하여 작업 공간에 가져옵니다. ggplot에서 플롯을 그리려면 `ggplot()` 함수를 사용하며 데이터셋, x 및 y 변수 등을 속성으로 지정합니다. 이 경우 선형 플롯을 그리기 위해 `geom_line()` 함수를 사용합니다.
다음 코드 스니펫에서는 데이터를 조작하고 그룹화하여 누적 막대 차트를 그리기 위해 [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)과 [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) 패키지를 설치합니다. 먼저 새의 `Category`로 데이터를 그룹화한 후 `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` 열을 요약합니다. 그런 다음 `ggplot2` 패키지를 사용하여 막대 차트를 그리고 각 카테고리에 대한 색상과 레이블을 지정합니다.


하지만 이 막대 차트는 너무 많은 비그룹화된 데이터로 인해 읽기 어렵습니다. 플롯하려는 데이터만 선택해야 합니다. 새의 카테고리를 기준으로 길이를 살펴봅시다.
먼저 `Category` 열의 고유 값을 계산한 후 이를 새 데이터프레임 `birds_count`로 정렬합니다. 이 정렬된 데이터를 동일한 수준으로 팩터링하여 정렬된 방식으로 플롯됩니다. 그런 다음 `ggplot2`를 사용하여 데이터를 막대 차트로 플롯합니다. `coord_flip()`은 수평 막대를 플롯합니다.


보시다시피, 이 데이터셋에 포함된 400개 이상의 새들 중 대부분은 Max Body Mass가 2000 이하 범위에 속합니다. `bins` 매개변수를 30과 같은 더 높은 숫자로 변경하여 데이터를 더 자세히 살펴보세요:


최소 날개 길이와 보존 상태 간에 뚜렷한 상관관계는 없어 보입니다. 이 방법을 사용하여 데이터셋의 다른 요소를 테스트해 보세요. 다른 필터도 시도해 보세요. 상관관계를 발견할 수 있나요?
데이터 과학자가 올바른 데이터에 적합한 차트를 신중히 선택하더라도, 데이터를 특정 관점을 증명하기 위해 표시하는 과정에서 데이터 자체를 훼손하는 경우가 많습니다. 기만적인 차트와 인포그래픽의 예는 무수히 많습니다!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[이 차트](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg)는 더욱 기만적입니다. 눈은 오른쪽으로 향하며 시간이 지남에 따라 COVID 사례가 감소했다고 결론짓게 만듭니다. 하지만 날짜를 자세히 보면, 기만적인 하락 추세를 보여주기 위해 날짜가 재배열된 것을 알 수 있습니다.
비교할 수 없는 것을 비교하는 것도 또 다른 기만적인 방법입니다. [멋진 웹사이트](https://tylervigen.com/spurious-correlations)는 '허위 상관관계'를 보여주는 '사실'을 수집하며, 예를 들어 메인주의 이혼율과 마가린 소비를 상관시키는 데이터를 제공합니다. Reddit 그룹은 데이터의 [기만적인 사용](https://www.reddit.com/r/dataisugly/top/?t=all)을 수집합니다.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로 조정하여 가독성을 높일 수 있습니다. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html)는 데이터가 지원하는 경우 3D 플로팅을 제공합니다. 이를 사용하여 정교한 데이터 시각화를 생성할 수 있습니다.
오늘날 최고의 데이터 시각화 중 일부는 애니메이션으로 제작됩니다. Shirley Wu는 D3를 사용하여 '[영화 꽃](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'과 같은 놀라운 애니메이션을 만들었습니다. 각 꽃은 영화의 시각화를 나타냅니다. 또 다른 예로 Guardian의 'Bussed Out'은 NYC가 노숙자 문제를 해결하기 위해 사람들을 도시 밖으로 버스에 태워 보내는 방식을 보여주는 스크롤텔링 기사 형식과 Greensock 및 D3를 결합한 인터랙티브 경험입니다.
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로
Vue.js와 D3를 사용하여 네트워크 시각화를 표시하는 라이브러리를 사용하여 애니메이션화된 소셜 네트워크를 보여주는 웹 앱을 완성하세요. 앱이 실행되면 화면에서 노드를 끌어 데이터를 재배열할 수 있습니다.


> 사진 제공: <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
데이터 시각화는 데이터 과학자에게 가장 중요한 작업 중 하나입니다. "이미지는 천 마디 말보다 강하다"는 말처럼, 시각화는 데이터의 스파이크, 이상치, 그룹화, 경향 등 흥미로운 부분을 식별하는 데 도움을 주며, 데이터가 전달하려는 이야기를 이해하는 데 큰 도움을 줍니다.
이번 강의에서는 생애 주기의 3가지 부분인 데이터 수집, 처리, 유지 관리에 초점을 맞춥니다.


> 사진 출처: [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## 데이터 수집
@ -97,7 +97,7 @@ CO_OP_TRANSLATOR_METADATA:
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| 이미지 출처: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 이미지 출처: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [강의 후 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> 사진 제공: <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터 과학 생명주기의 일부 측면, 특히 데이터 분석과 데이터에 대한 커뮤니케이션을 탐구합니다.
> 사진 제공: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) / [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
빅데이터를 활용한 데이터 과학을 수행할 때, 클라우드는 게임 체인저가 될 수 있습니다. 다음 세 가지 강의에서 클라우드가 무엇인지, 그리고 왜 유용한지 알아보겠습니다. 또한 심부전 데이터셋을 탐구하고, 심부전 발생 가능성을 평가하는 데 도움을 줄 수 있는 모델을 구축할 것입니다. 클라우드의 강력한 기능을 활용하여 두 가지 방식으로 모델을 학습, 배포 및 활용할 것입니다. 첫 번째는 Low code/No code 방식으로 사용자 인터페이스만을 사용하는 방법이고, 두 번째는 Azure Machine Learning Software Developer Kit (Azure ML SDK)를 사용하는 방법입니다.
@ -41,7 +41,7 @@ AI의 민주화 덕분에 개발자들은 이제 AI 기반 의사결정과 데
* [헬스케어에서의 데이터 과학](https://data-flair.training/blogs/data-science-in-healthcare/) - 의료 영상 (예: MRI, X-Ray, CT-Scan), 유전체학 (DNA 시퀀싱), 약물 개발 (위험 평가, 성공 예측), 예측 분석 (환자 관리 및 공급 물류), 질병 추적 및 예방 등과 같은 응용 사례를 강조합니다.
 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
이 그림은 데이터 과학 기술을 적용할 수 있는 다른 도메인과 예제를 보여줍니다. 다른 응용 사례를 탐구하고 싶으신가요? 아래의 [리뷰 및 자기 학습](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) 섹션을 확인하세요.
| 초보자를 위한 데이터 사이언스 - _스케치노트 작성자 [@nitya](https://twitter.com/nitya)_ |
@ -52,7 +52,7 @@ CO_OP_TRANSLATOR_METADATA:
우리는 Discord에서 Learn with AI 시리즈를 진행하고 있습니다. 자세한 내용 및 참여는 [AI와 함께 배우기 시리즈](https://aka.ms/learnwithai/discord)에서 확인하세요. 기간: 2025년 9월 18일 - 30일. GitHub Copilot을 데이터 사이언스에 활용하는 팁과 요령을 얻을 수 있습니다.


이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
@ -149,7 +149,7 @@ Jei norime dar labiau pasigilinti, galime sudaryti grafiką, kuriame būtų pava
Šiame iššūkyje bandysime rasti konceptus, susijusius su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį:


Apsilankykite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiu laiku atlieka visus duomenų transformavimus.
Statistika ir tikimybių teorija yra dvi glaudžiai susijusios matematikos sritys, kurios yra itin svarbios duomenų mokslui. Nors galima dirbti su duomenimis neturint gilių matematikos žinių, vis tiek verta susipažinti bent su pagrindinėmis sąvokomis. Čia pateiksime trumpą įvadą, kuris padės jums pradėti.
@ -39,7 +39,7 @@ Sunkiau aprašyti tęstinio kintamojo tikimybių pasiskirstymą, kai reikšmės
Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmių intervalą, pvz., P(t<sub>1</sub>≤X<t<sub>2</sub>). Tokiu atveju tikimybių pasiskirstymas aprašomas **tikimybių tankio funkcija** p(x), tokia, kad
Tęstinis vienodo pasiskirstymo analogas vadinamas **tęstiniu vienodu pasiskirstymu**, kuris apibrėžiamas baigtiniame intervale. Tikimybė, kad reikšmė X pateks į intervalo ilgį l, yra proporcinga l ir didėja iki 1.
@ -82,11 +82,11 @@ Analizuojant realaus pasaulio duomenis, jie dažnai nėra tikri atsitiktiniai ki
Čia pateikiama dėžės diagrama, rodanti vidurkį, medianą ir kvartilius mūsų duomenims:
Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis**, galime sudaryti dėžės diagramą pagal vaidmenį - tai leis mums suprasti, kaip parametrų reikšmės skiriasi tarp vaidmenų. Šį kartą apsvarstysime ūgį:


Ši diagrama rodo, kad, vidutiniškai, pirmosios bazės žaidėjų ūgis yra didesnis nei antrosios bazės žaidėjų ūgis. Vėliau šioje pamokoje išmoksime, kaip formaliau patikrinti šią hipotezę ir kaip parodyti, kad mūsų duomenys yra statistiškai reikšmingi tai įrodyti.
@ -94,7 +94,7 @@ Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis*
Norėdami pamatyti, koks yra mūsų duomenų pasiskirstymas, galime sudaryti grafiką, vadinamą **histograma**. X ašis turėtų turėti skirtingų svorio intervalų skaičių (vadinamų **dėžėmis**), o vertikali ašis rodytų, kiek kartų mūsų atsitiktinio kintamojo imtis pateko į tam tikrą intervalą.


Iš šios histogramos matote, kad visos reikšmės yra sutelktos aplink tam tikrą vidutinį svorį, o kuo toliau nuo to svorio - tuo mažiau svorių su ta reikšme yra aptinkama. T. y., labai mažai tikėtina, kad beisbolo žaidėjo svoris labai skirsis nuo vidutinio svorio. Svorio dispersija rodo, kiek svoriai gali skirtis nuo vidurkio.
Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai panašų į aukščiau pateiktą. O jei padidinsime imčių skaičių ir dėžių skaičių, galime sugeneruoti normalaus pasiskirstymo vaizdą, kuris bus artimesnis idealiam:


*Normalusis pasiskirstymas su vidurkiu=0 ir standartiniu nuokrypiu=1*
@ -233,7 +233,7 @@ array([[1. , 0.52959196],
Mūsų atveju reikšmė 0.53 rodo, kad yra tam tikra koreliacija tarp žmogaus svorio ir ūgio. Taip pat galime sudaryti sklaidos diagramą, kurioje viena reikšmė vaizduojama prieš kitą, kad vizualiai pamatytume ryšį:


> Daugiau koreliacijos ir kovariacijos pavyzdžių galite rasti [pridedamoje užrašų knygelėje](notebook.ipynb).
> Nuotrauka: <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> iš <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose sužinosite, kaip apibrėžiamas Duomenų Mokslas, ir susipažinsite su etiniais aspektais, kuriuos privalo apsvarstyti duomenų mokslininkas. Taip pat sužinosite, kas yra duomenys, ir šiek tiek apie statistiką bei tikimybes – pagrindines Duomenų Mokslo akademines sritis.
Nors duomenų bazės siūlo labai efektyvius būdus saugoti duomenis ir užklausas vykdyti naudojant užklausų kalbas, lankstiausias būdas apdoroti duomenis yra rašyti savo programą, kuri manipuliuoja duomenimis. Daugeliu atvejų duomenų bazės užklausa būtų efektyvesnis sprendimas. Tačiau kai kuriais atvejais, kai reikia sudėtingesnio duomenų apdorojimo, tai negali būti lengvai atlikta naudojant SQL.
Duomenų apdorojimas gali būti programuojamas bet kuria programavimo kalba, tačiau yra tam tikrų kalbų, kurios yra aukštesnio lygio dirbant su duomenimis. Duomenų mokslininkai paprastai renkasi vieną iš šių kalbų:
@ -75,7 +75,7 @@ print(f"Length of index is {len(idx)}")


Dabar tarkime, kad kiekvieną savaitę organizuojame vakarėlį draugams ir pasiimame papildomus 10 ledų pakuočių vakarėliui. Galime sukurti kitą seriją, indeksuotą savaitėmis, kad tai parodytume:
```python
@ -86,7 +86,7 @@ Kai sudedame dvi serijas, gauname bendrą skaičių:


> **Pastaba**: Mes nenaudojame paprastos sintaksės `total_items+additional_items`. Jei tai darytume, gautume daug `NaN` (*Not a Number*) reikšmių rezultato serijoje. Taip yra todėl, kad kai kuriems indeksų taškams serijoje `additional_items` trūksta reikšmių, o sudėjus `NaN` su bet kuo gaunamas `NaN`. Todėl reikia nurodyti `fill_value` parametrą sudėties metu.
@ -95,7 +95,7 @@ Su laiko serijomis taip pat galime **perdaryti** seriją su skirtingais laiko in
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### Duomenų rėmelis
@ -221,7 +221,7 @@ Pirmoji problema, į kurią sutelksime dėmesį, yra COVID-19 epidemijos plitimo
Kadangi norime parodyti, kaip dirbti su duomenimis, kviečiame atidaryti [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ir perskaityti jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
> Jei nežinote, kaip vykdyti kodą Jupyter Notebook, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -243,7 +243,7 @@ Pilnas šio duomenų rinkinio analizės pavyzdys naudojant [Text Analytics for H
Atidarykite [`notebook-papers.ipynb`](notebook-papers.ipynb) ir perskaitykite jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
> Nuotrauka <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> iš <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose sužinosite, kaip galima valdyti, manipuliuoti ir naudoti duomenis programose. Susipažinsite su reliacinėmis ir nereliacinėmis duomenų bazėmis bei kaip jose galima saugoti duomenis. Išmoksite pagrindus, kaip naudotis Python valdant duomenis, ir atrasite daugybę būdų, kaip Python gali būti naudojamas duomenims valdyti ir analizuoti.


Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotumėte, kaip kaina keitėsi per metus. Tai galite padaryti pridėdami 'hue' parametrą, kuris parodys pokyčius metai iš metų:
@ -60,7 +60,7 @@ Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotu


Naudodami šią spalvų schemą, galite pastebėti, kad medaus kaina už svarą akivaizdžiai didėja metai iš metų. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų didėjimo tendenciją su keliomis išimtimis:
Galite pastebėti, kaip taškų dydis palaipsniui didėja.


Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar metai iš metų mažėja medaus pasiūla, todėl kaina kyla?
Atsakymas: Taip, su keliomis išimtimis apie 2003 metus:


✅ Kadangi Seaborn agreguoja duomenis aplink vieną liniją, jis rodo „kelis matavimus kiekvienoje x reikšmėje, braižydamas vidurkį ir 95% pasitikėjimo intervalą aplink vidurkį“. [Šaltinis](https://seaborn.pydata.org/tutorial/relational.html). Šį laikui imlų veiksmą galima išjungti pridėjus `ci=None`.
@ -114,7 +114,7 @@ Klausimas: Na, o 2003 metais, ar taip pat matome medaus pasiūlos šuolį? Ką,


Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, ji iš tikrųjų atrodo padidėjusi tais metais, nors apskritai medaus gamyba mažėja per šiuos metus.
@ -139,7 +139,7 @@ sns.relplot(
```
Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams:
Šiame duomenų rinkinyje niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių metai iš metų bei valstija iš valstijos. Ar yra kitas būdas ieškoti koreliacijos tarp šių dviejų kintamųjų?
Nors niekas akivaizdžiai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei derlius vienai kolonijai mažėja.
Čia įdiegiame `ggplot2` paketą ir importuojame jį į darbo aplinką naudodami komandą `library("ggplot2")`. Norint sukurti bet kokią diagramą su ggplot, naudojama funkcija `ggplot()`, kurioje nurodote duomenų rinkinį, x ir y kintamuosius kaip atributus. Šiuo atveju naudojame funkciją `geom_line()`, nes norime sukurti linijinę diagramą.
Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis – tai tikrai įspūdingas sparnų plotis! Sparnų plotis, viršijantis 2000 cm, yra daugiau nei 20 metrų – ar Minesotoje skraido pterodaktiliai? Išsiaiškinkime.
Mes nurodome kampą `theme` ir nurodome x ir y ašių etiketes naudodami `xlab()` ir `ylab()` atitinkamai. `ggtitle()` suteikia grafikui/diagramai pavadinimą.
Net ir pasukus etiketes 45 laipsnių kampu, jų per daug, kad būtų galima perskaityti. Pabandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes pačioje diagramoje. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms:
@ -100,7 +100,7 @@ Kas čia vyksta? Naudojote funkciją `geom_point()`, kad pavaizduotumėte sklaid
Sukūrėme naują duomenų rėmelį `birds_filtered` ir tada pavaizdavome sklaidos diagramą. Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni.
Šiame fragmente įdiegiame [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ir [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) paketus, kad padėtume manipuliuoti ir grupuoti duomenis, norint pavaizduoti sukrautą stulpelinę diagramą. Pirmiausia grupuojate duomenis pagal paukščių `Category` ir tada apibendrinate `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` stulpelius. Tada, naudodami `ggplot2` paketą, pavaizduojate stulpelinę diagramą, nurodydami spalvas skirtingoms kategorijoms ir etiketes.


Ši stulpelinė diagrama, tačiau, yra neįskaitoma, nes yra per daug negrupuotų duomenų. Turite pasirinkti tik tuos duomenis, kuriuos norite pavaizduoti, todėl pažvelkime į paukščių ilgį pagal jų kategoriją.
Pirmiausia suskaičiuojate unikalių reikšmių skaičių `Category` stulpelyje ir tada surūšiuojate jas į naują duomenų rėmelį `birds_count`. Šie surūšiuoti duomenys tada faktorizuojami tame pačiame lygyje, kad būtų pavaizduoti surūšiuota tvarka. Naudodami `ggplot2` tada pavaizduojate duomenis stulpelinėje diagramoje. Funkcija `coord_flip()` pavaizduoja horizontalius stulpelius.
Ši stulpelinė diagrama suteikia gerą vaizdą apie paukščių skaičių kiekvienoje kategorijoje. Vienu žvilgsniu matote, kad didžiausias paukščių skaičius šiame regione priklauso Antys/Žąsys/Vandens kategorijai. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina!


Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalgą, tačiau tai nėra optimalus būdas tikriems pasiskirstymams parodyti. Šią užduotį paprastai atlieka histograma.
@ -57,7 +57,7 @@ Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalg


Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės ribą. Gaukite daugiau įžvalgų apie duomenis, pakeisdami `bins` parametrą į didesnį skaičių, pavyzdžiui, 30:
@ -65,7 +65,7 @@ Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į m


Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą būtų galima sukurti užtikrinant, kad pasirinktumėte tik duomenis tam tikrame diapazone:
✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus.


Atrodo, kad nėra gero koreliavimo tarp minimalaus sparnų amplitudės dydžio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors koreliavimą?
@ -136,7 +136,7 @@ Dabar dirbkime su tankio diagramomis!
Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitudės duomenų diagramą; ji tiesiog šiek tiek sklandesnė. Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti, naudodami šį metodą:
@ -144,7 +144,7 @@ Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitud


✅ Perskaitykite apie šio tipo diagramos parametrus ir eksperimentuokite!
Štai pyrago diagrama, rodanti šių duomenų proporcijas pagal šias dvi grybų klases. Labai svarbu teisingai nustatyti etikečių tvarką, ypač čia, todėl būtinai patikrinkite, ar etikečių masyvas sudarytas teisinga tvarka!
Naudodami vaflio diagramą, galite aiškiai matyti grybų kepurėlių spalvų proporcijas šiame duomenų rinkinyje. Įdomu tai, kad yra daug grybų su žaliomis kepurėlėmis!
Šioje pamokoje išmokote tris būdus, kaip vizualizuoti proporcijas. Pirmiausia reikia suskirstyti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai atspindi duomenis - pyragas, žiedas ar vaflis. Visi jie yra „skanūs“ ir suteikia vartotojui greitą duomenų rinkinio apžvalgą.


Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'scale_color_gradientn' parametrą, kad parodytumėte pokyčius:
@ -61,7 +61,7 @@ Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumė
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +


Naudodami šią spalvų schemą, galite pastebėti, kad per metus medaus kaina už svarą akivaizdžiai kyla. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų kilimo modelį metai iš metų, su keliomis išimtimis:


Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar medaus kiekis, kurį galima įsigyti, mažėja metai iš metų, todėl kaina kyla?


Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, atrodo, kad ji iš tikrųjų padidėjo tais metais, nors apskritai medaus gamybos kiekis mažėja per šiuos metus.
Šiam duomenų rinkiniui niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių, metai iš metų ir valstija po valstijos. Ar yra kitoks būdas ieškoti koreliacijos tarp šių dviejų kintamųjų?
Nors niekas ypatingai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei jų derlius vienai kolonijai mažėja.
@ -47,25 +47,25 @@ Ankstesnėse pamokose eksperimentavote su įvairių tipų duomenų vizualizacijo
Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pažeidžiant pačius duomenis. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas
Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis:


[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar labiau klaidinanti, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejų skaičius sumažėjo įvairiose apskrityse. Tačiau, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo pertvarkytos, kad būtų parodyta klaidinanti mažėjimo tendencija.


Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius padidėjo po ginklams palankios teisės aktų priėmimo, akis apgaunama manyti, kad tiesa yra priešinga:


Ši keista diagrama rodo, kaip proporcijos gali būti manipuliuojamos, sukeliant juoką:


Palyginti nepalyginamus dalykus yra dar vienas abejotinas triukas. Yra [puiki svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, koreliuojantys tokius dalykus kaip skyrybų rodiklis Meino valstijoje ir margarino vartojimas. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -100,13 +100,13 @@ Pažymėkite ašis, pateikite legendą, jei reikia, ir pasiūlykite užuominas (
Jei jūsų duomenys yra tekstiniai ir ilgi X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) siūlo 3D diagramų kūrimą, jei jūsų duomenys tai palaiko. Naudojant šią biblioteką galima sukurti sudėtingas duomenų vizualizacijas.
Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu sukūrė nuostabias vizualizacijas su D3, tokias kaip '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, sukurtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei pasakojimo straipsnio formatą, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto.
> „Bussed Out: How America Moves its Homeless“ iš [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos: Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šias galingas vizuali
Jūs sukursite internetinę programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą [tinklo vizualizacijai](https://github.com/emiliorizzo/vue-d3-network) su Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis.


> Nuotrauka <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> iš <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Duomenų vizualizavimas yra viena svarbiausių duomenų mokslininko užduočių. Vaizdai verti tūkstančio žodžių, o vizualizacija gali padėti atskleisti įvairius įdomius jūsų duomenų aspektus, tokius kaip šuoliai, anomalijos, grupavimai, tendencijos ir dar daugiau, kas padeda suprasti istoriją, kurią jūsų duomenys bando papasakoti.
Šioje pamokoje daugiausia dėmesio skiriama trims gyvavimo ciklo dalims: duomenų rinkimui, apdorojimui ir priežiūrai.


> Nuotrauka iš [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Duomenų rinkimas
@ -101,7 +101,7 @@ Išnagrinėkite [Komandos duomenų mokslo proceso gyvavimo ciklą](https://docs.
|Komandos duomenų mokslo procesas (TDSP)|Kryžminės pramonės standartinis duomenų gavybos procesas (CRISP-DM)|
|--|--|
| |  |
| |  |
| Vaizdas iš [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Vaizdas iš [Duomenų mokslo proceso aljanso](https://www.datascience-pm.com/crisp-dm-2/) |
> Nuotrauka <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> iš <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose nagrinėsite kai kuriuos duomenų mokslo gyvavimo ciklo aspektus, įskaitant duomenų analizę ir komunikaciją.
> Nuotrauka [Jelleke Vanooteghem](https://unsplash.com/@ilumire) iš [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Kalbant apie duomenų mokslą su dideliais duomenų kiekiais, debesis gali būti tikras žaidimo keitiklis. Per artimiausias tris pamokas sužinosime, kas yra debesis ir kodėl jis gali būti labai naudingas. Taip pat išnagrinėsime širdies nepakankamumo duomenų rinkinį ir sukursime modelį, kuris padės įvertinti tikimybę, ar žmogui gresia širdies nepakankamumas. Naudosime debesies galią, kad apmokytume, diegtume ir naudotume modelį dviem skirtingais būdais. Vienas būdas – naudojant tik vartotojo sąsają „Low code/No code“ stiliumi, kitas – naudojant „Azure Machine Learning Software Developer Kit“ (Azure ML SDK).
@ -41,7 +41,7 @@ Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrį
* [Duomenų mokslas sveikatos apsaugoje](https://data-flair.training/blogs/data-science-in-healthcare/) - pabrėžia taikymą, pvz., medicininį vaizdavimą (pvz., MRT, rentgenas, KT skenavimas), genomiką (DNR sekos nustatymas), vaistų kūrimą (rizikos vertinimas, sėkmės prognozė), prognozavimo analizę (pacientų priežiūra ir tiekimo logistika), ligų stebėjimą ir prevenciją ir kt.
 Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų mokslo technikas. Norite tyrinėti kitus taikymus? Peržiūrėkite [Peržiūra ir savarankiškas mokymasis](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) skyrių žemiau.
||
||
|:---:|
| Duomenų mokslas pradedantiesiems - _Sketchnote autorius [@nitya](https://twitter.com/nitya)_ |
@ -52,7 +52,7 @@ Azure Cloud Advocates komanda Microsoft įmonėje džiaugiasi galėdama pasiūly
Mes rengiame Discord „Mokymasis su DI“ seriją — sužinokite daugiau ir prisijunkite prie mūsų [Mokymasis su DI serijos](https://aka.ms/learnwithai/discord) renginio nuo 2025 m. rugsėjo 18 d. iki 30 d. Gavę patarimų ir gudrybių, kaip naudoti GitHub Copilot Duomenų mokslui.


# Ar esi studentas?
@ -132,7 +132,7 @@ Kiekvienas pavyzdys turi išsamius komentarus, paaiškinančius kiekvieną žing
## Pamokos
||
||
|:---:|
| Duomenų mokslas pradedantiesiems: kelio žemėlapis - _Sketchnote sukūrė [@nitya](https://twitter.com/nitya)_ |
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
ഈ വെല്ലുവിളിയിൽ, ഡാറ്റാ സയൻസ് മേഖലയുമായി ബന്ധപ്പെട്ട ആശയങ്ങൾ വാചകങ്ങൾ പരിശോധിച്ച് കണ്ടെത്താൻ ശ്രമിക്കും. ഡാറ്റാ സയൻസിനെക്കുറിച്ചുള്ള ഒരു വിക്കിപീഡിയ ലേഖനം എടുത്ത്, ടെക്സ്റ്റ് ഡൗൺലോഡ് ചെയ്ത് പ്രോസസ് ചെയ്ത്, താഴെ കാണുന്ന പോലെ ഒരു വാക്ക് ക്ലൗഡ് നിർമ്മിക്കും:


കോഡ് വായിക്കാൻ [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') സന്ദർശിക്കുക. നിങ്ങൾക്ക് കോഡ് പ്രവർത്തിപ്പിച്ച് എല്ലാ ഡാറ്റാ പരിവർത്തനങ്ങളും യഥാർത്ഥ സമയത്ത് എങ്ങനെ നടക്കുന്നതെന്ന് കാണാം.
സാംഖ്യശാസ്ത്രവും സാദ്ധ്യത സിദ്ധാന്തവും ഗണിതശാസ്ത്രത്തിന്റെ രണ്ട് വളരെ ബന്ധപ്പെട്ട മേഖലകളാണ്, ഇവ ഡാറ്റാ സയൻസിനോട് വളരെ ബന്ധപ്പെട്ടവയാണ്. ഗണിതശാസ്ത്രത്തിന്റെ ആഴത്തിലുള്ള അറിവില്ലാതെ ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നത് സാധ്യമാണ്, പക്ഷേ കുറഞ്ഞത് ചില അടിസ്ഥാന ആശയങ്ങൾ അറിയുന്നത് മെച്ചമാണ്. ഇവിടെ നിങ്ങൾക്ക് ആരംഭിക്കാൻ സഹായിക്കുന്ന ഒരു ചെറിയ പരിചയം നൽകുന്നു.
ഒരു ചാരത്രം ഒരു നൽകിയ മൂല്യ പരിധിയിൽപ്പെടുന്ന സാദ്ധ്യതയെക്കുറിച്ച് മാത്രമേ സംസാരിക്കാനാകൂ, ഉദാഹരണത്തിന് P(t<sub>1</sub>≤X<t<sub>2</sub>). ഈ സാഹചര്യത്തിൽ, സാദ്ധ്യത വിതരണം **സാദ്ധ്യത സാന്ദ്രത ഫംഗ്ഷൻ** p(x) ഉപയോഗിച്ച് വിവരിക്കപ്പെടുന്നു, അതായത്
യൂണിഫോം വിതരണത്തിന്റെ കണ്ടിന്യൂവസ് അനലോഗ് **കണ്ടിന്യൂവസ് യൂണിഫോം** എന്നാണ് വിളിക്കുന്നത്, ഇത് ഒരു പരിധിയിലായി നിർവചിക്കപ്പെടുന്നു. മൂല്യം X ഒരു l നീളമുള്ള ഇടവേളയിൽപ്പെടാനുള്ള സാദ്ധ്യത l-നോട് അനുപാതികമാണ്, കൂടാതെ 1 വരെ ഉയരും.
@ -65,7 +65,7 @@ CO_OP_TRANSLATOR_METADATA:
ഗ്രാഫിക് ആയി, മീഡിയനും ക്വാർട്ടൈൽസും തമ്മിലുള്ള ബന്ധം **ബോക്സ് പ്ലോട്ട്** എന്ന ചിത്രരൂപത്തിൽ പ്രതിനിധീകരിക്കാം:
നമ്മുടെ ഡാറ്റയിൽ വിവിധ കളിക്കാരുടെ **പങ്കുകൾ** സംബന്ധിച്ച വിവരങ്ങൾ ഉള്ളതിനാൽ, പങ്ക് അനുസരിച്ച് ബോക്സ് പ്ലോട്ട് ചെയ്യാം - ഇത് പങ്കുകൾക്കിടയിലെ പാരാമീറ്റർ മൂല്യങ്ങൾ എങ്ങനെ വ്യത്യസ്തമാണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കും. ഈ തവണ ഉയരം പരിഗണിക്കാം:


ഈ ചിത്രരൂപം സൂചിപ്പിക്കുന്നത്, ശരാശരിയിൽ, ഫസ്റ്റ് ബേസ്മാന്റെ ഉയരം സെക്കന്റ് ബേസ്മാന്റെ ഉയരത്തേക്കാൾ കൂടുതലാണെന്ന്. ഈ പാഠത്തിൽ പിന്നീട് നാം ഈ ഹിപോത്തസിസ് കൂടുതൽ ഔപചാരികമായി പരിശോധിക്കുന്നതും, നമ്മുടെ ഡാറ്റ സാംഖ്യശാസ്ത്രപരമായി പ്രാധാന്യമുള്ളതാണെന്ന് തെളിയിക്കുന്നതും പഠിക്കും.
@ -95,7 +95,7 @@ CO_OP_TRANSLATOR_METADATA:
നമ്മുടെ ഡാറ്റയുടെ വിതരണമോ എന്താണെന്ന് കാണാൻ, **ഹിസ്റ്റോഗ്രാം** എന്ന ഗ്രാഫ് വരച്ചിടാം. X-അക്ഷത്തിൽ വ്യത്യസ്ത ഭാര ഇടവേളകൾ (അഥവാ **ബിൻസ്**) കാണിക്കും, ലംബ അക്ഷത്തിൽ ആ ഇടവേളയിൽ നമ്മുടെ യാദൃച്ഛിക ചാരത്രം എത്ര തവണപ്പെട്ടുവെന്ന് കാണിക്കും.


ഈ ഹിസ്റ്റോഗ്രാമിൽ നിന്ന് കാണാം എല്ലാ മൂല്യങ്ങളും ഒരു ശരാശരി ഭാരം ചുറ്റും കേന്ദ്രീകരിച്ചിരിക്കുന്നു, ആ ഭാരം വിട്ട് ദൂരെ പോകുമ്പോൾ ആ മൂല്യത്തിന്റെ ഭാരങ്ങൾ കുറവാണ്. അഥവാ, ഒരു ബേസ്ബോൾ കളിക്കാരന്റെ ഭാരം ശരാശരി ഭാരത്തിൽ നിന്ന് വളരെ വ്യത്യസ്തമായിരിക്കാനുള്ള സാധ്യത വളരെ കുറവാണ്. ഭാരങ്ങളുടെ വ്യതിയാനം ശരാശരി മുതൽ വ്യത്യാസം എത്രത്തോളം ഉണ്ടാകാമെന്ന് കാണിക്കുന്നു.
സൃഷ്ടിച്ച സാമ്പിളുകളുടെ ഹിസ്റ്റോഗ്രാം വരച്ചാൽ മുകളിൽ കാണിച്ച ചിത്രത്തിന് സമാനമായ ചിത്രം കാണാം. സാമ്പിളുകളുടെ എണ്ണം കൂടുകയും ബിൻസിന്റെ എണ്ണം കൂടുകയും ചെയ്താൽ, നോർമൽ വിതരണത്തിന്റെ ഒരു കൂടുതൽ ഐഡിയൽ ചിത്രം സൃഷ്ടിക്കാം:


*ശരാശരി=0, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ=1 ഉള്ള നോർമൽ വിതരണം*
@ -231,7 +231,7 @@ array([[1. , 0.52959196],
നമ്മുടെ കേസിൽ, 0.53 എന്ന മൂല്യം ഒരു വ്യക്തിയുടെ ഭാരം, ഉയരം എന്നിവ തമ്മിൽ ചില കോറിലേഷൻ ഉണ്ടെന്ന് സൂചിപ്പിക്കുന്നു. നാം ഒരു മൂല്യം മറ്റൊന്നിനെതിരെ സ്കാറ്റർ പ്ലോട്ട് ഉണ്ടാക്കുകയും ബന്ധം ദൃശ്യമായി കാണുകയും ചെയ്യാം:


> കോറിലേഷൻ, കോവേറിയൻസ് എന്നിവയുടെ കൂടുതൽ ഉദാഹരണങ്ങൾ [സഹായക നോട്ട്ബുക്കിൽ](notebook.ipynb) കാണാം.


> ഫോട്ടോ <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">സ്റ്റീഫൻ ഡോസൺ</a><ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a>
ഈ പാഠങ്ങളിൽ, ഡാറ്റാ സയൻസ് എങ്ങനെ നിർവചിക്കപ്പെടുന്നു എന്ന് നിങ്ങൾ കണ്ടെത്തും, ഒരു ഡാറ്റാ സയന്റിസ്റ്റ് പരിഗണിക്കേണ്ട നൈതിക കാര്യങ്ങളെക്കുറിച്ച് പഠിക്കും. ഡാറ്റ എങ്ങനെ നിർവചിക്കപ്പെടുന്നു എന്നും, ഡാറ്റാ സയൻസിന്റെ മേധാവി അക്കാദമിക് മേഖലകളായ സ്ഥിതിവിവരശാസ്ത്രവും സാദ്ധ്യതയും കുറിച്ച് കുറച്ച് പഠിക്കും.
സ്പ്രെഡ്ഷീറ്റുകൾ ഡാറ്റ സംഭരിക്കാനും പരിശോധിക്കാനും പ്രചാരത്തിലുള്ള മാർഗമാണ്, കാരണം സജ്ജീകരിക്കാനും ആരംഭിക്കാനും കുറച്ച് ശ്രമം മാത്രം ആവശ്യമാണ്. ഈ പാഠത്തിൽ നിങ്ങൾ സ്പ്രെഡ്ഷീറ്റിന്റെ അടിസ്ഥാന ഘടകങ്ങളും ഫോർമുലകളും ഫംഗ്ഷനുകളും പഠിക്കും. ഉദാഹരണങ്ങൾ മൈക്രോസോഫ്റ്റ് എക്സെലിൽ കാണിക്കും, പക്ഷേ മറ്റ് സ്പ്രെഡ്ഷീറ്റ് സോഫ്റ്റ്വെയറുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ പല ഭാഗങ്ങളും വിഷയങ്ങളും സമാനമായ പേരുകളും ഘട്ടങ്ങളും ഉണ്ടാകും.


ഒരു സ്പ്രെഡ്ഷീറ്റ് ഒരു ഫയലാണ്, ഇത് കമ്പ്യൂട്ടർ, ഉപകരണം, അല്ലെങ്കിൽ ക്ലൗഡ് അടിസ്ഥാനമാക്കിയ ഫയൽ സിസ്റ്റത്തിൽ ലഭ്യമാണ്. സോഫ്റ്റ്വെയർ ബ്രൗസർ അടിസ്ഥാനമോ കമ്പ്യൂട്ടറിൽ ഇൻസ്റ്റാൾ ചെയ്യേണ്ട ആപ്ലിക്കേഷനോ ആപ്പ് ഡൗൺലോഡ് ചെയ്യേണ്ടതായിരിക്കാം. എക്സെലിൽ ഈ ഫയലുകൾ **വർക്ക്ബുക്കുകൾ** എന്നറിയപ്പെടുന്നു, ഈ പദം ഈ പാഠത്തിന്റെ ശേഷിക്കുന്ന ഭാഗത്ത് ഉപയോഗിക്കും.
@ -33,11 +33,11 @@ CO_OP_TRANSLATOR_METADATA:
"InventoryExample" എന്ന പേരിലുള്ള സ്പ്രെഡ്ഷീറ്റ് ഫയൽ ഒരു ഇൻവെന്ററിയിലുള്ള വസ്തുക്കളുടെ ഫോർമാറ്റ് ചെയ്ത സ്പ്രെഡ്ഷീറ്റാണ്, ഇതിൽ മൂന്ന് വർക്ക്ഷീറ്റുകൾ ഉണ്ട്, ടാബുകൾ "Inventory List", "Inventory Pick List" , "Bin Lookup" എന്നിങ്ങനെയാണ് ലേബൽ ചെയ്തിരിക്കുന്നത്. Inventory List വർക്ക്ഷീറ്റിലെ 4-ആം വരി ഹെഡറാണ്, ഹെഡർ കോളത്തിലെ ഓരോ സെല്ലിന്റെ മൂല്യം വിവരിക്കുന്നു.


ഒരു സെൽ മറ്റൊരു സെല്ലുകളുടെ മൂല്യങ്ങളിൽ ആശ്രയിച്ചിരിക്കാം അതിന്റെ മൂല്യം നിർമിക്കാൻ. Inventory List സ്പ്രെഡ്ഷീറ്റ് ഇൻവെന്ററിയിലെ ഓരോ വസ്തുവിന്റെ ചെലവ് ട്രാക്ക് ചെയ്യുന്നു, പക്ഷേ ഇൻവെന്ററിയിലെ എല്ലാം മൂല്യം അറിയേണ്ടതുണ്ടെങ്കിൽ? [**ഫോർമുലകൾ**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) സെൽ ഡാറ്റയിൽ പ്രവർത്തനങ്ങൾ നടത്തുന്നു, ഈ ഉദാഹരണത്തിൽ ഇൻവെന്ററിയുടെ ചെലവ് കണക്കാക്കാൻ ഉപയോഗിക്കുന്നു. ഈ സ്പ്രെഡ്ഷീറ്റിൽ Inventory Value കോളത്തിൽ ഒരു ഫോർമുല ഉപയോഗിച്ച് ഓരോ വസ്തുവിന്റെ മൂല്യം കണക്കാക്കുന്നു, QTY ഹെഡറിന്റെ കീഴിലുള്ള അളവും COST ഹെഡറിന്റെ കീഴിലുള്ള ചെലവും ഗുണിച്ച്. ഒരു സെൽ ഡബിൾ ക്ലിക്കുചെയ്യുകയോ ഹൈലൈറ്റ് ചെയ്യുകയോ ചെയ്താൽ ഫോർമുല കാണാം. ഫോർമുലകൾ സമം ചിഹ്നത്തോടെ ആരംഭിക്കുന്നു, തുടർന്ന് കണക്കുകൂട്ടൽ അല്ലെങ്കിൽ പ്രവർത്തനം വരുന്നു.


നാം മറ്റൊരു ഫോർമുല ഉപയോഗിച്ച് Inventory Value യിലെ എല്ലാ മൂല്യങ്ങളും കൂട്ടിച്ചേർത്ത് ആകെ മൂല്യം കണ്ടെത്താം. ഓരോ സെലും കൂട്ടിച്ചേർക്കുന്നത് ഒരു ബുദ്ധിമുട്ടുള്ള ജോലി ആകാം. എക്സെലിൽ [**ഫംഗ്ഷനുകൾ**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89) ഉണ്ട്, സെൽ മൂല്യങ്ങളിൽ കണക്കുകൂട്ടലുകൾ നടത്താൻ മുൻകൂട്ടി നിർവചിച്ച ഫോർമുലകൾ. ഫംഗ്ഷനുകൾക്ക് ആർഗ്യുമെന്റുകൾ ആവശ്യമുണ്ട്, കണക്കുകൂട്ടലുകൾ നടത്താൻ ആവശ്യമായ മൂല്യങ്ങൾ. ഫംഗ്ഷനുകൾക്ക് ഒരിലധികം ആർഗ്യുമെന്റുകൾ ആവശ്യമെങ്കിൽ, അവ ഒരു പ്രത്യേക ക്രമത്തിൽ ലിസ്റ്റ് ചെയ്യണം അല്ലെങ്കിൽ ഫംഗ്ഷൻ ശരിയായ മൂല്യം കണക്കാക്കില്ല. ഈ ഉദാഹരണത്തിൽ SUM ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു, Inventory Value യിലെ മൂല്യങ്ങൾ ആർഗ്യുമെന്റായി ഉപയോഗിച്ച് B3 (3-ആം വരി, B കോളം) ൽ ആകെ മൂല്യം കണക്കാക്കുന്നു.
@ -45,17 +45,17 @@ CO_OP_TRANSLATOR_METADATA:
NoSQL എന്നത് നോൺ-റിലേഷണൽ ഡാറ്റ സംഭരിക്കുന്ന വ്യത്യസ്ത മാർഗങ്ങൾക്കുള്ള ഒരു പൊതുവായ പദമാണ്, ഇത് "non-SQL", "non-relational" അല്ലെങ്കിൽ "not only SQL" എന്നർത്ഥത്തിൽ വ്യാഖ്യാനിക്കാം. ഈ തരം ഡാറ്റാബേസ് സിസ്റ്റങ്ങൾ 4 തരം ആയി വർഗ്ഗീകരിക്കാം.


[കീ-വാല്യു](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) ഡാറ്റാബേസുകൾ വ്യത്യസ്ത മൂല്യങ്ങളുമായി ബന്ധപ്പെട്ട ഒരു പ്രത്യേക കീ (അനന്യ തിരിച്ചറിയൽ) യെ ജോഡിക്കുന്നു. ഈ ജോഡികൾ [ഹാഷ് ടേബിൾ](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) ഉപയോഗിച്ച് അനുയോജ്യമായ ഹാഷിംഗ് ഫംഗ്ഷൻ ഉപയോഗിച്ച് സംഭരിക്കുന്നു.


[ഗ്രാഫ്](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) ഡാറ്റാബേസുകൾ ഡാറ്റയിലെ ബന്ധങ്ങൾ വിവരിക്കുന്നു, ഇത് നോഡുകളും എഡ്ജുകളും അടങ്ങിയ ഒരു ശേഖരമായി പ്രതിനിധീകരിക്കുന്നു. ഒരു നോഡ് ഒരു സত্ত്വത്തെ പ്രതിനിധീകരിക്കുന്നു, ഉദാഹരണത്തിന് ഒരു വിദ്യാർത്ഥി അല്ലെങ്കിൽ ബാങ്ക് സ്റ്റേറ്റ്മെന്റ് പോലുള്ള യാഥാർത്ഥ്യത്തിൽ ഉള്ള ഒന്നും. എഡ്ജുകൾ രണ്ട് സത്ത്വങ്ങൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിക്കുന്നു. ഓരോ നോഡിനും എഡ്ജിനും അവയുടെ അധിക വിവരങ്ങൾ നൽകുന്ന പ്രോപ്പർട്ടികൾ ഉണ്ട്.


[കോളമ്നാർ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) ഡാറ്റ സ്റ്റോറുകൾ ഡാറ്റയെ കോളങ്ങളും വരികളും ആയി ക്രമീകരിക്കുന്നു, റിലേഷണൽ ഡാറ്റ ഘടന പോലെയാണ്, പക്ഷേ ഓരോ കോളവും കോളം ഫാമിലി എന്ന ഗ്രൂപ്പുകളായി വിഭജിച്ചിരിക്കുന്നു, ഒരു കോളത്തിലെ എല്ലാ ഡാറ്റയും ബന്ധപ്പെട്ടതാണ്, ഒറ്റ യൂണിറ്റായി തിരികെ ലഭിക്കാനും മാറ്റാനും കഴിയും.
@ -88,11 +88,11 @@ Cosmos DB ഡാറ്റാബേസ് "Not Only SQL" എന്ന നിർ
എമുലേറ്റർ ഒരു ബ്രൗസർ വിൻഡോ തുറക്കും, എക്സ്പ്ലോറർ വ്യൂ ഡോക്യുമെന്റുകൾ പരിശോധിക്കാൻ അനുവദിക്കുന്നു.


നിങ്ങൾ പിന്തുടരുകയാണെങ്കിൽ, "Start with Sample" ക്ലിക്കുചെയ്യുക, SampleDB എന്ന സാമ്പിൾ ഡാറ്റാബേസ് സൃഷ്ടിക്കും. Sample DB-നെ ആർക്കോ ക്ലിക്കുചെയ്ത് വിപുലീകരിച്ചാൽ `Persons` എന്ന കണ്ടെയ്നർ കാണാം, കണ്ടെയ്നർ ഒരു വസ്തുക്കളുടെ ശേഖരമാണ്, ഇവ ഡോക്യുമെന്റുകളാണ്. `Items` എന്നതിൽ നാല് വ്യക്തിഗത ഡോക്യുമെന്റുകൾ പരിശോധിക്കാം.


#### Cosmos DB എമുലേറ്റർ ഉപയോഗിച്ച് ഡോക്യുമെന്റ് ഡാറ്റ ക്വറി ചെയ്യൽ
@ -102,7 +102,7 @@ Cosmos DB ഡാറ്റാബേസ് "Not Only SQL" എന്ന നിർ
`SELECT * FROM c where c.age < 40`


ക്വറി രണ്ട് ഡോക്യുമെന്റുകൾ തിരികെ നൽകുന്നു, ഓരോ ഡോക്യുമെന്റിന്റെയും പ്രായം 40-ൽ താഴെയാണ്.
ഡാറ്റാബേസുകൾ ഡാറ്റ സംഭരിക്കാനും ക്വറി ഭാഷകൾ ഉപയോഗിച്ച് അവയെ ക്വറി ചെയ്യാനും വളരെ കാര്യക്ഷമമായ മാർഗങ്ങൾ നൽകുമ്പോഴും, ഡാറ്റ പ്രോസസ്സിംഗിന്റെ ഏറ്റവും ലവച്ഛമായ മാർഗം ഡാറ്റ കൈകാര്യം ചെയ്യാൻ നിങ്ങളുടെ സ്വന്തം പ്രോഗ്രാം എഴുതുകയാണ്. പലപ്പോഴും, ഡാറ്റാബേസ് ക്വറി ചെയ്യുന്നത് കൂടുതൽ ഫലപ്രദമായ മാർഗമായിരിക്കും. എന്നാൽ, കൂടുതൽ സങ്കീർണ്ണമായ ഡാറ്റ പ്രോസസ്സിംഗ് ആവശ്യമായപ്പോൾ, അത് എളുപ്പത്തിൽ SQL ഉപയോഗിച്ച് ചെയ്യാനാകില്ല.
ഡാറ്റ പ്രോസസ്സിംഗ് ഏതെങ്കിലും പ്രോഗ്രാമിംഗ് ഭാഷയിൽ പ്രോഗ്രാം ചെയ്യാം, പക്ഷേ ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ ഉയർന്ന തലത്തിലുള്ള ചില ഭാഷകൾ ഉണ്ട്. ഡാറ്റ സയന്റിസ്റ്റുകൾ സാധാരണയായി താഴെപ്പറയുന്ന ഭാഷകളിൽ ഒന്നിനെ മുൻഗണന നൽകുന്നു:
@ -75,7 +75,7 @@ print(f"Length of index is {len(idx)}")


ഇപ്പോൾ ഓരോ ആഴ്ചയും നാം സുഹൃത്തുക്കൾക്കായി പാർട്ടി സംഘടിപ്പിക്കുന്നു, പാർട്ടിക്കായി അധികം 10 പാക്ക് ഐസ്ക്രീം കൊണ്ടുവരുന്നു എന്ന് കരുതുക. ആ ആഴ്ചയുടെ ഇൻഡക്സ് ഉപയോഗിച്ച് മറ്റൊരു സീരീസ് സൃഷ്ടിക്കാം:


> **കുറിപ്പ്**: നാം ലളിതമായ `total_items+additional_items` സിന്താക്സ് ഉപയോഗിക്കുന്നില്ല. അതുപയോഗിച്ചാൽ, ഫലസീരീസിൽ പല `NaN` (*Not a Number*) മൂല്യങ്ങളും ഉണ്ടാകുമായിരിക്കും. കാരണം `additional_items` സീരീസിൽ ചില ഇൻഡക്സ് പോയിന്റുകൾക്ക് മൂല്യങ്ങൾ ഇല്ല, `NaN` യെ ഏതെങ്കിലും മൂല്യത്തിലേക്ക് കൂട്ടിച്ചേർക്കുമ്പോൾ ഫലം `NaN` ആകുന്നു. അതിനാൽ കൂട്ടിച്ചേർക്കുമ്പോൾ `fill_value` പാരാമീറ്റർ നിർദ്ദേശിക്കേണ്ടതാണ്.
@ -95,7 +95,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### ഡാറ്റാഫ്രെയിം
@ -224,7 +224,7 @@ df = pd.read_csv('file.csv')
ഡാറ്റ കൈകാര്യം ചെയ്യുന്നത് എങ്ങനെ എന്ന് കാണിക്കാൻ, നിങ്ങൾക്ക് [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) തുറന്ന് മുകളിൽ നിന്ന് താഴേക്ക് വായിക്കാൻ ഞങ്ങൾ ക്ഷണിക്കുന്നു. സെല്ലുകൾ പ്രവർത്തിപ്പിക്കാനും, അവസാനം നാം നിങ്ങൾക്കായി വെച്ച ചില ചലഞ്ചുകൾ ചെയ്യാനും കഴിയും.
> Jupyter Notebook ൽ കോഡ് എങ്ങനെ റൺ ചെയ്യാമെന്ന് അറിയില്ലെങ്കിൽ, [ഈ ലേഖനം](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) കാണുക.
@ -246,7 +246,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) തുറന്ന് മുകളിൽ നിന്ന് താഴേക്ക് വായിക്കുക. സെല്ലുകൾ പ്രവർത്തിപ്പിക്കാനും, അവസാനം നാം നിങ്ങൾക്കായി വെച്ച ചില ചലഞ്ചുകൾ ചെയ്യാനും കഴിയും.


> ഫോട്ടോ <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> യുടെ <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> ൽ നിന്നാണ്
ഈ പാഠങ്ങളിൽ, ഡാറ്റ എങ്ങനെ കൈകാര്യം ചെയ്യാമെന്ന്, മാറ്റം വരുത്താമെന്ന്, ആപ്ലിക്കേഷനുകളിൽ ഉപയോഗിക്കാമെന്ന് നിങ്ങൾ പഠിക്കും. ബന്ധപരമായ (relational) ഡാറ്റാബേസുകളും ബന്ധമില്ലാത്ത (non-relational) ഡാറ്റാബേസുകളും എന്താണെന്ന്, അവയിൽ ഡാറ്റ എങ്ങനെ സൂക്ഷിക്കാമെന്ന് നിങ്ങൾ അറിയും. ഡാറ്റ കൈകാര്യം ചെയ്യാൻ പൈത്തൺ ഉപയോഗിക്കുന്നതിന്റെ അടിസ്ഥാനങ്ങൾ നിങ്ങൾ പഠിക്കും, കൂടാതെ പൈത്തൺ ഉപയോഗിച്ച് ഡാറ്റ കൈകാര്യം ചെയ്യാനും ഡാറ്റയിൽ നിന്ന് വിവരങ്ങൾ കണ്ടെത്താനും ഉള്ള നിരവധി മാർഗങ്ങൾ നിങ്ങൾ കണ്ടെത്തും.
നിങ്ങൾ ഉടൻ ശ്രദ്ധിക്കുന്നതെന്താണ്? കുറഞ്ഞത് ഒരു ഔട്ട്ലൈയർ ഉണ്ടെന്ന് തോന്നുന്നു - അത്ര വലിയ വിങ്സ്പാൻ! 2300 സെന്റീമീറ്റർ വിങ്സ്പാൻ 23 മീറ്ററിനാണ് തുല്യമായത് - മിന്നസോട്ടയിൽ പ്റ്റെറോഡാക്ടിലുകൾ നടക്കുകയാണോ? പരിശോധിക്കാം.
@ -81,7 +81,7 @@ plt.plot(x, y)
plt.show()
```


45 ഡിഗ്രി ലേബലുകളുടെ റൊട്ടേഷൻ സജ്ജമാക്കിയിട്ടും വായിക്കാൻ വളരെ അധികം ലേബലുകൾ ഉണ്ട്. വ്യത്യസ്തമായ ഒരു തന്ത്രം പരീക്ഷിക്കാം: ഔട്ട്ലൈയറുകൾ മാത്രം ലേബൽ ചെയ്യുക, ലേബലുകൾ ചാർട്ടിനുള്ളിൽ സജ്ജമാക്കുക. ലേബലിംഗിന് കൂടുതൽ സ്ഥലം നൽകാൻ സ്കാറ്റർ ചാർട്ട് ഉപയോഗിക്കാം:
ബാൾഡ് ഈഗിൾക്കും പ്രെയറി ഫാൽക്കണിനും, വളരെ വലിയ പക്ഷികളായിരിക്കാം, പക്ഷേ പരമാവധി വിങ്സ്പാനിൽ ഒരു അധികം `0` ചേർത്തിട്ടുള്ള തെറ്റായ ലേബലിംഗാണ്. 25 മീറ്റർ വിങ്സ്പാൻ ഉള്ള ബാൾഡ് ഈഗിൾ കാണാൻ സാധ്യത കുറവാണ്, പക്ഷേ ഉണ്ടെങ്കിൽ ദയവായി ഞങ്ങളെ അറിയിക്കുക! ആ രണ്ട് ഔട്ട്ലൈയറുകൾ ഇല്ലാതെ പുതിയ ഡാറ്റാഫ്രെയിം സൃഷ്ടിക്കാം:
@ -123,7 +123,7 @@ plt.show()
ഔട്ട്ലൈയറുകൾ ഫിൽട്ടർ ചെയ്തതോടെ, നിങ്ങളുടെ ഡാറ്റ കൂടുതൽ ഏകീകൃതവും മനസ്സിലാക്കാൻ എളുപ്പവുമാണ്.


ഇപ്പോൾ വിങ്സ്പാൻ സംബന്ധിച്ച് കുറഞ്ഞത് ശുദ്ധമായ ഡാറ്റാസെറ്റ് ഉണ്ടാകുമ്പോൾ, ഈ പക്ഷികളെക്കുറിച്ച് കൂടുതൽ കണ്ടെത്താം.
@ -149,7 +149,7 @@ birds.plot(x='Category',
title='Birds of Minnesota')
```


എന്നാൽ ഈ ബാർ ചാർട്ട് വായിക്കാൻ കഴിയുന്നില്ല, കാരണം ഗ്രൂപ്പുചെയ്യാത്ത ഡാറ്റ വളരെ കൂടുതലാണ്. നിങ്ങൾ പ്ലോട്ട് ചെയ്യാൻ ആഗ്രഹിക്കുന്ന ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം, അതിനാൽ പക്ഷികളുടെ വിഭാഗം അടിസ്ഥാനമാക്കി നീളം നോക്കാം.


ഈ ബാർ ചാർട്ട് ഓരോ വിഭാഗത്തിലും പക്ഷികളുടെ എണ്ണം നല്ല കാഴ്ച നൽകുന്നു. ഒരു നിമിഷത്തിൽ, ഈ പ്രദേശത്തെ ഏറ്റവും വലിയ പക്ഷി എണ്ണം Ducks/Geese/Waterfowl വിഭാഗത്തിലാണ് എന്ന് കാണാം. മിന്നസോട്ട '10,000 തടാകങ്ങളുടെ നാട്' ആകുന്നതിനാൽ ഇത് അത്ഭുതമല്ല!
ഇവിടെ എന്തും അത്ഭുതപ്പെടുത്തുന്നില്ല: ഹമ്മിംഗ്ബേർഡുകൾക്ക് പെലിക്കാനുകളോ ഗീസുകളോ അപേക്ഷിച്ച് ഏറ്റവും കുറഞ്ഞ MaxLength ഉണ്ട്. ഡാറ്റ ലജിക്കൽ ആകുമ്പോൾ നല്ലതാണ്!
@ -198,7 +198,7 @@ plt.show()
```
ഈ പ്ലോട്ടിൽ, ഓരോ പക്ഷി വിഭാഗത്തിന്റെയും കുറഞ്ഞ നീളം, പരമാവധി നീളം കാണാം. ഈ ഡാറ്റ പ്രകാരം, പക്ഷി വലുതായാൽ, അതിന്റെ നീളം വ്യത്യാസവും വലുതാണ് എന്ന് പറയാം. അത്ഭുതകരം!


ഇത് ഓരോ പക്ഷി ഓർഡറിനും ശരീര നീളത്തിന്റെ പൊതുവായ വിതരണത്തിന്റെ ഒരു അവലോകനമാണ് നൽകുന്നത്, പക്ഷേ യഥാർത്ഥ വിതരണങ്ങൾ പ്രദർശിപ്പിക്കാൻ ഇത് ഏറ്റവും അനുയോജ്യമായ മാർഗം അല്ല. ആ ജോലി സാധാരണയായി ഹിസ്റ്റോഗ്രാം സൃഷ്ടിച്ച് നിർവഹിക്കുന്നു.
## ഹിസ്റ്റോഗ്രാമുകളുമായി പ്രവർത്തിക്കൽ
@ -60,7 +60,7 @@ Matplotlib ഡാറ്റ വിതരണങ്ങൾ ദൃശ്യവൽക


നിങ്ങൾക്ക് കാണാമല്ലോ, ഈ ഡാറ്റാസെറ്റിലെ 400+ പക്ഷികളിൽ ഭൂരിഭാഗവും അവരുടെ പരമാവധി ശരീരഭാരം 2000-ൽ താഴെ ഉള്ള പരിധിയിലാണ്. `bins` പാരാമീറ്റർ 30 പോലുള്ള ഉയർന്ന സംഖ്യയാക്കി മാറ്റി ഡാറ്റയിൽ കൂടുതൽ洞察ം നേടാം:


ഈ ചാർട്ട് കൂടുതൽ സൂക്ഷ്മമായ രീതിയിൽ വിതരണത്തെ കാണിക്കുന്നു. ഇടത്തരം കുറവുള്ള ഒരു ചാർട്ട് സൃഷ്ടിക്കാൻ, നിങ്ങൾക്ക് ഒരു നിശ്ചിത പരിധിയിലുള്ള ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം:
✅ മറ്റ് ഫിൽട്ടറുകളും ഡാറ്റ പോയിന്റുകളും പരീക്ഷിക്കുക. ഡാറ്റയുടെ മുഴുവൻ വിതരണവും കാണാൻ, `['MaxBodyMass']` ഫിൽട്ടർ നീക്കം ചെയ്ത് ലേബൽ ചെയ്ത വിതരണങ്ങൾ കാണിക്കുക.
@ -96,7 +96,7 @@ hist = ax.hist2d(x, y)
```
ഈ രണ്ട് ഘടകങ്ങൾ തമ്മിൽ പ്രതീക്ഷിക്കപ്പെട്ട ബന്ധം ഒരു പ്രതീക്ഷിച്ച അക്ഷം അനുസരിച്ച് കാണപ്പെടുന്നു, പ്രത്യേകിച്ച് ശക്തമായ ഒരു സമന്വയ ബിന്ദു:


കുറഞ്ഞ വിങ്സ്പാനും സംരക്ഷണ നിലക്കും നല്ല ബന്ധമില്ലെന്ന് തോന്നുന്നു. ഈ രീതിയിൽ ഡാറ്റാസെറ്റിലെ മറ്റ് ഘടകങ്ങളും പരീക്ഷിക്കുക. നിങ്ങൾക്ക് ഏതെങ്കിലും ബന്ധം കണ്ടെത്താമോ?
@ -154,7 +154,7 @@ import matplotlib.pyplot as plt
മുൻപത്തെ കുറഞ്ഞ വിങ്സ്പാൻ ഡാറ്റയുടെ പ്ലോട്ടിനെപ്പോലെ ഇത് കാണാം; ഇത് കുറച്ച് മൃദുവാണ്. Seaborn ഡോക്യുമെന്റേഷനുസരിച്ച്, "ഹിസ്റ്റോഗ്രാമിനോട് താരതമ്യപ്പെടുത്തുമ്പോൾ, KDE ഒരു പ്ലോട്ട് കുറച്ച് കുറവുള്ളതും കൂടുതൽ വ്യാഖ്യാനയോഗ്യവുമാകാം, പ്രത്യേകിച്ച് പല വിതരണങ്ങളും വരച്ചപ്പോൾ. എന്നാൽ അടിസ്ഥാന വിതരണത്തിന് അതിരുകൾ ഉണ്ടെങ്കിൽ അല്ലെങ്കിൽ മൃദുവായില്ലെങ്കിൽ, ഇത് വക്രതകൾ സൃഷ്ടിക്കാം. ഹിസ്റ്റോഗ്രാമുപോലെ, പ്രതിനിധാനത്തിന്റെ ഗുണമേന്മയും നല്ല മൃദുവായ പാരാമീറ്ററുകളുടെ തിരഞ്ഞെടുപ്പിൽ ആശ്രയിച്ചിരിക്കുന്നു." [source](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) മറ്റൊരു വാക്കിൽ, ഔട്ട്ലൈയർമാർ എപ്പോഴും നിങ്ങളുടെ ചാർട്ടുകൾക്ക് പ്രശ്നങ്ങൾ സൃഷ്ടിക്കും.
ഇവിടെ, ഈ ഡാറ്റയുടെ അനുപാതങ്ങൾ ഈ രണ്ട് മഷ്റൂം ക്ലാസുകൾ അനുസരിച്ച് കാണിക്കുന്ന ഒരു പൈ ചാർട്ട്. ലേബലുകളുടെ ക്രമം ശരിയാണെന്ന് ഉറപ്പാക്കുന്നത് വളരെ പ്രധാനമാണ്, പ്രത്യേകിച്ച് ഇവിടെ, അതിനാൽ ലേബൽ അറേ എങ്ങനെ നിർമ്മിക്കപ്പെടുന്നു എന്ന് പരിശോധിക്കുക!
ഈ കോഡ് ഒരു ചാർട്ട് വരയ്ക്കുകയും മധ്യത്തിൽ ഒരു വൃത്തം വരയ്ക്കുകയും ചെയ്യുന്നു, പിന്നീട് ആ വൃത്തം ചാർട്ടിൽ ചേർക്കുന്നു. മധ്യ വൃത്തത്തിന്റെ വീതി `0.40` എന്ന മൂല്യം മാറ്റി എഡിറ്റ് ചെയ്യാം.
@ -170,7 +170,7 @@ fig = plt.figure(
വാഫിൾ ചാർട്ട് ഉപയോഗിച്ച്, ഈ മഷ്റൂം ഡാറ്റാസെറ്റിലെ ക്യാപ് നിറങ്ങളുടെ അനുപാതങ്ങൾ വ്യക്തമായി കാണാം. രസകരമായി, നിരവധി പച്ച ക്യാപ് മഷ്റൂമുകൾ ഉണ്ട്!
✅ Pywaffle ചാർട്ടുകളിൽ [Font Awesome](https://fontawesome.com/) ൽ ലഭ്യമായ ഏതെങ്കിലും ഐക്കൺ ഉപയോഗിച്ച് ഐക്കണുകൾ ഉൾപ്പെടുത്താൻ പിന്തുണ നൽകുന്നു. ചതുരങ്ങൾക്കുപകരം ഐക്കണുകൾ ഉപയോഗിച്ച് കൂടുതൽ രസകരമായ വാഫിൾ ചാർട്ട് സൃഷ്ടിക്കാൻ പരീക്ഷണങ്ങൾ നടത്തുക.
ഇപ്പോൾ, വർഷം തോറും വില എങ്ങനെ മാറിയെന്ന് കാണിക്കാൻ തേൻ നിറത്തിലുള്ള കളർ സ്കീം ഉപയോഗിച്ച് സമാന ഡാറ്റ കാണിക്കുക. വർഷം തോറും മാറ്റം കാണിക്കാൻ 'hue' പാരാമീറ്റർ ചേർക്കാം:
ഈ കളർ സ്കീം മാറ്റത്തോടെ, തേന്റെ പൗണ്ട് പ്രതി വില വർഷം തോറും ശക്തമായി ഉയരുന്നുവെന്ന് കാണാം. ഡാറ്റയിൽ ഒരു സാമ്പിൾ സെറ്റ് പരിശോധിച്ചാൽ (ഉദാഹരണത്തിന്, അരിസോണ), വില വർഷം തോറും ഉയരുന്ന ഒരു പാറ്റേൺ കാണാം, കുറച്ച് വ്യത്യാസങ്ങൾ ഒഴികെ:
ഇത് സപ്ലൈ ആൻഡ് ഡിമാൻഡ് എന്ന ലളിതമായ കേസ് ആണോ? കാലാവസ്ഥ മാറ്റം, കോളനി തകർച്ച തുടങ്ങിയ ഘടകങ്ങൾ കാരണം വർഷം തോറും വാങ്ങാനുളള തേൻ കുറയുന്നുണ്ടോ, അതിനാൽ വില ഉയരുന്നുണ്ടോ?
✅ Seaborn ഒരു ലൈനിൽ ഡാറ്റ സംഗ്രഹിക്കുന്നതിനാൽ, "ഓരോ x മൂല്യത്തിലും പല അളവുകൾ ശരാശരി കണക്കാക്കി ശരാശരിയുടെ ചുറ്റും 95% വിശ്വാസപരിധി കാണിക്കുന്നു". [മൂലം](https://seaborn.pydata.org/tutorial/relational.html). ഈ സമയം കൂടുതലുള്ള പ്രവർത്തനം `ci=None` ചേർത്താൽ ഒഴിവാക്കാം.
ഈ ഡാറ്റാസെറ്റിൽ, കോളനികളുടെ എണ്ണം, അവയുടെ ഉത്പാദനം വർഷം തോറും, സംസ്ഥാനങ്ങൾ തമ്മിൽ പ്രത്യേകമായ വ്യത്യാസം കാണുന്നില്ല. ഈ രണ്ട് വേരിയബിളുകൾ തമ്മിൽ സഹബന്ധം കണ്ടെത്താൻ മറ്റൊരു മാർഗം ഉണ്ടോ?
2003-ൽ പ്രത്യേകമായി ഒന്നും കാണാനില്ലെങ്കിലും, ഈ പാഠം ഒരു സന്തോഷകരമായ നോട്ടിൽ അവസാനിപ്പിക്കാം: കോളനികളുടെ എണ്ണം കുറയുന്നുണ്ടെങ്കിലും, അവയുടെ എണ്ണം സ്ഥിരതയുള്ളതും, കോളനി പ്രതി ഉത്പാദനം കുറയുന്നുണ്ടെങ്കിലും.
ഒരു ഡാറ്റ സയന്റിസ്റ്റ് ശരിയായ ഡാറ്റയ്ക്ക് ശരിയായ ചാർട്ട് തിരഞ്ഞെടുക്കാൻ ശ്രദ്ധിച്ചാലും, ഡാറ്റയെ തെളിയിക്കാൻ പലവിധം വഞ്ചനാപരമായി പ്രദർശിപ്പിക്കാനുള്ള മാർഗ്ഗങ്ങൾ ധാരാളമാണ്, പലപ്പോഴും ഡാറ്റയെ തന്നെ അപഹസിക്കുന്ന വിലക്ക് വരുത്തി. വഞ്ചനാപരമായ ചാർട്ടുകളും ഇൻഫോഗ്രാഫിക്സും ധാരാളം ഉദാഹരണങ്ങളുണ്ട്!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 വഞ്ചനാപരമായ ചാർട്ടുകൾക്കുറിച്ചുള്ള കോൺഫറൻസ് ടോക്കിനായി മുകളിൽ ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്യുക
ഈ ചാർട്ട് X അക്ഷം മറിച്ച് സത്യം മറിച്ച് കാണിക്കുന്നു, തീയതി അടിസ്ഥാനമാക്കി:
[ഈ ചാർട്ട്](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) കൂടുതൽ വഞ്ചനാപരമാണ്, കാരണം കണ്ണ് വലത്തേക്ക് ആകർഷിക്കപ്പെടുന്നു, സമയാനുസൃതമായി COVID കേസുകൾ വിവിധ കൗണ്ടികളിൽ കുറയുകയാണെന്ന് നിഗമനം ചെയ്യാൻ. എന്നാൽ, തീയതികൾ ശ്രദ്ധാപൂർവ്വം നോക്കിയാൽ, അവ വഞ്ചനാപരമായ താഴ്ന്ന ട്രെൻഡ് നൽകാൻ പുനഃക്രമീകരിച്ചിട്ടുള്ളതായി കാണാം.
ഈ പ്രശസ്ത ഉദാഹരണം നിറവും മറിച്ച Y അക്ഷവും ഉപയോഗിച്ച് വഞ്ചന ചെയ്യുന്നു: തോക്കു-സഹായക നിയമം പാസായതിന് ശേഷം തോക്ക് മരണങ്ങൾ വർധിച്ചതായി നിഗമനം ചെയ്യേണ്ടതിനു പകരം, കണ്ണ് മറിച്ച് സത്യം മറിച്ച് കാണുന്നു:
തുല്യമായവ അല്ലാത്തവ താരതമ്യം ചെയ്യുക മറ്റൊരു സംശയാസ്പദമായ തന്ത്രമാണ്. 'സ്പ്യൂറിയസ് കോറിലേഷൻസ്' എന്ന വിഷയത്തിൽ 'മെയ്നിലെ വിവാഹമോചന നിരക്കും മാർഗറിൻ ഉപഭോഗവും' പോലുള്ള കാര്യങ്ങൾ തമ്മിലുള്ള 'വാസ്തവങ്ങൾ' പ്രദർശിപ്പിക്കുന്ന [അദ്ഭുതകരമായ വെബ്സൈറ്റ്](https://tylervigen.com/spurious-correlations) ഉണ്ട്. Reddit ഗ്രൂപ്പ് ഡാറ്റയുടെ [കീഴടക്കം ഉപയോഗങ്ങൾ](https://www.reddit.com/r/dataisugly/top/?t=all) ശേഖരിക്കുന്നു.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങളുടെ ഡാറ്റ ടെക്സ്റ്റ് ആണെങ്കിൽ, X അക്ഷ上的 വാചകം വായനാസൗകര്യത്തിനായി കോണിൽ വയ്ക്കാം. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) 3D പ്ലോട്ടിംഗ് നൽകുന്നു, നിങ്ങളുടെ ഡാറ്റ അത് പിന്തുണയ്ക്കുന്നുവെങ്കിൽ. സങ്കീർണ്ണമായ ഡാറ്റാ ദൃശ്യവത്കരണങ്ങൾ `mpl_toolkits.mplot3d` ഉപയോഗിച്ച് നിർമ്മിക്കാം.
ഇന്നത്തെ മികച്ച ഡാറ്റാ ദൃശ്യവത്കരണങ്ങളിൽ ചിലത് അനിമേറ്റഡ് ആണ്. Shirley Wu D3 ഉപയോഗിച്ച് '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' പോലുള്ള അത്ഭുതകരമായവ ഉണ്ടാക്കി, ഓരോ പൂവും ഒരു സിനിമയുടെ ദൃശ്യവത്കരണമാണ്. Guardian-നായി മറ്റൊരു ഉദാഹരണം 'bussed out' ആണ്, Greensock, D3 എന്നിവയുമായി സംയോജിപ്പിച്ച ഒരു ഇന്ററാക്ടീവ് അനുഭവം, സ്ക്രോൾടെല്ലിംഗ് ലേഖന ഫോർമാറ്റിൽ, NYC എങ്ങനെ നഗരത്തിലെ ഹോമ്ലെസ്സ് പ്രശ്നം ബസ്സിലൂടെ പുറത്തേക്ക് കൊണ്ടുപോകുന്നു എന്ന് കാണിക്കുന്നു.
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങൾ ഒരു വെബ് ആപ്പ് പൂർത്തിയാക്കും, ഇത് ഈ സോഷ്യൽ നെറ്റ്വർക്ക് അനിമേറ്റഡ് ദൃശ്യമായി കാണിക്കും. ഇത് Vue.js, D3 ഉപയോഗിച്ച് [നെറ്റ്വർക്ക് ദൃശ്യവത്കരണം](https://github.com/emiliorizzo/vue-d3-network) സൃഷ്ടിക്കാൻ നിർമ്മിച്ച ഒരു ലൈബ്രറി ഉപയോഗിക്കുന്നു. ആപ്പ് പ്രവർത്തിക്കുമ്പോൾ, സ്ക്രീനിൽ നോഡുകൾ നീക്കി ഡാറ്റ മാറ്റാം.
ഇവിടെ, `ggplot2` പാക്കേജ് ഇൻസ്റ്റാൾ ചെയ്ത് `library("ggplot2")` കമാൻഡ് ഉപയോഗിച്ച് വർക്ക്സ്പേസിലേക്ക് ഇറക്കുമതി ചെയ്യുന്നു. ggplot-ൽ ഏതെങ്കിലും പ്ലോട്ട് ചെയ്യാൻ `ggplot()` ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു, ഡാറ്റാസെറ്റ്, x, y വേരിയബിളുകൾ ആട്രിബ്യൂട്ടുകളായി നിശ്ചയിക്കുന്നു. ഈ കേസിൽ, ലൈൻ പ്ലോട്ട് സൃഷ്ടിക്കാനാണ് ഉദ്ദേശം, അതിനാൽ `geom_line()` ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു.
നിങ്ങൾ ഉടൻ ശ്രദ്ധിക്കുന്നതെന്താണ്? കുറഞ്ഞത് ഒരു ഔട്ട്ലൈയർ ഉണ്ടെന്ന് തോന്നുന്നു - അത്ര വലിയ വിങ്സ്പാൻ! 2000+ സെന്റീമീറ്റർ വിങ്സ്പാൻ 20 മീറ്ററിലധികമാണ് - മിന്നസോട്ടയിൽ പ്റ്റെറോഡാക്റ്റിലുകൾ നടക്കുകയാണോ? പരിശോധിക്കാം.
45 ഡിഗ്രി ലേബലുകൾ തിരിയിച്ചിട്ടും വായിക്കാൻ വളരെ അധികം ലേബലുകൾ ഉണ്ട്. വ്യത്യസ്തമായ ഒരു തന്ത്രം പരീക്ഷിക്കാം: ആ ഔട്ട്ലൈയറുകൾക്ക് മാത്രമേ ലേബലുകൾ നൽകൂ, ലേബലുകൾ ചാർട്ടിനുള്ളിൽ സജ്ജമാക്കൂ. ലേബലിംഗിന് കൂടുതൽ സ്ഥലം നൽകാൻ സ്കാറ്റർ ചാർട്ട് ഉപയോഗിക്കാം:
പുതിയ ഡാറ്റാഫ്രെയിം `birds_filtered` സൃഷ്ടിച്ച് സ്കാറ്റർ പ്ലോട്ട് ചെയ്തു. ഔട്ട്ലൈയറുകൾ ഫിൽട്ടർ ചെയ്തതിനാൽ, നിങ്ങളുടെ ഡാറ്റ കൂടുതൽ ഏകീകൃതവും മനസ്സിലാക്കാൻ എളുപ്പവുമാണ്.
താഴെ കൊടുത്തിരിക്കുന്ന കോഡിൽ, ഡാറ്റ മാനിപ്പുലേറ്റ് ചെയ്ത് ഗ്രൂപ്പ് ചെയ്യാൻ സഹായിക്കുന്ന [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)യും [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0)യും പാക്കേജുകൾ ഇൻസ്റ്റാൾ ചെയ്യുന്നു. ആദ്യം, പക്ഷികളുടെ `Category` പ്രകാരം ഡാറ്റ ഗ്രൂപ്പ് ചെയ്ത് `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` കോളങ്ങൾ സംഗ്രഹിക്കുന്നു. പിന്നെ `ggplot2` ഉപയോഗിച്ച് ബാർ ചാർട്ട് പ്ലോട്ട് ചെയ്യുന്നു, വ്യത്യസ്ത വിഭാഗങ്ങൾക്ക് നിറങ്ങൾ നിശ്ചയിച്ച് ലേബലുകൾ ചേർക്കുന്നു.


ഈ ബാർ ചാർട്ട് വായിക്കാൻ ബുദ്ധിമുട്ടാണ്, കാരണം ഗ്രൂപ്പ് ചെയ്യാത്ത ഡാറ്റ വളരെ കൂടുതലാണ്. നിങ്ങൾ പ്ലോട്ട് ചെയ്യാൻ ആഗ്രഹിക്കുന്ന ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം, അതിനാൽ പക്ഷികളുടെ നീളം അവരുടെ വിഭാഗം അടിസ്ഥാനമാക്കി നോക്കാം.
`Category` കോളത്തിൽ ഉള്ള വ്യത്യസ്ത മൂല്യങ്ങൾ എണ്ണുകയും അവ `birds_count` എന്ന പുതിയ ഡാറ്റാഫ്രെയിമിൽ ക്രമീകരിക്കുകയും ചെയ്യുന്നു. ഈ ക്രമീകരിച്ച ഡാറ്റയെ ഫാക്ടർ ലെവലിൽ ഉൾപ്പെടുത്തി ക്രമീകരിച്ച രീതിയിൽ പ്ലോട്ട് ചെയ്യുന്നു. `ggplot2` ഉപയോഗിച്ച് ബാർ ചാർട്ട് സൃഷ്ടിക്കുന്നു. `coord_flip()` ഉപയോഗിച്ച് ഹോരിസോണ്ടൽ ബാറുകൾ പ്ലോട്ട് ചെയ്യുന്നു.
ഈ ബാർ ചാർട്ട് ഓരോ വിഭാഗത്തിലും പക്ഷികളുടെ എണ്ണം നല്ല രീതിയിൽ കാണിക്കുന്നു. ഒരു നിമിഷത്തിൽ, ഈ പ്രദേശത്തെ ഏറ്റവും വലിയ പക്ഷി എണ്ണം Ducks/Geese/Waterfowl വിഭാഗത്തിലാണ് എന്ന് കാണാം. മിന്നസോട്ട '10,000 തടാകങ്ങളുടെ നാട്' ആകുന്നതിനാൽ ഇത് അത്ഭുതകരമല്ല!


ഇത് ഓരോ പക്ഷി ഓർഡറിനും ശരീര നീളത്തിന്റെ പൊതുവായ വിതരണത്തിന്റെ ഒരു അവലോകനമാണ് നൽകുന്നത്, പക്ഷേ യഥാർത്ഥ വിതരണങ്ങൾ പ്രദർശിപ്പിക്കാൻ ഇത് ഏറ്റവും അനുയോജ്യമായ മാർഗം അല്ല. ആ ജോലി സാധാരണയായി ഹിസ്റ്റോഗ്രാം സൃഷ്ടിച്ച് കൈകാര്യം ചെയ്യുന്നു.


നിങ്ങൾക്ക് കാണാമല്ലോ, ഈ ഡാറ്റാസെറ്റിലെ 400+ പക്ഷികളിൽ ഭൂരിഭാഗവും അവരുടെ പരമാവധി ശരീരഭാരം 2000-ൽ താഴെ വരുന്ന പരിധിയിലാണ്. `bins` പാരാമീറ്റർ ഉയർന്ന ഒരു സംഖ്യയാക്കി, ഉദാഹരണത്തിന് 30 ആക്കി, ഡാറ്റയിൽ കൂടുതൽ洞察ം നേടാം:
ഈ ചാർട്ട് വിതരണത്തെ കുറച്ച് കൂടുതൽ സൂക്ഷ്മമായി കാണിക്കുന്നു. ഇടതുവശത്തേക്ക് കുറച്ച് കുറവുള്ള ചാർട്ട് സൃഷ്ടിക്കാൻ, നിങ്ങൾക്ക് ഒരു നിശ്ചിത പരിധിയിലുള്ള ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം:
✅ മറ്റ് ഫിൽട്ടറുകളും ഡാറ്റ പോയിന്റുകളും പരീക്ഷിക്കുക. ഡാറ്റയുടെ മുഴുവൻ വിതരണവും കാണാൻ, `['MaxBodyMass']` ഫിൽട്ടർ നീക്കം ചെയ്ത് ലേബൽ ചെയ്ത വിതരണങ്ങൾ കാണിക്കുക.
ഹിസ്റ്റോഗ്രാമുകൾ സംഖ്യാത്മക ഡാറ്റയ്ക്ക് സാധാരണയായി നല്ല രീതിയിൽ പ്രവർത്തിക്കുന്നു. എന്നാൽ നിങ്ങൾക്ക് ടെക്സ്റ്റ് ഡാറ്റയുടെ അടിസ്ഥാനത്തിൽ വിതരണങ്ങൾ കാണേണ്ടതുണ്ടെങ്കിൽ?


കുറഞ്ഞ വിങ്സ്പാനും സംരക്ഷണ നിലയ്ക്കും ഇടയിൽ നല്ല ബന്ധമില്ലെന്ന് തോന്നുന്നു. ഈ രീതിയിൽ ഡാറ്റാസെറ്റിലെ മറ്റ് ഘടകങ്ങളും പരീക്ഷിക്കുക. നിങ്ങൾക്ക് ഏതെങ്കിലും ബന്ധം കണ്ടെത്താമോ?
മുൻപത്തെ കുറഞ്ഞ വിങ്സ്പാൻ ഡാറ്റയ്ക്കുള്ള പ്ലോട്ടിനെ പോലെ ഇത് കാണാം; ഇത് കുറച്ച് സ്മൂത്താണ്. നിങ്ങൾ രണ്ടാമത്തെ ചാർട്ടിൽ നിർമ്മിച്ച ജാഗ്ഗഡ് MaxBodyMass ലൈനിനെ സ്മൂത്ത് ആക്കാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ഈ രീതിയിൽ പുനഃസൃഷ്ടിച്ച് വളരെ നന്നായി സ്മൂത്ത് ആക്കാം:
ഇവിടെ, ഈ ഡാറ്റയുടെ അനുപാതങ്ങൾ ഈ രണ്ട് മഷ്റൂം ക്ലാസുകൾ അനുസരിച്ച് കാണിക്കുന്ന ഒരു പൈ ചാർട്ട്. ലേബലുകളുടെ ക്രമം ശരിയാണെന്ന് ഉറപ്പാക്കുന്നത് വളരെ പ്രധാനമാണ്, പ്രത്യേകിച്ച് ഇവിടെ, അതിനാൽ ലേബൽ അറേ എങ്ങനെ നിർമ്മിക്കപ്പെടുന്നു എന്ന് പരിശോധിക്കുക!
ഈ പാഠത്തിൽ, നിങ്ങൾക്ക് അനുപാതങ്ങൾ ദൃശ്യവൽക്കരിക്കുന്ന മൂന്ന് മാർഗങ്ങൾ പഠിച്ചു. ആദ്യം, ഡാറ്റയെ വിഭാഗങ്ങളായി ഗ്രൂപ്പ് ചെയ്യണം, പിന്നെ ഡാറ്റ പ്രദർശിപ്പിക്കാൻ ഏറ്റവും നല്ല മാർഗം - പൈ, ഡോണട്ട്, അല്ലെങ്കിൽ വാഫിൾ - തിരഞ്ഞെടുക്കണം. എല്ലാം രുചികരവും ഉപയോക്താവിന് dataset-ന്റെ ഉടൻ ഒരു ദൃശ്യസംഗ്രഹം നൽകുന്നതുമാണ്.
ഇപ്പോൾ, വർഷം തോറും വില എങ്ങനെ മാറിയെന്ന് കാണിക്കാൻ തേൻ നിറത്തിലുള്ള കളർ സ്കീം ഉപയോഗിച്ച് സമാന ഡാറ്റ കാണിക്കുക. വർഷം തോറും മാറ്റം കാണിക്കാൻ 'scale_color_gradientn' പാരാമീറ്റർ ചേർക്കാം:
ഈ കളർ സ്കീം മാറ്റത്തോടെ, പൗണ്ട് പ്രതി തേൻ വില വർഷം തോറും ശക്തമായി ഉയരുന്നുവെന്ന് വ്യക്തമായി കാണാം. ഡാറ്റയിൽ ഒരു സാമ്പിൾ സെറ്റ് പരിശോധിച്ചാൽ (ഉദാഹരണത്തിന്, അരിസോണ), വില വർഷം തോറും ഉയരുന്ന ഒരു പാറ്റേൺ കാണാം, കുറച്ച് ഒഴിവുകൾ കൂടെ:
ഇത് സപ്ലൈ-ഡിമാൻഡ് സാദ്ധ്യതയുള്ള ഒരു ലളിതമായ കേസ് ആണോ? കാലാവസ്ഥ മാറ്റം, കോളനി തകർച്ച തുടങ്ങിയ ഘടകങ്ങൾ കാരണം, വർഷം തോറും വാങ്ങാനുളള തേൻ കുറയുന്നുണ്ടോ, അതുകൊണ്ട് വില ഉയരുന്നുണ്ടോ?
ഈ ഡാറ്റാസെറ്റിൽ, കോളനികളുടെ എണ്ണം, അവയുടെ ഉത്പാദനം വർഷം തോറും, സംസ്ഥാനങ്ങൾ അനുസരിച്ച് പ്രത്യേകമായ ഒന്നും കാണാനില്ല. ഈ രണ്ട് വേരിയബിളുകൾ തമ്മിൽ സഹബന്ധം കണ്ടെത്താൻ മറ്റൊരു മാർഗ്ഗമുണ്ടോ?
2003-ൽ പ്രത്യേകമായി ഒന്നും കാണാനില്ലെങ്കിലും, ഈ പാഠം ഒരു സന്തോഷകരമായ നോട്ടിൽ അവസാനിപ്പിക്കാൻ സഹായിക്കുന്നു: മൊത്തം കോളനികളുടെ എണ്ണം കുറയുന്നുണ്ടെങ്കിലും, അവയുടെ എണ്ണം സ്ഥിരതയുള്ളതും, കോളനി പ്രതി ഉത്പാദനം കുറയുന്നുണ്ടെങ്കിലും.
ഒരു ഡാറ്റ സയന്റിസ്റ്റ് ശരിയായ ഡാറ്റയ്ക്ക് ശരിയായ ചാർട്ട് തിരഞ്ഞെടുക്കാൻ ശ്രദ്ധിച്ചാലും, ഡാറ്റയെ തന്നെ തകർക്കുന്ന വിധത്തിൽ ഒരു കാര്യം തെളിയിക്കാൻ ഡാറ്റ പ്രദർശിപ്പിക്കുന്ന നിരവധി മാർഗ്ഗങ്ങൾ ഉണ്ട്. വഞ്ചനാപരമായ ചാർട്ടുകളും ഇൻഫോഗ്രാഫിക്സും നിരവധി ഉദാഹരണങ്ങളുണ്ട്!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 വഞ്ചനാപരമായ ചാർട്ടുകൾക്കുറിച്ചുള്ള കോൺഫറൻസ് ടോക്കിനായി മുകളിൽ ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്യുക
ഈ ചാർട്ട് X അക്ഷം മറിച്ച് സത്യം മറിച്ച് കാണിക്കുന്നു, തീയതി അടിസ്ഥാനമാക്കി:
[ഈ ചാർട്ട്](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) കൂടുതൽ വഞ്ചനാപരമാണ്, കാരണം കണ്ണ് വലത്തേക്ക് ആകർഷിക്കപ്പെടുന്നു, കാലക്രമത്തിൽ COVID കേസുകൾ വിവിധ കൗണ്ടികളിൽ കുറയുകയാണെന്ന് നിഗമനം ചെയ്യാൻ. എന്നാൽ, തീയതികൾ സൂക്ഷ്മമായി നോക്കിയാൽ, അവ വഞ്ചനാപരമായ താഴ്ന്ന ട്രെൻഡ് നൽകാൻ പുനഃക്രമീകരിച്ചിട്ടുള്ളതായി കാണാം.
ഈ പ്രശസ്ത ഉദാഹരണം നിറവും മറിച്ച Y അക്ഷവും ഉപയോഗിച്ച് വഞ്ചന ചെയ്യുന്നു: തോക്കു-സഹായക നിയമം പാസായതിന് ശേഷം തോക്ക് മരണങ്ങൾ ഉയർന്നതായി നിഗമനം ചെയ്യേണ്ടതിനു പകരം, കണ്ണ് മറിച്ച് സത്യം തെറ്റായി കാണുന്നു:
തുല്യമായവയെ താരതമ്യം ചെയ്യുന്നത് മറ്റൊരു സംശയാസ്പദമായ തന്ത്രമാണ്. 'സ്പ്യൂറിയസ് കോറിലേഷൻസ്' എന്ന വിഷയത്തെക്കുറിച്ച് മുഴുവൻ വെബ്സൈറ്റ് [wonderful web site](https://tylervigen.com/spurious-correlations) ഉണ്ട്, മെയ്ൻയിലെ വിവാഹമോചന നിരക്കും മാർഗറിൻ ഉപഭോഗവും തമ്മിലുള്ള 'തथ്യങ്ങൾ' correlated ആയി പ്രദർശിപ്പിക്കുന്നു. Reddit ഗ്രൂപ്പ് ഡാറ്റയുടെ [അസൗന്ദര്യ ഉപയോഗങ്ങൾ](https://www.reddit.com/r/dataisugly/top/?t=all) ശേഖരിക്കുന്നു.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങളുടെ ഡാറ്റ ടെക്സ്റ്റ് ആണെങ്കിൽ, X അക്ഷ上的 വാചകം വായനാസൗകര്യത്തിനായി കോണിൽ കാണിക്കാം. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D പ്ലോട്ടിംഗ് നൽകുന്നു, നിങ്ങളുടെ ഡാറ്റ അത് പിന്തുണച്ചാൽ. അതുപയോഗിച്ച് സങ്കീർണ്ണമായ ഡാറ്റാ ദൃശ്യവത്കരണങ്ങൾ നിർമ്മിക്കാം.
ഇന്നത്തെ മികച്ച ഡാറ്റാ ദൃശ്യവത്കരണങ്ങളിൽ ചിലത് അനിമേറ്റഡ് ആണ്. Shirley Wu D3 ഉപയോഗിച്ച് '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' പോലുള്ള അത്ഭുതകരമായവ ഉണ്ടാക്കി, ഓരോ പൂവും ഒരു സിനിമയുടെ ദൃശ്യവത്കരണമാണ്. Guardian-നായി മറ്റൊരു ഉദാഹരണം 'bussed out' ആണ്, Greensock, D3 എന്നിവയുമായി സംയോജിപ്പിച്ച ഇന്ററാക്ടീവ് അനുഭവം, സ്ക്രോൾടെല്ലിംഗ് ലേഖന ഫോർമാറ്റിൽ NYC എങ്ങനെ നഗരത്തിലെ ഹോമ്ലെസ്സ് പ്രശ്നം ബസ്സിലൂടെ പുറത്തേക്ക് കൊണ്ടുപോകുന്നു എന്ന് കാണിക്കുന്നു.
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങൾ ഒരു വെബ് ആപ്പ് പൂർത്തിയാക്കും, ഇത് ഈ സോഷ്യൽ നെറ്റ്വർക്ക് അനിമേറ്റഡ് ദൃശ്യവത്കരണം പ്രദർശിപ്പിക്കും. ഇത് Vue.js, D3 ഉപയോഗിച്ച് [നെറ്റ്വർക്ക് ദൃശ്യവത്കരണം](https://github.com/emiliorizzo/vue-d3-network) സൃഷ്ടിക്കാൻ നിർമ്മിച്ച ഒരു ലൈബ്രറി ഉപയോഗിക്കുന്നു. ആപ്പ് പ്രവർത്തിക്കുമ്പോൾ, സ്ക്രീനിൽ നോഡുകൾ നീക്കി ഡാറ്റ മാറ്റാം.


> ഫോട്ടോ <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ജെന്ന ലി</a> യുടെ <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a> നിന്നാണ്
ഈ പാഠം ലൈഫ്സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു.


> ഫോട്ടോ: [ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## പിടിച്ചെടുക്കൽ
@ -97,7 +97,7 @@ CO_OP_TRANSLATOR_METADATA:
|ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP)|ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)|
|--|--|
| |  |
| |  |
| ചിത്രം: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ചിത്രം: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
> ഫോട്ടോ <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ഹെഡ്വേ</a> യുടെ <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a>
ഈ പാഠങ്ങളിൽ, ഡാറ്റ സയൻസ് ലൈഫ്സൈക്കിളിന്റെ ചില ഭാഗങ്ങൾ, ഡാറ്റ ചുറ്റിപ്പറ്റിയുള്ള വിശകലനവും ആശയവിനിമയവും ഉൾപ്പെടെ, നിങ്ങൾ അന്വേഷിക്കും.
പ്രോജക്ടുകൾ നിർമ്മിച്ച് പരീക്ഷണങ്ങൾ നടത്തുന്നത് നിങ്ങളുടെ കഴിവുകളും അറിവുകളും പരീക്ഷിക്കാൻ ഏറ്റവും നല്ല മാർഗമാണ്. ഈ പാഠത്തിൽ, ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ ഹാർട്ട് ഫെയില്യർ ആക്രമണങ്ങൾ പ്രവചിക്കുന്ന ഡാറ്റാ സയൻസ് പ്രോജക്ട് നിർമ്മിക്കുന്ന രണ്ട് വ്യത്യസ്ത മാർഗങ്ങൾ പരിശോധിക്കാം: ലോ കോഡ്/നോ കോഡ് വഴി, ആസ്യൂർ ML SDK വഴി, താഴെ കാണുന്ന സ്കീമ പ്രകാരം:
ഓരോ മാർഗത്തിനും സ്വന്തം ഗുണങ്ങളും ദോഷങ്ങളും ഉണ്ട്. ലോ കോഡ്/നോ കോഡ് വഴി GUI (ഗ്രാഫിക്കൽ യൂസർ ഇന്റർഫേസ്) ഉപയോഗിച്ച് ആരംഭിക്കാൻ എളുപ്പമാണ്, കോഡ് അറിവ് ആവശ്യമില്ല. ഈ രീതിയിൽ പ്രോജക്ടിന്റെ സാധുത വേഗത്തിൽ പരിശോധിക്കാനും POC (പ്രൂഫ് ഓഫ് കോൺസെപ്റ്റ്) സൃഷ്ടിക്കാനും കഴിയും. എന്നാൽ, പ്രോജക്ട് വളരുമ്പോൾ പ്രൊഡക്ഷൻ റെഡിയാക്കേണ്ടതുണ്ടെങ്കിൽ GUI വഴി റിസോഴ്സുകൾ സൃഷ്ടിക്കുന്നത് പ്രായോഗികമല്ല. റിസോഴ്സുകൾ സൃഷ്ടിക്കുന്നതിൽ നിന്നും മോഡൽ ഡിപ്ലോയ്മെന്റിലേക്കുള്ള എല്ലാ കാര്യങ്ങളും പ്രോഗ്രാമാറ്റിക്കായി ഓട്ടോമേറ്റ് ചെയ്യേണ്ടതുണ്ട്. ആസ്യൂർ ML SDK ഉപയോഗിക്കുന്നതിന്റെ പ്രാധാന്യം ഇവിടെ വരുന്നു.
@ -115,15 +115,15 @@ CO_OP_TRANSLATOR_METADATA:
1. നിങ്ങളുടെ ആസ്യൂർ സബ്സ്ക്രിപ്ഷനുമായി ബന്ധപ്പെട്ട മൈക്രോസോഫ്റ്റ് ക്രെഡൻഷ്യലുകൾ ഉപയോഗിച്ച് [ആസ്യൂർ പോർട്ടലിൽ](https://ms.portal.azure.com/) സൈൻ ഇൻ ചെയ്യുക.
- സൃഷ്ടിക്കുക + അവലോകനം ക്ലിക്ക് ചെയ്ത് പിന്നീട് സൃഷ്ടിക്കുക ബട്ടൺ ക്ലിക്ക് ചെയ്യുക
3. നിങ്ങളുടെ വർക്ക്സ്പേസ് സൃഷ്ടിക്കപ്പെടുന്നത് കാത്തിരിക്കുക (ചില മിനിറ്റുകൾ എടുക്കാം). ശേഷം പോർട്ടലിൽ അതിലേക്ക് പോകുക. ഇത് മെഷീൻ ലേണിംഗ് ആസ്യൂർ സേവനത്തിലൂടെ കണ്ടെത്താം.
4. നിങ്ങളുടെ വർക്ക്സ്പേസ് ഓവർവ്യൂ പേജിൽ, ആസ്യൂർ മെഷീൻ ലേണിംഗ് സ്റ്റുഡിയോ ആരംഭിക്കുക (അല്ലെങ്കിൽ പുതിയ ബ്രൗസർ ടാബ് തുറന്ന് https://ml.azure.com-ൽ പോകുക), നിങ്ങളുടെ മൈക്രോസോഫ്റ്റ് അക്കൗണ്ട് ഉപയോഗിച്ച് സൈൻ ഇൻ ചെയ്യുക. ആവശ്യമായാൽ, നിങ്ങളുടെ ആസ്യൂർ ഡയറക്ടറി, സബ്സ്ക്രിപ്ഷൻ, ആസ്യൂർ ML വർക്ക്സ്പേസ് തിരഞ്ഞെടുക്കുക.
5. ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ, ഇടത് മുകളിൽ ☰ ഐക്കൺ ടോഗിൾ ചെയ്ത് ഇന്റർഫേസ് ഉള്ള വിവിധ പേജുകൾ കാണുക. ഈ പേജുകൾ ഉപയോഗിച്ച് നിങ്ങളുടെ വർക്ക്സ്പേസ് റിസോഴ്സുകൾ നിയന്ത്രിക്കാം.
നിങ്ങൾ ആസ്യൂർ പോർട്ടൽ ഉപയോഗിച്ച് വർക്ക്സ്പേസ് നിയന്ത്രിക്കാം, എന്നാൽ ഡാറ്റാ സയന്റിസ്റ്റുകൾക്കും മെഷീൻ ലേണിംഗ് ഓപ്പറേഷൻസ് എഞ്ചിനീയർമാർക്കും, ആസ്യൂർ ML സ്റ്റുഡിയോ വർക്ക്സ്പേസ് റിസോഴ്സുകൾ നിയന്ത്രിക്കാൻ കൂടുതൽ കേന്ദ്രീകൃതമായ യൂസർ ഇന്റർഫേസ് നൽകുന്നു.
@ -193,18 +193,18 @@ Low-priority instance എന്നത് ഇടപെടാവുന്നതാ
മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, compute ലേക്ക് പോകുക, നിങ്ങൾ ഇപ്പോൾ ചർച്ച ചെയ്ത വിവിധ കംപ്യൂട്ട് റിസോഴ്സുകൾ കാണാൻ കഴിയും (ഉദാ: compute instances, compute clusters, inference clusters, attached compute). ഈ പ്രോജക്ടിനായി, മോഡൽ പരിശീലനത്തിനായി ഒരു compute cluster ആവശ്യമുണ്ട്. സ്റ്റുഡിയോയിൽ, "Compute" മെനുവിൽ ക്ലിക്ക് ചെയ്യുക, തുടർന്ന് "Compute cluster" ടാബിൽ ക്ലിക്ക് ചെയ്ത് "+ New" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് compute cluster സൃഷ്ടിക്കുക.
1. നിങ്ങളുടെ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക: Dedicated vs Low priority, CPU അല്ലെങ്കിൽ GPU, VM വലുപ്പം, കോർ എണ്ണം (ഈ പ്രോജക്ടിനായി ഡിഫോൾട്ട് സെറ്റിംഗുകൾ നിലനിർത്താം).
4. നിങ്ങളുടെ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക: കുറഞ്ഞ/പരമാവധി നോഡുകളുടെ എണ്ണം, സ്കെയിൽ ഡൗൺ ചെയ്യുന്നതിന് മുമ്പുള്ള ഐഡിൽ സെക്കൻഡുകൾ, SSH ആക്സസ്. കുറഞ്ഞ നോഡുകളുടെ എണ്ണം 0 ആണെങ്കിൽ, ക്ലസ്റ്റർ ഐഡിൽ ആയപ്പോൾ പണം ലാഭിക്കും. പരമാവധി നോഡുകളുടെ എണ്ണം കൂടുതലായാൽ പരിശീലനം കുറച്ച് സമയം എടുക്കും. പരമാവധി നോഡുകളുടെ ശുപാർശ 3 ആണ്.
5. "Create" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം കുറച്ച് മിനിറ്റുകൾ എടുക്കാം.
അദ്ഭുതം! ഇപ്പോൾ ഒരു Compute cluster ഉണ്ടാകുമ്പോൾ, ഡാറ്റ Azure ML Studio-യിൽ ലോഡ് ചെയ്യേണ്ടതാണ്.
@ -212,15 +212,15 @@ Low-priority instance എന്നത് ഇടപെടാവുന്നതാ
1. മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, ഇടത് മെനുവിൽ "Datasets" ക്ലിക്ക് ചെയ്ത് "+ Create dataset" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് ഒരു dataset സൃഷ്ടിക്കുക. "From local files" ഓപ്ഷൻ തിരഞ്ഞെടുക്കുക, മുൻപ് ഡൗൺലോഡ് ചെയ്ത Kaggle dataset തിരഞ്ഞെടുക്കുക.
3. Schema-യിൽ, താഴെപ്പറയുന്ന ഫീച്ചറുകൾക്ക് ഡാറ്റ ടൈപ്പ് Boolean ആയി മാറ്റുക: anaemia, diabetes, high blood pressure, sex, smoking, DEATH_EVENT. Next ക്ലിക്ക് ചെയ്ത് Create ക്ലിക്ക് ചെയ്യുക.
1. മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, ഇടത് മെനുവിൽ "Automated ML" ക്ലിക്ക് ചെയ്ത് നിങ്ങൾ അപ്ലോഡ് ചെയ്ത dataset തിരഞ്ഞെടുക്കുക. Next ക്ലിക്ക് ചെയ്യുക.
ഇവിടെ AutoML സൃഷ്ടിച്ച മികച്ച മോഡലിന്റെ വിശദമായ വിവരണം കാണാം. Models ടാബിൽ മറ്റ് മോഡലുകളും പരിശോധിക്കാം. Explanations (preview ബട്ടൺ) ൽ മോഡലുകൾ പരിശോധിക്കാൻ കുറച്ച് സമയം ചെലവഴിക്കുക. നിങ്ങൾ ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്ന മോഡൽ തിരഞ്ഞെടുക്കുമ്പോൾ (ഇവിടെ AutoML തിരഞ്ഞെടുത്ത മികച്ച മോഡൽ തിരഞ്ഞെടുക്കും), അതിനെ എങ്ങനെ വിന്യസിക്കാമെന്ന് കാണാം.
@ -254,15 +254,15 @@ Automated machine learning ഇന്റർഫേസ് മികച്ച മോ
മികച്ച മോഡൽ വിവരണത്തിൽ "Deploy" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
15. ഒരു പേര്, വിവരണം, കംപ്യൂട്ട് തരം (Azure Container Instance), authentication സജ്ജമാക്കുക, Deploy ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം പൂർത്തിയാകാൻ ഏകദേശം 20 മിനിറ്റ് എടുക്കാം. വിന്യാസ പ്രക്രിയയിൽ മോഡൽ രജിസ്റ്റർ ചെയ്യൽ, റിസോഴ്സുകൾ സൃഷ്ടിക്കൽ, വെബ് സേവനത്തിനായി അവ ക്രമീകരിക്കൽ ഉൾപ്പെടുന്നു. Deploy status കീഴിൽ സ്റ്റാറ്റസ് സന്ദേശം കാണാം. സ്റ്റാറ്റസ് "Healthy" ആണെങ്കിൽ വിന്യസിച്ചും പ്രവർത്തിക്കുന്നുമാണ്.
16. വിന്യസിച്ച ശേഷം, Endpoint ടാബിൽ ക്ലിക്ക് ചെയ്ത് നിങ്ങൾ വിന്യസിച്ച എൻഡ്പോയിന്റ് തിരഞ്ഞെടുക്കുക. ഇവിടെ എൻഡ്പോയിന്റ് സംബന്ധിച്ച എല്ലാ വിവരങ്ങളും കാണാം.
[മുൻപത്തെ പാഠത്തിൽ](../18-Low-Code/README.md) നാം ലോ കോഡ്/നോ കോഡ് രീതിയിൽ മോഡൽ പരിശീലിപ്പിക്കുകയും വിന്യസിക്കുകയും ഉപയോഗിക്കുകയും ചെയ്തിരുന്നു. ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച് ഹാർട്ട് ഫെയില്യർ പ്രവചന മോഡൽ സൃഷ്ടിച്ചു. ഈ പാഠത്തിൽ, നാം അതേ പ്രവർത്തി Azure Machine Learning SDK ഉപയോഗിച്ച് ചെയ്യാൻ പോകുന്നു.
> ഫോട്ടോ [Jelleke Vanooteghem](https://unsplash.com/@ilumire) യുടെ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) ൽ നിന്നാണ്
വലിയ ഡാറ്റയുമായി ഡാറ്റാ സയൻസ് ചെയ്യുമ്പോൾ, ക്ലൗഡ് ഒരു ഗെയിം ചേഞ്ചർ ആകാം. അടുത്ത മൂന്ന് പാഠങ്ങളിൽ, ക്ലൗഡ് എന്താണെന്നും അത് എങ്ങനെ സഹായകരമാകാമെന്നും നാം കാണാൻ പോകുന്നു. ഹൃദയ പരാജയ ഡാറ്റാസെറ്റ് പരിശോധിച്ച്, ആരെങ്കിലും ഹൃദയ പരാജയ സാധ്യതയുള്ളതെന്ന് വിലയിരുത്താൻ സഹായിക്കുന്ന ഒരു മോഡൽ നിർമ്മിക്കാനും നാം പോകുന്നു. മോഡൽ പരിശീലിപ്പിക്കാൻ, വിന്യസിക്കാൻ, ഉപയോഗിക്കാൻ ക്ലൗഡിന്റെ ശക്തി ഉപയോഗിക്കും. ഒരു വഴി കുറഞ്ഞ കോഡ്/കോഡ് ഇല്ലാത്ത രീതിയിൽ മാത്രം ഉപയോക്തൃ ഇന്റർഫേസ് ഉപയോഗിച്ച്, മറ്റൊരു വഴി Azure മെഷീൻ ലേണിംഗ് സോഫ്റ്റ്വെയർ ഡെവലപ്പർ കിറ്റ് (Azure ML SDK) ഉപയോഗിച്ച്.
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - മെഡിക്കൽ ഇമേജിംഗ് (MRI, X-Ray, CT-സ്കാൻ), ജീനോമിക്സ് (DNA സീക്വൻസിംഗ്), മരുന്ന് വികസനം (റിസ്ക് വിലയിരുത്തൽ, വിജയ പ്രവചന), പ്രവചനാത്മക വിശകലനം (രോഗി പരിചരണം & വിതരണ ലജിസ്റ്റിക്സ്), രോഗം ട്രാക്കിംഗ് & പ്രതിരോധം തുടങ്ങിയ പ്രയോഗങ്ങൾ ഹൈലൈറ്റ് ചെയ്യുന്നു.
 ചിത്രം ക്രെഡിറ്റ്: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 ചിത്രം ക്രെഡിറ്റ്: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
ചിത്രം ഡാറ്റാ സയൻസ് സാങ്കേതിക വിദ്യകൾ പ്രയോഗിക്കാവുന്ന മറ്റ് മേഖലകളും ഉദാഹരണങ്ങളും കാണിക്കുന്നു. മറ്റ് പ്രയോഗങ്ങൾ അന്വേഷിക്കണോ? താഴെയുള്ള [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) വിഭാഗം പരിശോധിക്കുക.
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് ചേർക്കുക: ``
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് ചേർക്കുക: ``
- വരി നീളം യുക്തമായിരിക്കണം (ഏകദേശം 80-100 അക്ഷരങ്ങൾ)
| ബെഗിന്നർമാർക്കുള്ള ഡാറ്റാ സയൻസ് - _സ്കെച്നോട്ട് — [@nitya](https://twitter.com/nitya)_ |
@ -47,7 +47,7 @@ Microsoft-യിലെ Azure Cloud Advocates-കൾ ഡാറ്റാ സയൻ
ഞങ്ങളുടേത് Discord-ൽ "Learn with AI" സീരീസ ongoing ആണ്, കൂടുതൽ അറിയാനും പങ്കുചേരാനുമായി [Learn with AI Series](https://aka.ms/learnwithai/discord)ൽ 2025 സെപ്റ്റംബർ 18 മുതൽ 30 വരെ. നിങ്ങള്ക്ക് GitHub Copilot ഡാറ്റാ സയൻസിന് ഉപയോഗിക്കുന്നതിന്റെ ടിപ്പുകൾക്കും ട്രിക്കുകൾക്കും ലഭിക്കും.


# നിങ്ങൾ വിദ്യാർത്ഥിയാണോ?
@ -127,7 +127,7 @@ Microsoft-യിലെ Azure Cloud Advocates-കൾ ഡാറ്റാ സയൻ
> 「Bussed Out: How America Moves its Homeless」來自[衛報](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study)。視覺化由 Nadieh Bremer 和 Shirley Wu 創作