chore(i18n): sync translations with latest source changes (chunk 2/8, 641 changes)

pull/727/head
localizeflow[bot] 2 weeks ago
parent 002600ec7c
commit ab59922f29

File diff suppressed because it is too large Load Diff

@ -93,7 +93,7 @@ plt.show()
```
ಇದು, ಈ ಎರಡು ಮುಷ್ರೂಮ್ ವರ್ಗಗಳ ಪ್ರಕಾರ ಈ ಡೇಟಾದ ಪ್ರಮಾಣಗಳನ್ನು ತೋರಿಸುವ ಪೈ ಚಾರ್ಟ್. ಲೇಬಲ್‌ಗಳ ಕ್ರಮವನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದು ಬಹಳ ಮುಖ್ಯ, ವಿಶೇಷವಾಗಿ ಇಲ್ಲಿ, ಆದ್ದರಿಂದ ಲೇಬಲ್ ಅರೆ ಅನ್ನು ರಚಿಸುವ ಕ್ರಮವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ!
![pie chart](../../../../translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.kn.png)
![pie chart](../../../../translated_images/kn/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.png)
## ಡೋನಟ್ಸ್!
@ -123,7 +123,7 @@ plt.title('Mushroom Habitats')
plt.show()
```
![donut chart](../../../../translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.kn.png)
![donut chart](../../../../translated_images/kn/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.png)
ಈ ಕೋಡ್ ಒಂದು ಚಾರ್ಟ್ ಮತ್ತು ಮಧ್ಯದ ವೃತ್ತವನ್ನು ರಚಿಸುತ್ತದೆ, ನಂತರ ಆ ಮಧ್ಯದ ವೃತ್ತವನ್ನು ಚಾರ್ಟ್‌ನಲ್ಲಿ ಸೇರಿಸುತ್ತದೆ. ಮಧ್ಯದ ವೃತ್ತದ ಅಗಲವನ್ನು `0.40` ಅನ್ನು ಬೇರೆ ಮೌಲ್ಯಕ್ಕೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ ಸಂಪಾದಿಸಬಹುದು.
@ -171,7 +171,7 @@ fig = plt.figure(
ವಾಫಲ್ ಚಾರ್ಟ್ ಬಳಸಿ, ನೀವು ಈ ಮುಷ್ರೂಮ್ ಡೇಟಾಸೆಟ್‌ನ ಕ್ಯಾಪ್ ಬಣ್ಣಗಳ ಪ್ರಮಾಣಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ನೋಡಬಹುದು. ಆಸಕ್ತಿದಾಯಕವಾಗಿ, ಇಲ್ಲಿ ಹಲವಾರು ಹಸಿರು ಕ್ಯಾಪ್ ಮುಷ್ರೂಮ್ಗಳು ಇವೆ!
![waffle chart](../../../../translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.kn.png)
![waffle chart](../../../../translated_images/kn/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.png)
✅ Pywaffle ಚಾರ್ಟ್‌ಗಳಲ್ಲಿ [Font Awesome](https://fontawesome.com/) ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಯಾವುದೇ ಐಕಾನ್‌ಗಳನ್ನು ಬಳಸುವ ಐಕಾನ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಚೌಕಗಳ ಬದಲು ಐಕಾನ್‌ಗಳನ್ನು ಬಳಸಿ ಇನ್ನಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ವಾಫಲ್ ಚಾರ್ಟ್ ರಚಿಸಲು ಪ್ರಯೋಗ ಮಾಡಿ.

@ -51,7 +51,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.kn.png)
![scatterplot 1](../../../../translated_images/kn/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
ಈಗ, ವರ್ಷಗಳ ಪ್ರಗತಿಯನ್ನು ತೋರಿಸಲು ಜೇನುತುಪ್ಪ ಬಣ್ಣದ ಯೋಜನೆಯನ್ನು ಬಳಸಿ ಅದೇ ಡೇಟಾವನ್ನು ತೋರಿಸಿ. ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬದಲಾವಣೆಯನ್ನು ತೋರಿಸಲು 'hue' ಪರಿಮಾಣವನ್ನು ಸೇರಿಸಬಹುದು:
@ -60,7 +60,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.kn.png)
![scatterplot 2](../../../../translated_images/kn/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
ಈ ಬಣ್ಣ ಯೋಜನೆಯ ಬದಲಾವಣೆಯಿಂದ, ಜೇನುತುಪ್ಪ ಬೆಲೆ ಪ್ರತಿ ಪೌಂಡ್ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚುತ್ತಿರುವುದು ಕಾಣುತ್ತದೆ. ನಿಜವಾಗಿಯೂ, ಡೇಟಾದ ಒಂದು ಮಾದರಿ ಸೆಟ್ (ಉದಾಹರಣೆಗೆ, ಅರಿಜೋನಾ ರಾಜ್ಯ) ನೋಡಿದರೆ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬೆಲೆ ಏರಿಕೆಯ ಮಾದರಿಯನ್ನು ಕೆಲವು ಅಪವಾದಗಳೊಂದಿಗೆ ಕಾಣಬಹುದು:
@ -89,7 +89,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
ನೀವು ಬಿಂದುಗಳ ಗಾತ್ರ ಕ್ರಮೇಣ ಹೆಚ್ಚುತ್ತಿರುವುದನ್ನು ಕಾಣಬಹುದು.
![scatterplot 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.kn.png)
![scatterplot 3](../../../../translated_images/kn/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
ಇದು ಸರಳ ಸರಬರಾಜು ಮತ್ತು ಬೇಡಿಕೆ ಪ್ರಕರಣವೇ? ಹವಾಮಾನ ಬದಲಾವಣೆ ಮತ್ತು ಕಾಲೋನಿ ಕಾಲಾಪ್ಸ್ ಮುಂತಾದ ಕಾರಣಗಳಿಂದ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಕಡಿಮೆ ಜೇನುತುಪ್ಪ ಲಭ್ಯವಿದೆಯೇ, ಆದ್ದರಿಂದ ಬೆಲೆ ಏರಿಕೆಯಾಗುತ್ತಿದೆಯೇ?
@ -104,7 +104,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
ಉತ್ತರ: ಹೌದು, 2003 ರ ಸುತ್ತಲೂ ಕೆಲವು ಅಪವಾದಗಳೊಂದಿಗೆ:
![line chart 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.kn.png)
![line chart 1](../../../../translated_images/kn/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
✅ Seaborn ಒಂದು ಲೈನ್ ಸುತ್ತಲೂ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದರಿಂದ, "ಪ್ರತಿ x ಮೌಲ್ಯದ ಮೇಲೆ ಹಲವಾರು ಅಳೆಯುವಿಕೆಗಳನ್ನು ಸರಾಸರಿ ಮತ್ತು ಸರಾಸರಿಯ ಸುತ್ತಲೂ 95% ವಿಶ್ವಾಸಾಂಶವನ್ನು ಪ್ಲಾಟ್ ಮಾಡುತ್ತದೆ". [ಮೂಲ](https://seaborn.pydata.org/tutorial/relational.html). ಈ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುವ ವರ್ತನೆಯನ್ನು `ci=None` ಸೇರಿಸುವ ಮೂಲಕ ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಬಹುದು.
@ -114,7 +114,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.kn.png)
![line chart 2](../../../../translated_images/kn/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
ಉತ್ತರ: ಅಲ್ಲ. ಒಟ್ಟು ಉತ್ಪಾದನೆ ನೋಡಿದರೆ, ಆ ವಿಶೇಷ ವರ್ಷದಲ್ಲಿ ಅದು ಹೆಚ್ಚಿದಂತೆ ತೋರುತ್ತದೆ, ಆದರೂ ಸಾಮಾನ್ಯವಾಗಿ ಈ ವರ್ಷಗಳಲ್ಲಿ ಜೇನುತುಪ್ಪ ಉತ್ಪಾದನೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
@ -139,7 +139,7 @@ sns.relplot(
```
ಈ ದೃಶ್ಯೀಕರಣದಲ್ಲಿ, ನೀವು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಪ್ರತಿ ಕಾಲೋನಿಯ ಉತ್ಪಾದನೆಯನ್ನು ಹೋಲಿಸಬಹುದು, ಕಾಲಮ್‌ಗಳಿಗೆ 3 ರಲ್ಲಿ ರ್ಯಾಪ್ ಹೊಂದಿಸಿ:
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.kn.png)
![facet grid](../../../../translated_images/kn/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
ಈ ಡೇಟಾಸೆಟ್‌ಗೆ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆ ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ ವಿಶೇಷವಾಗಿ ಹೊರಹೊಮ್ಮುವುದಿಲ್ಲ. ಈ ಎರಡು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬೇರೆ ವಿಧಾನವಿದೆಯೇ?
@ -162,7 +162,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.kn.png)
![superimposed plots](../../../../translated_images/kn/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
2003 ರ ಸುತ್ತಲೂ ಯಾವುದೇ ಸ್ಪಷ್ಟ ಬದಲಾವಣೆ ಕಾಣಿಸದಿದ್ದರೂ, ಈ ಪಾಠವನ್ನು ಸ್ವಲ್ಪ ಸಂತೋಷಕರವಾಗಿ ಮುಗಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ: ಒಟ್ಟು ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯಾದರೂ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಸ್ಥಿರವಾಗುತ್ತಿದೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆ ಪ್ರತಿ ಕಾಲೋನಿಗೂ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.

@ -47,25 +47,25 @@ CO_OP_TRANSLATOR_METADATA:
ಒಂದು ಡೇಟಾ ವಿಜ್ಞಾನಿ ಸರಿಯಾದ ಡೇಟಾಗೆ ಸರಿಯಾದ ಚಾರ್ಟ್ ಆಯ್ಕೆಮಾಡಿದರೂ ಸಹ, ಡೇಟಾವನ್ನು ತೋರಿಸುವ ಹಲವು ಮಾರ್ಗಗಳಿವೆ, ಅವು ಡೇಟಾವನ್ನು ಹಾಳುಮಾಡುವ ಬೆಲೆಗಾಗಿ ಒಂದು ವಿಷಯವನ್ನು ಸಾಬೀತುಪಡಿಸಲು. ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳು ಮತ್ತು ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್‌ಗಳ ಅನೇಕ ಉದಾಹರಣೆಗಳಿವೆ!
[![ಅಲ್ಬೆರ್ಟೋ ಕೈರೋ ಅವರ "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ"](../../../../translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.kn.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
[![ಅಲ್ಬೆರ್ಟೋ ಕೈರೋ ಅವರ "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ"](../../../../translated_images/kn/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
> 🎥 ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳ ಬಗ್ಗೆ ಸಮ್ಮೇಳನ ಮಾತುಕತೆಗಾಗಿ
ಈ ಚಾರ್ಟ್ X ಅಕ್ಷವನ್ನು ತಿರುಗಿಸಿ ಸತ್ಯದ ವಿರುದ್ಧ ತೋರಿಸುತ್ತದೆ, ದಿನಾಂಕ ಆಧಾರಿತವಾಗಿ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 1](../../../../translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.kn.png)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 1](../../../../translated_images/kn/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.png)
[ಈ ಚಾರ್ಟ್](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ಇನ್ನೂ ಹೆಚ್ಚು ಮೋಸಮಯವಾಗಿದೆ, ಕಣ್ಣು ಬಲಕ್ಕೆ ಸೆಳೆಯುತ್ತದೆ ಮತ್ತು ಸಮಯದೊಂದಿಗೆ COVID ಪ್ರಕರಣಗಳು ವಿವಿಧ ಜಿಲ್ಲೆಗಳಲ್ಲಿ ಕಡಿಮೆಯಾಗಿವೆ ಎಂದು ತೀರ್ಮಾನಿಸುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ದಿನಾಂಕಗಳನ್ನು ಗಮನದಿಂದ ನೋಡಿದರೆ, ಅವು ಮೋಸಮಯ ಇಳಿಜಾರಿನ ಪ್ರವೃತ್ತಿಯನ್ನು ನೀಡಲು ಮರುಕ್ರಮಿಸಲಾಗಿದೆ.
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 2](../../../../translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.kn.jpg)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 2](../../../../translated_images/kn/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.jpg)
ಈ ಪ್ರಸಿದ್ಧ ಉದಾಹರಣೆ ಬಣ್ಣ ಮತ್ತು ತಿರುಗಿದ Y ಅಕ್ಷವನ್ನು ಬಳಸಿಕೊಂಡು ಮೋಸ ಮಾಡುತ್ತದೆ: ಗನ್-ಸ್ನೇಹಿ ಕಾನೂನುಗಳ ಅಂಗೀಕಾರದ ನಂತರ ಗನ್ ಸಾವುಗಳು ಏರಿಕೆಯಾಗಿವೆ ಎಂದು ತೀರ್ಮಾನಿಸುವ ಬದಲು, ಕಣ್ಣು ವಿರುದ್ಧವನ್ನು ನಂಬುವಂತೆ ಮೋಸ ಮಾಡುತ್ತದೆ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 3](../../../../translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.kn.jpg)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 3](../../../../translated_images/kn/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.jpg)
ಈ ವಿಚಿತ್ರ ಚಾರ್ಟ್ ಅನುಪಾತವನ್ನು ಹೇಗೆ ಮ್ಯಾನಿಪ್ಯುಲೇಟ್ ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ಹಾಸ್ಯಾಸ್ಪದ ಪರಿಣಾಮದೊಂದಿಗೆ ತೋರಿಸುತ್ತದೆ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 4](../../../../translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.kn.jpg)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 4](../../../../translated_images/kn/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.jpg)
ತೋಲಿಸಲಾಗದ ವಸ್ತುಗಳನ್ನು ಹೋಲಿಸುವುದು ಇನ್ನೊಂದು ಅನುಮಾನಾಸ್ಪದ ತಂತ್ರ. 'ಸ್ಪ್ಯೂರಿಯಸ್ ಕೊರಿಲೇಶನ್ಸ್' ಬಗ್ಗೆ ಸಂಪೂರ್ಣ ವೆಬ್‌ಸೈಟ್ ಇದೆ, ಇದು ಮೇನ್‌ನ ವಿಚ್ಛೇದನ ದರ ಮತ್ತು ಮಾರ್ಗರಿನ್ ಸೇವನೆ ಮುಂತಾದ ವಿಷಯಗಳನ್ನು ಹೊಂದಿರುವ 'ತಥ್ಯಗಳನ್ನು' ತೋರಿಸುತ್ತದೆ. ರೆಡಿಟ್ ಗುಂಪು ಕೂಡ ಡೇಟಾ ಬಳಕೆಯ [ಕಿರುಕುಳಗಳನ್ನು](https://www.reddit.com/r/dataisugly/top/?t=all) ಸಂಗ್ರಹಿಸುತ್ತದೆ.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
ನಿಮ್ಮ ಡೇಟಾ ಪಠ್ಯರೂಪದಲ್ಲಿದ್ದರೆ ಮತ್ತು X ಅಕ್ಷದಲ್ಲಿ ಬಹುಶಃVerbose ಆಗಿದ್ದರೆ, ಓದಲು ಸುಲಭವಾಗಲು ಪಠ್ಯವನ್ನು ತಿರುಗಿಸಬಹುದು. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) 3D ಪ್ಲಾಟಿಂಗ್ ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ನಿಮ್ಮ ಡೇಟಾ ಅದನ್ನು ಬೆಂಬಲಿಸಿದರೆ. ಸುಧಾರಿತ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳನ್ನು `mpl_toolkits.mplot3d` ಬಳಸಿ ಉತ್ಪಾದಿಸಬಹುದು.
![3D ಪ್ಲಾಟ್‌ಗಳು](../../../../translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.kn.png)
![3D ಪ್ಲಾಟ್‌ಗಳು](../../../../translated_images/kn/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.png)
## ಅನಿಮೇಶನ್ ಮತ್ತು 3D ಚಾರ್ಟ್ ಪ್ರದರ್ಶನ
ಇಂದಿನ ಅತ್ಯುತ್ತಮ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳಲ್ಲಿ ಕೆಲವು ಅನಿಮೇಟೆಡ್ ಆಗಿವೆ. ಶಿರ್ಲಿ ವು D3 ಬಳಸಿ ಅದ್ಭುತವಾದವುಗಳನ್ನು ಮಾಡಿದ್ದಾಳೆ, ಉದಾಹರಣೆಗೆ '[ಫಿಲ್ಮ್ ಫ್ಲವರ್ಸ್](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ಇಲ್ಲಿ ಪ್ರತಿ ಹೂವು ಒಂದು ಚಲನಚಿತ್ರದ ದೃಶ್ಯೀಕರಣವಾಗಿದೆ. ಇನ್ನೊಂದು ಉದಾಹರಣೆ ಗಾರ್ಡಿಯನ್‌ನ 'ಬಸ್ಸ್ಡ್ ಔಟ್', ಇದು ಗ್ರೀನ್ಸಾಕ್ ಮತ್ತು D3 ಜೊತೆಗೆ ಸ್ಕ್ರೋಲಿಟೆಲಿಂಗ್ ಲೇಖನ ಫಾರ್ಮ್ಯಾಟ್ ಅನ್ನು ಸಂಯೋಜಿಸಿ NYC ತನ್ನ ಬಡವರ ಸಮಸ್ಯೆಯನ್ನು ಬಸ್ಸಿಂಗ್ ಮೂಲಕ ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುವ ಇಂಟರಾಕ್ಟಿವ್ ಅನುಭವ.
![ಬಸ್ಸಿಂಗ್](../../../../translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.kn.png)
![ಬಸ್ಸಿಂಗ್](../../../../translated_images/kn/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.png)
> "ಬಸ್ಸ್ಡ್ ಔಟ್: ಅಮೆರಿಕ ತನ್ನ ಬಡವರನ್ನು ಹೇಗೆ ಸಾಗಿಸುತ್ತದೆ" [ಗಾರ್ಡಿಯನ್](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) ನಿಂದ. ದೃಶ್ಯೀಕರಣಗಳು ನಾಡಿಯೆ ಬ್ರೆಮರ್ ಮತ್ತು ಶಿರ್ಲಿ ವು ಅವರಿಂದ
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
ನೀವು ಈ ಸಾಮಾಜಿಕ ಜಾಲತಾಣದ ಅನಿಮೇಟೆಡ್ ವೀಕ್ಷಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸುವ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಪೂರ್ಣಗೊಳಿಸುವಿರಿ. ಇದು Vue.js ಮತ್ತು D3 ಬಳಸಿ [ಜಾಲತಾಣದ ದೃಶ್ಯ](https://github.com/emiliorizzo/vue-d3-network) ರಚಿಸಲು ನಿರ್ಮಿಸಲಾದ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್ ಚಾಲನೆಯಲ್ಲಿದ್ದಾಗ, ನೀವು ಡೇಟಾವನ್ನು ಮರುಕ್ರಮಿಸಲು ಪರದೆ ಮೇಲೆ ನೋಡ್‌ಗಳನ್ನು ಎಳೆಯಬಹುದು.
![ಲಿಯಾಸನ್ಸ್](../../../../translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.kn.png)
![ಲಿಯಾಸನ್ಸ್](../../../../translated_images/kn/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.png)
## ಪ್ರಾಜೆಕ್ಟ್: D3.js ಬಳಸಿ ಜಾಲತಾಣವನ್ನು ತೋರಿಸಲು ಚಾರ್ಟ್ ನಿರ್ಮಿಸಿ

@ -66,7 +66,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ಇಲ್ಲಿ, ನೀವು `ggplot2` ಪ್ಯಾಕೇಜ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿ ನಂತರ `library("ggplot2")` ಕಮಾಂಡ್ ಬಳಸಿ ವರ್ಕ್‌ಸ್ಪೇಸ್‌ಗೆ ಆಮದುಮಾಡುತ್ತೀರಿ. ggplot ನಲ್ಲಿ ಯಾವುದೇ ಪ್ಲಾಟ್ ರಚಿಸಲು `ggplot()` ಫಂಕ್ಷನ್ ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ಡೇಟಾಸೆಟ್, x ಮತ್ತು y ಚರಗಳನ್ನು ಗುಣಲಕ್ಷಣಗಳಾಗಿ ಸೂಚಿಸಲಾಗುತ್ತದೆ. ಈ ಪ್ರಕರಣದಲ್ಲಿ, ನಾವು ರೇಖಾ ಪ್ಲಾಟ್ ರಚಿಸಲು `geom_line()` ಫಂಕ್ಷನ್ ಬಳಸುತ್ತೇವೆ.
![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.kn.png)
![MaxWingspan-lineplot](../../../../../translated_images/kn/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
ನೀವು ತಕ್ಷಣವೇ ಏನು ಗಮನಿಸುತ್ತೀರಿ? ಕನಿಷ್ಠ ಒಂದು ಹೊರಗಿನ ಮೌಲ್ಯವಿದೆ - ಅದು ತುಂಬಾ ದೊಡ್ಡ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ! 2000+ ಸೆಂ.ಮೀ. ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿ 20 ಮೀಟರ್‌ಗಿಂತ ಹೆಚ್ಚು - ಮಿನೆಸೋಟಾದಲ್ಲಿ ಪ್ಟೆರೋಡ್ಯಾಕ್ಟೈಲ್ಸ್ ಓಡಾಡುತ್ತಿವೆಯೇ? ಪರಿಶೀಲಿಸೋಣ.
@ -84,7 +84,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ನಾವು `theme` ನಲ್ಲಿ ಕೋನವನ್ನು ಸೂಚಿಸುತ್ತೇವೆ ಮತ್ತು `xlab()` ಮತ್ತು `ylab()` ನಲ್ಲಿ ಕ್ರಮವಾಗಿ x ಮತ್ತು y ಅಕ್ಷದ ಲೇಬಲ್ಗಳನ್ನು ನಿಗದಿಪಡಿಸುತ್ತೇವೆ. `ggtitle()` ಗ್ರಾಫ್/ಪ್ಲಾಟ್‌ಗೆ ಹೆಸರು ನೀಡುತ್ತದೆ.
![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.kn.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/kn/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
ಲೇಬಲ್ಗಳ ತಿರುಗುವಿಕೆಯನ್ನು 45 ಡಿಗ್ರಿ ಗೆ ಹೊಂದಿಸಿದರೂ, ಓದಲು ತುಂಬಾ ಹೆಚ್ಚು ಇದೆ. ಬೇರೆ ತಂತ್ರವನ್ನು ಪ್ರಯತ್ನಿಸೋಣ: ಹೊರಗಿನ ಮೌಲ್ಯಗಳಿಗೆ ಮಾತ್ರ ಲೇಬಲ್ಗಳನ್ನು ನೀಡಿ ಮತ್ತು ಲೇಬಲ್ಗಳನ್ನು ಚಾರ್ಟ್ ಒಳಗೆ ಸೆಟ್ ಮಾಡಿ. ಲೇಬಲಿಂಗ್‌ಗೆ ಹೆಚ್ಚು ಜಾಗ ಮಾಡಲು ಸ್ಕ್ಯಾಟರ್ ಚಾರ್ಟ್ ಬಳಸಬಹುದು:
@ -100,7 +100,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
ನೀವು ಏನು ಕಂಡುಹಿಡಿದಿರಿ?
![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.kn.png)
![MaxWingspan-scatterplot](../../../../../translated_images/kn/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
## ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಿ
@ -119,7 +119,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
ನಾವು ಹೊಸ ಡೇಟಾಫ್ರೇಮ್ `birds_filtered` ರಚಿಸಿ ನಂತರ ಸ್ಕ್ಯಾಟರ್ ಪ್ಲಾಟ್ ರಚಿಸಿದ್ದೇವೆ. ಹೊರಗಿನ ಮೌಲ್ಯಗಳನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಿದ ನಂತರ, ನಿಮ್ಮ ಡೇಟಾ ಈಗ ಹೆಚ್ಚು ಸಮ್ಮಿಲಿತ ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದಾಗಿದೆ.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.kn.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/kn/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
ಈಗ ರೆಕ್ಕೆ ವ್ಯಾಪ್ತಿಯ ದೃಷ್ಟಿಯಿಂದ ಸ್ವಚ್ಛವಾದ ಡೇಟಾಸೆಟ್ ಇದ್ದು, ಈ ಪಕ್ಷಿಗಳ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳೋಣ.
@ -159,7 +159,7 @@ birds_filtered %>% group_by(Category) %>%
```
ಕೆಳಗಿನ ಸ্নಿಪೆಟ್‌ನಲ್ಲಿ, ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಶನ್ ಮತ್ತು ಗುಂಪು ಮಾಡಲು ಸಹಾಯ ಮಾಡುವ [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ಮತ್ತು [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) ಪ್ಯಾಕೇಜ್‌ಗಳನ್ನು ಸ್ಥಾಪಿಸುತ್ತೇವೆ. ಮೊದಲು, ನೀವು ಪಕ್ಷಿಯ `Category` ಮೂಲಕ ಡೇಟಾವನ್ನು ಗುಂಪುಮಾಡಿ ನಂತರ `MinLength`, `MaxLength`, `MinBodyMass`, `MaxdyMass`, `MinWingspan`, `MaxWingspan` ಕಾಲಮ್‌ಗಳನ್ನು ಸಾರಾಂಶಗೊಳಿಸುತ್ತೀರಿ. ನಂತರ, `ggplot2` ಪ್ಯಾಕೇಜ್ ಬಳಸಿ ಬಾರ್ ಚಾರ್ಟ್ ಅನ್ನು ಪ್ಲಾಟ್ ಮಾಡಿ ವಿಭಿನ್ನ ವರ್ಗಗಳಿಗೆ ಬಣ್ಣಗಳನ್ನು ಮತ್ತು ಲೇಬಲ್ಗಳನ್ನು ಸೂಚಿಸುತ್ತೀರಿ.
![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.kn.png)
![Stacked bar chart](../../../../../translated_images/kn/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
ಈ ಬಾರ್ ಚಾರ್ಟ್ ಓದಲು ಅಸಾಧ್ಯವಾಗಿದೆ ಏಕೆಂದರೆ ಅತಿಯಾದ ಗುಂಪುಮಾಡದ ಡೇಟಾ ಇದೆ. ನೀವು ಪ್ಲಾಟ್ ಮಾಡಲು ಬಯಸುವ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಆಯ್ಕೆಮಾಡಬೇಕು, ಆದ್ದರಿಂದ ಪಕ್ಷಿಗಳ ಉದ್ದವನ್ನು ಅವುಗಳ ವರ್ಗದ ಆಧಾರದ ಮೇಲೆ ನೋಡೋಣ.
@ -174,7 +174,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
ಮೊದಲು ನೀವು `Category` ಕಾಲಮ್‌ನ ವಿಶಿಷ್ಟ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸಿ ನಂತರ ಅವುಗಳನ್ನು ಹೊಸ ಡೇಟಾಫ್ರೇಮ್ `birds_count` ಗೆ ಸರಿಸುಮಾರು ಮಾಡುತ್ತೀರಿ. ಈ ಸರಿಗೊಳಿಸಿದ ಡೇಟಾವನ್ನು ಅದೇ ಮಟ್ಟದಲ್ಲಿ ಫ್ಯಾಕ್ಟರ್ ಮಾಡಿ ಆದ್ದರಿಂದ ಅದು ಸರಿಗೊಳಿಸಿದ ರೀತಿಯಲ್ಲಿ ಪ್ಲಾಟ್ ಆಗುತ್ತದೆ. ನಂತರ `ggplot2` ಬಳಸಿ ಬಾರ್ ಚಾರ್ಟ್ ರಚಿಸುತ್ತೀರಿ. `coord_flip()` ಹೋರಿಜಾಂಟಲ್ ಬಾರ್‌ಗಳನ್ನು ಪ್ಲಾಟ್ ಮಾಡುತ್ತದೆ.
![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.kn.png)
![category-length](../../../../../translated_images/kn/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
ಈ ಬಾರ್ ಚಾರ್ಟ್ ಪ್ರತಿ ವರ್ಗದಲ್ಲಿನ ಪಕ್ಷಿಗಳ ಸಂಖ್ಯೆಯ ಉತ್ತಮ ದೃಶ್ಯವನ್ನು ತೋರಿಸುತ್ತದೆ. ಕ್ಷಣದಲ್ಲಿಯೇ ನೀವು ಈ ಪ್ರದೇಶದಲ್ಲಿ Ducks/Geese/Waterfowl ವರ್ಗದಲ್ಲಿರುವ ಪಕ್ಷಿಗಳ ಸಂಖ್ಯೆ ಅತ್ಯಂತ ಹೆಚ್ಚು ಎಂದು ನೋಡಬಹುದು. ಮಿನೆಸೋಟಾ '10,000 ಸರೋವರಗಳ ಭೂಮಿ' ಆಗಿರುವುದರಿಂದ ಇದು ಆಶ್ಚರ್ಯಕರವಲ್ಲ!
@ -197,7 +197,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
ನಾವು `birds_filtered` ಡೇಟಾವನ್ನು `Category` ಮೂಲಕ ಗುಂಪುಮಾಡಿ ನಂತರ ಬಾರ್ ಗ್ರಾಫ್ ರಚಿಸುತ್ತೇವೆ.
![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.kn.png)
![comparing data](../../../../../translated_images/kn/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
ಇಲ್ಲಿ ಏನೂ ಆಶ್ಚರ್ಯಕರವಿಲ್ಲ: ಹುಮ್ಮಿಂಗ್‌ಬರ್ಡ್‌ಗಳು ಪೆಲಿಕಾನ್ಸ್ ಅಥವಾ ಗೀಸೆಗಳಿಗಿಂತ ಕಡಿಮೆ ಗರಿಷ್ಠ ಉದ್ದ ಹೊಂದಿವೆ. ಡೇಟಾ ತಾರ್ಕಿಕವಾಗಿದ್ದರೆ ಚೆನ್ನಾಗಿದೆ!
@ -209,7 +209,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.kn.png)
![super-imposed values](../../../../../translated_images/kn/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
## 🚀 ಸವಾಲು

@ -45,7 +45,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.kn.png)
![max length per order](../../../../../translated_images/kn/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
ಇದು ಪಕ್ಷಿ ಕ್ರಮದ ಪ್ರತಿ ದೇಹ ಉದ್ದದ ಸಾಮಾನ್ಯ ವಿತರಣೆಯ ಅವಲೋಕನವನ್ನು ನೀಡುತ್ತದೆ, ಆದರೆ ಇದು ನಿಜವಾದ ವಿತರಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸಲು ಅತ್ಯುತ್ತಮ ವಿಧಾನವಲ್ಲ. ಆ ಕಾರ್ಯವನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಹಿಸ್ಟೋಗ್ರಾಮ್ ರಚಿಸುವ ಮೂಲಕ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ.
## ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ
@ -56,7 +56,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.kn.png)
![distribution over entire dataset](../../../../../translated_images/kn/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
ನೀವು ನೋಡಬಹುದು, ಈ ಡೇಟಾಸೆಟ್‌ನ 400+ ಪಕ್ಷಿಗಳ ಬಹುತೇಕವು ಗರಿಷ್ಠ ದೇಹ ಭಾರದ 2000 ಕ್ಕಿಂತ ಕಡಿಮೆ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಬರುತ್ತವೆ. `bins` ಪರಿಮಾಣವನ್ನು 30 ರಂತಹ ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಗೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ ಡೇಟಾದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಒಳನೋಟವನ್ನು ಪಡೆಯಿರಿ:
@ -64,7 +64,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.kn.png)
![distribution-30bins](../../../../../translated_images/kn/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
ಈ ಚಾರ್ಟ್ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಸೂಕ್ಷ್ಮ ರೀತಿಯಲ್ಲಿ ವಿತರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ. ಎಡಕ್ಕೆ ಕಡಿಮೆ ತಿರುವು ಹೊಂದಿರುವ ಚಾರ್ಟ್ ಅನ್ನು ನೀವು ನಿರ್ದಿಷ್ಟ ವ್ಯಾಪ್ತಿಯೊಳಗಿನ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಆಯ್ಕೆಮಾಡುವ ಮೂಲಕ ರಚಿಸಬಹುದು:
@ -76,7 +76,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.kn.png)
![filtered histogram](../../../../../translated_images/kn/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
✅ ಇನ್ನಷ್ಟು ಫಿಲ್ಟರ್‌ಗಳು ಮತ್ತು ಡೇಟಾ ಪಾಯಿಂಟ್‌ಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿ. ಡೇಟಾದ ಸಂಪೂರ್ಣ ವಿತರಣೆಯನ್ನು ನೋಡಲು, ಲೇಬಲ್ ಮಾಡಲಾದ ವಿತರಣೆಯನ್ನು ತೋರಿಸಲು `['MaxBodyMass']` ಫಿಲ್ಟರ್ ಅನ್ನು ತೆಗೆದುಹಾಕಿ.
@ -90,7 +90,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
ಈ ಎರಡು ಅಂಶಗಳ ನಡುವೆ ನಿರೀಕ್ಷಿತ ಅಕ್ಷದ ಮೇಲೆ ನಿರೀಕ್ಷಿತ ಸಂಬಂಧವಿದೆ, ಒಂದು ವಿಶೇಷವಾಗಿ ಬಲವಾದ ಸಂಯೋಜನೆಯ ಬಿಂದುವಿನೊಂದಿಗೆ:
![2d plot](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.kn.png)
![2d plot](../../../../../translated_images/kn/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾಗಾಗಿ ಡೀಫಾಲ್ಟ್‌ನಲ್ಲಿ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ಪಠ್ಯ ಡೇಟಾ ಪ್ರಕಾರ ವಿತರಣೆಯನ್ನು ನೋಡಬೇಕಾದರೆ ಏನು ಮಾಡಬೇಕು?
## ಪಠ್ಯ ಡೇಟಾ ಬಳಸಿ ವಿತರಣೆಯನ್ನು ಅನ್ವೇಷಿಸಿ
@ -121,7 +121,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.kn.png)
![wingspan and conservation collation](../../../../../translated_images/kn/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರ ಮತ್ತು ಸಂರಕ್ಷಣಾ ಸ್ಥಿತಿಯ ನಡುವೆ ಉತ್ತಮ ಸಂಬಂಧವಿಲ್ಲದಂತೆ ತೋರುತ್ತದೆ. ಈ ವಿಧಾನವನ್ನು ಬಳಸಿ ಡೇಟಾಸೆಟ್‌ನ ಇತರ ಅಂಶಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ. ನೀವು ಯಾವುದೇ ಸಂಬಂಧವನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತೀರಾ?
@ -135,7 +135,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.kn.png)
![density plot](../../../../../translated_images/kn/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
ನೀವು ನೋಡಬಹುದು, ಈ ಪ್ಲಾಟ್ ಕನಿಷ್ಠ ರೆಕ್ಕೆ ವಿಸ್ತಾರದ ಡೇಟಾಗಾಗಿ ಹಿಂದಿನದನ್ನು ಪ್ರತಿಧ್ವನಿಸುತ್ತದೆ; ಅದು ಸ್ವಲ್ಪ ಸ್ಮೂತ್ ಆಗಿದೆ. ನೀವು ಎರಡನೇ ಚಾರ್ಟ್‌ನಲ್ಲಿ ರಚಿಸಿದ ಜಾಗೃತ MaxBodyMass ರೇಖೆಯನ್ನು ಮರುಸೃಷ್ಟಿಸುವ ಮೂಲಕ ಅದನ್ನು ಚೆನ್ನಾಗಿ ಸ್ಮೂತ್ ಮಾಡಬಹುದು:
@ -143,7 +143,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.kn.png)
![bodymass density](../../../../../translated_images/kn/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
ನೀವು ಸ್ಮೂತ್ ಆದರೆ ತುಂಬಾ ಸ್ಮೂತ್ ಅಲ್ಲದ ರೇಖೆಯನ್ನು ಬಯಸಿದರೆ, `adjust` ಪರಿಮಾಣವನ್ನು ಸಂಪಾದಿಸಿ:
@ -151,7 +151,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.kn.png)
![less smooth bodymass](../../../../../translated_images/kn/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
✅ ಈ ರೀತಿಯ ಪ್ಲಾಟ್‌ಗೆ ಲಭ್ಯವಿರುವ ಪರಿಮಾಣಗಳ ಬಗ್ಗೆ ಓದಿ ಮತ್ತು ಪ್ರಯೋಗ ಮಾಡಿ!
@ -161,7 +161,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.kn.png)
![bodymass per order](../../../../../translated_images/kn/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
## 🚀 ಸವಾಲು

@ -97,7 +97,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
ಇದು, ಈ ಡೇಟಾದ ಪ್ರಮಾಣಗಳನ್ನು ಈ ಎರಡು ಮಶ್ರೂಮ್ ವರ್ಗಗಳ ಪ್ರಕಾರ ತೋರಿಸುವ ಪೈ ಚಾರ್ಟ್. ಲೇಬಲ್‌ಗಳ ಕ್ರಮವನ್ನು ಸರಿಯಾಗಿ ಪಡೆಯುವುದು ಬಹಳ ಮುಖ್ಯ, ವಿಶೇಷವಾಗಿ ಇಲ್ಲಿ, ಆದ್ದರಿಂದ ಲೇಬಲ್ ಅರೆ ಅನ್ನು ರಚಿಸುವ ಕ್ರಮವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ!
![pie chart](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.kn.png)
![pie chart](../../../../../translated_images/kn/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
## ಡೋನಟ್ಸ್!
@ -132,7 +132,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.kn.png)
![donut chart](../../../../../translated_images/kn/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
ಈ ಕೋಡ್ ಎರಡು ಲೈಬ್ರರಿಗಳನ್ನು ಬಳಸುತ್ತದೆ - ggplot2 ಮತ್ತು webr. webr ಲೈಬ್ರರಿಯ PieDonut ಫಂಕ್ಷನ್ ಬಳಸಿ, ನಾವು ಸುಲಭವಾಗಿ ಡೋನಟ್ ಚಾರ್ಟ್ ರಚಿಸಬಹುದು!
@ -170,7 +170,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
ವಾಫಲ್ ಚಾರ್ಟ್ ಬಳಸಿ, ನೀವು ಈ ಮಶ್ರೂಮ್ ಡೇಟಾಸೆಟ್‌ನ ಕ್ಯಾಪ್ ಬಣ್ಣಗಳ ಪ್ರಮಾಣಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ನೋಡಬಹುದು. ಆಸಕ್ತಿದಾಯಕವಾಗಿ, ಹಸಿರು ಕ್ಯಾಪ್ ಇರುವ ಮಶ್ರೂಮ್‌ಗಳು ಬಹಳಿವೆ!
![waffle chart](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.kn.png)
![waffle chart](../../../../../translated_images/kn/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
ಈ ಪಾಠದಲ್ಲಿ, ನೀವು ಪ್ರಮಾಣಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವ ಮೂರು ವಿಧಾನಗಳನ್ನು ಕಲಿತಿರಿ. ಮೊದಲು, ನಿಮ್ಮ ಡೇಟಾವನ್ನು ವರ್ಗಗಳಾಗಿ ಗುಂಪುಮಾಡಬೇಕು ಮತ್ತು ನಂತರ ಡೇಟಾವನ್ನು ಪ್ರದರ್ಶಿಸುವ ಅತ್ಯುತ್ತಮ ವಿಧಾನವನ್ನು ನಿರ್ಧರಿಸಬೇಕು - ಪೈ, ಡೋನಟ್ ಅಥವಾ ವಾಫಲ್. ಎಲ್ಲವೂ ರುಚಿಕರವಾಗಿವೆ ಮತ್ತು ಬಳಕೆದಾರರಿಗೆ ಡೇಟಾಸೆಟ್‌ನ ತಕ್ಷಣದ ದೃಶ್ಯವನ್ನು ನೀಡುತ್ತವೆ.

@ -51,7 +51,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.kn.png)
![scatterplot 1](../../../../../translated_images/kn/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
ಈಗ, ವರ್ಷಗಳ ಪ್ರಗತಿಯನ್ನು ತೋರಿಸಲು ಜೇನುತುಪ್ಪ ಬಣ್ಣದ ಸ್ಕೀಮ್ ಬಳಸಿ ಅದೇ ಡೇಟಾವನ್ನು ತೋರಿಸಿ. ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬದಲಾವಣೆಯನ್ನು ತೋರಿಸಲು 'scale_color_gradientn' ಪರಿಮಾಣವನ್ನು ಸೇರಿಸಬಹುದು:
@ -61,7 +61,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.kn.png)
![scatterplot 2](../../../../../translated_images/kn/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
ಈ ಬಣ್ಣದ ಸ್ಕೀಮ್ ಬದಲಾವಣೆಯಿಂದ, ಜೇನುತುಪ್ಪದ ಪೌಂಡ್ ಪ್ರತಿ ಬೆಲೆಯು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಸ್ಪಷ್ಟವಾಗಿ ಹೆಚ್ಚುತ್ತಿರುವುದು ಕಾಣುತ್ತದೆ. ನಿಜವಾಗಿಯೂ, ಡೇಟಾದ ಒಂದು ಮಾದರಿ ಸೆಟ್ (ಉದಾಹರಣೆಗೆ ಅರೆಜೋನಾದ ಒಂದು ರಾಜ್ಯ) ನೋಡಿದರೆ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಬೆಲೆ ಏರಿಕೆಯ ಮಾದರಿಯನ್ನು ಕಾಣಬಹುದು, ಕೆಲವೊಂದು ಹೊರತುಪಡಿಸಿ:
@ -92,7 +92,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
ನೀವು ಬಿಂದುಗಳ ಗಾತ್ರ ಕ್ರಮೇಣ ಹೆಚ್ಚುತ್ತಿರುವುದನ್ನು ಕಾಣಬಹುದು.
![scatterplot 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.kn.png)
![scatterplot 3](../../../../../translated_images/kn/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
ಇದು ಸರಳ ಸರಬರಾಜು ಮತ್ತು ಬೇಡಿಕೆ ಪ್ರಕರಣವೇ? ಹವಾಮಾನ ಬದಲಾವಣೆ ಮತ್ತು ಕಾಲೋನಿ ಕಾಲಾಪ್ಸ್ ಮುಂತಾದ ಕಾರಣಗಳಿಂದ, ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಖರೀದಿಗೆ ಲಭ್ಯವಿರುವ ಜೇನುತುಪ್ಪ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯೇ, ಆದ್ದರಿಂದ ಬೆಲೆ ಏರುತ್ತಿದೆಯೇ?
@ -107,7 +107,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
ಉತ್ತರ: ಹೌದು, 2003 ರ ಸುತ್ತಲೂ ಕೆಲವು ಹೊರತುಪಡಿಸಿ:
![line chart 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.kn.png)
![line chart 1](../../../../../translated_images/kn/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
ಪ್ರಶ್ನೆ: 2003 ರಲ್ಲಿ ಜೇನುತುಪ್ಪದ ಸರಬರಾಜಿನಲ್ಲಿ ಏರಿಕೆಯನ್ನು ನೋಡಬಹುದೇ? ಒಟ್ಟು ಉತ್ಪಾದನೆಯನ್ನು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ನೋಡಿದರೆ?
@ -115,7 +115,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.kn.png)
![line chart 2](../../../../../translated_images/kn/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
ಉತ್ತರ: ಅಷ್ಟು ಅಲ್ಲ. ಒಟ್ಟು ಉತ್ಪಾದನೆಯನ್ನು ನೋಡಿದರೆ, ಆ ವಿಶೇಷ ವರ್ಷದಲ್ಲಿ ಅದು ಹೆಚ್ಚಿದಂತೆ ತೋರುತ್ತದೆ, ಆದರೂ ಸಾಮಾನ್ಯವಾಗಿ ಈ ವರ್ಷಗಳಲ್ಲಿ ಜೇನುತುಪ್ಪದ ಉತ್ಪಾದನೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.
@ -135,7 +135,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
ಈ ದೃಶ್ಯೀಕರಣದಲ್ಲಿ, ನೀವು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ yield per colony ಮತ್ತು ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪಕ್ಕಪಕ್ಕವಾಗಿ 3 ಕಾಲಮ್‌ಗಳೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು:
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.kn.png)
![facet grid](../../../../../translated_images/kn/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
ಈ ಡೇಟಾಸೆಟ್‌ಗೆ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಅವರ ಉತ್ಪಾದನೆಯ ಕುರಿತು ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಮತ್ತು ರಾಜ್ಯದಿಂದ ರಾಜ್ಯಕ್ಕೆ ವಿಶೇಷವಾಗಿ ಏನೂ ಹೊರಹೊಮ್ಮುವುದಿಲ್ಲ. ಈ ಎರಡು ವ್ಯತ್ಯಾಸಗಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬೇರೆ ವಿಧಾನವಿದೆಯೇ?
@ -152,7 +152,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.kn.png)
![superimposed plots](../../../../../translated_images/kn/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
2003 ರ ಸುತ್ತಲೂ ಏನೂ ವಿಶೇಷವಾಗಿ ಗಮನ ಸೆಳೆಯದಿದ್ದರೂ, ಈ ಪಾಠವನ್ನು ಸ್ವಲ್ಪ ಸಂತೋಷಕರವಾಗಿ ಮುಗಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ: ಒಟ್ಟಾರೆ ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತಿದೆಯಾದರೂ, ಕಾಲೋನಿಗಳ ಸಂಖ್ಯೆ ಸ್ಥಿರವಾಗುತ್ತಿದೆ ಮತ್ತು ಅವರ yield per colony ಕಡಿಮೆಯಾಗುತ್ತಿದೆ.

@ -47,25 +47,25 @@ CO_OP_TRANSLATOR_METADATA:
ಒಂದು ಡೇಟಾ ವಿಜ್ಞಾನಿ ಸರಿಯಾದ ಡೇಟಾ ಗೆ ಸರಿಯಾದ ಚಾರ್ಟ್ ಆಯ್ಕೆಮಾಡಿದರೂ ಸಹ, ಡೇಟಾವನ್ನು ತೋರಿಸುವ ಹಲವು ಮಾರ್ಗಗಳಿವೆ, ಅವು ಡೇಟಾವನ್ನು ಹಾಳುಮಾಡುವ ಬೆಲೆಗಾಗಿ ಒಂದು ವಿಷಯವನ್ನು ಸಾಬೀತುಪಡಿಸಲು. ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳು ಮತ್ತು ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್‌ಗಳ ಅನೇಕ ಉದಾಹರಣೆಗಳಿವೆ!
[![ಅಲ್ಬೆರ್ಟೋ ಕೈರೋ ಅವರ "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ"](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.kn.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
[![ಅಲ್ಬೆರ್ಟೋ ಕೈರೋ ಅವರ "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ"](../../../../../translated_images/kn/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ಹೌ ಚಾರ್ಟ್ಸ್ ಲೈ")
> 🎥 ಮೇಲಿನ ಚಿತ್ರವನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ ಮೋಸಮಯ ಚಾರ್ಟ್‌ಗಳ ಬಗ್ಗೆ ಸಮ್ಮೇಳನ ಮಾತುಕತೆ ನೋಡಿರಿ
ಈ ಚಾರ್ಟ್ X ಅಕ್ಷವನ್ನು ತಿರುಗಿಸಿ ಸತ್ಯದ ವಿರುದ್ಧ ತೋರಿಸುತ್ತದೆ, ದಿನಾಂಕ ಆಧಾರಿತ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.kn.png)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 1](../../../../../translated_images/kn/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
[ಈ ಚಾರ್ಟ್](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ಇನ್ನೂ ಹೆಚ್ಚು ಮೋಸಮಯವಾಗಿದೆ, ಕಣ್ಣು ಬಲಕ್ಕೆ ಸೆಳೆಯುತ್ತದೆ ಮತ್ತು ಸಮಯದೊಂದಿಗೆ COVID ಪ್ರಕರಣಗಳು ವಿವಿಧ ಜಿಲ್ಲೆಗಳಲ್ಲಿ ಕಡಿಮೆಯಾದಂತೆ ತೋರುತ್ತದೆ. ನಿಜವಾಗಿ, ದಿನಾಂಕಗಳನ್ನು ಗಮನದಿಂದ ನೋಡಿದರೆ, ಅವು ಮೋಸಮಯ ಇಳಿಜಾರಿನ ಪ್ರವೃತ್ತಿಯನ್ನು ನೀಡಲು ಮರುಕ್ರಮಿಸಲಾಗಿದೆ.
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.kn.jpg)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 2](../../../../../translated_images/kn/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
ಈ ಪ್ರಸಿದ್ಧ ಉದಾಹರಣೆ ಬಣ್ಣ ಮತ್ತು ತಿರುಗಿದ Y ಅಕ್ಷವನ್ನು ಬಳಸಿಕೊಂಡು ಮೋಸ ಮಾಡುತ್ತದೆ: ಗನ್-ಸ್ನೇಹಿ ಕಾನೂನುಗಳ ಅಂಗೀಕಾರದ ನಂತರ ಗನ್ ಸಾವುಗಳು ಏರಿಕೆಯಾಗಿವೆ ಎಂದು ನಿರ್ಣಯಿಸುವ ಬದಲು, ಕಣ್ಣು ವಿರುದ್ಧವನ್ನು ನಂಬುವಂತೆ ಮಾಡುತ್ತದೆ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.kn.jpg)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 3](../../../../../translated_images/kn/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
ಈ ವಿಚಿತ್ರ ಚಾರ್ಟ್ ಅನುಪಾತವನ್ನು ಹೇಗೆ ಮ್ಯಾನಿಪ್ಯುಲೇಟ್ ಮಾಡಬಹುದು ಎಂಬುದನ್ನು ಹಾಸ್ಯಾಸ್ಪದ ಪರಿಣಾಮದೊಂದಿಗೆ ತೋರಿಸುತ್ತದೆ:
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.kn.jpg)
![ಕೆಟ್ಟ ಚಾರ್ಟ್ 4](../../../../../translated_images/kn/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
ತೂಕಮಾಡಲಾಗದ ವಸ್ತುಗಳನ್ನು ಹೋಲಿಸುವುದು ಇನ್ನೊಂದು ಅನುಮಾನಾಸ್ಪದ ತಂತ್ರ. 'ಸ್ಪ್ಯೂರಿಯಸ್ ಕೊರಿಲೇಶನ್ಸ್' ಬಗ್ಗೆ ಒಂದು [ಅದ್ಭುತ ವೆಬ್ ಸೈಟ್](https://tylervigen.com/spurious-correlations) ಇದೆ, ಇದು ಮೇನ್‌ನ ವಿಚ್ಛೇದನ ದರ ಮತ್ತು ಮಾರ್ಜರಿನ್ ಬಳಕೆಯಂತಹ ವಿಷಯಗಳನ್ನು ಹೊಂದಿರುವ 'ವಾಸ್ತವಗಳನ್ನು' ತೋರಿಸುತ್ತದೆ. ರೆಡ್ಡಿಟ್ ಗುಂಪು ಕೂಡ ಡೇಟಾ ಬಳಕೆಯ [ಕಿರುಕುಳಗಳನ್ನು](https://www.reddit.com/r/dataisugly/top/?t=all) ಸಂಗ್ರಹಿಸುತ್ತದೆ.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
ನಿಮ್ಮ ಡೇಟಾ ಪಠ್ಯಾತ್ಮಕ ಮತ್ತು X ಅಕ್ಷದಲ್ಲಿ ವಿಸ್ತಾರವಾಗಿದ್ದರೆ, ಓದಲು ಸುಲಭವಾಗಲು ಪಠ್ಯವನ್ನು ತಿರುಗಿಸಬಹುದು. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D ಪ್ಲಾಟಿಂಗ್ ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ನಿಮ್ಮ ಡೇಟಾ ಅದನ್ನು ಬೆಂಬಲಿಸಿದರೆ. ಅದನ್ನು ಬಳಸಿ ಸುಧಾರಿತ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸೃಷ್ಟಿಸಬಹುದು.
![3D ಪ್ಲಾಟ್‌ಗಳು](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.kn.png)
![3D ಪ್ಲಾಟ್‌ಗಳು](../../../../../translated_images/kn/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
## ಅನಿಮೇಷನ್ ಮತ್ತು 3D ಚಾರ್ಟ್ ಪ್ರದರ್ಶನ
ಇಂದಿನ ಅತ್ಯುತ್ತಮ ಡೇಟಾ ದೃಶ್ಯೀಕರಣಗಳಲ್ಲಿ ಕೆಲವು ಅನಿಮೇಟೆಡ್ ಆಗಿವೆ. ಶಿರ್ಲಿ ವು D3 ಬಳಸಿ ಅದ್ಭುತ ಅನಿಮೇಟೆಡ್ ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಮಾಡಿದ್ದಾಳೆ, ಉದಾಹರಣೆಗೆ '[ಫಿಲ್ಮ್ ಫ್ಲವರ್ಸ್](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ಇಲ್ಲಿ ಪ್ರತಿ ಹೂವು ಒಂದು ಚಲನಚಿತ್ರದ ದೃಶ್ಯೀಕರಣವಾಗಿದೆ. ಇನ್ನೊಂದು ಉದಾಹರಣೆ ಗಾರ್ಡಿಯನ್‌ನ 'ಬಸ್ಸ್ಡ್ ಔಟ್', ಇದು ಗ್ರೀನ್ಸಾಕ್ ಮತ್ತು D3 ಜೊತೆಗೆ ಇಂಟರಾಕ್ಟಿವ್ ಅನುಭವ ಮತ್ತು ಸ್ಕ್ರೋಲಿಟೆಲ್ಲಿಂಗ್ ಲೇಖನ ರೂಪದಲ್ಲಿ NYC ತನ್ನ ಗೃಹವಿಹೀನ ಸಮಸ್ಯೆಯನ್ನು ಬಸ್ಸಿಂಗ್ ಮೂಲಕ ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ.
![ಬಸ್ಸಿಂಗ್](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.kn.png)
![ಬಸ್ಸಿಂಗ್](../../../../../translated_images/kn/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
> "ಬಸ್ಸ್ಡ್ ಔಟ್: ಅಮೆರಿಕ ಗೃಹವಿಹೀನರನ್ನು ಹೇಗೆ ಸಾಗಿಸುತ್ತದೆ" [ಗಾರ್ಡಿಯನ್](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) ನಿಂದ. ದೃಶ್ಯೀಕರಣಗಳು ನಾಡಿಯೆ ಬ್ರೆಮರ್ ಮತ್ತು ಶಿರ್ಲಿ ವು ಅವರಿಂದ
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
ನೀವು ಈ ಸಾಮಾಜಿಕ ಜಾಲದೃಶ್ಯೀಕರಣದ ಅನಿಮೇಟೆಡ್ ವೀಕ್ಷಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸುವ ವೆಬ್ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಪೂರ್ಣಗೊಳಿಸುವಿರಿ. ಇದು Vue.js ಮತ್ತು D3 ಬಳಸಿ [ಜಾಲದೃಶ್ಯ](https://github.com/emiliorizzo/vue-d3-network) ಸೃಷ್ಟಿಸಲು ನಿರ್ಮಿಸಲಾದ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್ ಚಾಲನೆಯಲ್ಲಿದ್ದಾಗ, ನೀವು ನೊಡ್‌ಗಳನ್ನು ಪರದೆ ಮೇಲೆ ಎಳೆಯಬಹುದು ಮತ್ತು ಡೇಟಾವನ್ನು ಮರುಸಂರಚಿಸಬಹುದು.
![ಲಿಯಾಜನ್ಸ್](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.kn.png)
![ಲಿಯಾಜನ್ಸ್](../../../../../translated_images/kn/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
## ಪ್ರಾಜೆಕ್ಟ್: D3.js ಬಳಸಿ ಜಾಲವನ್ನು ತೋರಿಸಲು ಚಾರ್ಟ್ ನಿರ್ಮಿಸಿ

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ದೃಶ್ಯೀಕರಣಗಳು
![ಲ್ಯಾವೆಂಡರ್ ಹೂವಿನ ಮೇಲೆ ಒಂದು ಜೇನುತುಪ್ಪ](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.kn.jpg)
![ಲ್ಯಾವೆಂಡರ್ ಹೂವಿನ ಮೇಲೆ ಒಂದು ಜೇನುತುಪ್ಪ](../../../translated_images/kn/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
> ಫೋಟೋ <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಜೆನ್ನಾ ಲೀ</a> ಅವರಿಂದ <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅನ್ಸ್ಪ್ಲ್ಯಾಶ್</a> ನಲ್ಲಿ

@ -25,7 +25,7 @@ CO_OP_TRANSLATOR_METADATA:
ಈ ಪಾಠವು ಜೀವನಚಕ್ರದ 3 ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ: ಸೆರೆಹಿಡಿಯುವುದು, ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು ಮತ್ತು ನಿರ್ವಹಣೆ.
![ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರದ ಚಿತ್ರಣ](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.kn.jpg)
![ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರದ ಚಿತ್ರಣ](../../../../translated_images/kn/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
> ಚಿತ್ರ: [ಬರ್ಕ್ಲಿ ಮಾಹಿತಿ ಶಾಲೆ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## ಸೆರೆಹಿಡಿಯುವುದು
@ -97,7 +97,7 @@ CO_OP_TRANSLATOR_METADATA:
|ಟೀಮ್ ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆ (TDSP)|ಕ್ರಾಸ್-ಇಂಡಸ್ಟ್ರಿ ಸ್ಟ್ಯಾಂಡರ್ಡ್ ಪ್ರಕ್ರಿಯೆ ಫಾರ್ ಡೇಟಾ ಮೈನಿಂಗ್ (CRISP-DM)|
|--|--|
|![ಟೀಮ್ ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.kn.png) | ![ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆ ಅಲಯನ್ಸ್ ಚಿತ್ರ](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.kn.png) |
|![ಟೀಮ್ ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ](../../../../translated_images/kn/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆ ಅಲಯನ್ಸ್ ಚಿತ್ರ](../../../../translated_images/kn/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
| ಚಿತ್ರ: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ಚಿತ್ರ: [ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಕ್ರಿಯೆ ಅಲಯನ್ಸ್](https://www.datascience-pm.com/crisp-dm-2/) |
## [ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ
![communication](../../../translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.kn.jpg)
![communication](../../../translated_images/kn/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
> ಫೋಟೋ <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಹೆಡ್‌ವೇ</a> ಅವರಿಂದ <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ಅನ್ಸ್ಪ್ಲ್ಯಾಶ್</a> ನಲ್ಲಿ
ಈ ಪಾಠಗಳಲ್ಲಿ, ನೀವು ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರದ ಕೆಲವು ಅಂಶಗಳನ್ನು, ಡೇಟಾ ಸುತ್ತಲೂ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಸಂವಹನವನ್ನು ಅನ್ವೇಷಿಸುವಿರಿ.

@ -62,7 +62,7 @@ CO_OP_TRANSLATOR_METADATA:
ಯೋಜನೆಗಳನ್ನು ರಚಿಸುವುದು ಮತ್ತು ನಿರ್ಮಿಸುವುದು ನಿಮ್ಮ ಕೌಶಲ್ಯ ಮತ್ತು ಜ್ಞಾನವನ್ನು ಪರೀಕ್ಷಿಸಲು ಅತ್ಯುತ್ತಮ ಮಾರ್ಗವೆಂದು ಯಾವುದೇ ಸಂಶಯವಿಲ್ಲ. ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ಅಜೂರ್ ಎಂಎಲ್ ಸ್ಟುಡಿಯೋದಲ್ಲಿ ಹೃದಯ ವೈಫಲ್ಯ ದಾಳಿಗಳ ಭವಿಷ್ಯವಾಣಿಗಾಗಿ ಡೇಟಾ ಸೈನ್ಸ್ ಯೋಜನೆಯನ್ನು ಎರಡು ವಿಭಿನ್ನ ವಿಧಾನಗಳಲ್ಲಿ ಅನ್ವೇಷಿಸುವೆವು: ಲೋ ಕೋಡ್/ನೋ ಕೋಡ್ ಮತ್ತು ಅಜೂರ್ ಎಂಎಲ್ SDK ಮೂಲಕ, ಕೆಳಗಿನ ಚಿತ್ರಣದಂತೆ:
![project-schema](../../../../translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.kn.png)
![project-schema](../../../../translated_images/kn/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.png)
ಪ್ರತಿ ವಿಧಾನಕ್ಕೂ ತನ್ನದೇ ಆದ ಲಾಭ ಮತ್ತು ನಷ್ಟಗಳಿವೆ. ಲೋ ಕೋಡ್/ನೋ ಕೋಡ್ ವಿಧಾನವು GUI (ಗ್ರಾಫಿಕಲ್ ಯೂಸರ್ ಇಂಟರ್ಫೇಸ್) ಜೊತೆಗೆ ಸಂವಹನ ಮಾಡುವುದರಿಂದ ಪ್ರಾರಂಭಿಸಲು ಸುಲಭವಾಗಿದೆ, ಕೋಡ್ ಬಗ್ಗೆ ಪೂರ್ವಜ್ಞಾನ ಅಗತ್ಯವಿಲ್ಲ. ಈ ವಿಧಾನವು ಯೋಜನೆಯ ಸಾಧ್ಯತೆಯನ್ನು ತ್ವರಿತವಾಗಿ ಪರೀಕ್ಷಿಸಲು ಮತ್ತು POC (ಪ್ರೂಫ್ ಆಫ್ ಕಾಂಸೆಪ್ಟ್) ರಚಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಆದರೆ, ಯೋಜನೆ ವಿಸ್ತಾರವಾಗುತ್ತಾ ಮತ್ತು ಉತ್ಪಾದನೆಗೆ ಸಿದ್ಧವಾಗಬೇಕಾದಾಗ, GUI ಮೂಲಕ ಸಂಪನ್ಮೂಲಗಳನ್ನು ರಚಿಸುವುದು ಸಾಧ್ಯವಿಲ್ಲ. ಸಂಪನ್ಮೂಲಗಳ ರಚನೆ, ಮಾದರಿ ನಿಯೋಜನೆ ಸೇರಿದಂತೆ ಎಲ್ಲವನ್ನೂ ಪ್ರೋಗ್ರಾಮ್ಯಾಟಿಕಾಗಿ ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಬೇಕಾಗುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ ಅಜೂರ್ ಎಂಎಲ್ SDK ಬಳಕೆ ತಿಳಿದುಕೊಳ್ಳುವುದು ಅತ್ಯಂತ ಮುಖ್ಯ.
@ -115,15 +115,15 @@ CO_OP_TRANSLATOR_METADATA:
1. ನಿಮ್ಮ ಅಜೂರ್ ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್‌ಗೆ ಸಂಬಂಧಿಸಿದ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಕ್ರೆಡೆನ್ಷಿಯಲ್ಸ್ ಬಳಸಿ [ಅಜೂರ್ ಪೋರ್ಟಲ್](https://ms.portal.azure.com/) ಗೆ ಸೈನ್ ಇನ್ ಆಗಿ.
2. **+ಸಂಪನ್ಮೂಲ ರಚಿಸಿ** ಆಯ್ಕೆಮಾಡಿ
![workspace-1](../../../../translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.kn.png)
![workspace-1](../../../../translated_images/kn/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.png)
ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಅನ್ನು ಹುಡುಕಿ ಮತ್ತು ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಟೈಲ್ ಆಯ್ಕೆಮಾಡಿ
![workspace-2](../../../../translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.kn.png)
![workspace-2](../../../../translated_images/kn/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.png)
ರಚನೆ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ
![workspace-3](../../../../translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.kn.png)
![workspace-3](../../../../translated_images/kn/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.png)
ಕೆಳಗಿನಂತೆ ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ಭರ್ತಿ ಮಾಡಿ:
- ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್: ನಿಮ್ಮ ಅಜೂರ್ ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್
@ -135,17 +135,17 @@ CO_OP_TRANSLATOR_METADATA:
- ಅಪ್ಲಿಕೇಶನ್ ಇನ್ಸೈಟ್ಸ್: ನಿಮ್ಮ ವರ್ಕ್‌ಸ್ಪೇಸ್‌ಗೆ ಹೊಸ ಡೀಫಾಲ್ಟ್ ಅಪ್ಲಿಕೇಶನ್ ಇನ್ಸೈಟ್ಸ್ ಸಂಪನ್ಮೂಲ ಸೃಷ್ಟಿಸಲಾಗುತ್ತದೆ
- ಕಂಟೈನರ್ ರಿಜಿಸ್ಟ್ರಿ: ಇಲ್ಲ (ನೀವು ಮೊದಲ ಬಾರಿಗೆ ಮಾದರಿಯನ್ನು ಕಂಟೈನರ್‌ಗೆ ನಿಯೋಜಿಸುವಾಗ ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಸೃಷ್ಟಿಸಲಾಗುತ್ತದೆ)
![workspace-4](../../../../translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.kn.png)
![workspace-4](../../../../translated_images/kn/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.png)
- ರಚಿಸಿ + ಪರಿಶೀಲಿಸಿ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ನಂತರ ರಚನೆ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ
3. ನಿಮ್ಮ ವರ್ಕ್‌ಸ್ಪೇಸ್ ರಚನೆಗೆ ಕೆಲವು ನಿಮಿಷಗಳು ಬೇಕಾಗಬಹುದು. ನಂತರ ಪೋರ್ಟಲ್‌ನಲ್ಲಿ ಅದಕ್ಕೆ ಹೋಗಿ. ನೀವು ಅದನ್ನು ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಅಜೂರ್ ಸೇವೆಯ ಮೂಲಕ ಹುಡುಕಬಹುದು.
4. ನಿಮ್ಮ ವರ್ಕ್‌ಸ್ಪೇಸ್‌ನ ಅವಲೋಕನ ಪುಟದಲ್ಲಿ, ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋವನ್ನು ಪ್ರಾರಂಭಿಸಿ (ಅಥವಾ ಹೊಸ ಬ್ರೌಸರ್ ಟ್ಯಾಬ್ ತೆರೆಯಿರಿ ಮತ್ತು https://ml.azure.com ಗೆ ಹೋಗಿ), ಮತ್ತು ನಿಮ್ಮ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಖಾತೆ ಬಳಸಿ ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋದಲ್ಲಿ ಸೈನ್ ಇನ್ ಆಗಿ. ಕೇಳಿದರೆ, ನಿಮ್ಮ ಅಜೂರ್ ಡೈರೆಕ್ಟರಿ ಮತ್ತು ಸಬ್ಸ್ಕ್ರಿಪ್ಷನ್ ಮತ್ತು ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ವರ್ಕ್‌ಸ್ಪೇಸ್ ಆಯ್ಕೆಮಾಡಿ.
![workspace-5](../../../../translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.kn.png)
![workspace-5](../../../../translated_images/kn/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.png)
5. ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋದಲ್ಲಿ, ಎಡಮೇಲೆ ಇರುವ ☰ ಐಕಾನ್ ಅನ್ನು ಟಾಗಲ್ ಮಾಡಿ ಇಂಟರ್ಫೇಸ್‌ನ ವಿವಿಧ ಪುಟಗಳನ್ನು ವೀಕ್ಷಿಸಿ. ನೀವು ಈ ಪುಟಗಳನ್ನು ನಿಮ್ಮ ವರ್ಕ್‌ಸ್ಪೇಸ್‌ನ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಬಳಸಬಹುದು.
![workspace-6](../../../../translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.kn.png)
![workspace-6](../../../../translated_images/kn/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.png)
ನೀವು ಅಜೂರ್ ಪೋರ್ಟಲ್ ಬಳಸಿ ನಿಮ್ಮ ವರ್ಕ್‌ಸ್ಪೇಸ್ ಅನ್ನು ನಿರ್ವಹಿಸಬಹುದು, ಆದರೆ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಕಾರ್ಯಾಚರಣೆ ಇಂಜಿನಿಯರ್‌ಗಳಿಗೆ, ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸ್ಟುಡಿಯೋ ವರ್ಕ್‌ಸ್ಪೇಸ್ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಹೆಚ್ಚು ಕೇಂದ್ರೀಕೃತ ಬಳಕೆದಾರ ಇಂಟರ್ಫೇಸ್ ಒದಗಿಸುತ್ತದೆ.
@ -193,18 +193,18 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ML ವರ್ಕ್‌ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ, ಗಣನೆಗೆ ಹೋಗಿ ನಾವು ಈಗಾಗಲೇ ಚರ್ಚಿಸಿದ ವಿವಿಧ ಗಣನೆ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನೋಡಬಹುದು (ಅಂದರೆ ಗಣನೆ ಉದಾಹರಣೆಗಳು, ಗಣನೆ ಕ್ಲಸ್ಟರ್‌ಗಳು, ಅನುವಾದ ಕ್ಲಸ್ಟರ್‌ಗಳು ಮತ್ತು ಸಂಯೋಜಿತ ಗಣನೆ). ಈ ಯೋಜನೆಗಾಗಿ, ನಮಗೆ ಮಾದರಿ ತರಬೇತಿಗೆ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ಬೇಕಾಗುತ್ತದೆ. ಸ್ಟುಡಿಯೋದಲ್ಲಿ, "Compute" ಮೆನು ಕ್ಲಿಕ್ ಮಾಡಿ, ನಂತರ "Compute cluster" ಟ್ಯಾಬ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು "+ New" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ರಚಿಸಲು.
![22](../../../../translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.kn.png)
![22](../../../../translated_images/kn/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.png)
1. ನಿಮ್ಮ ಆಯ್ಕೆಗಳನ್ನು ಆರಿಸಿ: ನಿರ್ದಿಷ್ಟ ವಿರುದ್ಧ ಕಡಿಮೆ ಪ್ರಾಥಮಿಕತೆ, CPU ಅಥವಾ GPU, VM ಗಾತ್ರ ಮತ್ತು ಕೋರ್ ಸಂಖ್ಯೆ (ಈ ಯೋಜನೆಗಾಗಿ ಡೀಫಾಲ್ಟ್ ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ಇಡಬಹುದು).
2. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![23](../../../../translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.kn.png)
![23](../../../../translated_images/kn/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.png)
3. ಕ್ಲಸ್ಟರ್‌ಗೆ ಗಣನೆ ಹೆಸರು ನೀಡಿ
4. ನಿಮ್ಮ ಆಯ್ಕೆಗಳನ್ನು ಆರಿಸಿ: ಕನಿಷ್ಠ/ಗರಿಷ್ಠ ನೋಡ್‌ಗಳ ಸಂಖ್ಯೆ, ಸ್ಕೇಲ್ ಡೌನ್ ಮಾಡುವ ಮೊದಲು ನಿರ್ಜೀವ ಸೆಕೆಂಡುಗಳು, SSH ಪ್ರವೇಶ. ಕನಿಷ್ಠ ನೋಡ್‌ಗಳ ಸಂಖ್ಯೆ 0 ಇದ್ದರೆ, ಕ್ಲಸ್ಟರ್ ನಿರ್ಜೀವವಾಗಿರುವಾಗ ನೀವು ಹಣ ಉಳಿಸಬಹುದು. ಗರಿಷ್ಠ ನೋಡ್‌ಗಳ ಸಂಖ್ಯೆ ಹೆಚ್ಚಾದರೆ ತರಬೇತಿ ಕಡಿಮೆ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಶಿಫಾರಸು ಮಾಡಲಾದ ಗರಿಷ್ಠ ನೋಡ್‌ಗಳ ಸಂಖ್ಯೆ 3.
5. "Create" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ. ಈ ಹಂತಕ್ಕೆ ಕೆಲವು ನಿಮಿಷಗಳು ಬೇಕಾಗಬಹುದು.
![29](../../../../translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.kn.png)
![29](../../../../translated_images/kn/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.png)
ಅದ್ಭುತ! ಈಗ ನಮಗೆ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ಇದೆ, ನಾವು ಡೇಟಾವನ್ನು ಅಜೂರ್ ML ಸ್ಟುಡಿಯೋಗೆ ಲೋಡ್ ಮಾಡಬೇಕಾಗಿದೆ.
@ -212,15 +212,15 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
1. ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ML ವರ್ಕ್‌ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ, ಎಡ ಮೆನುದಲ್ಲಿ "Datasets" ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು "+ Create dataset" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಡೇಟಾಸೆಟ್ ರಚಿಸಲು. "From local files" ಆಯ್ಕೆ ಮಾಡಿ ಮತ್ತು ನಾವು ಮೊದಲು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿದ ಕಾಗಲ್ ಡೇಟಾಸೆಟ್ ಆಯ್ಕೆಮಾಡಿ.
![24](../../../../translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.kn.png)
![24](../../../../translated_images/kn/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.png)
2. ನಿಮ್ಮ ಡೇಟಾಸೆಟ್‌ಗೆ ಹೆಸರು, ಪ್ರಕಾರ ಮತ್ತು ವಿವರಣೆ ನೀಡಿ. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ. ಫೈಲ್‌ಗಳಿಂದ ಡೇಟಾ ಅಪ್‌ಲೋಡ್ ಮಾಡಿ. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![25](../../../../translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.kn.png)
![25](../../../../translated_images/kn/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.png)
3. ಸ್ಕೀಮಾ‌ನಲ್ಲಿ, ಕೆಳಗಿನ ವೈಶಿಷ್ಟ್ಯಗಳಿಗಾಗಿ ಡೇಟಾ ಪ್ರಕಾರವನ್ನು ಬೂಲಿಯನ್‌ಗೆ ಬದಲಾಯಿಸಿ: ಅನೀಮಿಯಾ, ಡಯಾಬಿಟಿಸ್, ಹೈ ಬ್ಲಡ್ ಪ್ರೆಶರ್, ಲಿಂಗ, ಧೂಮಪಾನ, ಮತ್ತು DEATH_EVENT. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ರಚಿಸಿ ಕ್ಲಿಕ್ ಮಾಡಿ.
![26](../../../../translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.kn.png)
![26](../../../../translated_images/kn/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.png)
ಚೆನ್ನಾಗಿದೆ! ಈಗ ಡೇಟಾಸೆಟ್ ಸಿದ್ಧವಾಗಿದೆ ಮತ್ತು ಗಣನೆ ಕ್ಲಸ್ಟರ್ ರಚಿಸಲಾಗಿದೆ, ನಾವು ಮಾದರಿ ತರಬೇತಿಯನ್ನು ಪ್ರಾರಂಭಿಸಬಹುದು!
@ -231,19 +231,19 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
1. ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ML ವರ್ಕ್‌ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ ಎಡ ಮೆನುದಲ್ಲಿ "Automated ML" ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ನೀವು appena ಅಪ್‌ಲೋಡ್ ಮಾಡಿದ ಡೇಟಾಸೆಟ್ ಆಯ್ಕೆಮಾಡಿ. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![27](../../../../translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.kn.png)
![27](../../../../translated_images/kn/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.png)
2. ಹೊಸ ಪ್ರಯೋಗದ ಹೆಸರು, ಗುರಿ ಕಾಲಮ್ (DEATH_EVENT) ಮತ್ತು ನಾವು ರಚಿಸಿದ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ನಮೂದಿಸಿ. ಮುಂದಿನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![28](../../../../translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.kn.png)
![28](../../../../translated_images/kn/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.png)
3. "Classification" ಆಯ್ಕೆ ಮಾಡಿ ಮತ್ತು Finish ಕ್ಲಿಕ್ ಮಾಡಿ. ಈ ಹಂತವು ನಿಮ್ಮ ಗಣನೆ ಕ್ಲಸ್ಟರ್ ಗಾತ್ರದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿ 30 ನಿಮಿಷದಿಂದ 1 ಗಂಟೆ ತೆಗೆದುಕೊಳ್ಳಬಹುದು.
![30](../../../../translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.kn.png)
![30](../../../../translated_images/kn/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.png)
4. ರನ್ ಪೂರ್ಣಗೊಂಡ ನಂತರ, "Automated ML" ಟ್ಯಾಬ್ ಕ್ಲಿಕ್ ಮಾಡಿ, ನಿಮ್ಮ ರನ್ ಕ್ಲಿಕ್ ಮಾಡಿ, ಮತ್ತು "Best model summary" ಕಾರ್ಡ್‌ನಲ್ಲಿನ ಆಲ್ಗೋರಿದಮ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![31](../../../../translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.kn.png)
![31](../../../../translated_images/kn/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.png)
ಇಲ್ಲಿ ನೀವು AutoML ರಚಿಸಿದ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯ ವಿವರವಾದ ವಿವರಣೆಯನ್ನು ನೋಡಬಹುದು. ನೀವು ಮಾದರಿಗಳ ಟ್ಯಾಬ್‌ನಲ್ಲಿ ಇತರ ಮಾದರಿಗಳನ್ನು ಸಹ ಅನ್ವೇಷಿಸಬಹುದು. ವಿವರಣೆಗಳಲ್ಲಿ (ಪೂರ್ವವೀಕ್ಷಣಾ ಬಟನ್) ಕೆಲವು ನಿಮಿಷಗಳನ್ನು ತೆಗೆದು ಮಾದರಿಗಳನ್ನು ಪರಿಶೀಲಿಸಿ. ನೀವು ಬಳಸಲು ಬಯಸುವ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆಮಾಡಿದ ನಂತರ (ಇಲ್ಲಿ ನಾವು AutoML ಆಯ್ಕೆಮಾಡಿದ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆಮಾಡುತ್ತೇವೆ), ನಾವು ಅದನ್ನು ಹೇಗೆ ನಿಯೋಜಿಸಬಹುದು ಎಂದು ನೋಡೋಣ.
@ -254,15 +254,15 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
ಅತ್ಯುತ್ತಮ ಮಾದರಿ ವಿವರಣೆಯಲ್ಲಿ, "Deploy" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![deploy-1](../../../../translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.kn.png)
![deploy-1](../../../../translated_images/kn/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.png)
15. ಅದಕ್ಕೆ ಹೆಸರು, ವಿವರಣೆ, ಗಣನೆ ಪ್ರಕಾರ (Azure Container Instance), ಪ್ರಮಾಣೀಕರಣ ಸಕ್ರಿಯಗೊಳಿಸಿ ಮತ್ತು Deploy ಕ್ಲಿಕ್ ಮಾಡಿ. ಈ ಹಂತವು ಪೂರ್ಣಗೊಳ್ಳಲು ಸುಮಾರು 20 ನಿಮಿಷ ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ನಿಯೋಜನೆ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಮಾದರಿಯನ್ನು ನೋಂದಾಯಿಸುವುದು, ಸಂಪನ್ಮೂಲಗಳನ್ನು ರಚಿಸುವುದು ಮತ್ತು ಅವುಗಳನ್ನು ವೆಬ್ ಸೇವೆಗೆ ಸಂರಚಿಸುವುದು ಸೇರಿವೆ. Deploy ಸ್ಥಿತಿಯಡಿ ಸ್ಥಿತಿ ಸಂದೇಶ ಕಾಣಿಸುತ್ತದೆ. ನಿಯೋಜನೆ ಸ್ಥಿತಿಯನ್ನು ಪರಿಶೀಲಿಸಲು Refresh periodically ಆಯ್ಕೆಮಾಡಿ. ಸ್ಥಿತಿ "Healthy" ಆಗಿದ್ದಾಗ ಅದು ನಿಯೋಜಿತ ಮತ್ತು ಚಾಲನೆಯಲ್ಲಿ ಇದೆ.
![deploy-2](../../../../translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.kn.png)
![deploy-2](../../../../translated_images/kn/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.png)
16. ನಿಯೋಜನೆಯಾದ ನಂತರ, Endpoint ಟ್ಯಾಬ್ ಕ್ಲಿಕ್ ಮಾಡಿ ಮತ್ತು ನೀವು appena ನಿಯೋಜಿಸಿದ ಎಂಡ್ಪಾಯಿಂಟ್ ಕ್ಲಿಕ್ ಮಾಡಿ. ಇಲ್ಲಿ ನೀವು ಎಂಡ್ಪಾಯಿಂಟ್ ಬಗ್ಗೆ ಬೇಕಾದ ಎಲ್ಲಾ ವಿವರಗಳನ್ನು ಕಾಣಬಹುದು.
![deploy-3](../../../../translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.kn.png)
![deploy-3](../../../../translated_images/kn/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.png)
ಅದ್ಭುತ! ಈಗ ನಮಗೆ ಮಾದರಿ ನಿಯೋಜಿಸಲಾಗಿದೆ, ನಾವು ಎಂಡ್ಪಾಯಿಂಟ್ ಬಳಕೆಯನ್ನು ಪ್ರಾರಂಭಿಸಬಹುದು.
@ -272,7 +272,7 @@ CPU ಮತ್ತು GPU ವಾಸ್ತುಶಿಲ್ಪದ ಮುಖ್ಯ ವ
ಈ ಸ್ಕ್ರಿಪ್ಟ್ ನೇರವಾಗಿ ನಿಮ್ಮ ಸ್ಥಳೀಯ ಯಂತ್ರದಿಂದ ಚಾಲನೆ ಮಾಡಬಹುದು ಮತ್ತು ನಿಮ್ಮ ಎಂಡ್ಪಾಯಿಂಟ್ ಅನ್ನು ಬಳಕೆ ಮಾಡುತ್ತದೆ.
![35](../../../../translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.kn.png)
![35](../../../../translated_images/kn/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.png)
ಆ ಎರಡು ಸಾಲುಗಳ ಕೋಡ್ ಪರಿಶೀಲಿಸಲು ಒಂದು ಕ್ಷಣ ತೆಗೆದುಕೊಳ್ಳಿ:

@ -57,7 +57,7 @@ CO_OP_TRANSLATOR_METADATA:
[ಹಿಂದಿನ ಪಾಠದಲ್ಲಿ](../18-Low-Code/README.md), ನಾವು ಕಡಿಮೆ ಕೋಡ್/ಕೋಡ್ ಇಲ್ಲದ ರೀತಿಯಲ್ಲಿ ಮಾದರಿಯನ್ನು ತರಬೇತಿ, ನಿಯೋಜನೆ ಮತ್ತು ಬಳಕೆ ಮಾಡುವುದು ಹೇಗೆ ಎಂದು ನೋಡಿದ್ದೇವೆ. ನಾವು ಹೃದಯ ವೈಫಲ್ಯ ಡೇಟಾಸೆಟ್ ಬಳಸಿ ಹೃದಯ ವೈಫಲ್ಯ ಭವಿಷ್ಯವಾಣಿ ಮಾದರಿಯನ್ನು ರಚಿಸಿದ್ದೇವೆ. ಈ ಪಾಠದಲ್ಲಿ, ನಾವು ಅದೇ ಕಾರ್ಯವನ್ನು ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಎಸ್‌ಡಿಕೆ ಬಳಸಿ ಮಾಡಲಿದ್ದೇವೆ.
![project-schema](../../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.kn.png)
![project-schema](../../../../translated_images/kn/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
### 1.2 ಹೃದಯ ವೈಫಲ್ಯ ಭವಿಷ್ಯವಾಣಿ ಯೋಜನೆ ಮತ್ತು ಡೇಟಾಸೆಟ್ ಪರಿಚಯ
@ -74,7 +74,7 @@ CO_OP_TRANSLATOR_METADATA:
ನಾವು ಮೊದಲು ರಚಿಸಿದ [ಅಜೂರ್ ಎಂಎಲ್ ವರ್ಕ್‌ಸ್ಪೇಸ್](https://ml.azure.com/) ನಲ್ಲಿ, ಕಂಪ್ಯೂಟ್ ಮೆನುಗೆ ಹೋಗಿ ಲಭ್ಯವಿರುವ ವಿವಿಧ ಕಂಪ್ಯೂಟ್ ಸಂಪನ್ಮೂಲಗಳನ್ನು ನೋಡಬಹುದು
![compute-instance-1](../../../../translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.kn.png)
![compute-instance-1](../../../../translated_images/kn/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.png)
ಜುಪೈಟರ್ ನೋಟ್ಬುಕ್ ಪ್ರೊವಿಷನ್ ಮಾಡಲು ಕಂಪ್ಯೂಟ್ ಇನ್ಸ್ಟಾನ್ಸ್ ರಚಿಸೋಣ.
1. + New ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
@ -97,10 +97,10 @@ CO_OP_TRANSLATOR_METADATA:
1. Applications ವಿಭಾಗದಲ್ಲಿ, Jupyter ಆಯ್ಕೆಯನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿ.
2. "Yes, I understand" ಬಾಕ್ಸ್ ಟಿಕ್ ಮಾಡಿ ಮತ್ತು Continue ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![notebook-1](../../../../translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.kn.png)
![notebook-1](../../../../translated_images/kn/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.png)
3. ಇದು ನಿಮ್ಮ ಜುಪೈಟರ್ ನೋಟ್ಬುಕ್ ಇನ್ಸ್ಟಾನ್ಸ್‌ನೊಂದಿಗೆ ಹೊಸ ಬ್ರೌಸರ್ ಟ್ಯಾಬ್ ತೆರೆಯುತ್ತದೆ. ನೋಟ್ಬುಕ್ ರಚಿಸಲು "New" ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡಿ.
![notebook-2](../../../../translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.kn.png)
![notebook-2](../../../../translated_images/kn/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.png)
ನಾವು ಈಗ ನೋಟ್ಬುಕ್ ಹೊಂದಿದ್ದೇವೆ, ಅಜೂರ್ ಎಂಎಲ್ ಎಸ್‌ಡಿಕೆ ಬಳಸಿ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಬಹುದು.

@ -9,13 +9,13 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ಕ್ಲೌಡ್‌ನಲ್ಲಿ ಡೇಟಾ ಸೈನ್ಸ್
![cloud-picture](../../../translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.kn.jpg)
![cloud-picture](../../../translated_images/kn/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
> ಫೋಟೋ [Jelleke Vanooteghem](https://unsplash.com/@ilumire) ಅವರಿಂದ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
ಬೃಹತ್ ಡೇಟಾ ಜೊತೆಗೆ ಡೇಟಾ ಸೈನ್ಸ್ ಮಾಡುವಾಗ, ಕ್ಲೌಡ್ ಒಂದು ಆಟ ಬದಲಿಸುವುದಾಗಿ ಇರಬಹುದು. ಮುಂದಿನ ಮೂರು ಪಾಠಗಳಲ್ಲಿ, ನಾವು ಕ್ಲೌಡ್ ಎಂದರೇನು ಮತ್ತು ಅದು ಏಕೆ ಬಹಳ ಸಹಾಯಕವಾಗಬಹುದು ಎಂಬುದನ್ನು ನೋಡಲಿದ್ದೇವೆ. ನಾವು ಹೃದಯ ವೈಫಲ್ಯ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಅನ್ವೇಷಿಸಿ, ಯಾರಿಗಾದರೂ ಹೃದಯ ವೈಫಲ್ಯ ಇರುವ ಸಾಧ್ಯತೆಯನ್ನು ಅಂದಾಜಿಸಲು ಸಹಾಯ ಮಾಡುವ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲಿದ್ದೇವೆ. ನಾವು ಮಾದರಿಯನ್ನು ತರಬೇತಿ, ನಿಯೋಜನೆ ಮತ್ತು ಬಳಕೆ ಮಾಡಲು ಕ್ಲೌಡ್ ಶಕ್ತಿಯನ್ನು ಎರಡು ವಿಭಿನ್ನ ರೀತಿಗಳಲ್ಲಿ ಬಳಸಲಿದ್ದೇವೆ. ಒಂದು ಮಾರ್ಗವು ಕೇವಲ ಬಳಕೆದಾರ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಲೋ ಕೋಡ್/ನೋ ಕೋಡ್ ಶೈಲಿಯಲ್ಲಿ, ಮತ್ತೊಂದು ಮಾರ್ಗವು ಅಜೂರ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸಾಫ್ಟ್‌ವೇರ್ ಡೆವಲಪರ್ ಕಿಟ್ (Azure ML SDK) ಬಳಸಿ.
![project-schema](../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.kn.png)
![project-schema](../../../translated_images/kn/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
### ವಿಷಯಗಳು

@ -41,7 +41,7 @@ CO_OP_TRANSLATOR_METADATA:
* [ಆರೋಗ್ಯ ಸೇವೆಯಲ್ಲಿ ಡೇಟಾ ಸೈನ್ಸ್](https://data-flair.training/blogs/data-science-in-healthcare/) - ವೈದ್ಯಕೀಯ ಚಿತ್ರಣ (ಉದಾ: MRI, X-ರೇ, CT-ಸ್ಕ್ಯಾನ್), ಜಿನೋಮಿಕ್ಸ್ (DNA ಕ್ರಮಬದ್ಧತೆ), ಔಷಧಿ ಅಭಿವೃದ್ಧಿ (ಅಪಾಯ ಮೌಲ್ಯಮಾಪನ, ಯಶಸ್ಸಿನ ಭವಿಷ್ಯವಾಣಿ), ಭವಿಷ್ಯವಾಣಿ ವಿಶ್ಲೇಷಣೆ (ರೋಗಿ ಆರೈಕೆ ಮತ್ತು ಸರಬರಾಜು ಲಾಜಿಸ್ಟಿಕ್ಸ್), ರೋಗ ಟ್ರ್ಯಾಕಿಂಗ್ ಮತ್ತು ತಡೆ ಮುಂತಾದ ಅನ್ವಯಿಕೆಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ.
![ನಿಜಜೀವನದಲ್ಲಿ ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ವಯಿಕೆಗಳು](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.kn.png) ಚಿತ್ರ ಕ್ರೆಡಿಟ್: [ಡೇಟಾ ಫ್ಲೇರ್: 6 ಅದ್ಭುತ ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ವಯಿಕೆಗಳು](https://data-flair.training/blogs/data-science-applications/)
![ನಿಜಜೀವನದಲ್ಲಿ ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ವಯಿಕೆಗಳು](../../../../translated_images/kn/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) ಚಿತ್ರ ಕ್ರೆಡಿಟ್: [ಡೇಟಾ ಫ್ಲೇರ್: 6 ಅದ್ಭುತ ಡೇಟಾ ಸೈನ್ಸ್ ಅನ್ವಯಿಕೆಗಳು](https://data-flair.training/blogs/data-science-applications/)
ಚಿತ್ರವು ಡೇಟಾ ಸೈನ್ಸ್ ತಂತ್ರಗಳನ್ನು ಅನ್ವಯಿಸುವ ಇತರ ಕ್ಷೇತ್ರಗಳು ಮತ್ತು ಉದಾಹರಣೆಗಳನ್ನು ತೋರಿಸುತ್ತದೆ. ಇತರ ಅನ್ವಯಿಕೆಗಳನ್ನು ಅನ್ವೇಷಿಸಲು ಬಯಸುತ್ತೀರಾ? ಕೆಳಗಿನ [ಪರಿಶೀಲನೆ ಮತ್ತು ಸ್ವಯಂ ಅಧ್ಯಯನ](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) ವಿಭಾಗವನ್ನು ಪರಿಶೀಲಿಸಿ.

@ -22,7 +22,7 @@ CO_OP_TRANSLATOR_METADATA:
2. ಡೇಟಾಸೆಟ್ [ಕ್ಯಾಟಲಾಗ್](https://planetarycomputer.microsoft.com/catalog) ಅನ್ನು ಅನ್ವೇಷಿಸಿ - ಪ್ರತಿ ಡೇಟಾಸೆಟ್ ಉದ್ದೇಶವನ್ನು ತಿಳಿದುಕೊಳ್ಳಿ.
3. ಎಕ್ಸ್‌ಪ್ಲೋರರ್ ಬಳಸಿ - ಆಸಕ್ತಿಯ ಡೇಟಾಸೆಟ್ ಆಯ್ಕೆಮಾಡಿ, ಸಂಬಂಧಿತ ಪ್ರಶ್ನೆ ಮತ್ತು ರೆಂಡರಿಂಗ್ ಆಯ್ಕೆಯನ್ನು ಆರಿಸಿ.
![ಗ್ರಹಣ ಕಂಪ್ಯೂಟರ್ ಎಕ್ಸ್‌ಪ್ಲೋರರ್](../../../../translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.kn.png)
![ಗ್ರಹಣ ಕಂಪ್ಯೂಟರ್ ಎಕ್ಸ್‌ಪ್ಲೋರರ್](../../../../translated_images/kn/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
`ನಿಮ್ಮ ಕಾರ್ಯ:`
ಈಗ ಬ್ರೌಸರ್‌ನಲ್ಲಿ ರೆಂಡರ್ ಆಗಿರುವ ದೃಶ್ಯೀಕರಣವನ್ನು ಅಧ್ಯಯನ ಮಾಡಿ ಮತ್ತು ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಿ:

@ -312,7 +312,7 @@ def calculate_mean(data):
import pandas as pd
```
````
- ಚಿತ್ರಗಳಿಗೆ alt ಪಠ್ಯ ಸೇರಿಸಿ: `![Alt text](../../translated_images/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.kn.png)`
- ಚಿತ್ರಗಳಿಗೆ alt ಪಠ್ಯ ಸೇರಿಸಿ: `![Alt text](../../translated_images/kn/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.png)`
- ಸಾಲಿನ ಉದ್ದವನ್ನು ಯುಕ್ತಮಟ್ಟದಲ್ಲಿ ಇಡಿ (ಸುಮಾರು 80-100 ಅಕ್ಷರಗಳು)
### Python

@ -33,7 +33,7 @@ Microsoft ನ Azure Cloud Advocates ಗಳು ಡೇಟಾ ಸೈನ್ಸ್
**🙏 ನಮ್ಮ [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) ಲೇಖಕರು, ವಿಮರ್ಶಕರು ಮತ್ತು ವಿಷಯದ ದಾನಿಗಳಿಗೆ ವಿಶೇಷ ಧನ್ಯವಾದಗಳು 🙏,** ವಿಶೇಷವಾಗಿ Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![ಸ್ಕೆಟ್ಚ್‌ನೋಟ್ - @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.kn.png)|
|![ಸ್ಕೆಟ್ಚ್‌ನೋಟ್ - @sketchthedocs https://sketchthedocs.dev](../../translated_images/kn/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.png)|
|:---:|
| ಡೇಟಾ ಸೈನ್ಸ್ ಆರಂಭಿಕರಿಗೆ - _ಸ್ಕೆಟ್ಚ್ನೋಟ್ ಇಂದ [@nitya](https://twitter.com/nitya)_ |
@ -52,7 +52,7 @@ Microsoft ನ Azure Cloud Advocates ಗಳು ಡೇಟಾ ಸೈನ್ಸ್
ನಾವು ಡಿಸ್ಕಾರ್ಡ್‌ನಲ್ಲಿ "Learn with AI" ಸರಣಿಯನ್ನು ನಡೆಸುತ್ತಿದ್ದೇವೆ — ಹೆಚ್ಚಿನ ಮಾಹಿತಿಗಾಗಿ ಮತ್ತು 18 - 30 September, 2025 ರ ನಡುವೆ ನಮ್ಮೊಂದಿಗೆ ಸೇರುವಿರಿ: [Learn with AI Series](https://aka.ms/learnwithai/discord). ನೀವು GitHub Copilot ಅನ್ನು ಡೇಟಾ ಸೈನ್ಸ್ ಕಾರ್ಯಗಳಿಗಾಗಿ ಬಳಸುವ ಸಲಹೆಗಳು ಮತ್ತು ಚತುರ್ತೆಯನ್ನು ಪಡೆಯುತ್ತೀರಿ.
![AI ಜೊತೆಗೆ ಕಲಿಯುವ ಸರಣಿ](../../translated_images/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.kn.jpg)
![AI ಜೊತೆಗೆ ಕಲಿಯುವ ಸರಣಿ](../../translated_images/kn/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.jpg)
# ನೀವು ವಿದ್ಯಾರ್ಥಿ?
@ -132,7 +132,7 @@ Microsoft ನ Azure Cloud Advocates ಗಳು ಡೇಟಾ ಸೈನ್ಸ್
## Lessons
|![ ಸ್ಕೆಚ್‌ನೋಟ್ ರಚನೆ: @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.kn.png)|
|![ ಸ್ಕೆಚ್‌ನೋಟ್ ರಚನೆ: @sketchthedocs https://sketchthedocs.dev](../../translated_images/kn/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)|
|:---:|
| ಆರಂಭಿಕರಿಗಾಗಿ ಡೇಟಾ ಸೈನ್ಸ್: ಮಾರ್ಗಸೂಚಿ - _ಸ್ಕೆಚ್ನೋಟ್ ರಚನೆ: [@nitya](https://twitter.com/nitya)_ |

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
ನಿತ್ಯ ನಾರಸಿಂಹನ್, ಕಲಾವಿದ
![roadmap sketchnote](../../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.kn.png)
![roadmap sketchnote](../../../translated_images/kn/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
---

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
---
[![데이터 과학 정의 비디오](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ko.png)](https://youtu.be/beZ7Mb_oz9I)
[![데이터 과학 정의 비디오](../../../../translated_images/ko/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
## [강의 전 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -153,7 +153,7 @@ CO_OP_TRANSLATOR_METADATA:
이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어 보겠습니다:
![데이터 과학 워드 클라우드](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ko.png)
![데이터 과학 워드 클라우드](../../../../translated_images/ko/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 읽어보세요. 코드를 실행하여 모든 데이터 변환이 실시간으로 어떻게 수행되는지 확인할 수도 있습니다.

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
통계와 확률 이론은 데이터 과학에서 매우 중요한 수학의 두 가지 밀접한 분야입니다. 수학에 대한 깊은 지식 없이도 데이터를 다룰 수는 있지만, 최소한 기본 개념은 알고 있는 것이 좋습니다. 여기에서는 시작하는 데 도움이 되는 간단한 소개를 제공합니다.
[![Intro Video](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.ko.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/ko/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
## [강의 전 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -39,7 +39,7 @@ CO_OP_TRANSLATOR_METADATA:
우리는 변수 값이 특정 구간에 속할 확률, 예를 들어 P(t<sub>1</sub>≤X<t<sub>2</sub>)에 대해서만 이야기할 수 있습니다. 이 경우, 확률 분포는 **확률 밀도 함수** p(x)로 설명됩니다. 이 함수는 다음과 같이 정의됩니다:
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.ko.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ko/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
연속형 균등 분포는 유한 구간에서 정의되며, **연속 균등 분포**라고 불립니다. 값 X가 길이 l의 구간에 속할 확률은 l에 비례하며, 최대 1까지 증가합니다.
@ -82,11 +82,11 @@ CO_OP_TRANSLATOR_METADATA:
다음은 데이터의 평균, 중앙값, 사분위수를 보여주는 박스 플롯입니다:
![Weight Box Plot](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.ko.png)
![Weight Box Plot](../../../../translated_images/ko/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
우리의 데이터는 서로 다른 선수 **포지션**에 대한 정보를 포함하고 있으므로, 포지션별로 박스 플롯을 작성할 수도 있습니다. 이를 통해 포지션별로 매개변수 값이 어떻게 다른지 알 수 있습니다. 이번에는 키를 고려해 봅시다:
![Box plot by role](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.ko.png)
![Box plot by role](../../../../translated_images/ko/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
이 다이어그램은 평균적으로 1루수의 키가 2루수의 키보다 더 높다는 것을 시사합니다. 이 강의 후반부에서는 이 가설을 더 공식적으로 검증하는 방법과 데이터가 통계적으로 유의미함을 보여주는 방법을 배울 것입니다.
@ -94,7 +94,7 @@ CO_OP_TRANSLATOR_METADATA:
우리 데이터의 분포를 확인하려면 **히스토그램**이라는 그래프를 그릴 수 있습니다. X축에는 다양한 몸무게 구간(즉, **빈**)이 포함되고, Y축에는 해당 구간에 속한 샘플의 개수가 표시됩니다.
![Histogram of real world data](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.ko.png)
![Histogram of real world data](../../../../translated_images/ko/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
이 히스토그램에서 모든 값이 특정 평균 몸무게를 중심으로 집중되어 있으며, 평균에서 멀어질수록 해당 값의 몸무게가 나타날 확률이 낮아진다는 것을 알 수 있습니다. 즉, 야구 선수의 몸무게가 평균 몸무게와 크게 다를 확률은 매우 낮습니다. 몸무게의 분산은 평균에서 얼마나 벗어날 가능성이 있는지를 보여줍니다.
@ -111,7 +111,7 @@ samples = np.random.normal(mean,std,1000)
생성된 샘플의 히스토그램을 그리면 위에서 본 그림과 매우 유사한 모습을 볼 수 있습니다. 샘플 수와 빈 수를 늘리면 이상적인 정규 분포에 더 가까운 그림을 생성할 수 있습니다:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.ko.png)
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/ko/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
*평균=0, 표준 편차=1인 정규 분포*
@ -233,7 +233,7 @@ array([[1. , 0.52959196],
이 경우, 값 0.53은 사람의 체중과 키 간에 어느 정도 상관관계가 있음을 나타냅니다. 또한, 한 값을 다른 값에 대해 산점도로 나타내어 관계를 시각적으로 확인할 수 있습니다:
![체중과 키 간의 관계](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.ko.png)
![체중과 키 간의 관계](../../../../translated_images/ko/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
> 상관관계와 공분산에 대한 더 많은 예제는 [첨부된 노트북](notebook.ipynb)에서 확인할 수 있습니다.

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 데이터 과학 입문
![데이터 활용](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.ko.jpg)
![데이터 활용](../../../translated_images/ko/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
> 사진 제공: <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> / <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터 과학이 어떻게 정의되는지 알아보고, 데이터 과학자가 반드시 고려해야 할 윤리적 문제들에 대해 배웁니다. 또한 데이터가 어떻게 정의되는지 배우고, 데이터 과학의 핵심 학문 분야인 통계와 확률에 대해 간단히 살펴볼 것입니다.

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
| :-------------------------------------------------------------------------------------------------------: |
| Python 작업하기 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.ko.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/ko/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
데이터베이스는 데이터를 저장하고 쿼리 언어를 사용하여 데이터를 조회하는 데 매우 효율적인 방법을 제공하지만, 데이터 처리를 가장 유연하게 수행하는 방법은 직접 프로그램을 작성하여 데이터를 조작하는 것입니다. 많은 경우 데이터베이스 쿼리가 더 효과적인 방법일 수 있습니다. 하지만 더 복잡한 데이터 처리가 필요한 경우 SQL로 쉽게 처리할 수 없는 경우도 있습니다.
데이터 처리는 어떤 프로그래밍 언어로도 작성할 수 있지만, 데이터 작업에 있어 더 높은 수준의 언어들이 있습니다. 데이터 과학자들은 일반적으로 다음 언어들 중 하나를 선호합니다:
@ -73,7 +73,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.ko.png)
![Time Series Plot](../../../../translated_images/ko/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
이제 매주 친구들과 파티를 열고 추가로 아이스크림 10팩을 가져간다고 가정해 봅시다. 이를 나타내는 또 다른 시리즈를 생성할 수 있습니다:
```python
@ -84,7 +84,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.ko.png)
![Time Series Plot](../../../../translated_images/ko/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
> **참고**: 단순한 문법 `total_items+additional_items`을 사용하지 않았습니다. 그렇게 하면 결과 시리즈에 많은 `NaN`(*Not a Number*) 값이 생깁니다. 이는 `additional_items` 시리즈의 일부 인덱스 포인트에 값이 없기 때문이며, `NaN`을 다른 값에 더하면 결과는 `NaN`이 됩니다. 따라서 덧셈 중에 `fill_value` 매개변수를 지정해야 합니다.
@ -93,7 +93,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.ko.png)
![Monthly Time Series Averages](../../../../translated_images/ko/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
### 데이터프레임 (DataFrame)
@ -219,7 +219,7 @@ df = pd.read_csv('file.csv')
데이터를 다루는 방법을 보여주기 위해 [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb)를 열어 처음부터 끝까지 읽어보시길 권장합니다. 셀을 실행하고, 마지막에 남겨둔 몇 가지 도전을 수행할 수도 있습니다.
![COVID 확산](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.ko.png)
![COVID 확산](../../../../translated_images/ko/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
> Jupyter Notebook에서 코드를 실행하는 방법을 모른다면 [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 참고하세요.
@ -241,7 +241,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb)를 열어 처음부터 끝까지 읽어보세요. 셀을 실행하고, 마지막에 남겨둔 몇 가지 도전을 수행할 수도 있습니다.
![COVID 의료 치료](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.ko.png)
![COVID 의료 치료](../../../../translated_images/ko/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
## 이미지 데이터 처리

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 데이터 작업하기
![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.ko.jpg)
![data love](../../../translated_images/ko/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
> 사진 제공: <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터를 관리, 조작, 그리고 애플리케이션에서 활용하는 다양한 방법을 배우게 됩니다. 관계형 및 비관계형 데이터베이스에 대해 배우고, 데이터가 어떻게 저장될 수 있는지 알아볼 것입니다. 또한, 데이터를 관리하기 위해 Python을 사용하는 기본 원리를 배우고, Python을 활용하여 데이터를 관리하고 분석하는 다양한 방법을 발견하게 될 것입니다.

@ -51,7 +51,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.ko.png)
![scatterplot 1](../../../../translated_images/ko/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
이제 꿀 색상 테마를 추가하여 연도별로 가격이 어떻게 변화했는지 보여주세요. 'hue' 매개변수를 추가하여 연도별 변화를 표시할 수 있습니다:
@ -60,7 +60,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.ko.png)
![scatterplot 2](../../../../translated_images/ko/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
이 색상 테마 변경을 통해 꿀 가격이 연도별로 강한 상승 추세를 보인다는 것을 명확히 알 수 있습니다. 실제로 데이터를 샘플링하여 확인해 보면(예: 애리조나 주) 연도별로 가격이 증가하는 패턴을 확인할 수 있으며, 몇 가지 예외를 제외하고는 그렇습니다:
@ -89,7 +89,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
점의 크기가 점차 증가하는 것을 볼 수 있습니다.
![scatterplot 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.ko.png)
![scatterplot 3](../../../../translated_images/ko/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
이것이 단순히 수요와 공급의 문제일까요? 기후 변화와 꿀벌 군집 붕괴와 같은 요인으로 인해 연도별로 구매 가능한 꿀이 줄어들고, 그 결과 가격이 상승하는 것일까요?
@ -104,7 +104,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
답변: 네, 2003년을 중심으로 몇 가지 예외가 있습니다:
![line chart 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.ko.png)
![line chart 1](../../../../translated_images/ko/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
✅ Seaborn은 데이터를 하나의 선으로 집계하며, "각 x 값에서 여러 측정을 평균과 평균 주변의 95% 신뢰 구간을 표시하여 플로팅합니다". [출처](https://seaborn.pydata.org/tutorial/relational.html). 이 시간 소모적인 동작은 `ci=None`을 추가하여 비활성화할 수 있습니다.
@ -114,7 +114,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.ko.png)
![line chart 2](../../../../translated_images/ko/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
답변: 그렇지 않습니다. 총 생산량을 보면, 특정 연도에는 실제로 증가한 것으로 보이지만, 일반적으로 꿀 생산량은 이 기간 동안 감소하는 추세입니다.
@ -139,7 +139,7 @@ sns.relplot(
```
이 시각화에서는 꿀벌 군집당 생산량과 꿀벌 군집 수를 연도별로 나란히 비교할 수 있으며, 열을 3으로 설정하여 랩을 적용합니다:
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.ko.png)
![facet grid](../../../../translated_images/ko/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
이 데이터셋에서는 연도별, 주별 꿀벌 군집 수와 생산량에 관해 특별히 두드러지는 점은 없습니다. 이 두 변수 간의 상관관계를 찾는 다른 방법이 있을까요?
@ -162,7 +162,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.ko.png)
![superimposed plots](../../../../translated_images/ko/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
2003년을 중심으로 눈에 띄는 점은 없지만, 이 강의를 조금 더 긍정적인 노트로 마무리할 수 있습니다: 꿀벌 군집 수는 전반적으로 감소하고 있지만, 군집 수는 안정화되고 있으며 군집당 생산량은 감소하고 있습니다.

@ -66,7 +66,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
여기서는 `ggplot2` 패키지를 설치한 후 `library("ggplot2")` 명령을 사용하여 작업 공간에 가져옵니다. ggplot에서 플롯을 그리려면 `ggplot()` 함수를 사용하며 데이터셋, x 및 y 변수 등을 속성으로 지정합니다. 이 경우 선형 플롯을 그리기 위해 `geom_line()` 함수를 사용합니다.
![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.ko.png)
![MaxWingspan-lineplot](../../../../../translated_images/ko/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
즉시 눈에 띄는 점은 무엇인가요? 적어도 하나의 이상치가 있는 것 같습니다. 2000cm 이상의 날개 길이는 20미터가 넘습니다. 미네소타에 프테로닥틸이 살고 있는 걸까요? 조사해 봅시다.
@ -84,7 +84,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
`theme`에서 각도를 지정하고 `xlab()``ylab()`에서 x축과 y축 레이블을 지정합니다. `ggtitle()`은 그래프/플롯에 이름을 부여합니다.
![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.ko.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ko/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
레이블을 45도 회전시켰음에도 불구하고 읽기에는 너무 많습니다. 다른 전략을 시도해 봅시다: 이상치만 레이블을 지정하고 차트 내에서 레이블을 설정합니다. 산점도를 사용하여 레이블링 공간을 더 확보할 수 있습니다:
@ -100,7 +100,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
무엇을 발견했나요?
![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.ko.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ko/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
## 데이터 필터링
@ -119,7 +119,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
새로운 데이터프레임 `birds_filtered`를 만들고 산점도를 그렸습니다. 이상치를 필터링함으로써 데이터가 더 일관되고 이해하기 쉬워졌습니다.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.ko.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ko/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
이제 날개 길이에 관한 데이터가 더 깨끗해졌으니, 이 새들에 대해 더 알아봅시다.
@ -159,7 +159,7 @@ birds_filtered %>% group_by(Category) %>%
```
다음 코드 스니펫에서는 데이터를 조작하고 그룹화하여 누적 막대 차트를 그리기 위해 [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)과 [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) 패키지를 설치합니다. 먼저 새의 `Category`로 데이터를 그룹화한 후 `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` 열을 요약합니다. 그런 다음 `ggplot2` 패키지를 사용하여 막대 차트를 그리고 각 카테고리에 대한 색상과 레이블을 지정합니다.
![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.ko.png)
![Stacked bar chart](../../../../../translated_images/ko/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
하지만 이 막대 차트는 너무 많은 비그룹화된 데이터로 인해 읽기 어렵습니다. 플롯하려는 데이터만 선택해야 합니다. 새의 카테고리를 기준으로 길이를 살펴봅시다.
@ -174,7 +174,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
먼저 `Category` 열의 고유 값을 계산한 후 이를 새 데이터프레임 `birds_count`로 정렬합니다. 이 정렬된 데이터를 동일한 수준으로 팩터링하여 정렬된 방식으로 플롯됩니다. 그런 다음 `ggplot2`를 사용하여 데이터를 막대 차트로 플롯합니다. `coord_flip()`은 수평 막대를 플롯합니다.
![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.ko.png)
![category-length](../../../../../translated_images/ko/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
이 막대 차트는 각 카테고리의 새 수를 잘 보여줍니다. 한눈에 미네소타 지역에서 가장 많은 새가 Ducks/Geese/Waterfowl 카테고리에 속한다는 것을 알 수 있습니다. 미네소타는 '10,000개의 호수의 땅'이므로 놀랍지 않습니다!
@ -197,7 +197,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
`birds_filtered` 데이터를 `Category`로 그룹화한 후 막대 그래프를 플롯합니다.
![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.ko.png)
![comparing data](../../../../../translated_images/ko/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
여기서 놀라운 점은 없습니다: 벌새는 펠리컨이나 기러기에 비해 MaxLength가 가장 적습니다. 데이터가 논리적으로 맞아떨어지는 것은 좋은 일입니다!
@ -209,7 +209,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.ko.png)
![super-imposed values](../../../../../translated_images/ko/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
## 🚀 도전 과제

@ -45,7 +45,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.ko.png)
![max length per order](../../../../../translated_images/ko/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
이 그래프는 새의 Order별 몸 길이의 일반적인 분포를 보여주지만, 실제 분포를 표시하기에는 최적의 방법이 아닙니다. 이 작업은 보통 히스토그램을 생성하여 수행됩니다.
@ -57,7 +57,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.ko.png)
![distribution over entire dataset](../../../../../translated_images/ko/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
보시다시피, 이 데이터셋에 포함된 400개 이상의 새들 중 대부분은 Max Body Mass가 2000 이하 범위에 속합니다. `bins` 매개변수를 30과 같은 더 높은 숫자로 변경하여 데이터를 더 자세히 살펴보세요:
@ -65,7 +65,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.ko.png)
![distribution-30bins](../../../../../translated_images/ko/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
이 차트는 분포를 조금 더 세부적으로 보여줍니다. 왼쪽으로 덜 치우친 차트를 만들려면 특정 범위 내의 데이터만 선택하도록 필터링하면 됩니다:
@ -77,7 +77,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.ko.png)
![filtered histogram](../../../../../translated_images/ko/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
✅ 다른 필터와 데이터 포인트를 시도해 보세요. 데이터의 전체 분포를 보려면 `['MaxBodyMass']` 필터를 제거하여 라벨이 있는 분포를 표시하세요.
@ -91,7 +91,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
이 두 요소가 예상 축을 따라 예상되는 상관관계를 가지며, 특히 강한 수렴 지점이 하나 있는 것으로 보입니다:
![2d plot](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.ko.png)
![2d plot](../../../../../translated_images/ko/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
히스토그램은 기본적으로 숫자 데이터에 잘 작동합니다. 그렇다면 텍스트 데이터에 따라 분포를 확인해야 한다면 어떻게 해야 할까요?
@ -123,7 +123,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.ko.png)
![wingspan and conservation collation](../../../../../translated_images/ko/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
최소 날개 길이와 보존 상태 간에 뚜렷한 상관관계는 없어 보입니다. 이 방법을 사용하여 데이터셋의 다른 요소를 테스트해 보세요. 다른 필터도 시도해 보세요. 상관관계를 발견할 수 있나요?
@ -137,7 +137,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.ko.png)
![density plot](../../../../../translated_images/ko/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
이 플롯은 이전의 최소 날개 길이 데이터와 유사한 결과를 보여줍니다. 단지 조금 더 부드럽게 표현되었을 뿐입니다. 두 번째로 생성한 MaxBodyMass의 울퉁불퉁한 선을 다시 방문하고 싶다면, 이 방법을 사용하여 매우 부드럽게 만들 수 있습니다:
@ -145,7 +145,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.ko.png)
![bodymass density](../../../../../translated_images/ko/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
너무 부드럽지 않은 선을 원한다면 `adjust` 매개변수를 편집하세요:
@ -153,7 +153,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.ko.png)
![less smooth bodymass](../../../../../translated_images/ko/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
✅ 이 유형의 플롯에 사용할 수 있는 매개변수에 대해 읽어보고 실험해 보세요!
@ -163,7 +163,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.ko.png)
![bodymass per order](../../../../../translated_images/ko/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
## 🚀 도전 과제

@ -92,7 +92,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
짜잔, 이 두 가지 버섯 클래스에 따라 데이터 비율을 보여주는 파이 차트가 완성되었습니다. 레이블 배열을 생성할 때 순서를 올바르게 설정하는 것이 특히 중요하므로 반드시 확인하세요!
![pie chart](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.ko.png)
![pie chart](../../../../../translated_images/ko/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
## 도넛!
@ -126,7 +126,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.ko.png)
![donut chart](../../../../../translated_images/ko/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
이 코드는 두 개의 라이브러리 - ggplot2와 webr을 사용합니다. webr 라이브러리의 PieDonut 함수를 사용하면 도넛 차트를 쉽게 만들 수 있습니다!
@ -164,7 +164,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
와플 차트를 사용하면 이 버섯 데이터셋의 갓 색상 비율을 명확히 볼 수 있습니다. 흥미롭게도 녹색 갓을 가진 버섯이 많이 있습니다!
![waffle chart](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.ko.png)
![waffle chart](../../../../../translated_images/ko/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
이 강의에서는 비율을 시각화하는 세 가지 방법을 배웠습니다. 먼저 데이터를 카테고리로 그룹화한 후 데이터를 표시하는 가장 적합한 방법 - 파이, 도넛, 또는 와플을 결정해야 합니다. 모두 맛있고 사용자에게 데이터셋의 즉각적인 스냅샷을 제공합니다.

@ -51,7 +51,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.ko.png)
![scatterplot 1](../../../../../translated_images/ko/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
이제 같은 데이터를 꿀 색상 테마로 표시하여 연도별로 가격이 어떻게 변화했는지 보여주세요. 이를 위해 'scale_color_gradientn' 매개변수를 추가하여 연도별 변화를 표시할 수 있습니다:
@ -61,7 +61,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.ko.png)
![scatterplot 2](../../../../../translated_images/ko/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
이 색상 테마 변경을 통해 꿀의 파운드당 가격이 연도별로 강한 상승 추세를 보이는 것을 명확히 확인할 수 있습니다. 실제로 데이터를 샘플링하여 확인해 보면(예: 애리조나 주) 연도별로 가격이 증가하는 패턴을 확인할 수 있으며, 예외는 거의 없습니다:
@ -92,7 +92,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
점의 크기가 점차 증가하는 것을 확인할 수 있습니다.
![scatterplot 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.ko.png)
![scatterplot 3](../../../../../translated_images/ko/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
이것이 단순히 수요와 공급의 문제일까요? 기후 변화와 꿀벌 군집 붕괴와 같은 요인으로 인해 구매 가능한 꿀이 연도별로 줄어들고, 그 결과 가격이 상승하는 것일까요?
@ -107,7 +107,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
답변: 네, 2003년을 중심으로 몇 가지 예외가 있습니다:
![line chart 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.ko.png)
![line chart 1](../../../../../translated_images/ko/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
질문: 그렇다면 2003년에 꿀 공급량에서도 급증이 있었나요? 연도별 총 생산량을 살펴보면 어떨까요?
@ -115,7 +115,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.ko.png)
![line chart 2](../../../../../translated_images/ko/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
답변: 그렇지 않습니다. 총 생산량을 보면, 특정 연도에는 실제로 증가한 것으로 보이지만, 일반적으로 꿀 생산량은 이 기간 동안 감소하는 추세입니다.
@ -135,7 +135,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
이 시각화에서는 꿀벌 군집당 생산량과 군집 수를 연도별로 나란히 비교할 수 있습니다. 열은 3으로 설정합니다:
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.ko.png)
![facet grid](../../../../../translated_images/ko/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
이 데이터셋에서는 연도별, 주별로 꿀벌 군집 수와 생산량에 관해 특별히 두드러지는 점은 없습니다. 이 두 변수 간 상관관계를 찾는 다른 방법이 있을까요?
@ -152,7 +152,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.ko.png)
![superimposed plots](../../../../../translated_images/ko/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
2003년을 중심으로 눈에 띄는 점은 없지만, 이 강의를 조금 더 긍정적인 노트로 마무리할 수 있습니다: 꿀벌 군집 수는 전반적으로 감소하고 있지만, 군집 수는 안정화되고 있으며 군집당 생산량은 감소하고 있습니다.

@ -47,25 +47,25 @@ CO_OP_TRANSLATOR_METADATA:
데이터 과학자가 올바른 데이터에 적합한 차트를 신중히 선택하더라도, 데이터를 특정 관점을 증명하기 위해 표시하는 과정에서 데이터 자체를 훼손하는 경우가 많습니다. 기만적인 차트와 인포그래픽의 예는 무수히 많습니다!
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.ko.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/ko/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 위 이미지를 클릭하면 기만적인 차트에 대한 컨퍼런스 강연을 볼 수 있습니다.
이 차트는 X축을 반대로 뒤집어 날짜를 기준으로 진실의 반대를 보여줍니다:
![bad chart 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.ko.png)
![bad chart 1](../../../../../translated_images/ko/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
[이 차트](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg)는 더욱 기만적입니다. 눈은 오른쪽으로 향하며 시간이 지남에 따라 COVID 사례가 감소했다고 결론짓게 만듭니다. 하지만 날짜를 자세히 보면, 기만적인 하락 추세를 보여주기 위해 날짜가 재배열된 것을 알 수 있습니다.
![bad chart 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.ko.jpg)
![bad chart 2](../../../../../translated_images/ko/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
이 악명 높은 예시는 색상과 뒤집힌 Y축을 사용하여 기만합니다. 총기 친화적 법안 통과 후 총기 사망자가 급증했음에도 불구하고, 눈은 반대의 결론을 내리도록 속습니다:
![bad chart 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.ko.jpg)
![bad chart 3](../../../../../translated_images/ko/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
이 이상한 차트는 비율을 조작하여 웃음을 자아냅니다:
![bad chart 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.ko.jpg)
![bad chart 4](../../../../../translated_images/ko/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
비교할 수 없는 것을 비교하는 것도 또 다른 기만적인 방법입니다. [멋진 웹사이트](https://tylervigen.com/spurious-correlations)는 '허위 상관관계'를 보여주는 '사실'을 수집하며, 예를 들어 메인주의 이혼율과 마가린 소비를 상관시키는 데이터를 제공합니다. Reddit 그룹은 데이터의 [기만적인 사용](https://www.reddit.com/r/dataisugly/top/?t=all)을 수집합니다.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로 조정하여 가독성을 높일 수 있습니다. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html)는 데이터가 지원하는 경우 3D 플로팅을 제공합니다. 이를 사용하여 정교한 데이터 시각화를 생성할 수 있습니다.
![3d plots](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.ko.png)
![3d plots](../../../../../translated_images/ko/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
## 애니메이션 및 3D 차트 표시
오늘날 최고의 데이터 시각화 중 일부는 애니메이션으로 제작됩니다. Shirley Wu는 D3를 사용하여 '[영화 꽃](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'과 같은 놀라운 애니메이션을 만들었습니다. 각 꽃은 영화의 시각화를 나타냅니다. 또 다른 예로 Guardian의 'Bussed Out'은 NYC가 노숙자 문제를 해결하기 위해 사람들을 도시 밖으로 버스에 태워 보내는 방식을 보여주는 스크롤텔링 기사 형식과 Greensock 및 D3를 결합한 인터랙티브 경험입니다.
![busing](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.ko.png)
![busing](../../../../../translated_images/ko/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ X축에 텍스트 데이터가 길고 자세하다면, 텍스트를 각도로
Vue.js와 D3를 사용하여 네트워크 시각화를 표시하는 라이브러리를 사용하여 애니메이션화된 소셜 네트워크를 보여주는 웹 앱을 완성하세요. 앱이 실행되면 화면에서 노드를 끌어 데이터를 재배열할 수 있습니다.
![liaisons](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.ko.png)
![liaisons](../../../../../translated_images/ko/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
## 프로젝트: D3.js를 사용하여 네트워크를 보여주는 차트 만들기

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 시각화
![라벤더 꽃 위의 벌](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.ko.jpg)
![라벤더 꽃 위의 벌](../../../translated_images/ko/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
> 사진 제공: <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> on <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
데이터 시각화는 데이터 과학자에게 가장 중요한 작업 중 하나입니다. "이미지는 천 마디 말보다 강하다"는 말처럼, 시각화는 데이터의 스파이크, 이상치, 그룹화, 경향 등 흥미로운 부분을 식별하는 데 도움을 주며, 데이터가 전달하려는 이야기를 이해하는 데 큰 도움을 줍니다.

@ -25,7 +25,7 @@ CO_OP_TRANSLATOR_METADATA:
이번 강의에서는 생애 주기의 3가지 부분인 데이터 수집, 처리, 유지 관리에 초점을 맞춥니다.
![데이터 과학 생애 주기 다이어그램](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.ko.jpg)
![데이터 과학 생애 주기 다이어그램](../../../../translated_images/ko/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
> 사진 출처: [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## 데이터 수집
@ -97,7 +97,7 @@ CO_OP_TRANSLATOR_METADATA:
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.ko.png) | ![Data Science Process Alliance Image](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.ko.png) |
|![Team Data Science Lifecycle](../../../../translated_images/ko/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ko/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
| 이미지 출처: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 이미지 출처: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [강의 후 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 데이터 과학 생명주기
![communication](../../../translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.ko.jpg)
![communication](../../../translated_images/ko/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
> 사진 제공: <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
이 강의에서는 데이터 과학 생명주기의 일부 측면, 특히 데이터 분석과 데이터에 대한 커뮤니케이션을 탐구합니다.

@ -9,13 +9,13 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 클라우드에서의 데이터 과학
![cloud-picture](../../../translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.ko.jpg)
![cloud-picture](../../../translated_images/ko/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
> 사진 제공: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) / [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
빅데이터를 활용한 데이터 과학을 수행할 때, 클라우드는 게임 체인저가 될 수 있습니다. 다음 세 가지 강의에서 클라우드가 무엇인지, 그리고 왜 유용한지 알아보겠습니다. 또한 심부전 데이터셋을 탐구하고, 심부전 발생 가능성을 평가하는 데 도움을 줄 수 있는 모델을 구축할 것입니다. 클라우드의 강력한 기능을 활용하여 두 가지 방식으로 모델을 학습, 배포 및 활용할 것입니다. 첫 번째는 Low code/No code 방식으로 사용자 인터페이스만을 사용하는 방법이고, 두 번째는 Azure Machine Learning Software Developer Kit (Azure ML SDK)를 사용하는 방법입니다.
![project-schema](../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.ko.png)
![project-schema](../../../translated_images/ko/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
### 주제

@ -41,7 +41,7 @@ AI의 민주화 덕분에 개발자들은 이제 AI 기반 의사결정과 데
* [헬스케어에서의 데이터 과학](https://data-flair.training/blogs/data-science-in-healthcare/) - 의료 영상 (예: MRI, X-Ray, CT-Scan), 유전체학 (DNA 시퀀싱), 약물 개발 (위험 평가, 성공 예측), 예측 분석 (환자 관리 및 공급 물류), 질병 추적 및 예방 등과 같은 응용 사례를 강조합니다.
![현실 세계에서의 데이터 과학 응용 사례](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.ko.png) 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![현실 세계에서의 데이터 과학 응용 사례](../../../../translated_images/ko/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) 이미지 출처: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
이 그림은 데이터 과학 기술을 적용할 수 있는 다른 도메인과 예제를 보여줍니다. 다른 응용 사례를 탐구하고 싶으신가요? 아래의 [리뷰 및 자기 학습](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) 섹션을 확인하세요.

@ -22,7 +22,7 @@ Explorer 인터페이스(아래 스크린샷 참조)는 데이터셋(제공된
2. 데이터셋 [카탈로그](https://planetarycomputer.microsoft.com/catalog)를 탐색하여 각 데이터셋의 목적을 학습하세요.
3. Explorer를 사용하여 관심 있는 데이터셋을 선택하고, 관련 쿼리와 렌더링 옵션을 선택하세요.
![The Planetary Computer Explorer](../../../../translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.ko.png)
![The Planetary Computer Explorer](../../../../translated_images/ko/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
`여러분의 과제:`
이제 브라우저에 렌더링된 시각화를 연구하고 다음 질문에 답하세요:

@ -311,7 +311,7 @@ PR 설명에 포함할 내용:
import pandas as pd
```
````
- 이미지에 대체 텍스트 추가: `![Alt text](../../translated_images/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.ko.png)`
- 이미지에 대체 텍스트 추가: `![Alt text](../../translated_images/ko/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.png)`
- 줄 길이는 적당히 유지 (약 80-100자)
### Python

@ -33,7 +33,7 @@ CO_OP_TRANSLATOR_METADATA:
**🙏 특별 감사 🙏 우리 [Microsoft 학생 홍보대사](https://studentambassadors.microsoft.com/) 저자, 검토자 및 콘텐츠 기여자들에게,** 특히 Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![스케치노트 작성자 @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.ko.png)|
|![스케치노트 작성자 @sketchthedocs https://sketchthedocs.dev](../../translated_images/ko/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.png)|
|:---:|
| 초보자를 위한 데이터 사이언스 - _스케치노트 작성자 [@nitya](https://twitter.com/nitya)_ |
@ -52,7 +52,7 @@ CO_OP_TRANSLATOR_METADATA:
우리는 Discord에서 Learn with AI 시리즈를 진행하고 있습니다. 자세한 내용 및 참여는 [AI와 함께 배우기 시리즈](https://aka.ms/learnwithai/discord)에서 확인하세요. 기간: 2025년 9월 18일 - 30일. GitHub Copilot을 데이터 사이언스에 활용하는 팁과 요령을 얻을 수 있습니다.
![AI와 함께 배우기 시리즈](../../translated_images/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.ko.jpg)
![AI와 함께 배우기 시리즈](../../translated_images/ko/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.jpg)
# 학생이신가요?
@ -132,7 +132,7 @@ CO_OP_TRANSLATOR_METADATA:
## Lessons
|![ 스케치노트 작성자 @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.ko.png)|
|![ 스케치노트 작성자 @sketchthedocs https://sketchthedocs.dev](../../translated_images/ko/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)|
|:---:|
| 초보자를 위한 데이터 과학: 로드맵 - _스케치노트 작성자 [@nitya](https://twitter.com/nitya)_ |

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
아티스트: Nitya Narasimhan
![로드맵 스케치노트](../../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.ko.png)
![로드맵 스케치노트](../../../translated_images/ko/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
**면책 조항**:
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
---
[![Duomenų mokslas: apibrėžimo vaizdo įrašas](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.lt.png)](https://youtu.be/beZ7Mb_oz9I)
[![Duomenų mokslas: apibrėžimo vaizdo įrašas](../../../../translated_images/lt/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
## [Prieš paskaitos testas](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -149,7 +149,7 @@ Jei norime dar labiau pasigilinti, galime sudaryti grafiką, kuriame būtų pava
Šiame iššūkyje bandysime rasti konceptus, susijusius su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį:
![Žodžių debesis apie duomenų mokslą](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png)
![Žodžių debesis apie duomenų mokslą](../../../../translated_images/lt/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
Apsilankykite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiu laiku atlieka visus duomenų transformavimus.

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
Statistika ir tikimybių teorija yra dvi glaudžiai susijusios matematikos sritys, kurios yra itin svarbios duomenų mokslui. Nors galima dirbti su duomenimis neturint gilių matematikos žinių, vis tiek verta susipažinti bent su pagrindinėmis sąvokomis. Čia pateiksime trumpą įvadą, kuris padės jums pradėti.
[![Intro Video](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.lt.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/lt/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
## [Prieš paskaitą atlikite testą](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -39,7 +39,7 @@ Sunkiau aprašyti tęstinio kintamojo tikimybių pasiskirstymą, kai reikšmės
Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmių intervalą, pvz., P(t<sub>1</sub>≤X<t<sub>2</sub>). Tokiu atveju tikimybių pasiskirstymas aprašomas **tikimybių tankio funkcija** p(x), tokia, kad
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.lt.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/lt/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
Tęstinis vienodo pasiskirstymo analogas vadinamas **tęstiniu vienodu pasiskirstymu**, kuris apibrėžiamas baigtiniame intervale. Tikimybė, kad reikšmė X pateks į intervalo ilgį l, yra proporcinga l ir didėja iki 1.
@ -82,11 +82,11 @@ Analizuojant realaus pasaulio duomenis, jie dažnai nėra tikri atsitiktiniai ki
Čia pateikiama dėžės diagrama, rodanti vidurkį, medianą ir kvartilius mūsų duomenims:
![Weight Box Plot](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.lt.png)
![Weight Box Plot](../../../../translated_images/lt/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis**, galime sudaryti dėžės diagramą pagal vaidmenį - tai leis mums suprasti, kaip parametrų reikšmės skiriasi tarp vaidmenų. Šį kartą apsvarstysime ūgį:
![Box plot by role](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.lt.png)
![Box plot by role](../../../../translated_images/lt/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
Ši diagrama rodo, kad, vidutiniškai, pirmosios bazės žaidėjų ūgis yra didesnis nei antrosios bazės žaidėjų ūgis. Vėliau šioje pamokoje išmoksime, kaip formaliau patikrinti šią hipotezę ir kaip parodyti, kad mūsų duomenys yra statistiškai reikšmingi tai įrodyti.
@ -94,7 +94,7 @@ Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis*
Norėdami pamatyti, koks yra mūsų duomenų pasiskirstymas, galime sudaryti grafiką, vadinamą **histograma**. X ašis turėtų turėti skirtingų svorio intervalų skaičių (vadinamų **dėžėmis**), o vertikali ašis rodytų, kiek kartų mūsų atsitiktinio kintamojo imtis pateko į tam tikrą intervalą.
![Histogram of real world data](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.lt.png)
![Histogram of real world data](../../../../translated_images/lt/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
Iš šios histogramos matote, kad visos reikšmės yra sutelktos aplink tam tikrą vidutinį svorį, o kuo toliau nuo to svorio - tuo mažiau svorių su ta reikšme yra aptinkama. T. y., labai mažai tikėtina, kad beisbolo žaidėjo svoris labai skirsis nuo vidutinio svorio. Svorio dispersija rodo, kiek svoriai gali skirtis nuo vidurkio.
@ -111,7 +111,7 @@ samples = np.random.normal(mean,std,1000)
Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai panašų į aukščiau pateiktą. O jei padidinsime imčių skaičių ir dėžių skaičių, galime sugeneruoti normalaus pasiskirstymo vaizdą, kuris bus artimesnis idealiam:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.lt.png)
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/lt/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
*Normalusis pasiskirstymas su vidurkiu=0 ir standartiniu nuokrypiu=1*
@ -233,7 +233,7 @@ array([[1. , 0.52959196],
Mūsų atveju reikšmė 0.53 rodo, kad yra tam tikra koreliacija tarp žmogaus svorio ir ūgio. Taip pat galime sudaryti sklaidos diagramą, kurioje viena reikšmė vaizduojama prieš kitą, kad vizualiai pamatytume ryšį:
![Ryšys tarp svorio ir ūgio](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.lt.png)
![Ryšys tarp svorio ir ūgio](../../../../translated_images/lt/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
> Daugiau koreliacijos ir kovariacijos pavyzdžių galite rasti [pridedamoje užrašų knygelėje](notebook.ipynb).

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# Įvadas į Duomenų Mokslą
![duomenys veiksme](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.lt.jpg)
![duomenys veiksme](../../../translated_images/lt/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
> Nuotrauka: <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a><a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose sužinosite, kaip apibrėžiamas Duomenų Mokslas, ir susipažinsite su etiniais aspektais, kuriuos privalo apsvarstyti duomenų mokslininkas. Taip pat sužinosite, kas yra duomenys, ir šiek tiek apie statistiką bei tikimybes pagrindines Duomenų Mokslo akademines sritis.

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
| :-------------------------------------------------------------------------------------------------------: |
| Darbas su Python - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.lt.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/lt/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
Nors duomenų bazės siūlo labai efektyvius būdus saugoti duomenis ir užklausas vykdyti naudojant užklausų kalbas, lankstiausias būdas apdoroti duomenis yra rašyti savo programą, kuri manipuliuoja duomenimis. Daugeliu atvejų duomenų bazės užklausa būtų efektyvesnis sprendimas. Tačiau kai kuriais atvejais, kai reikia sudėtingesnio duomenų apdorojimo, tai negali būti lengvai atlikta naudojant SQL.
Duomenų apdorojimas gali būti programuojamas bet kuria programavimo kalba, tačiau yra tam tikrų kalbų, kurios yra aukštesnio lygio dirbant su duomenimis. Duomenų mokslininkai paprastai renkasi vieną iš šių kalbų:
@ -75,7 +75,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Laiko serijos grafikas](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.lt.png)
![Laiko serijos grafikas](../../../../translated_images/lt/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
Dabar tarkime, kad kiekvieną savaitę organizuojame vakarėlį draugams ir pasiimame papildomus 10 ledų pakuočių vakarėliui. Galime sukurti kitą seriją, indeksuotą savaitėmis, kad tai parodytume:
```python
@ -86,7 +86,7 @@ Kai sudedame dvi serijas, gauname bendrą skaičių:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Laiko serijos grafikas](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.lt.png)
![Laiko serijos grafikas](../../../../translated_images/lt/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
> **Pastaba**: Mes nenaudojame paprastos sintaksės `total_items+additional_items`. Jei tai darytume, gautume daug `NaN` (*Not a Number*) reikšmių rezultato serijoje. Taip yra todėl, kad kai kuriems indeksų taškams serijoje `additional_items` trūksta reikšmių, o sudėjus `NaN` su bet kuo gaunamas `NaN`. Todėl reikia nurodyti `fill_value` parametrą sudėties metu.
@ -95,7 +95,7 @@ Su laiko serijomis taip pat galime **perdaryti** seriją su skirtingais laiko in
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Mėnesio laiko serijos vidurkiai](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.lt.png)
![Mėnesio laiko serijos vidurkiai](../../../../translated_images/lt/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
### Duomenų rėmelis
@ -221,7 +221,7 @@ Pirmoji problema, į kurią sutelksime dėmesį, yra COVID-19 epidemijos plitimo
Kadangi norime parodyti, kaip dirbti su duomenimis, kviečiame atidaryti [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ir perskaityti jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
![COVID plitimas](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.lt.png)
![COVID plitimas](../../../../translated_images/lt/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
> Jei nežinote, kaip vykdyti kodą Jupyter Notebook, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -243,7 +243,7 @@ Pilnas šio duomenų rinkinio analizės pavyzdys naudojant [Text Analytics for H
Atidarykite [`notebook-papers.ipynb`](notebook-papers.ipynb) ir perskaitykite jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
![COVID medicininis gydymas](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.lt.png)
![COVID medicininis gydymas](../../../../translated_images/lt/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
## Vaizdų duomenų apdorojimas

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# Darbas su duomenimis
![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.lt.jpg)
![data love](../../../translated_images/lt/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
> Nuotrauka <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a><a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose sužinosite, kaip galima valdyti, manipuliuoti ir naudoti duomenis programose. Susipažinsite su reliacinėmis ir nereliacinėmis duomenų bazėmis bei kaip jose galima saugoti duomenis. Išmoksite pagrindus, kaip naudotis Python valdant duomenis, ir atrasite daugybę būdų, kaip Python gali būti naudojamas duomenims valdyti ir analizuoti.

@ -51,7 +51,7 @@ Sukurkite paprastą sklaidos diagramą, kad parodytumėte ryšį tarp medaus kai
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![sklaidos diagrama 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.lt.png)
![sklaidos diagrama 1](../../../../translated_images/lt/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotumėte, kaip kaina keitėsi per metus. Tai galite padaryti pridėdami 'hue' parametrą, kuris parodys pokyčius metai iš metų:
@ -60,7 +60,7 @@ Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotu
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![sklaidos diagrama 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.lt.png)
![sklaidos diagrama 2](../../../../translated_images/lt/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
Naudodami šią spalvų schemą, galite pastebėti, kad medaus kaina už svarą akivaizdžiai didėja metai iš metų. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų didėjimo tendenciją su keliomis išimtimis:
@ -89,7 +89,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Galite pastebėti, kaip taškų dydis palaipsniui didėja.
![sklaidos diagrama 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.lt.png)
![sklaidos diagrama 3](../../../../translated_images/lt/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar metai iš metų mažėja medaus pasiūla, todėl kaina kyla?
@ -104,7 +104,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Atsakymas: Taip, su keliomis išimtimis apie 2003 metus:
![linijinė diagrama 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.lt.png)
![linijinė diagrama 1](../../../../translated_images/lt/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
✅ Kadangi Seaborn agreguoja duomenis aplink vieną liniją, jis rodo „kelis matavimus kiekvienoje x reikšmėje, braižydamas vidurkį ir 95% pasitikėjimo intervalą aplink vidurkį“. [Šaltinis](https://seaborn.pydata.org/tutorial/relational.html). Šį laikui imlų veiksmą galima išjungti pridėjus `ci=None`.
@ -114,7 +114,7 @@ Klausimas: Na, o 2003 metais, ar taip pat matome medaus pasiūlos šuolį? Ką,
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![linijinė diagrama 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.lt.png)
![linijinė diagrama 2](../../../../translated_images/lt/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, ji iš tikrųjų atrodo padidėjusi tais metais, nors apskritai medaus gamyba mažėja per šiuos metus.
@ -139,7 +139,7 @@ sns.relplot(
```
Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams:
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.lt.png)
![facet grid](../../../../translated_images/lt/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
Šiame duomenų rinkinyje niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių metai iš metų bei valstija iš valstijos. Ar yra kitas būdas ieškoti koreliacijos tarp šių dviejų kintamųjų?
@ -162,7 +162,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.lt.png)
![superimposed plots](../../../../translated_images/lt/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
Nors niekas akivaizdžiai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei derlius vienai kolonijai mažėja.

@ -66,7 +66,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Čia įdiegiame `ggplot2` paketą ir importuojame jį į darbo aplinką naudodami komandą `library("ggplot2")`. Norint sukurti bet kokią diagramą su ggplot, naudojama funkcija `ggplot()`, kurioje nurodote duomenų rinkinį, x ir y kintamuosius kaip atributus. Šiuo atveju naudojame funkciją `geom_line()`, nes norime sukurti linijinę diagramą.
![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.lt.png)
![MaxWingspan-lineplot](../../../../../translated_images/lt/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis tai tikrai įspūdingas sparnų plotis! Sparnų plotis, viršijantis 2000 cm, yra daugiau nei 20 metrų ar Minesotoje skraido pterodaktiliai? Išsiaiškinkime.
@ -84,7 +84,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Mes nurodome kampą `theme` ir nurodome x ir y ašių etiketes naudodami `xlab()` ir `ylab()` atitinkamai. `ggtitle()` suteikia grafikui/diagramai pavadinimą.
![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.lt.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/lt/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
Net ir pasukus etiketes 45 laipsnių kampu, jų per daug, kad būtų galima perskaityti. Pabandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes pačioje diagramoje. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms:
@ -100,7 +100,7 @@ Kas čia vyksta? Naudojote funkciją `geom_point()`, kad pavaizduotumėte sklaid
Ką pastebite?
![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.lt.png)
![MaxWingspan-scatterplot](../../../../../translated_images/lt/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
## Filtruokite savo duomenis
@ -119,7 +119,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Sukūrėme naują duomenų rėmelį `birds_filtered` ir tada pavaizdavome sklaidos diagramą. Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.lt.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/lt/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
Dabar, kai turime švaresnį duomenų rinkinį bent jau sparnų pločio atžvilgiu, sužinokime daugiau apie šiuos paukščius.
@ -160,7 +160,7 @@ birds_filtered %>% group_by(Category) %>%
```
Šiame fragmente įdiegiame [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ir [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) paketus, kad padėtume manipuliuoti ir grupuoti duomenis, norint pavaizduoti sukrautą stulpelinę diagramą. Pirmiausia grupuojate duomenis pagal paukščių `Category` ir tada apibendrinate `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` stulpelius. Tada, naudodami `ggplot2` paketą, pavaizduojate stulpelinę diagramą, nurodydami spalvas skirtingoms kategorijoms ir etiketes.
![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.lt.png)
![Stacked bar chart](../../../../../translated_images/lt/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
Ši stulpelinė diagrama, tačiau, yra neįskaitoma, nes yra per daug negrupuotų duomenų. Turite pasirinkti tik tuos duomenis, kuriuos norite pavaizduoti, todėl pažvelkime į paukščių ilgį pagal jų kategoriją.
@ -175,7 +175,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Pirmiausia suskaičiuojate unikalių reikšmių skaičių `Category` stulpelyje ir tada surūšiuojate jas į naują duomenų rėmelį `birds_count`. Šie surūšiuoti duomenys tada faktorizuojami tame pačiame lygyje, kad būtų pavaizduoti surūšiuota tvarka. Naudodami `ggplot2` tada pavaizduojate duomenis stulpelinėje diagramoje. Funkcija `coord_flip()` pavaizduoja horizontalius stulpelius.
![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.lt.png)
![category-length](../../../../../translated_images/lt/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
Ši stulpelinė diagrama suteikia gerą vaizdą apie paukščių skaičių kiekvienoje kategorijoje. Vienu žvilgsniu matote, kad didžiausias paukščių skaičius šiame regione priklauso Antys/Žąsys/Vandens kategorijai. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina!
@ -198,7 +198,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Mes grupuojame `birds_filtered` duomenis pagal `Category` ir tada pavaizduojame stulpelinę diagramą.
![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.lt.png)
![comparing data](../../../../../translated_images/lt/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
Čia nieko nestebina: kolibriai turi mažiausią `MaxLength`, palyginti su pelikanais ar žąsimis. Gerai, kai duomenys logiškai atitinka!
@ -210,7 +210,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.lt.png)
![super-imposed values](../../../../../translated_images/lt/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
## 🚀 Iššūkis

@ -45,7 +45,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![maksimalus ilgis pagal būrį](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.lt.png)
![maksimalus ilgis pagal būrį](../../../../../translated_images/lt/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalgą, tačiau tai nėra optimalus būdas tikriems pasiskirstymams parodyti. Šią užduotį paprastai atlieka histograma.
@ -57,7 +57,7 @@ Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalg
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![pasiskirstymas visame duomenų rinkinyje](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.lt.png)
![pasiskirstymas visame duomenų rinkinyje](../../../../../translated_images/lt/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės ribą. Gaukite daugiau įžvalgų apie duomenis, pakeisdami `bins` parametrą į didesnį skaičių, pavyzdžiui, 30:
@ -65,7 +65,7 @@ Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į m
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![pasiskirstymas su 30 intervalų](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.lt.png)
![pasiskirstymas su 30 intervalų](../../../../../translated_images/lt/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą būtų galima sukurti užtikrinant, kad pasirinktumėte tik duomenis tam tikrame diapazone:
@ -77,7 +77,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtruota histograma](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.lt.png)
![filtruota histograma](../../../../../translated_images/lt/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus.
@ -91,7 +91,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Atrodo, kad tarp šių dviejų elementų yra tikėtinas koreliavimas pagal numatomą ašį, su viena ypač stipria susiliejimo vieta:
![2D diagrama](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.lt.png)
![2D diagrama](../../../../../translated_images/lt/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
Histogramų numatytasis veikimas gerai tinka skaitiniams duomenims. O kas, jei reikia pamatyti pasiskirstymus pagal tekstinius duomenis?
## Tyrinėkite duomenų rinkinį pagal tekstinius duomenis
@ -122,7 +122,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![sparnų amplitudė ir apsaugos statusas](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.lt.png)
![sparnų amplitudė ir apsaugos statusas](../../../../../translated_images/lt/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
Atrodo, kad nėra gero koreliavimo tarp minimalaus sparnų amplitudės dydžio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors koreliavimą?
@ -136,7 +136,7 @@ Dabar dirbkime su tankio diagramomis!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![tankio diagrama](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.lt.png)
![tankio diagrama](../../../../../translated_images/lt/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitudės duomenų diagramą; ji tiesiog šiek tiek sklandesnė. Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti, naudodami šį metodą:
@ -144,7 +144,7 @@ Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitud
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![kūno masės tankis](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.lt.png)
![kūno masės tankis](../../../../../translated_images/lt/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `adjust` parametrą:
@ -152,7 +152,7 @@ Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![mažiau sklandi kūno masė](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.lt.png)
![mažiau sklandi kūno masė](../../../../../translated_images/lt/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
✅ Perskaitykite apie šio tipo diagramos parametrus ir eksperimentuokite!
@ -162,7 +162,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![kūno masė pagal būrį](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.lt.png)
![kūno masė pagal būrį](../../../../../translated_images/lt/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
## 🚀 Iššūkis

@ -93,7 +93,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Štai pyrago diagrama, rodanti šių duomenų proporcijas pagal šias dvi grybų klases. Labai svarbu teisingai nustatyti etikečių tvarką, ypač čia, todėl būtinai patikrinkite, ar etikečių masyvas sudarytas teisinga tvarka!
![pyrago diagrama](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.lt.png)
![pyrago diagrama](../../../../../translated_images/lt/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
## Žiedai!
@ -127,7 +127,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![žiedo diagrama](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.lt.png)
![žiedo diagrama](../../../../../translated_images/lt/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
Šis kodas naudoja dvi bibliotekas - ggplot2 ir webr. Naudodami webr bibliotekos PieDonut funkciją, galite lengvai sukurti žiedo diagramą!
@ -165,7 +165,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Naudodami vaflio diagramą, galite aiškiai matyti grybų kepurėlių spalvų proporcijas šiame duomenų rinkinyje. Įdomu tai, kad yra daug grybų su žaliomis kepurėlėmis!
![vaflio diagrama](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.lt.png)
![vaflio diagrama](../../../../../translated_images/lt/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
Šioje pamokoje išmokote tris būdus, kaip vizualizuoti proporcijas. Pirmiausia reikia suskirstyti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai atspindi duomenis - pyragas, žiedas ar vaflis. Visi jie yra „skanūs“ ir suteikia vartotojui greitą duomenų rinkinio apžvalgą.

@ -51,7 +51,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![sklaidos diagrama 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.lt.png)
![sklaidos diagrama 1](../../../../../translated_images/lt/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'scale_color_gradientn' parametrą, kad parodytumėte pokyčius:
@ -61,7 +61,7 @@ Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumė
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![sklaidos diagrama 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.lt.png)
![sklaidos diagrama 2](../../../../../translated_images/lt/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
Naudodami šią spalvų schemą, galite pastebėti, kad per metus medaus kaina už svarą akivaizdžiai kyla. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų kilimo modelį metai iš metų, su keliomis išimtimis:
@ -92,7 +92,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Matote, kaip taškų dydis palaipsniui didėja.
![sklaidos diagrama 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.lt.png)
![sklaidos diagrama 3](../../../../../translated_images/lt/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar medaus kiekis, kurį galima įsigyti, mažėja metai iš metų, todėl kaina kyla?
@ -107,7 +107,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Atsakymas: Taip, su keliomis išimtimis apie 2003 metus:
![linijinė diagrama 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.lt.png)
![linijinė diagrama 1](../../../../../translated_images/lt/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
Klausimas: Na, o 2003 metais, ar taip pat matome medaus tiekimo šuolį? Ką, jei pažvelgtume į bendrą gamybą metai iš metų?
@ -115,7 +115,7 @@ Klausimas: Na, o 2003 metais, ar taip pat matome medaus tiekimo šuolį? Ką, je
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![linijinė diagrama 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.lt.png)
![linijinė diagrama 2](../../../../../translated_images/lt/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, atrodo, kad ji iš tikrųjų padidėjo tais metais, nors apskritai medaus gamybos kiekis mažėja per šiuos metus.
@ -135,7 +135,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams:
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.lt.png)
![facet grid](../../../../../translated_images/lt/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
Šiam duomenų rinkiniui niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių, metai iš metų ir valstija po valstijos. Ar yra kitoks būdas ieškoti koreliacijos tarp šių dviejų kintamųjų?
@ -152,7 +152,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![uždėtos diagramos](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.lt.png)
![uždėtos diagramos](../../../../../translated_images/lt/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
Nors niekas ypatingai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei jų derlius vienai kolonijai mažėja.

@ -47,25 +47,25 @@ Ankstesnėse pamokose eksperimentavote su įvairių tipų duomenų vizualizacijo
Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pažeidžiant pačius duomenis. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių!
[![Kaip meluoja diagramos, Alberto Cairo](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.lt.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
[![Kaip meluoja diagramos, Alberto Cairo](../../../../../translated_images/lt/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas
Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis:
![bloga diagrama 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.lt.png)
![bloga diagrama 1](../../../../../translated_images/lt/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar labiau klaidinanti, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejų skaičius sumažėjo įvairiose apskrityse. Tačiau, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo pertvarkytos, kad būtų parodyta klaidinanti mažėjimo tendencija.
![bloga diagrama 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.lt.jpg)
![bloga diagrama 2](../../../../../translated_images/lt/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius padidėjo po ginklams palankios teisės aktų priėmimo, akis apgaunama manyti, kad tiesa yra priešinga:
![bloga diagrama 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.lt.jpg)
![bloga diagrama 3](../../../../../translated_images/lt/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
Ši keista diagrama rodo, kaip proporcijos gali būti manipuliuojamos, sukeliant juoką:
![bloga diagrama 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.lt.jpg)
![bloga diagrama 4](../../../../../translated_images/lt/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
Palyginti nepalyginamus dalykus yra dar vienas abejotinas triukas. Yra [puiki svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, koreliuojantys tokius dalykus kaip skyrybų rodiklis Meino valstijoje ir margarino vartojimas. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -100,13 +100,13 @@ Pažymėkite ašis, pateikite legendą, jei reikia, ir pasiūlykite užuominas (
Jei jūsų duomenys yra tekstiniai ir ilgi X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) siūlo 3D diagramų kūrimą, jei jūsų duomenys tai palaiko. Naudojant šią biblioteką galima sukurti sudėtingas duomenų vizualizacijas.
![3D diagramos](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.lt.png)
![3D diagramos](../../../../../translated_images/lt/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
## Animacija ir 3D diagramų rodymas
Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu sukūrė nuostabias vizualizacijas su D3, tokias kaip '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, sukurtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei pasakojimo straipsnio formatą, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto.
![busing](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.lt.png)
![busing](../../../../../translated_images/lt/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
> „Bussed Out: How America Moves its Homeless“ iš [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos: Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šias galingas vizuali
Jūs sukursite internetinę programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą [tinklo vizualizacijai](https://github.com/emiliorizzo/vue-d3-network) su Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis.
![liaisons](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.lt.png)
![liaisons](../../../../../translated_images/lt/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
## Projektas: Sukurkite diagramą tinklui parodyti naudojant D3.js

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# Vizualizacijos
![bitė ant levandos žiedo](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.lt.jpg)
![bitė ant levandos žiedo](../../../translated_images/lt/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
> Nuotrauka <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a><a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Duomenų vizualizavimas yra viena svarbiausių duomenų mokslininko užduočių. Vaizdai verti tūkstančio žodžių, o vizualizacija gali padėti atskleisti įvairius įdomius jūsų duomenų aspektus, tokius kaip šuoliai, anomalijos, grupavimai, tendencijos ir dar daugiau, kas padeda suprasti istoriją, kurią jūsų duomenys bando papasakoti.

@ -25,7 +25,7 @@ CO_OP_TRANSLATOR_METADATA:
Šioje pamokoje daugiausia dėmesio skiriama trims gyvavimo ciklo dalims: duomenų rinkimui, apdorojimui ir priežiūrai.
![Duomenų mokslo gyvavimo ciklo diagrama](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.lt.jpg)
![Duomenų mokslo gyvavimo ciklo diagrama](../../../../translated_images/lt/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
> Nuotrauka iš [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Duomenų rinkimas
@ -101,7 +101,7 @@ Išnagrinėkite [Komandos duomenų mokslo proceso gyvavimo ciklą](https://docs.
|Komandos duomenų mokslo procesas (TDSP)|Kryžminės pramonės standartinis duomenų gavybos procesas (CRISP-DM)|
|--|--|
|![Komandos duomenų mokslo gyvavimo ciklas](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.lt.png) | ![Duomenų mokslo proceso aljanso vaizdas](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.lt.png) |
|![Komandos duomenų mokslo gyvavimo ciklas](../../../../translated_images/lt/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Duomenų mokslo proceso aljanso vaizdas](../../../../translated_images/lt/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
| Vaizdas iš [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Vaizdas iš [Duomenų mokslo proceso aljanso](https://www.datascience-pm.com/crisp-dm-2/) |
## [Po paskaitos: testas](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# Duomenų mokslo gyvavimo ciklas
![communication](../../../translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.lt.jpg)
![communication](../../../translated_images/lt/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
> Nuotrauka <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a><a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose nagrinėsite kai kuriuos duomenų mokslo gyvavimo ciklo aspektus, įskaitant duomenų analizę ir komunikaciją.

@ -9,13 +9,13 @@ CO_OP_TRANSLATOR_METADATA:
-->
# Duomenų mokslas debesyje
![cloud-picture](../../../translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.lt.jpg)
![cloud-picture](../../../translated_images/lt/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
> Nuotrauka [Jelleke Vanooteghem](https://unsplash.com/@ilumire) iš [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Kalbant apie duomenų mokslą su dideliais duomenų kiekiais, debesis gali būti tikras žaidimo keitiklis. Per artimiausias tris pamokas sužinosime, kas yra debesis ir kodėl jis gali būti labai naudingas. Taip pat išnagrinėsime širdies nepakankamumo duomenų rinkinį ir sukursime modelį, kuris padės įvertinti tikimybę, ar žmogui gresia širdies nepakankamumas. Naudosime debesies galią, kad apmokytume, diegtume ir naudotume modelį dviem skirtingais būdais. Vienas būdas naudojant tik vartotojo sąsają „Low code/No code“ stiliumi, kitas naudojant „Azure Machine Learning Software Developer Kit“ (Azure ML SDK).
![project-schema](../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.lt.png)
![project-schema](../../../translated_images/lt/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
### Temos

@ -41,7 +41,7 @@ Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrį
* [Duomenų mokslas sveikatos apsaugoje](https://data-flair.training/blogs/data-science-in-healthcare/) - pabrėžia taikymą, pvz., medicininį vaizdavimą (pvz., MRT, rentgenas, KT skenavimas), genomiką (DNR sekos nustatymas), vaistų kūrimą (rizikos vertinimas, sėkmės prognozė), prognozavimo analizę (pacientų priežiūra ir tiekimo logistika), ligų stebėjimą ir prevenciją ir kt.
![Duomenų mokslo taikymas realiame pasaulyje](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.lt.png) Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Duomenų mokslo taikymas realiame pasaulyje](../../../../translated_images/lt/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų mokslo technikas. Norite tyrinėti kitus taikymus? Peržiūrėkite [Peržiūra ir savarankiškas mokymasis](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) skyrių žemiau.

@ -22,7 +22,7 @@ Explorer sąsaja (pavaizduota žemiau esančiame ekrano vaizde) leidžia pasirin
2. Išnagrinėti duomenų rinkinių [Katalogą](https://planetarycomputer.microsoft.com/catalog) sužinoti kiekvieno paskirtį.
3. Naudoti Explorer pasirinkti jus dominantį duomenų rinkinį, pasirinkti tinkamą užklausą ir atvaizdavimo parinktį.
![Planetary Computer Explorer](../../../../translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.lt.png)
![Planetary Computer Explorer](../../../../translated_images/lt/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
`Jūsų užduotis:`
Dabar išanalizuokite naršyklėje sugeneruotą vizualizaciją ir atsakykite į šiuos klausimus:

@ -312,7 +312,7 @@ Pavyzdžiai:
import pandas as pd
```
````
- Pridėkite alternatyvų tekstą vaizdams: `![Alt text](../../translated_images/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.lt.png)`
- Pridėkite alternatyvų tekstą vaizdams: `![Alt text](../../translated_images/lt/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.png)`
- Išlaikykite pagrįstą eilutės ilgį (apie 80100 simbolių)
### Python

@ -33,7 +33,7 @@ Azure Cloud Advocates komanda Microsoft įmonėje džiaugiasi galėdama pasiūly
**🙏 Ypatingas ačiū 🙏 mūsų [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autoriams, peržiūrėtojams ir turinio bendradarbiams,** išskirtinai Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote autorius @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.lt.png)|
|![Sketchnote autorius @sketchthedocs https://sketchthedocs.dev](../../translated_images/lt/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.png)|
|:---:|
| Duomenų mokslas pradedantiesiems - _Sketchnote autorius [@nitya](https://twitter.com/nitya)_ |
@ -52,7 +52,7 @@ Azure Cloud Advocates komanda Microsoft įmonėje džiaugiasi galėdama pasiūly
Mes rengiame Discord „Mokymasis su DI“ seriją — sužinokite daugiau ir prisijunkite prie mūsų [Mokymasis su DI serijos](https://aka.ms/learnwithai/discord) renginio nuo 2025 m. rugsėjo 18 d. iki 30 d. Gavę patarimų ir gudrybių, kaip naudoti GitHub Copilot Duomenų mokslui.
![Mokymasis su DI serija](../../translated_images/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.lt.jpg)
![Mokymasis su DI serija](../../translated_images/lt/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.jpg)
# Ar esi studentas?
@ -132,7 +132,7 @@ Kiekvienas pavyzdys turi išsamius komentarus, paaiškinančius kiekvieną žing
## Pamokos
|![ Sketchnote sukūrė @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png)|
|![ Sketchnote sukūrė @sketchthedocs https://sketchthedocs.dev](../../translated_images/lt/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)|
|:---:|
| Duomenų mokslas pradedantiesiems: kelio žemėlapis - _Sketchnote sukūrė [@nitya](https://twitter.com/nitya)_ |

@ -13,7 +13,7 @@ Raskite visas sketchnotes čia!
Nitya Narasimhan, menininkė
![kelio žemėlapio sketchnote](../../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png)
![kelio žemėlapio sketchnote](../../../translated_images/lt/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
---

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
---
[![Defining Data Science Video](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ml.png)](https://youtu.be/beZ7Mb_oz9I)
[![Defining Data Science Video](../../../../translated_images/ml/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -153,7 +153,7 @@ CO_OP_TRANSLATOR_METADATA:
ഈ വെല്ലുവിളിയിൽ, ഡാറ്റാ സയൻസ് മേഖലയുമായി ബന്ധപ്പെട്ട ആശയങ്ങൾ വാചകങ്ങൾ പരിശോധിച്ച് കണ്ടെത്താൻ ശ്രമിക്കും. ഡാറ്റാ സയൻസിനെക്കുറിച്ചുള്ള ഒരു വിക്കിപീഡിയ ലേഖനം എടുത്ത്, ടെക്സ്റ്റ് ഡൗൺലോഡ് ചെയ്ത് പ്രോസസ് ചെയ്ത്, താഴെ കാണുന്ന പോലെ ഒരു വാക്ക് ക്ലൗഡ് നിർമ്മിക്കും:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ml.png)
![Word Cloud for Data Science](../../../../translated_images/ml/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
കോഡ് വായിക്കാൻ [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') സന്ദർശിക്കുക. നിങ്ങൾക്ക് കോഡ് പ്രവർത്തിപ്പിച്ച് എല്ലാ ഡാറ്റാ പരിവർത്തനങ്ങളും യഥാർത്ഥ സമയത്ത് എങ്ങനെ നടക്കുന്നതെന്ന് കാണാം.

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
സാംഖ്യശാസ്ത്രവും സാദ്ധ്യത സിദ്ധാന്തവും ഗണിതശാസ്ത്രത്തിന്റെ രണ്ട് വളരെ ബന്ധപ്പെട്ട മേഖലകളാണ്, ഇവ ഡാറ്റാ സയൻസിനോട് വളരെ ബന്ധപ്പെട്ടവയാണ്. ഗണിതശാസ്ത്രത്തിന്റെ ആഴത്തിലുള്ള അറിവില്ലാതെ ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നത് സാധ്യമാണ്, പക്ഷേ കുറഞ്ഞത് ചില അടിസ്ഥാന ആശയങ്ങൾ അറിയുന്നത് മെച്ചമാണ്. ഇവിടെ നിങ്ങൾക്ക് ആരംഭിക്കാൻ സഹായിക്കുന്ന ഒരു ചെറിയ പരിചയം നൽകുന്നു.
[![Intro Video](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.ml.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/ml/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
## [പ്രീ-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -40,7 +40,7 @@ CO_OP_TRANSLATOR_METADATA:
ഒരു ചാരത്രം ഒരു നൽകിയ മൂല്യ പരിധിയിൽപ്പെടുന്ന സാദ്ധ്യതയെക്കുറിച്ച് മാത്രമേ സംസാരിക്കാനാകൂ, ഉദാഹരണത്തിന് P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). ഈ സാഹചര്യത്തിൽ, സാദ്ധ്യത വിതരണം **സാദ്ധ്യത സാന്ദ്രത ഫംഗ്ഷൻ** p(x) ഉപയോഗിച്ച് വിവരിക്കപ്പെടുന്നു, അതായത്
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.ml.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ml/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
യൂണിഫോം വിതരണത്തിന്റെ കണ്ടിന്യൂവസ് അനലോഗ് **കണ്ടിന്യൂവസ് യൂണിഫോം** എന്നാണ് വിളിക്കുന്നത്, ഇത് ഒരു പരിധിയിലായി നിർവചിക്കപ്പെടുന്നു. മൂല്യം X ഒരു l നീളമുള്ള ഇടവേളയിൽപ്പെടാനുള്ള സാദ്ധ്യത l-നോട് അനുപാതികമാണ്, കൂടാതെ 1 വരെ ഉയരും.
@ -65,7 +65,7 @@ CO_OP_TRANSLATOR_METADATA:
ഗ്രാഫിക് ആയി, മീഡിയനും ക്വാർട്ടൈൽസും തമ്മിലുള്ള ബന്ധം **ബോക്സ് പ്ലോട്ട്** എന്ന ചിത്രരൂപത്തിൽ പ്രതിനിധീകരിക്കാം:
<img src="../../../../translated_images/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.ml.png" alt="Box Plot Explanation" width="50%">
<img src="../../../../translated_images/ml/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.png" alt="Box Plot Explanation" width="50%">
ഇവിടെ **ഇന്റർ-ക്വാർട്ടൈൽ റേഞ്ച്** IQR=Q3-Q1 കണക്കാക്കുന്നു, കൂടാതെ **ഔട്ട്‌ലൈയേഴ്സ്** - [Q1-1.5*IQR, Q3+1.5*IQR] എന്ന പരിധിക്ക് പുറത്തുള്ള മൂല്യങ്ങൾ.
@ -83,11 +83,11 @@ CO_OP_TRANSLATOR_METADATA:
ഇവിടെ നമ്മുടെ ഡാറ്റയുടെ ശരാശരി, മീഡിയൻ, ക്വാർട്ടൈൽസ് കാണിക്കുന്ന ബോക്സ് പ്ലോട്ട്:
![Weight Box Plot](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.ml.png)
![Weight Box Plot](../../../../translated_images/ml/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
നമ്മുടെ ഡാറ്റയിൽ വിവിധ കളിക്കാരുടെ **പങ്കുകൾ** സംബന്ധിച്ച വിവരങ്ങൾ ഉള്ളതിനാൽ, പങ്ക് അനുസരിച്ച് ബോക്സ് പ്ലോട്ട് ചെയ്യാം - ഇത് പങ്കുകൾക്കിടയിലെ പാരാമീറ്റർ മൂല്യങ്ങൾ എങ്ങനെ വ്യത്യസ്തമാണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കും. ഈ തവണ ഉയരം പരിഗണിക്കാം:
![Box plot by role](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.ml.png)
![Box plot by role](../../../../translated_images/ml/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
ഈ ചിത്രരൂപം സൂചിപ്പിക്കുന്നത്, ശരാശരിയിൽ, ഫസ്റ്റ് ബേസ്മാന്റെ ഉയരം സെക്കന്റ് ബേസ്മാന്റെ ഉയരത്തേക്കാൾ കൂടുതലാണെന്ന്. ഈ പാഠത്തിൽ പിന്നീട് നാം ഈ ഹിപോത്തസിസ് കൂടുതൽ ഔപചാരികമായി പരിശോധിക്കുന്നതും, നമ്മുടെ ഡാറ്റ സാംഖ്യശാസ്ത്രപരമായി പ്രാധാന്യമുള്ളതാണെന്ന് തെളിയിക്കുന്നതും പഠിക്കും.
@ -95,7 +95,7 @@ CO_OP_TRANSLATOR_METADATA:
നമ്മുടെ ഡാറ്റയുടെ വിതരണമോ എന്താണെന്ന് കാണാൻ, **ഹിസ്റ്റോഗ്രാം** എന്ന ഗ്രാഫ് വരച്ചിടാം. X-അക്ഷത്തിൽ വ്യത്യസ്ത ഭാര ഇടവേളകൾ (അഥവാ **ബിൻസ്**) കാണിക്കും, ലംബ അക്ഷത്തിൽ ആ ഇടവേളയിൽ നമ്മുടെ യാദൃച്ഛിക ചാരത്രം എത്ര തവണപ്പെട്ടുവെന്ന് കാണിക്കും.
![Histogram of real world data](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.ml.png)
![Histogram of real world data](../../../../translated_images/ml/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
ഈ ഹിസ്റ്റോഗ്രാമിൽ നിന്ന് കാണാം എല്ലാ മൂല്യങ്ങളും ഒരു ശരാശരി ഭാരം ചുറ്റും കേന്ദ്രീകരിച്ചിരിക്കുന്നു, ആ ഭാരം വിട്ട് ദൂരെ പോകുമ്പോൾ ആ മൂല്യത്തിന്റെ ഭാരങ്ങൾ കുറവാണ്. അഥവാ, ഒരു ബേസ്ബോൾ കളിക്കാരന്റെ ഭാരം ശരാശരി ഭാരത്തിൽ നിന്ന് വളരെ വ്യത്യസ്തമായിരിക്കാനുള്ള സാധ്യത വളരെ കുറവാണ്. ഭാരങ്ങളുടെ വ്യതിയാനം ശരാശരി മുതൽ വ്യത്യാസം എത്രത്തോളം ഉണ്ടാകാമെന്ന് കാണിക്കുന്നു.
@ -112,7 +112,7 @@ samples = np.random.normal(mean,std,1000)
സൃഷ്ടിച്ച സാമ്പിളുകളുടെ ഹിസ്റ്റോഗ്രാം വരച്ചാൽ മുകളിൽ കാണിച്ച ചിത്രത്തിന് സമാനമായ ചിത്രം കാണാം. സാമ്പിളുകളുടെ എണ്ണം കൂടുകയും ബിൻസിന്റെ എണ്ണം കൂടുകയും ചെയ്താൽ, നോർമൽ വിതരണത്തിന്റെ ഒരു കൂടുതൽ ഐഡിയൽ ചിത്രം സൃഷ്ടിക്കാം:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.ml.png)
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/ml/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
*ശരാശരി=0, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ=1 ഉള്ള നോർമൽ വിതരണം*
@ -231,7 +231,7 @@ array([[1. , 0.52959196],
നമ്മുടെ കേസിൽ, 0.53 എന്ന മൂല്യം ഒരു വ്യക്തിയുടെ ഭാരം, ഉയരം എന്നിവ തമ്മിൽ ചില കോറിലേഷൻ ഉണ്ടെന്ന് സൂചിപ്പിക്കുന്നു. നാം ഒരു മൂല്യം മറ്റൊന്നിനെതിരെ സ്കാറ്റർ പ്ലോട്ട് ഉണ്ടാക്കുകയും ബന്ധം ദൃശ്യമായി കാണുകയും ചെയ്യാം:
![ഭാരം, ഉയരം തമ്മിലുള്ള ബന്ധം](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.ml.png)
![ഭാരം, ഉയരം തമ്മിലുള്ള ബന്ധം](../../../../translated_images/ml/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
> കോറിലേഷൻ, കോവേറിയൻസ് എന്നിവയുടെ കൂടുതൽ ഉദാഹരണങ്ങൾ [സഹായക നോട്ട്‌ബുക്കിൽ](notebook.ipynb) കാണാം.

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ഡാറ്റാ സയൻസിലേക്ക് പരിചയം
![data in action](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.ml.jpg)
![data in action](../../../translated_images/ml/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
> ഫോട്ടോ <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">സ്റ്റീഫൻ ഡോസൺ</a> <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a>
ഈ പാഠങ്ങളിൽ, ഡാറ്റാ സയൻസ് എങ്ങനെ നിർവചിക്കപ്പെടുന്നു എന്ന് നിങ്ങൾ കണ്ടെത്തും, ഒരു ഡാറ്റാ സയന്റിസ്റ്റ് പരിഗണിക്കേണ്ട നൈതിക കാര്യങ്ങളെക്കുറിച്ച് പഠിക്കും. ഡാറ്റ എങ്ങനെ നിർവചിക്കപ്പെടുന്നു എന്നും, ഡാറ്റാ സയൻസിന്റെ മേധാവി അക്കാദമിക് മേഖലകളായ സ്ഥിതിവിവരശാസ്ത്രവും സാദ്ധ്യതയും കുറിച്ച് കുറച്ച് പഠിക്കും.

@ -21,7 +21,7 @@ CO_OP_TRANSLATOR_METADATA:
സ്പ്രെഡ്‌ഷീറ്റുകൾ ഡാറ്റ സംഭരിക്കാനും പരിശോധിക്കാനും പ്രചാരത്തിലുള്ള മാർഗമാണ്, കാരണം സജ്ജീകരിക്കാനും ആരംഭിക്കാനും കുറച്ച് ശ്രമം മാത്രം ആവശ്യമാണ്. ഈ പാഠത്തിൽ നിങ്ങൾ സ്പ്രെഡ്‌ഷീറ്റിന്റെ അടിസ്ഥാന ഘടകങ്ങളും ഫോർമുലകളും ഫംഗ്ഷനുകളും പഠിക്കും. ഉദാഹരണങ്ങൾ മൈക്രോസോഫ്റ്റ് എക്സെലിൽ കാണിക്കും, പക്ഷേ മറ്റ് സ്പ്രെഡ്‌ഷീറ്റ് സോഫ്റ്റ്‌വെയറുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ പല ഭാഗങ്ങളും വിഷയങ്ങളും സമാനമായ പേരുകളും ഘട്ടങ്ങളും ഉണ്ടാകും.
![രണ്ട് വർക്ക്‌ഷീറ്റുകളുള്ള ഒരു ശൂന്യമായ മൈക്രോസോഫ്റ്റ് എക്സെൽ വർക്ക്‌ബുക്ക്](../../../../translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.ml.png)
![രണ്ട് വർക്ക്‌ഷീറ്റുകളുള്ള ഒരു ശൂന്യമായ മൈക്രോസോഫ്റ്റ് എക്സെൽ വർക്ക്‌ബുക്ക്](../../../../translated_images/ml/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.png)
ഒരു സ്പ്രെഡ്‌ഷീറ്റ് ഒരു ഫയലാണ്, ഇത് കമ്പ്യൂട്ടർ, ഉപകരണം, അല്ലെങ്കിൽ ക്ലൗഡ് അടിസ്ഥാനമാക്കിയ ഫയൽ സിസ്റ്റത്തിൽ ലഭ്യമാണ്. സോഫ്റ്റ്‌വെയർ ബ്രൗസർ അടിസ്ഥാനമോ കമ്പ്യൂട്ടറിൽ ഇൻസ്റ്റാൾ ചെയ്യേണ്ട ആപ്ലിക്കേഷനോ ആപ്പ് ഡൗൺലോഡ് ചെയ്യേണ്ടതായിരിക്കാം. എക്സെലിൽ ഈ ഫയലുകൾ **വർക്ക്‌ബുക്കുകൾ** എന്നറിയപ്പെടുന്നു, ഈ പദം ഈ പാഠത്തിന്റെ ശേഷിക്കുന്ന ഭാഗത്ത് ഉപയോഗിക്കും.
@ -33,11 +33,11 @@ CO_OP_TRANSLATOR_METADATA:
"InventoryExample" എന്ന പേരിലുള്ള സ്പ്രെഡ്‌ഷീറ്റ് ഫയൽ ഒരു ഇൻവെന്ററിയിലുള്ള വസ്തുക്കളുടെ ഫോർമാറ്റ് ചെയ്ത സ്പ്രെഡ്‌ഷീറ്റാണ്, ഇതിൽ മൂന്ന് വർക്ക്‌ഷീറ്റുകൾ ഉണ്ട്, ടാബുകൾ "Inventory List", "Inventory Pick List" , "Bin Lookup" എന്നിങ്ങനെയാണ് ലേബൽ ചെയ്തിരിക്കുന്നത്. Inventory List വർക്ക്‌ഷീറ്റിലെ 4-ആം വരി ഹെഡറാണ്, ഹെഡർ കോളത്തിലെ ഓരോ സെല്ലിന്റെ മൂല്യം വിവരിക്കുന്നു.
![മൈക്രോസോഫ്റ്റ് എക്സെലിൽ ഒരു ഉദാഹരണ ഇൻവെന്ററി ലിസ്റ്റിൽ ഹൈലൈറ്റ് ചെയ്ത ഫോർമുല](../../../../translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.ml.png)
![മൈക്രോസോഫ്റ്റ് എക്സെലിൽ ഒരു ഉദാഹരണ ഇൻവെന്ററി ലിസ്റ്റിൽ ഹൈലൈറ്റ് ചെയ്ത ഫോർമുല](../../../../translated_images/ml/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.png)
ഒരു സെൽ മറ്റൊരു സെല്ലുകളുടെ മൂല്യങ്ങളിൽ ആശ്രയിച്ചിരിക്കാം അതിന്റെ മൂല്യം നിർമിക്കാൻ. Inventory List സ്പ്രെഡ്‌ഷീറ്റ് ഇൻവെന്ററിയിലെ ഓരോ വസ്തുവിന്റെ ചെലവ് ട്രാക്ക് ചെയ്യുന്നു, പക്ഷേ ഇൻവെന്ററിയിലെ എല്ലാം മൂല്യം അറിയേണ്ടതുണ്ടെങ്കിൽ? [**ഫോർമുലകൾ**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) സെൽ ഡാറ്റയിൽ പ്രവർത്തനങ്ങൾ നടത്തുന്നു, ഈ ഉദാഹരണത്തിൽ ഇൻവെന്ററിയുടെ ചെലവ് കണക്കാക്കാൻ ഉപയോഗിക്കുന്നു. ഈ സ്പ്രെഡ്‌ഷീറ്റിൽ Inventory Value കോളത്തിൽ ഒരു ഫോർമുല ഉപയോഗിച്ച് ഓരോ വസ്തുവിന്റെ മൂല്യം കണക്കാക്കുന്നു, QTY ഹെഡറിന്റെ കീഴിലുള്ള അളവും COST ഹെഡറിന്റെ കീഴിലുള്ള ചെലവും ഗുണിച്ച്. ഒരു സെൽ ഡബിൾ ക്ലിക്കുചെയ്യുകയോ ഹൈലൈറ്റ് ചെയ്യുകയോ ചെയ്താൽ ഫോർമുല കാണാം. ഫോർമുലകൾ സമം ചിഹ്നത്തോടെ ആരംഭിക്കുന്നു, തുടർന്ന് കണക്കുകൂട്ടൽ അല്ലെങ്കിൽ പ്രവർത്തനം വരുന്നു.
![മൈക്രോസോഫ്റ്റ് എക്സെലിൽ ഒരു ഉദാഹരണ ഇൻവെന്ററി ലിസ്റ്റിൽ ഹൈലൈറ്റ് ചെയ്ത ഫംഗ്ഷൻ](../../../../translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.ml.png)
![മൈക്രോസോഫ്റ്റ് എക്സെലിൽ ഒരു ഉദാഹരണ ഇൻവെന്ററി ലിസ്റ്റിൽ ഹൈലൈറ്റ് ചെയ്ത ഫംഗ്ഷൻ](../../../../translated_images/ml/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.png)
നാം മറ്റൊരു ഫോർമുല ഉപയോഗിച്ച് Inventory Value യിലെ എല്ലാ മൂല്യങ്ങളും കൂട്ടിച്ചേർത്ത് ആകെ മൂല്യം കണ്ടെത്താം. ഓരോ സെലും കൂട്ടിച്ചേർക്കുന്നത് ഒരു ബുദ്ധിമുട്ടുള്ള ജോലി ആകാം. എക്സെലിൽ [**ഫംഗ്ഷനുകൾ**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89) ഉണ്ട്, സെൽ മൂല്യങ്ങളിൽ കണക്കുകൂട്ടലുകൾ നടത്താൻ മുൻകൂട്ടി നിർവചിച്ച ഫോർമുലകൾ. ഫംഗ്ഷനുകൾക്ക് ആർഗ്യുമെന്റുകൾ ആവശ്യമുണ്ട്, കണക്കുകൂട്ടലുകൾ നടത്താൻ ആവശ്യമായ മൂല്യങ്ങൾ. ഫംഗ്ഷനുകൾക്ക് ഒരിലധികം ആർഗ്യുമെന്റുകൾ ആവശ്യമെങ്കിൽ, അവ ഒരു പ്രത്യേക ക്രമത്തിൽ ലിസ്റ്റ് ചെയ്യണം അല്ലെങ്കിൽ ഫംഗ്ഷൻ ശരിയായ മൂല്യം കണക്കാക്കില്ല. ഈ ഉദാഹരണത്തിൽ SUM ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു, Inventory Value യിലെ മൂല്യങ്ങൾ ആർഗ്യുമെന്റായി ഉപയോഗിച്ച് B3 (3-ആം വരി, B കോളം) ൽ ആകെ മൂല്യം കണക്കാക്കുന്നു.
@ -45,17 +45,17 @@ CO_OP_TRANSLATOR_METADATA:
NoSQL എന്നത് നോൺ-റിലേഷണൽ ഡാറ്റ സംഭരിക്കുന്ന വ്യത്യസ്ത മാർഗങ്ങൾക്കുള്ള ഒരു പൊതുവായ പദമാണ്, ഇത് "non-SQL", "non-relational" അല്ലെങ്കിൽ "not only SQL" എന്നർത്ഥത്തിൽ വ്യാഖ്യാനിക്കാം. ഈ തരം ഡാറ്റാബേസ് സിസ്റ്റങ്ങൾ 4 തരം ആയി വർഗ്ഗീകരിക്കാം.
![കീ-വാല്യു ഡാറ്റ സ്റ്റോർ കാണിക്കുന്ന 4 വ്യത്യസ്ത സംഖ്യാത്മക കീകൾ 4 വ്യത്യസ്ത മൂല്യങ്ങളുമായി ബന്ധിപ്പിച്ചിരിക്കുന്ന ഗ്രാഫിക്കൽ പ്രതിനിധാനം](../../../../translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.ml.png)
![കീ-വാല്യു ഡാറ്റ സ്റ്റോർ കാണിക്കുന്ന 4 വ്യത്യസ്ത സംഖ്യാത്മക കീകൾ 4 വ്യത്യസ്ത മൂല്യങ്ങളുമായി ബന്ധിപ്പിച്ചിരിക്കുന്ന ഗ്രാഫിക്കൽ പ്രതിനിധാനം](../../../../translated_images/ml/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.png)
> സ്രോതസ്സ്: [Michał Białecki Blog](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/)
[കീ-വാല്യു](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) ഡാറ്റാബേസുകൾ വ്യത്യസ്ത മൂല്യങ്ങളുമായി ബന്ധപ്പെട്ട ഒരു പ്രത്യേക കീ (അനന്യ തിരിച്ചറിയൽ) യെ ജോഡിക്കുന്നു. ഈ ജോഡികൾ [ഹാഷ് ടേബിൾ](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) ഉപയോഗിച്ച് അനുയോജ്യമായ ഹാഷിംഗ് ഫംഗ്ഷൻ ഉപയോഗിച്ച് സംഭരിക്കുന്നു.
![പേര്, താൽപ്പര്യങ്ങൾ, സ്ഥലങ്ങൾ എന്നിവ തമ്മിലുള്ള ബന്ധങ്ങൾ കാണിക്കുന്ന ഗ്രാഫ് ഡാറ്റ സ്റ്റോർ ഗ്രാഫിക്കൽ പ്രതിനിധാനം](../../../../translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.ml.png)
![പേര്, താൽപ്പര്യങ്ങൾ, സ്ഥലങ്ങൾ എന്നിവ തമ്മിലുള്ള ബന്ധങ്ങൾ കാണിക്കുന്ന ഗ്രാഫ് ഡാറ്റ സ്റ്റോർ ഗ്രാഫിക്കൽ പ്രതിനിധാനം](../../../../translated_images/ml/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.png)
> സ്രോതസ്സ്: [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example)
[ഗ്രാഫ്](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) ഡാറ്റാബേസുകൾ ഡാറ്റയിലെ ബന്ധങ്ങൾ വിവരിക്കുന്നു, ഇത് നോഡുകളും എഡ്ജുകളും അടങ്ങിയ ഒരു ശേഖരമായി പ്രതിനിധീകരിക്കുന്നു. ഒരു നോഡ് ഒരു സত্ত്വത്തെ പ്രതിനിധീകരിക്കുന്നു, ഉദാഹരണത്തിന് ഒരു വിദ്യാർത്ഥി അല്ലെങ്കിൽ ബാങ്ക് സ്റ്റേറ്റ്മെന്റ് പോലുള്ള യാഥാർത്ഥ്യത്തിൽ ഉള്ള ഒന്നും. എഡ്ജുകൾ രണ്ട് സത്ത്വങ്ങൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിക്കുന്നു. ഓരോ നോഡിനും എഡ്ജിനും അവയുടെ അധിക വിവരങ്ങൾ നൽകുന്ന പ്രോപ്പർട്ടികൾ ഉണ്ട്.
![ഐഡന്റിറ്റി, കോൺടാക്റ്റ് ഇൻഫോ എന്നീ രണ്ട് കോളം ഫാമിലികൾ ഉള്ള ഒരു കസ്റ്റമർ ഡാറ്റാബേസ് കാണിക്കുന്ന കോളമ്നാർ ഡാറ്റ സ്റ്റോർ ഗ്രാഫിക്കൽ പ്രതിനിധാനം](../../../../translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.ml.png)
![ഐഡന്റിറ്റി, കോൺടാക്റ്റ് ഇൻഫോ എന്നീ രണ്ട് കോളം ഫാമിലികൾ ഉള്ള ഒരു കസ്റ്റമർ ഡാറ്റാബേസ് കാണിക്കുന്ന കോളമ്നാർ ഡാറ്റ സ്റ്റോർ ഗ്രാഫിക്കൽ പ്രതിനിധാനം](../../../../translated_images/ml/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.png)
[കോളമ്നാർ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) ഡാറ്റ സ്റ്റോറുകൾ ഡാറ്റയെ കോളങ്ങളും വരികളും ആയി ക്രമീകരിക്കുന്നു, റിലേഷണൽ ഡാറ്റ ഘടന പോലെയാണ്, പക്ഷേ ഓരോ കോളവും കോളം ഫാമിലി എന്ന ഗ്രൂപ്പുകളായി വിഭജിച്ചിരിക്കുന്നു, ഒരു കോളത്തിലെ എല്ലാ ഡാറ്റയും ബന്ധപ്പെട്ടതാണ്, ഒറ്റ യൂണിറ്റായി തിരികെ ലഭിക്കാനും മാറ്റാനും കഴിയും.
@ -88,11 +88,11 @@ Cosmos DB ഡാറ്റാബേസ് "Not Only SQL" എന്ന നിർ
എമുലേറ്റർ ഒരു ബ്രൗസർ വിൻഡോ തുറക്കും, എക്സ്പ്ലോറർ വ്യൂ ഡോക്യുമെന്റുകൾ പരിശോധിക്കാൻ അനുവദിക്കുന്നു.
![Cosmos DB എമുലേറ്ററിന്റെ എക്സ്പ്ലോറർ വ്യൂ](../../../../translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.ml.png)
![Cosmos DB എമുലേറ്ററിന്റെ എക്സ്പ്ലോറർ വ്യൂ](../../../../translated_images/ml/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.png)
നിങ്ങൾ പിന്തുടരുകയാണെങ്കിൽ, "Start with Sample" ക്ലിക്കുചെയ്യുക, SampleDB എന്ന സാമ്പിൾ ഡാറ്റാബേസ് സൃഷ്ടിക്കും. Sample DB-നെ ആർക്കോ ക്ലിക്കുചെയ്ത് വിപുലീകരിച്ചാൽ `Persons` എന്ന കണ്ടെയ്‌നർ കാണാം, കണ്ടെയ്‌നർ ഒരു വസ്തുക്കളുടെ ശേഖരമാണ്, ഇവ ഡോക്യുമെന്റുകളാണ്. `Items` എന്നതിൽ നാല് വ്യക്തിഗത ഡോക്യുമെന്റുകൾ പരിശോധിക്കാം.
![Cosmos DB എമുലേറ്ററിൽ സാമ്പിൾ ഡാറ്റ പരിശോധിക്കൽ](../../../../translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.ml.png)
![Cosmos DB എമുലേറ്ററിൽ സാമ്പിൾ ഡാറ്റ പരിശോധിക്കൽ](../../../../translated_images/ml/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.png)
#### Cosmos DB എമുലേറ്റർ ഉപയോഗിച്ച് ഡോക്യുമെന്റ് ഡാറ്റ ക്വറി ചെയ്യൽ
@ -102,7 +102,7 @@ Cosmos DB ഡാറ്റാബേസ് "Not Only SQL" എന്ന നിർ
`SELECT * FROM c where c.age < 40`
![Cosmos DB എമുലേറ്ററിൽ SELECT ക്വറി പ്രവർത്തിപ്പിച്ച് പ്രായം 40-ൽ താഴെയുള്ള ഡോക്യുമെന്റുകൾ കണ്ടെത്തൽ](../../../../translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.ml.png)
![Cosmos DB എമുലേറ്ററിൽ SELECT ക്വറി പ്രവർത്തിപ്പിച്ച് പ്രായം 40-ൽ താഴെയുള്ള ഡോക്യുമെന്റുകൾ കണ്ടെത്തൽ](../../../../translated_images/ml/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.png)
ക്വറി രണ്ട് ഡോക്യുമെന്റുകൾ തിരികെ നൽകുന്നു, ഓരോ ഡോക്യുമെന്റിന്റെയും പ്രായം 40-ൽ താഴെയാണ്.

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
| :-------------------------------------------------------------------------------------------------------: |
| Python ഉപയോഗിച്ച് പ്രവർത്തിക്കൽ - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.ml.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/ml/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
ഡാറ്റാബേസുകൾ ഡാറ്റ സംഭരിക്കാനും ക്വറി ഭാഷകൾ ഉപയോഗിച്ച് അവയെ ക്വറി ചെയ്യാനും വളരെ കാര്യക്ഷമമായ മാർഗങ്ങൾ നൽകുമ്പോഴും, ഡാറ്റ പ്രോസസ്സിംഗിന്റെ ഏറ്റവും ലവച്ഛമായ മാർഗം ഡാറ്റ കൈകാര്യം ചെയ്യാൻ നിങ്ങളുടെ സ്വന്തം പ്രോഗ്രാം എഴുതുകയാണ്. പലപ്പോഴും, ഡാറ്റാബേസ് ക്വറി ചെയ്യുന്നത് കൂടുതൽ ഫലപ്രദമായ മാർഗമായിരിക്കും. എന്നാൽ, കൂടുതൽ സങ്കീർണ്ണമായ ഡാറ്റ പ്രോസസ്സിംഗ് ആവശ്യമായപ്പോൾ, അത് എളുപ്പത്തിൽ SQL ഉപയോഗിച്ച് ചെയ്യാനാകില്ല.
ഡാറ്റ പ്രോസസ്സിംഗ് ഏതെങ്കിലും പ്രോഗ്രാമിംഗ് ഭാഷയിൽ പ്രോഗ്രാം ചെയ്യാം, പക്ഷേ ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ ഉയർന്ന തലത്തിലുള്ള ചില ഭാഷകൾ ഉണ്ട്. ഡാറ്റ സയന്റിസ്റ്റുകൾ സാധാരണയായി താഴെപ്പറയുന്ന ഭാഷകളിൽ ഒന്നിനെ മുൻഗണന നൽകുന്നു:
@ -75,7 +75,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.ml.png)
![Time Series Plot](../../../../translated_images/ml/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
ഇപ്പോൾ ഓരോ ആഴ്ചയും നാം സുഹൃത്തുക്കൾക്കായി പാർട്ടി സംഘടിപ്പിക്കുന്നു, പാർട്ടിക്കായി അധികം 10 പാക്ക് ഐസ്‌ക്രീം കൊണ്ടുവരുന്നു എന്ന് കരുതുക. ആ ആഴ്ചയുടെ ഇൻഡക്സ് ഉപയോഗിച്ച് മറ്റൊരു സീരീസ് സൃഷ്ടിക്കാം:
```python
@ -86,7 +86,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.ml.png)
![Time Series Plot](../../../../translated_images/ml/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
> **കുറിപ്പ്**: നാം ലളിതമായ `total_items+additional_items` സിന്താക്സ് ഉപയോഗിക്കുന്നില്ല. അതുപയോഗിച്ചാൽ, ഫലസീരീസിൽ പല `NaN` (*Not a Number*) മൂല്യങ്ങളും ഉണ്ടാകുമായിരിക്കും. കാരണം `additional_items` സീരീസിൽ ചില ഇൻഡക്സ് പോയിന്റുകൾക്ക് മൂല്യങ്ങൾ ഇല്ല, `NaN` യെ ഏതെങ്കിലും മൂല്യത്തിലേക്ക് കൂട്ടിച്ചേർക്കുമ്പോൾ ഫലം `NaN` ആകുന്നു. അതിനാൽ കൂട്ടിച്ചേർക്കുമ്പോൾ `fill_value` പാരാമീറ്റർ നിർദ്ദേശിക്കേണ്ടതാണ്.
@ -95,7 +95,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.ml.png)
![Monthly Time Series Averages](../../../../translated_images/ml/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
### ഡാറ്റാഫ്രെയിം
@ -224,7 +224,7 @@ df = pd.read_csv('file.csv')
ഡാറ്റ കൈകാര്യം ചെയ്യുന്നത് എങ്ങനെ എന്ന് കാണിക്കാൻ, നിങ്ങൾക്ക് [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) തുറന്ന് മുകളിൽ നിന്ന് താഴേക്ക് വായിക്കാൻ ഞങ്ങൾ ക്ഷണിക്കുന്നു. സെല്ലുകൾ പ്രവർത്തിപ്പിക്കാനും, അവസാനം നാം നിങ്ങൾക്കായി വെച്ച ചില ചലഞ്ചുകൾ ചെയ്യാനും കഴിയും.
![COVID Spread](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.ml.png)
![COVID Spread](../../../../translated_images/ml/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
> Jupyter Notebook ൽ കോഡ് എങ്ങനെ റൺ ചെയ്യാമെന്ന് അറിയില്ലെങ്കിൽ, [ഈ ലേഖനം](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) കാണുക.
@ -246,7 +246,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) തുറന്ന് മുകളിൽ നിന്ന് താഴേക്ക് വായിക്കുക. സെല്ലുകൾ പ്രവർത്തിപ്പിക്കാനും, അവസാനം നാം നിങ്ങൾക്കായി വെച്ച ചില ചലഞ്ചുകൾ ചെയ്യാനും കഴിയും.
![Covid Medical Treatment](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.ml.png)
![Covid Medical Treatment](../../../../translated_images/ml/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
## ചിത്ര ഡാറ്റ പ്രോസസ്സിംഗ്

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ഡാറ്റയുമായി പ്രവർത്തിക്കൽ
![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.ml.jpg)
![data love](../../../translated_images/ml/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
> ഫോട്ടോ <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> യുടെ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> ൽ നിന്നാണ്
ഈ പാഠങ്ങളിൽ, ഡാറ്റ എങ്ങനെ കൈകാര്യം ചെയ്യാമെന്ന്, മാറ്റം വരുത്താമെന്ന്, ആപ്ലിക്കേഷനുകളിൽ ഉപയോഗിക്കാമെന്ന് നിങ്ങൾ പഠിക്കും. ബന്ധപരമായ (relational) ഡാറ്റാബേസുകളും ബന്ധമില്ലാത്ത (non-relational) ഡാറ്റാബേസുകളും എന്താണെന്ന്, അവയിൽ ഡാറ്റ എങ്ങനെ സൂക്ഷിക്കാമെന്ന് നിങ്ങൾ അറിയും. ഡാറ്റ കൈകാര്യം ചെയ്യാൻ പൈത്തൺ ഉപയോഗിക്കുന്നതിന്റെ അടിസ്ഥാനങ്ങൾ നിങ്ങൾ പഠിക്കും, കൂടാതെ പൈത്തൺ ഉപയോഗിച്ച് ഡാറ്റ കൈകാര്യം ചെയ്യാനും ഡാറ്റയിൽ നിന്ന് വിവരങ്ങൾ കണ്ടെത്താനും ഉള്ള നിരവധി മാർഗങ്ങൾ നിങ്ങൾ കണ്ടെത്തും.

@ -61,7 +61,7 @@ birds.head()
wingspan = birds['MaxWingspan']
wingspan.plot()
```
![Max Wingspan](../../../../translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.ml.png)
![Max Wingspan](../../../../translated_images/ml/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.png)
നിങ്ങൾ ഉടൻ ശ്രദ്ധിക്കുന്നതെന്താണ്? കുറഞ്ഞത് ഒരു ഔട്ട്‌ലൈയർ ഉണ്ടെന്ന് തോന്നുന്നു - അത്ര വലിയ വിങ്‌സ്‌പാൻ! 2300 സെന്റീമീറ്റർ വിങ്‌സ്‌പാൻ 23 മീറ്ററിനാണ് തുല്യമായത് - മിന്നസോട്ടയിൽ പ്റ്റെറോഡാക്ടിലുകൾ നടക്കുകയാണോ? പരിശോധിക്കാം.
@ -81,7 +81,7 @@ plt.plot(x, y)
plt.show()
```
![wingspan with labels](../../../../translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.ml.png)
![wingspan with labels](../../../../translated_images/ml/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.png)
45 ഡിഗ്രി ലേബലുകളുടെ റൊട്ടേഷൻ സജ്ജമാക്കിയിട്ടും വായിക്കാൻ വളരെ അധികം ലേബലുകൾ ഉണ്ട്. വ്യത്യസ്തമായ ഒരു തന്ത്രം പരീക്ഷിക്കാം: ഔട്ട്‌ലൈയറുകൾ മാത്രം ലേബൽ ചെയ്യുക, ലേബലുകൾ ചാർട്ടിനുള്ളിൽ സജ്ജമാക്കുക. ലേബലിംഗിന് കൂടുതൽ സ്ഥലം നൽകാൻ സ്കാറ്റർ ചാർട്ട് ഉപയോഗിക്കാം:
@ -103,7 +103,7 @@ plt.show()
നിങ്ങൾ എന്ത് കണ്ടെത്തി?
![outliers](../../../../translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.ml.png)
![outliers](../../../../translated_images/ml/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.png)
## നിങ്ങളുടെ ഡാറ്റ ഫിൽട്ടർ ചെയ്യുക
ബാൾഡ് ഈഗിൾക്കും പ്രെയറി ഫാൽക്കണിനും, വളരെ വലിയ പക്ഷികളായിരിക്കാം, പക്ഷേ പരമാവധി വിങ്‌സ്‌പാനിൽ ഒരു അധികം `0` ചേർത്തിട്ടുള്ള തെറ്റായ ലേബലിംഗാണ്. 25 മീറ്റർ വിങ്‌സ്‌പാൻ ഉള്ള ബാൾഡ് ഈഗിൾ കാണാൻ സാധ്യത കുറവാണ്, പക്ഷേ ഉണ്ടെങ്കിൽ ദയവായി ഞങ്ങളെ അറിയിക്കുക! ആ രണ്ട് ഔട്ട്‌ലൈയറുകൾ ഇല്ലാതെ പുതിയ ഡാറ്റാഫ്രെയിം സൃഷ്ടിക്കാം:
@ -123,7 +123,7 @@ plt.show()
ഔട്ട്‌ലൈയറുകൾ ഫിൽട്ടർ ചെയ്തതോടെ, നിങ്ങളുടെ ഡാറ്റ കൂടുതൽ ഏകീകൃതവും മനസ്സിലാക്കാൻ എളുപ്പവുമാണ്.
![scatterplot of wingspans](../../../../translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.ml.png)
![scatterplot of wingspans](../../../../translated_images/ml/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.png)
ഇപ്പോൾ വിങ്‌സ്‌പാൻ സംബന്ധിച്ച് കുറഞ്ഞത് ശുദ്ധമായ ഡാറ്റാസെറ്റ് ഉണ്ടാകുമ്പോൾ, ഈ പക്ഷികളെക്കുറിച്ച് കൂടുതൽ കണ്ടെത്താം.
@ -149,7 +149,7 @@ birds.plot(x='Category',
title='Birds of Minnesota')
```
![full data as a bar chart](../../../../translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.ml.png)
![full data as a bar chart](../../../../translated_images/ml/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.png)
എന്നാൽ ഈ ബാർ ചാർട്ട് വായിക്കാൻ കഴിയുന്നില്ല, കാരണം ഗ്രൂപ്പുചെയ്യാത്ത ഡാറ്റ വളരെ കൂടുതലാണ്. നിങ്ങൾ പ്ലോട്ട് ചെയ്യാൻ ആഗ്രഹിക്കുന്ന ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം, അതിനാൽ പക്ഷികളുടെ വിഭാഗം അടിസ്ഥാനമാക്കി നീളം നോക്കാം.
@ -164,7 +164,7 @@ category_count = birds.value_counts(birds['Category'].values, sort=True)
plt.rcParams['figure.figsize'] = [6, 12]
category_count.plot.barh()
```
![category and length](../../../../translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.ml.png)
![category and length](../../../../translated_images/ml/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.png)
ഈ ബാർ ചാർട്ട് ഓരോ വിഭാഗത്തിലും പക്ഷികളുടെ എണ്ണം നല്ല കാഴ്ച നൽകുന്നു. ഒരു നിമിഷത്തിൽ, ഈ പ്രദേശത്തെ ഏറ്റവും വലിയ പക്ഷി എണ്ണം Ducks/Geese/Waterfowl വിഭാഗത്തിലാണ് എന്ന് കാണാം. മിന്നസോട്ട '10,000 തടാകങ്ങളുടെ നാട്' ആകുന്നതിനാൽ ഇത് അത്ഭുതമല്ല!
@ -180,7 +180,7 @@ plt.barh(y=birds['Category'], width=maxlength)
plt.rcParams['figure.figsize'] = [6, 12]
plt.show()
```
![comparing data](../../../../translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.ml.png)
![comparing data](../../../../translated_images/ml/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.png)
ഇവിടെ എന്തും അത്ഭുതപ്പെടുത്തുന്നില്ല: ഹമ്മിംഗ്‌ബേർഡുകൾക്ക് പെലിക്കാനുകളോ ഗീസുകളോ അപേക്ഷിച്ച് ഏറ്റവും കുറഞ്ഞ MaxLength ഉണ്ട്. ഡാറ്റ ലജിക്കൽ ആകുമ്പോൾ നല്ലതാണ്!
@ -198,7 +198,7 @@ plt.show()
```
ഈ പ്ലോട്ടിൽ, ഓരോ പക്ഷി വിഭാഗത്തിന്റെയും കുറഞ്ഞ നീളം, പരമാവധി നീളം കാണാം. ഈ ഡാറ്റ പ്രകാരം, പക്ഷി വലുതായാൽ, അതിന്റെ നീളം വ്യത്യാസവും വലുതാണ് എന്ന് പറയാം. അത്ഭുതകരം!
![superimposed values](../../../../translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.ml.png)
![superimposed values](../../../../translated_images/ml/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.png)
## 🚀 ചലഞ്ച്

@ -49,7 +49,7 @@ plt.xlabel('Max Length')
plt.show()
```
![max length per order](../../../../translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.ml.png)
![max length per order](../../../../translated_images/ml/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.png)
ഇത് ഓരോ പക്ഷി ഓർഡറിനും ശരീര നീളത്തിന്റെ പൊതുവായ വിതരണത്തിന്റെ ഒരു അവലോകനമാണ് നൽകുന്നത്, പക്ഷേ യഥാർത്ഥ വിതരണങ്ങൾ പ്രദർശിപ്പിക്കാൻ ഇത് ഏറ്റവും അനുയോജ്യമായ മാർഗം അല്ല. ആ ജോലി സാധാരണയായി ഹിസ്റ്റോഗ്രാം സൃഷ്ടിച്ച് നിർവഹിക്കുന്നു.
## ഹിസ്റ്റോഗ്രാമുകളുമായി പ്രവർത്തിക്കൽ
@ -60,7 +60,7 @@ Matplotlib ഡാറ്റ വിതരണങ്ങൾ ദൃശ്യവൽക
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset](../../../../translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.ml.png)
![distribution over the entire dataset](../../../../translated_images/ml/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.png)
നിങ്ങൾക്ക് കാണാമല്ലോ, ഈ ഡാറ്റാസെറ്റിലെ 400+ പക്ഷികളിൽ ഭൂരിഭാഗവും അവരുടെ പരമാവധി ശരീരഭാരം 2000-ൽ താഴെ ഉള്ള പരിധിയിലാണ്. `bins` പാരാമീറ്റർ 30 പോലുള്ള ഉയർന്ന സംഖ്യയാക്കി മാറ്റി ഡാറ്റയിൽ കൂടുതൽ洞察ം നേടാം:
@ -68,7 +68,7 @@ plt.show()
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset with larger bins param](../../../../translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.ml.png)
![distribution over the entire dataset with larger bins param](../../../../translated_images/ml/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.png)
ഈ ചാർട്ട് കൂടുതൽ സൂക്ഷ്മമായ രീതിയിൽ വിതരണത്തെ കാണിക്കുന്നു. ഇടത്തരം കുറവുള്ള ഒരു ചാർട്ട് സൃഷ്ടിക്കാൻ, നിങ്ങൾക്ക് ഒരു നിശ്ചിത പരിധിയിലുള്ള ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം:
@ -79,7 +79,7 @@ filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
plt.show()
```
![filtered histogram](../../../../translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.ml.png)
![filtered histogram](../../../../translated_images/ml/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.png)
✅ മറ്റ് ഫിൽട്ടറുകളും ഡാറ്റ പോയിന്റുകളും പരീക്ഷിക്കുക. ഡാറ്റയുടെ മുഴുവൻ വിതരണവും കാണാൻ, `['MaxBodyMass']` ഫിൽട്ടർ നീക്കം ചെയ്ത് ലേബൽ ചെയ്ത വിതരണങ്ങൾ കാണിക്കുക.
@ -96,7 +96,7 @@ hist = ax.hist2d(x, y)
```
ഈ രണ്ട് ഘടകങ്ങൾ തമ്മിൽ പ്രതീക്ഷിക്കപ്പെട്ട ബന്ധം ഒരു പ്രതീക്ഷിച്ച അക്ഷം അനുസരിച്ച് കാണപ്പെടുന്നു, പ്രത്യേകിച്ച് ശക്തമായ ഒരു സമന്വയ ബിന്ദു:
![2D plot](../../../../translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.ml.png)
![2D plot](../../../../translated_images/ml/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.png)
ഹിസ്റ്റോഗ്രാമുകൾ സംഖ്യാത്മക ഡാറ്റയ്ക്ക് സാധാരണയായി നല്ലതാണ്. ടെക്സ്റ്റ് ഡാറ്റ അനുസരിച്ച് വിതരണങ്ങൾ കാണേണ്ടത് എങ്കിൽ?
@ -136,7 +136,7 @@ plt.gca().set(title='Conservation Status', ylabel='Min Wingspan')
plt.legend();
```
![wingspan and conservation collation](../../../../translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.ml.png)
![wingspan and conservation collation](../../../../translated_images/ml/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.png)
കുറഞ്ഞ വിങ്‌സ്‌പാനും സംരക്ഷണ നിലക്കും നല്ല ബന്ധമില്ലെന്ന് തോന്നുന്നു. ഈ രീതിയിൽ ഡാറ്റാസെറ്റിലെ മറ്റ് ഘടകങ്ങളും പരീക്ഷിക്കുക. നിങ്ങൾക്ക് ഏതെങ്കിലും ബന്ധം കണ്ടെത്താമോ?
@ -154,7 +154,7 @@ import matplotlib.pyplot as plt
sns.kdeplot(filteredBirds['MinWingspan'])
plt.show()
```
![Density plot](../../../../translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.ml.png)
![Density plot](../../../../translated_images/ml/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.png)
മുൻപത്തെ കുറഞ്ഞ വിങ്‌സ്‌പാൻ ഡാറ്റയുടെ പ്ലോട്ടിനെപ്പോലെ ഇത് കാണാം; ഇത് കുറച്ച് മൃദുവാണ്. Seaborn ഡോക്യുമെന്റേഷനുസരിച്ച്, "ഹിസ്റ്റോഗ്രാമിനോട് താരതമ്യപ്പെടുത്തുമ്പോൾ, KDE ഒരു പ്ലോട്ട് കുറച്ച് കുറവുള്ളതും കൂടുതൽ വ്യാഖ്യാനയോഗ്യവുമാകാം, പ്രത്യേകിച്ച് പല വിതരണങ്ങളും വരച്ചപ്പോൾ. എന്നാൽ അടിസ്ഥാന വിതരണത്തിന് അതിരുകൾ ഉണ്ടെങ്കിൽ അല്ലെങ്കിൽ മൃദുവായില്ലെങ്കിൽ, ഇത് വക്രതകൾ സൃഷ്ടിക്കാം. ഹിസ്റ്റോഗ്രാമുപോലെ, പ്രതിനിധാനത്തിന്റെ ഗുണമേന്മയും നല്ല മൃദുവായ പാരാമീറ്ററുകളുടെ തിരഞ്ഞെടുപ്പിൽ ആശ്രയിച്ചിരിക്കുന്നു." [source](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) മറ്റൊരു വാക്കിൽ, ഔട്ട്‌ലൈയർമാർ എപ്പോഴും നിങ്ങളുടെ ചാർട്ടുകൾക്ക് പ്രശ്നങ്ങൾ സൃഷ്ടിക്കും.
@ -164,7 +164,7 @@ plt.show()
sns.kdeplot(filteredBirds['MaxBodyMass'])
plt.show()
```
![smooth bodymass line](../../../../translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.ml.png)
![smooth bodymass line](../../../../translated_images/ml/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.png)
മൃദുവായെങ്കിലും അത്ര മൃദുവായില്ലാത്ത ഒരു ലൈനിനായി, `bw_adjust` പാരാമീറ്റർ എഡിറ്റ് ചെയ്യുക:
@ -172,7 +172,7 @@ plt.show()
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
plt.show()
```
![less smooth bodymass line](../../../../translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.ml.png)
![less smooth bodymass line](../../../../translated_images/ml/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.png)
✅ ഈ തരത്തിലുള്ള പ്ലോട്ടിനുള്ള പാരാമീറ്ററുകൾക്കുറിച്ച് വായിച്ച് പരീക്ഷിക്കുക!
@ -186,7 +186,7 @@ sns.kdeplot(
)
```
![bodymass per order](../../../../translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.ml.png)
![bodymass per order](../../../../translated_images/ml/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.png)
ഒരേ ചാർട്ടിൽ പല വേരിയബിളുകളുടെ ഡെൻസിറ്റികളും മാപ്പ് ചെയ്യാം. ഒരു പക്ഷിയുടെ MaxLength, MinLength സംരക്ഷണ നിലയുമായി താരതമ്യം ചെയ്യുക:
@ -194,7 +194,7 @@ sns.kdeplot(
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
```
![multiple densities, superimposed](../../../../translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.ml.png)
![multiple densities, superimposed](../../../../translated_images/ml/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.png)
'Vulnerable' പക്ഷികളുടെ നീളങ്ങളുടെ ക്ലസ്റ്റർ അർത്ഥവത്താണോ അല്ലയോ എന്ന് അന്വേഷിക്കുന്നത് മൂല്യമുള്ളതായിരിക്കാം.

@ -93,7 +93,7 @@ plt.show()
```
ഇവിടെ, ഈ ഡാറ്റയുടെ അനുപാതങ്ങൾ ഈ രണ്ട് മഷ്‌റൂം ക്ലാസുകൾ അനുസരിച്ച് കാണിക്കുന്ന ഒരു പൈ ചാർട്ട്. ലേബലുകളുടെ ക്രമം ശരിയാണെന്ന് ഉറപ്പാക്കുന്നത് വളരെ പ്രധാനമാണ്, പ്രത്യേകിച്ച് ഇവിടെ, അതിനാൽ ലേബൽ അറേ എങ്ങനെ നിർമ്മിക്കപ്പെടുന്നു എന്ന് പരിശോധിക്കുക!
![pie chart](../../../../translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.ml.png)
![pie chart](../../../../translated_images/ml/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.png)
## ഡോണട്ടുകൾ!
@ -123,7 +123,7 @@ plt.title('Mushroom Habitats')
plt.show()
```
![donut chart](../../../../translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.ml.png)
![donut chart](../../../../translated_images/ml/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.png)
ഈ കോഡ് ഒരു ചാർട്ട് വരയ്ക്കുകയും മധ്യത്തിൽ ഒരു വൃത്തം വരയ്ക്കുകയും ചെയ്യുന്നു, പിന്നീട് ആ വൃത്തം ചാർട്ടിൽ ചേർക്കുന്നു. മധ്യ വൃത്തത്തിന്റെ വീതി `0.40` എന്ന മൂല്യം മാറ്റി എഡിറ്റ് ചെയ്യാം.
@ -170,7 +170,7 @@ fig = plt.figure(
വാഫിൾ ചാർട്ട് ഉപയോഗിച്ച്, ഈ മഷ്‌റൂം ഡാറ്റാസെറ്റിലെ ക്യാപ് നിറങ്ങളുടെ അനുപാതങ്ങൾ വ്യക്തമായി കാണാം. രസകരമായി, നിരവധി പച്ച ക്യാപ് മഷ്‌റൂമുകൾ ഉണ്ട്!
![waffle chart](../../../../translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.ml.png)
![waffle chart](../../../../translated_images/ml/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.png)
✅ Pywaffle ചാർട്ടുകളിൽ [Font Awesome](https://fontawesome.com/) ൽ ലഭ്യമായ ഏതെങ്കിലും ഐക്കൺ ഉപയോഗിച്ച് ഐക്കണുകൾ ഉൾപ്പെടുത്താൻ പിന്തുണ നൽകുന്നു. ചതുരങ്ങൾക്കുപകരം ഐക്കണുകൾ ഉപയോഗിച്ച് കൂടുതൽ രസകരമായ വാഫിൾ ചാർട്ട് സൃഷ്ടിക്കാൻ പരീക്ഷണങ്ങൾ നടത്തുക.

@ -51,7 +51,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.ml.png)
![scatterplot 1](../../../../translated_images/ml/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
ഇപ്പോൾ, വർഷം തോറും വില എങ്ങനെ മാറിയെന്ന് കാണിക്കാൻ തേൻ നിറത്തിലുള്ള കളർ സ്കീം ഉപയോഗിച്ച് സമാന ഡാറ്റ കാണിക്കുക. വർഷം തോറും മാറ്റം കാണിക്കാൻ 'hue' പാരാമീറ്റർ ചേർക്കാം:
@ -60,7 +60,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.ml.png)
![scatterplot 2](../../../../translated_images/ml/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
ഈ കളർ സ്കീം മാറ്റത്തോടെ, തേന്റെ പൗണ്ട് പ്രതി വില വർഷം തോറും ശക്തമായി ഉയരുന്നുവെന്ന് കാണാം. ഡാറ്റയിൽ ഒരു സാമ്പിൾ സെറ്റ് പരിശോധിച്ചാൽ (ഉദാഹരണത്തിന്, അരിസോണ), വില വർഷം തോറും ഉയരുന്ന ഒരു പാറ്റേൺ കാണാം, കുറച്ച് വ്യത്യാസങ്ങൾ ഒഴികെ:
@ -89,7 +89,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
ഡോട്ടുകളുടെ വലിപ്പം ക്രമാതീതമായി വർദ്ധിക്കുന്നതായി കാണാം.
![scatterplot 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.ml.png)
![scatterplot 3](../../../../translated_images/ml/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
ഇത് സപ്ലൈ ആൻഡ് ഡിമാൻഡ് എന്ന ലളിതമായ കേസ് ആണോ? കാലാവസ്ഥ മാറ്റം, കോളനി തകർച്ച തുടങ്ങിയ ഘടകങ്ങൾ കാരണം വർഷം തോറും വാങ്ങാനുളള തേൻ കുറയുന്നുണ്ടോ, അതിനാൽ വില ഉയരുന്നുണ്ടോ?
@ -104,7 +104,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
ഉത്തരം: ചില വ്യത്യാസങ്ങൾ കൂടെ 2003-ൽ ചില ഉയർച്ചകൾ കാണാം:
![line chart 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.ml.png)
![line chart 1](../../../../translated_images/ml/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
✅ Seaborn ഒരു ലൈനിൽ ഡാറ്റ സംഗ്രഹിക്കുന്നതിനാൽ, "ഓരോ x മൂല്യത്തിലും പല അളവുകൾ ശരാശരി കണക്കാക്കി ശരാശരിയുടെ ചുറ്റും 95% വിശ്വാസപരിധി കാണിക്കുന്നു". [മൂലം](https://seaborn.pydata.org/tutorial/relational.html). ഈ സമയം കൂടുതലുള്ള പ്രവർത്തനം `ci=None` ചേർത്താൽ ഒഴിവാക്കാം.
@ -114,7 +114,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.ml.png)
![line chart 2](../../../../translated_images/ml/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
ഉത്തരം: അത്രയുമല്ല. മൊത്തം ഉത്പാദനം ആ വർഷം വർദ്ധിച്ചിട്ടുണ്ടെങ്കിലും, സാധാരണയായി ഈ വർഷങ്ങളിൽ തേൻ ഉത്പാദനം കുറയുകയാണ്.
@ -139,7 +139,7 @@ sns.relplot(
```
ഈ ദൃശ്യവൽക്കരണത്തിൽ, കോളനി പ്രതി ഉത്പാദനവും കോളനികളുടെ എണ്ണവും വർഷം തോറും, 3 കോളങ്ങൾ വച്ച് വശം വശം താരതമ്യം ചെയ്യാം:
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.ml.png)
![facet grid](../../../../translated_images/ml/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
ഈ ഡാറ്റാസെറ്റിൽ, കോളനികളുടെ എണ്ണം, അവയുടെ ഉത്പാദനം വർഷം തോറും, സംസ്ഥാനങ്ങൾ തമ്മിൽ പ്രത്യേകമായ വ്യത്യാസം കാണുന്നില്ല. ഈ രണ്ട് വേരിയബിളുകൾ തമ്മിൽ സഹബന്ധം കണ്ടെത്താൻ മറ്റൊരു മാർഗം ഉണ്ടോ?
@ -162,7 +162,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.ml.png)
![superimposed plots](../../../../translated_images/ml/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
2003-ൽ പ്രത്യേകമായി ഒന്നും കാണാനില്ലെങ്കിലും, ഈ പാഠം ഒരു സന്തോഷകരമായ നോട്ടിൽ അവസാനിപ്പിക്കാം: കോളനികളുടെ എണ്ണം കുറയുന്നുണ്ടെങ്കിലും, അവയുടെ എണ്ണം സ്ഥിരതയുള്ളതും, കോളനി പ്രതി ഉത്പാദനം കുറയുന്നുണ്ടെങ്കിലും.

@ -47,25 +47,25 @@ CO_OP_TRANSLATOR_METADATA:
ഒരു ഡാറ്റ സയന്റിസ്റ്റ് ശരിയായ ഡാറ്റയ്ക്ക് ശരിയായ ചാർട്ട് തിരഞ്ഞെടുക്കാൻ ശ്രദ്ധിച്ചാലും, ഡാറ്റയെ തെളിയിക്കാൻ പലവിധം വഞ്ചനാപരമായി പ്രദർശിപ്പിക്കാനുള്ള മാർഗ്ഗങ്ങൾ ധാരാളമാണ്, പലപ്പോഴും ഡാറ്റയെ തന്നെ അപഹസിക്കുന്ന വിലക്ക് വരുത്തി. വഞ്ചനാപരമായ ചാർട്ടുകളും ഇൻഫോഗ്രാഫിക്സും ധാരാളം ഉദാഹരണങ്ങളുണ്ട്!
[![How Charts Lie by Alberto Cairo](../../../../translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.ml.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie by Alberto Cairo](../../../../translated_images/ml/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 വഞ്ചനാപരമായ ചാർട്ടുകൾക്കുറിച്ചുള്ള കോൺഫറൻസ് ടോക്കിനായി മുകളിൽ ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്യുക
ഈ ചാർട്ട് X അക്ഷം മറിച്ച് സത്യം മറിച്ച് കാണിക്കുന്നു, തീയതി അടിസ്ഥാനമാക്കി:
![bad chart 1](../../../../translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.ml.png)
![bad chart 1](../../../../translated_images/ml/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.png)
[ഈ ചാർട്ട്](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) കൂടുതൽ വഞ്ചനാപരമാണ്, കാരണം കണ്ണ് വലത്തേക്ക് ആകർഷിക്കപ്പെടുന്നു, സമയാനുസൃതമായി COVID കേസുകൾ വിവിധ കൗണ്ടികളിൽ കുറയുകയാണെന്ന് നിഗമനം ചെയ്യാൻ. എന്നാൽ, തീയതികൾ ശ്രദ്ധാപൂർവ്വം നോക്കിയാൽ, അവ വഞ്ചനാപരമായ താഴ്ന്ന ട്രെൻഡ് നൽകാൻ പുനഃക്രമീകരിച്ചിട്ടുള്ളതായി കാണാം.
![bad chart 2](../../../../translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.ml.jpg)
![bad chart 2](../../../../translated_images/ml/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.jpg)
ഈ പ്രശസ്ത ഉദാഹരണം നിറവും മറിച്ച Y അക്ഷവും ഉപയോഗിച്ച് വഞ്ചന ചെയ്യുന്നു: തോക്കു-സഹായക നിയമം പാസായതിന് ശേഷം തോക്ക് മരണങ്ങൾ വർധിച്ചതായി നിഗമനം ചെയ്യേണ്ടതിനു പകരം, കണ്ണ് മറിച്ച് സത്യം മറിച്ച് കാണുന്നു:
![bad chart 3](../../../../translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.ml.jpg)
![bad chart 3](../../../../translated_images/ml/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.jpg)
ഈ വിചിത്രമായ ചാർട്ട് അനുപാതം എങ്ങനെ മാനിപ്പുലേറ്റ് ചെയ്യാമെന്ന് ഹാസ്യകരമായി കാണിക്കുന്നു:
![bad chart 4](../../../../translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.ml.jpg)
![bad chart 4](../../../../translated_images/ml/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.jpg)
തുല്യമായവ അല്ലാത്തവ താരതമ്യം ചെയ്യുക മറ്റൊരു സംശയാസ്പദമായ തന്ത്രമാണ്. 'സ്പ്യൂറിയസ് കോറിലേഷൻസ്' എന്ന വിഷയത്തിൽ 'മെയ്നിലെ വിവാഹമോചന നിരക്കും മാർഗറിൻ ഉപഭോഗവും' പോലുള്ള കാര്യങ്ങൾ തമ്മിലുള്ള 'വാസ്തവങ്ങൾ' പ്രദർശിപ്പിക്കുന്ന [അദ്ഭുതകരമായ വെബ്‌സൈറ്റ്](https://tylervigen.com/spurious-correlations) ഉണ്ട്. Reddit ഗ്രൂപ്പ് ഡാറ്റയുടെ [കീഴടക്കം ഉപയോഗങ്ങൾ](https://www.reddit.com/r/dataisugly/top/?t=all) ശേഖരിക്കുന്നു.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങളുടെ ഡാറ്റ ടെക്സ്റ്റ് ആണെങ്കിൽ, X അക്ഷ上的 വാചകം വായനാസൗകര്യത്തിനായി കോണിൽ വയ്ക്കാം. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) 3D പ്ലോട്ടിംഗ് നൽകുന്നു, നിങ്ങളുടെ ഡാറ്റ അത് പിന്തുണയ്ക്കുന്നുവെങ്കിൽ. സങ്കീർണ്ണമായ ഡാറ്റാ ദൃശ്യവത്കരണങ്ങൾ `mpl_toolkits.mplot3d` ഉപയോഗിച്ച് നിർമ്മിക്കാം.
![3d plots](../../../../translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.ml.png)
![3d plots](../../../../translated_images/ml/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.png)
## അനിമേഷൻ, 3D ചാർട്ട് പ്രദർശനം
ഇന്നത്തെ മികച്ച ഡാറ്റാ ദൃശ്യവത്കരണങ്ങളിൽ ചിലത് അനിമേറ്റഡ് ആണ്. Shirley Wu D3 ഉപയോഗിച്ച് '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' പോലുള്ള അത്ഭുതകരമായവ ഉണ്ടാക്കി, ഓരോ പൂവും ഒരു സിനിമയുടെ ദൃശ്യവത്കരണമാണ്. Guardian-നായി മറ്റൊരു ഉദാഹരണം 'bussed out' ആണ്, Greensock, D3 എന്നിവയുമായി സംയോജിപ്പിച്ച ഒരു ഇന്ററാക്ടീവ് അനുഭവം, സ്ക്രോൾടെല്ലിംഗ് ലേഖന ഫോർമാറ്റിൽ, NYC എങ്ങനെ നഗരത്തിലെ ഹോമ്ലെസ്സ് പ്രശ്നം ബസ്സിലൂടെ പുറത്തേക്ക് കൊണ്ടുപോകുന്നു എന്ന് കാണിക്കുന്നു.
![busing](../../../../translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.ml.png)
![busing](../../../../translated_images/ml/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.png)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങൾ ഒരു വെബ് ആപ്പ് പൂർത്തിയാക്കും, ഇത് ഈ സോഷ്യൽ നെറ്റ്‌വർക്ക് അനിമേറ്റഡ് ദൃശ്യമായി കാണിക്കും. ഇത് Vue.js, D3 ഉപയോഗിച്ച് [നെറ്റ്‌വർക്ക് ദൃശ്യവത്കരണം](https://github.com/emiliorizzo/vue-d3-network) സൃഷ്ടിക്കാൻ നിർമ്മിച്ച ഒരു ലൈബ്രറി ഉപയോഗിക്കുന്നു. ആപ്പ് പ്രവർത്തിക്കുമ്പോൾ, സ്ക്രീനിൽ നോഡുകൾ നീക്കി ഡാറ്റ മാറ്റാം.
![liaisons](../../../../translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.ml.png)
![liaisons](../../../../translated_images/ml/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.png)
## പ്രോജക്ട്: D3.js ഉപയോഗിച്ച് ഒരു നെറ്റ്‌വർക്ക് കാണിക്കുന്ന ചാർട്ട് നിർമ്മിക്കുക

@ -66,7 +66,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ഇവിടെ, `ggplot2` പാക്കേജ് ഇൻസ്റ്റാൾ ചെയ്ത് `library("ggplot2")` കമാൻഡ് ഉപയോഗിച്ച് വർക്ക്‌സ്പേസിലേക്ക് ഇറക്കുമതി ചെയ്യുന്നു. ggplot-ൽ ഏതെങ്കിലും പ്ലോട്ട് ചെയ്യാൻ `ggplot()` ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു, ഡാറ്റാസെറ്റ്, x, y വേരിയബിളുകൾ ആട്രിബ്യൂട്ടുകളായി നിശ്ചയിക്കുന്നു. ഈ കേസിൽ, ലൈൻ പ്ലോട്ട് സൃഷ്ടിക്കാനാണ് ഉദ്ദേശം, അതിനാൽ `geom_line()` ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു.
![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.ml.png)
![MaxWingspan-lineplot](../../../../../translated_images/ml/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
നിങ്ങൾ ഉടൻ ശ്രദ്ധിക്കുന്നതെന്താണ്? കുറഞ്ഞത് ഒരു ഔട്ട്‌ലൈയർ ഉണ്ടെന്ന് തോന്നുന്നു - അത്ര വലിയ വിങ്‌സ്പാൻ! 2000+ സെന്റീമീറ്റർ വിങ്‌സ്പാൻ 20 മീറ്ററിലധികമാണ് - മിന്നസോട്ടയിൽ പ്റ്റെറോഡാക്റ്റിലുകൾ നടക്കുകയാണോ? പരിശോധിക്കാം.
@ -84,7 +84,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
`theme`-ൽ ആംഗിൾ നിശ്ചയിച്ച് `xlab()`-ൽ x അക്ഷ ലേബൽ, `ylab()`-ൽ y അക്ഷ ലേബൽ നിശ്ചയിക്കുന്നു. `ggtitle()` ഗ്രാഫ്/പ്ലോട്ടിന് പേര് നൽകുന്നു.
![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.ml.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ml/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
45 ഡിഗ്രി ലേബലുകൾ തിരിയിച്ചിട്ടും വായിക്കാൻ വളരെ അധികം ലേബലുകൾ ഉണ്ട്. വ്യത്യസ്തമായ ഒരു തന്ത്രം പരീക്ഷിക്കാം: ആ ഔട്ട്‌ലൈയറുകൾക്ക് മാത്രമേ ലേബലുകൾ നൽകൂ, ലേബലുകൾ ചാർട്ടിനുള്ളിൽ സജ്ജമാക്കൂ. ലേബലിംഗിന് കൂടുതൽ സ്ഥലം നൽകാൻ സ്കാറ്റർ ചാർട്ട് ഉപയോഗിക്കാം:
@ -100,7 +100,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
നിങ്ങൾ എന്ത് കണ്ടെത്തുന്നു?
![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.ml.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ml/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
## നിങ്ങളുടെ ഡാറ്റ ഫിൽട്ടർ ചെയ്യുക
@ -119,7 +119,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
പുതിയ ഡാറ്റാഫ്രെയിം `birds_filtered` സൃഷ്ടിച്ച് സ്കാറ്റർ പ്ലോട്ട് ചെയ്തു. ഔട്ട്‌ലൈയറുകൾ ഫിൽട്ടർ ചെയ്തതിനാൽ, നിങ്ങളുടെ ഡാറ്റ കൂടുതൽ ഏകീകൃതവും മനസ്സിലാക്കാൻ എളുപ്പവുമാണ്.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.ml.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ml/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
ഇപ്പോൾ വിങ്‌സ്പാൻ സംബന്ധിച്ച് കുറഞ്ഞത് ശുദ്ധമായ ഡാറ്റാസെറ്റ് ഉണ്ടെന്ന് കരുതി, ഈ പക്ഷികളെക്കുറിച്ച് കൂടുതൽ കണ്ടെത്താം.
@ -160,7 +160,7 @@ birds_filtered %>% group_by(Category) %>%
```
താഴെ കൊടുത്തിരിക്കുന്ന കോഡിൽ, ഡാറ്റ മാനിപ്പുലേറ്റ് ചെയ്ത് ഗ്രൂപ്പ് ചെയ്യാൻ സഹായിക്കുന്ന [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)യും [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0)യും പാക്കേജുകൾ ഇൻസ്റ്റാൾ ചെയ്യുന്നു. ആദ്യം, പക്ഷികളുടെ `Category` പ്രകാരം ഡാറ്റ ഗ്രൂപ്പ് ചെയ്ത് `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` കോളങ്ങൾ സംഗ്രഹിക്കുന്നു. പിന്നെ `ggplot2` ഉപയോഗിച്ച് ബാർ ചാർട്ട് പ്ലോട്ട് ചെയ്യുന്നു, വ്യത്യസ്ത വിഭാഗങ്ങൾക്ക് നിറങ്ങൾ നിശ്ചയിച്ച് ലേബലുകൾ ചേർക്കുന്നു.
![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.ml.png)
![Stacked bar chart](../../../../../translated_images/ml/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
ഈ ബാർ ചാർട്ട് വായിക്കാൻ ബുദ്ധിമുട്ടാണ്, കാരണം ഗ്രൂപ്പ് ചെയ്യാത്ത ഡാറ്റ വളരെ കൂടുതലാണ്. നിങ്ങൾ പ്ലോട്ട് ചെയ്യാൻ ആഗ്രഹിക്കുന്ന ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം, അതിനാൽ പക്ഷികളുടെ നീളം അവരുടെ വിഭാഗം അടിസ്ഥാനമാക്കി നോക്കാം.
@ -175,7 +175,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
`Category` കോളത്തിൽ ഉള്ള വ്യത്യസ്ത മൂല്യങ്ങൾ എണ്ണുകയും അവ `birds_count` എന്ന പുതിയ ഡാറ്റാഫ്രെയിമിൽ ക്രമീകരിക്കുകയും ചെയ്യുന്നു. ഈ ക്രമീകരിച്ച ഡാറ്റയെ ഫാക്ടർ ലെവലിൽ ഉൾപ്പെടുത്തി ക്രമീകരിച്ച രീതിയിൽ പ്ലോട്ട് ചെയ്യുന്നു. `ggplot2` ഉപയോഗിച്ച് ബാർ ചാർട്ട് സൃഷ്ടിക്കുന്നു. `coord_flip()` ഉപയോഗിച്ച് ഹോരിസോണ്ടൽ ബാറുകൾ പ്ലോട്ട് ചെയ്യുന്നു.
![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.ml.png)
![category-length](../../../../../translated_images/ml/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
ഈ ബാർ ചാർട്ട് ഓരോ വിഭാഗത്തിലും പക്ഷികളുടെ എണ്ണം നല്ല രീതിയിൽ കാണിക്കുന്നു. ഒരു നിമിഷത്തിൽ, ഈ പ്രദേശത്തെ ഏറ്റവും വലിയ പക്ഷി എണ്ണം Ducks/Geese/Waterfowl വിഭാഗത്തിലാണ് എന്ന് കാണാം. മിന്നസോട്ട '10,000 തടാകങ്ങളുടെ നാട്' ആകുന്നതിനാൽ ഇത് അത്ഭുതകരമല്ല!
@ -198,7 +198,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
`birds_filtered` ഡാറ്റ `Category` പ്രകാരം ഗ്രൂപ്പ് ചെയ്ത് ബാർ ഗ്രാഫ് പ്ലോട്ട് ചെയ്യുന്നു.
![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.ml.png)
![comparing data](../../../../../translated_images/ml/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
ഇവിടെ അത്ഭുതകരമായ ഒന്നുമില്ല: ഹമ്മിംഗ്‌ബർഡുകൾക്ക് പെലിക്കാനുകളോ ഗീസുകളോ അപേക്ഷിച്ച് ഏറ്റവും കുറഞ്ഞ MaxLength ഉണ്ട്. ഡാറ്റ ലജിക്കൽ ആകുമ്പോൾ നല്ലതാണ്!
@ -210,7 +210,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.ml.png)
![super-imposed values](../../../../../translated_images/ml/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
## 🚀 ചലഞ്ച്

@ -45,7 +45,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.ml.png)
![max length per order](../../../../../translated_images/ml/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
ഇത് ഓരോ പക്ഷി ഓർഡറിനും ശരീര നീളത്തിന്റെ പൊതുവായ വിതരണത്തിന്റെ ഒരു അവലോകനമാണ് നൽകുന്നത്, പക്ഷേ യഥാർത്ഥ വിതരണങ്ങൾ പ്രദർശിപ്പിക്കാൻ ഇത് ഏറ്റവും അനുയോജ്യമായ മാർഗം അല്ല. ആ ജോലി സാധാരണയായി ഹിസ്റ്റോഗ്രാം സൃഷ്ടിച്ച് കൈകാര്യം ചെയ്യുന്നു.
## ഹിസ്റ്റോഗ്രാമുകളുമായി പ്രവർത്തിക്കൽ
@ -56,7 +56,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.ml.png)
![distribution over entire dataset](../../../../../translated_images/ml/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
നിങ്ങൾക്ക് കാണാമല്ലോ, ഈ ഡാറ്റാസെറ്റിലെ 400+ പക്ഷികളിൽ ഭൂരിഭാഗവും അവരുടെ പരമാവധി ശരീരഭാരം 2000-ൽ താഴെ വരുന്ന പരിധിയിലാണ്. `bins` പാരാമീറ്റർ ഉയർന്ന ഒരു സംഖ്യയാക്കി, ഉദാഹരണത്തിന് 30 ആക്കി, ഡാറ്റയിൽ കൂടുതൽ洞察ം നേടാം:
@ -64,7 +64,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.ml.png)
![distribution-30bins](../../../../../translated_images/ml/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
ഈ ചാർട്ട് വിതരണത്തെ കുറച്ച് കൂടുതൽ സൂക്ഷ്മമായി കാണിക്കുന്നു. ഇടതുവശത്തേക്ക് കുറച്ച് കുറവുള്ള ചാർട്ട് സൃഷ്ടിക്കാൻ, നിങ്ങൾക്ക് ഒരു നിശ്ചിത പരിധിയിലുള്ള ഡാറ്റ മാത്രം തിരഞ്ഞെടുക്കണം:
@ -76,7 +76,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.ml.png)
![filtered histogram](../../../../../translated_images/ml/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
✅ മറ്റ് ഫിൽട്ടറുകളും ഡാറ്റ പോയിന്റുകളും പരീക്ഷിക്കുക. ഡാറ്റയുടെ മുഴുവൻ വിതരണവും കാണാൻ, `['MaxBodyMass']` ഫിൽട്ടർ നീക്കം ചെയ്ത് ലേബൽ ചെയ്ത വിതരണങ്ങൾ കാണിക്കുക.
@ -90,7 +90,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
ഈ രണ്ട് ഘടകങ്ങൾ തമ്മിൽ പ്രതീക്ഷിക്കപ്പെട്ട ബന്ധം ഒരു പ്രതീക്ഷിച്ച അക്ഷരേഖയിൽ കാണപ്പെടുന്നു, പ്രത്യേകിച്ച് ശക്തമായ ഒരു സമന്വയ ബിന്ദു:
![2d plot](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.ml.png)
![2d plot](../../../../../translated_images/ml/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
ഹിസ്റ്റോഗ്രാമുകൾ സംഖ്യാത്മക ഡാറ്റയ്ക്ക് സാധാരണയായി നല്ല രീതിയിൽ പ്രവർത്തിക്കുന്നു. എന്നാൽ നിങ്ങൾക്ക് ടെക്സ്റ്റ് ഡാറ്റയുടെ അടിസ്ഥാനത്തിൽ വിതരണങ്ങൾ കാണേണ്ടതുണ്ടെങ്കിൽ?
@ -122,7 +122,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.ml.png)
![wingspan and conservation collation](../../../../../translated_images/ml/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
കുറഞ്ഞ വിങ്‌സ്‌പാനും സംരക്ഷണ നിലയ്ക്കും ഇടയിൽ നല്ല ബന്ധമില്ലെന്ന് തോന്നുന്നു. ഈ രീതിയിൽ ഡാറ്റാസെറ്റിലെ മറ്റ് ഘടകങ്ങളും പരീക്ഷിക്കുക. നിങ്ങൾക്ക് ഏതെങ്കിലും ബന്ധം കണ്ടെത്താമോ?
@ -136,7 +136,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.ml.png)
![density plot](../../../../../translated_images/ml/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
മുൻപത്തെ കുറഞ്ഞ വിങ്‌സ്‌പാൻ ഡാറ്റയ്ക്കുള്ള പ്ലോട്ടിനെ പോലെ ഇത് കാണാം; ഇത് കുറച്ച് സ്മൂത്താണ്. നിങ്ങൾ രണ്ടാമത്തെ ചാർട്ടിൽ നിർമ്മിച്ച ജാഗ്ഗഡ് MaxBodyMass ലൈനിനെ സ്മൂത്ത് ആക്കാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, ഈ രീതിയിൽ പുനഃസൃഷ്ടിച്ച് വളരെ നന്നായി സ്മൂത്ത് ആക്കാം:
@ -144,7 +144,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.ml.png)
![bodymass density](../../../../../translated_images/ml/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
കുറച്ച് സ്മൂത്ത്, എന്നാൽ വളരെ സ്മൂത്ത് അല്ലാത്ത ഒരു ലൈനിനായി, `adjust` പാരാമീറ്റർ എഡിറ്റ് ചെയ്യുക:
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.ml.png)
![less smooth bodymass](../../../../../translated_images/ml/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
✅ ഈ തരം പ്ലോട്ടിനുള്ള പാരാമീറ്ററുകൾക്കുറിച്ച് വായിച്ച് പരീക്ഷണങ്ങൾ നടത്തുക!
@ -162,7 +162,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.ml.png)
![bodymass per order](../../../../../translated_images/ml/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
## 🚀 വെല്ലുവിളി

@ -97,7 +97,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
ഇവിടെ, ഈ ഡാറ്റയുടെ അനുപാതങ്ങൾ ഈ രണ്ട് മഷ്‌റൂം ക്ലാസുകൾ അനുസരിച്ച് കാണിക്കുന്ന ഒരു പൈ ചാർട്ട്. ലേബലുകളുടെ ക്രമം ശരിയാണെന്ന് ഉറപ്പാക്കുന്നത് വളരെ പ്രധാനമാണ്, പ്രത്യേകിച്ച് ഇവിടെ, അതിനാൽ ലേബൽ അറേ എങ്ങനെ നിർമ്മിക്കപ്പെടുന്നു എന്ന് പരിശോധിക്കുക!
![pie chart](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.ml.png)
![pie chart](../../../../../translated_images/ml/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
## ഡോണട്ടുകൾ!
@ -132,7 +132,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.ml.png)
![donut chart](../../../../../translated_images/ml/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
ഈ കോഡ് രണ്ട് ലൈബ്രറികൾ ഉപയോഗിക്കുന്നു - ggplot2, webr. webr ലൈബ്രറിയുടെ PieDonut ഫംഗ്ഷൻ ഉപയോഗിച്ച്, ഡോണട്ട് ചാർട്ട് എളുപ്പത്തിൽ സൃഷ്ടിക്കാം!
@ -169,7 +169,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
വാഫിൾ ചാർട്ട് ഉപയോഗിച്ച്, ഈ മഷ്‌റൂം dataset-ലെ ക്യാപ് നിറങ്ങളുടെ അനുപാതങ്ങൾ വ്യക്തമായി കാണാം. രസകരമായി, പച്ച ക്യാപ് ഉള്ള മഷ്‌റൂമുകൾ വളരെ കൂടുതലാണ്!
![waffle chart](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.ml.png)
![waffle chart](../../../../../translated_images/ml/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
ഈ പാഠത്തിൽ, നിങ്ങൾക്ക് അനുപാതങ്ങൾ ദൃശ്യവൽക്കരിക്കുന്ന മൂന്ന് മാർഗങ്ങൾ പഠിച്ചു. ആദ്യം, ഡാറ്റയെ വിഭാഗങ്ങളായി ഗ്രൂപ്പ് ചെയ്യണം, പിന്നെ ഡാറ്റ പ്രദർശിപ്പിക്കാൻ ഏറ്റവും നല്ല മാർഗം - പൈ, ഡോണട്ട്, അല്ലെങ്കിൽ വാഫിൾ - തിരഞ്ഞെടുക്കണം. എല്ലാം രുചികരവും ഉപയോക്താവിന് dataset-ന്റെ ഉടൻ ഒരു ദൃശ്യസംഗ്രഹം നൽകുന്നതുമാണ്.

@ -51,7 +51,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.ml.png)
![scatterplot 1](../../../../../translated_images/ml/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
ഇപ്പോൾ, വർഷം തോറും വില എങ്ങനെ മാറിയെന്ന് കാണിക്കാൻ തേൻ നിറത്തിലുള്ള കളർ സ്കീം ഉപയോഗിച്ച് സമാന ഡാറ്റ കാണിക്കുക. വർഷം തോറും മാറ്റം കാണിക്കാൻ 'scale_color_gradientn' പാരാമീറ്റർ ചേർക്കാം:
@ -61,7 +61,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.ml.png)
![scatterplot 2](../../../../../translated_images/ml/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
ഈ കളർ സ്കീം മാറ്റത്തോടെ, പൗണ്ട് പ്രതി തേൻ വില വർഷം തോറും ശക്തമായി ഉയരുന്നുവെന്ന് വ്യക്തമായി കാണാം. ഡാറ്റയിൽ ഒരു സാമ്പിൾ സെറ്റ് പരിശോധിച്ചാൽ (ഉദാഹരണത്തിന്, അരിസോണ), വില വർഷം തോറും ഉയരുന്ന ഒരു പാറ്റേൺ കാണാം, കുറച്ച് ഒഴിവുകൾ കൂടെ:
@ -92,7 +92,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
ഡോട്ടുകളുടെ വലിപ്പം ക്രമാനുസൃതമായി വർദ്ധിക്കുന്നതായി കാണാം.
![scatterplot 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.ml.png)
![scatterplot 3](../../../../../translated_images/ml/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
ഇത് സപ്ലൈ-ഡിമാൻഡ് സാദ്ധ്യതയുള്ള ഒരു ലളിതമായ കേസ് ആണോ? കാലാവസ്ഥ മാറ്റം, കോളനി തകർച്ച തുടങ്ങിയ ഘടകങ്ങൾ കാരണം, വർഷം തോറും വാങ്ങാനുളള തേൻ കുറയുന്നുണ്ടോ, അതുകൊണ്ട് വില ഉയരുന്നുണ്ടോ?
@ -107,7 +107,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
ഉത്തരം: ചില ഒഴിവുകൾ കൂടെ, 2003-ൽ ചില വ്യത്യാസങ്ങൾ കാണാം:
![line chart 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.ml.png)
![line chart 1](../../../../../translated_images/ml/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
ചോദ്യം: 2003-ൽ തേൻ സപ്ലൈയിൽ ഒരു പീക്ക് കാണാമോ? മൊത്തം ഉത്പാദനം വർഷം തോറും നോക്കിയാൽ?
@ -115,7 +115,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.ml.png)
![line chart 2](../../../../../translated_images/ml/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
ഉത്തരം: അത്രയുമല്ല. മൊത്തം ഉത്പാദനം ആ വർഷം വർദ്ധിച്ചിട്ടുണ്ടെന്ന് തോന്നുന്നു, എങ്കിലും സാധാരണയായി ഈ വർഷങ്ങളിൽ തേൻ ഉത്പാദനം കുറയുകയാണ്.
@ -135,7 +135,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
ഈ ദൃശ്യവൽക്കരണത്തിൽ, കോളനി പ്രതി ഉത്പാദനവും കോളനികളുടെ എണ്ണവും വർഷം തോറും, 3 കോളങ്ങൾ വച്ച് വച്ച് താരതമ്യം ചെയ്യാം:
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.ml.png)
![facet grid](../../../../../translated_images/ml/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
ഈ ഡാറ്റാസെറ്റിൽ, കോളനികളുടെ എണ്ണം, അവയുടെ ഉത്പാദനം വർഷം തോറും, സംസ്ഥാനങ്ങൾ അനുസരിച്ച് പ്രത്യേകമായ ഒന്നും കാണാനില്ല. ഈ രണ്ട് വേരിയബിളുകൾ തമ്മിൽ സഹബന്ധം കണ്ടെത്താൻ മറ്റൊരു മാർഗ്ഗമുണ്ടോ?
@ -152,7 +152,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.ml.png)
![superimposed plots](../../../../../translated_images/ml/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
2003-ൽ പ്രത്യേകമായി ഒന്നും കാണാനില്ലെങ്കിലും, ഈ പാഠം ഒരു സന്തോഷകരമായ നോട്ടിൽ അവസാനിപ്പിക്കാൻ സഹായിക്കുന്നു: മൊത്തം കോളനികളുടെ എണ്ണം കുറയുന്നുണ്ടെങ്കിലും, അവയുടെ എണ്ണം സ്ഥിരതയുള്ളതും, കോളനി പ്രതി ഉത്പാദനം കുറയുന്നുണ്ടെങ്കിലും.

@ -47,25 +47,25 @@ CO_OP_TRANSLATOR_METADATA:
ഒരു ഡാറ്റ സയന്റിസ്റ്റ് ശരിയായ ഡാറ്റയ്ക്ക് ശരിയായ ചാർട്ട് തിരഞ്ഞെടുക്കാൻ ശ്രദ്ധിച്ചാലും, ഡാറ്റയെ തന്നെ തകർക്കുന്ന വിധത്തിൽ ഒരു കാര്യം തെളിയിക്കാൻ ഡാറ്റ പ്രദർശിപ്പിക്കുന്ന നിരവധി മാർഗ്ഗങ്ങൾ ഉണ്ട്. വഞ്ചനാപരമായ ചാർട്ടുകളും ഇൻഫോഗ്രാഫിക്സും നിരവധി ഉദാഹരണങ്ങളുണ്ട്!
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.ml.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/ml/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 വഞ്ചനാപരമായ ചാർട്ടുകൾക്കുറിച്ചുള്ള കോൺഫറൻസ് ടോക്കിനായി മുകളിൽ ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്യുക
ഈ ചാർട്ട് X അക്ഷം മറിച്ച് സത്യം മറിച്ച് കാണിക്കുന്നു, തീയതി അടിസ്ഥാനമാക്കി:
![bad chart 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.ml.png)
![bad chart 1](../../../../../translated_images/ml/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
[ഈ ചാർട്ട്](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) കൂടുതൽ വഞ്ചനാപരമാണ്, കാരണം കണ്ണ് വലത്തേക്ക് ആകർഷിക്കപ്പെടുന്നു, കാലക്രമത്തിൽ COVID കേസുകൾ വിവിധ കൗണ്ടികളിൽ കുറയുകയാണെന്ന് നിഗമനം ചെയ്യാൻ. എന്നാൽ, തീയതികൾ സൂക്ഷ്മമായി നോക്കിയാൽ, അവ വഞ്ചനാപരമായ താഴ്ന്ന ട്രെൻഡ് നൽകാൻ പുനഃക്രമീകരിച്ചിട്ടുള്ളതായി കാണാം.
![bad chart 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.ml.jpg)
![bad chart 2](../../../../../translated_images/ml/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
ഈ പ്രശസ്ത ഉദാഹരണം നിറവും മറിച്ച Y അക്ഷവും ഉപയോഗിച്ച് വഞ്ചന ചെയ്യുന്നു: തോക്കു-സഹായക നിയമം പാസായതിന് ശേഷം തോക്ക് മരണങ്ങൾ ഉയർന്നതായി നിഗമനം ചെയ്യേണ്ടതിനു പകരം, കണ്ണ് മറിച്ച് സത്യം തെറ്റായി കാണുന്നു:
![bad chart 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.ml.jpg)
![bad chart 3](../../../../../translated_images/ml/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
ഈ വിചിത്രമായ ചാർട്ട് അനുപാതം എങ്ങനെ മാനിപ്പുലേറ്റ് ചെയ്യാമെന്ന് ഹാസ്യകരമായി കാണിക്കുന്നു:
![bad chart 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.ml.jpg)
![bad chart 4](../../../../../translated_images/ml/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
തുല്യമായവയെ താരതമ്യം ചെയ്യുന്നത് മറ്റൊരു സംശയാസ്പദമായ തന്ത്രമാണ്. 'സ്പ്യൂറിയസ് കോറിലേഷൻസ്' എന്ന വിഷയത്തെക്കുറിച്ച് മുഴുവൻ വെബ്‌സൈറ്റ് [wonderful web site](https://tylervigen.com/spurious-correlations) ഉണ്ട്, മെയ്ൻയിലെ വിവാഹമോചന നിരക്കും മാർഗറിൻ ഉപഭോഗവും തമ്മിലുള്ള 'തथ്യങ്ങൾ' correlated ആയി പ്രദർശിപ്പിക്കുന്നു. Reddit ഗ്രൂപ്പ് ഡാറ്റയുടെ [അസൗന്ദര്യ ഉപയോഗങ്ങൾ](https://www.reddit.com/r/dataisugly/top/?t=all) ശേഖരിക്കുന്നു.
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങളുടെ ഡാറ്റ ടെക്സ്റ്റ് ആണെങ്കിൽ, X അക്ഷ上的 വാചകം വായനാസൗകര്യത്തിനായി കോണിൽ കാണിക്കാം. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D പ്ലോട്ടിംഗ് നൽകുന്നു, നിങ്ങളുടെ ഡാറ്റ അത് പിന്തുണച്ചാൽ. അതുപയോഗിച്ച് സങ്കീർണ്ണമായ ഡാറ്റാ ദൃശ്യവത്കരണങ്ങൾ നിർമ്മിക്കാം.
![3d plots](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.ml.png)
![3d plots](../../../../../translated_images/ml/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
## അനിമേഷൻ, 3D ചാർട്ട് പ്രദർശനം
ഇന്നത്തെ മികച്ച ഡാറ്റാ ദൃശ്യവത്കരണങ്ങളിൽ ചിലത് അനിമേറ്റഡ് ആണ്. Shirley Wu D3 ഉപയോഗിച്ച് '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' പോലുള്ള അത്ഭുതകരമായവ ഉണ്ടാക്കി, ഓരോ പൂവും ഒരു സിനിമയുടെ ദൃശ്യവത്കരണമാണ്. Guardian-നായി മറ്റൊരു ഉദാഹരണം 'bussed out' ആണ്, Greensock, D3 എന്നിവയുമായി സംയോജിപ്പിച്ച ഇന്ററാക്ടീവ് അനുഭവം, സ്ക്രോൾടെല്ലിംഗ് ലേഖന ഫോർമാറ്റിൽ NYC എങ്ങനെ നഗരത്തിലെ ഹോമ്ലെസ്സ് പ്രശ്നം ബസ്സിലൂടെ പുറത്തേക്ക് കൊണ്ടുപോകുന്നു എന്ന് കാണിക്കുന്നു.
![busing](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.ml.png)
![busing](../../../../../translated_images/ml/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
നിങ്ങൾ ഒരു വെബ് ആപ്പ് പൂർത്തിയാക്കും, ഇത് ഈ സോഷ്യൽ നെറ്റ്‌വർക്ക് അനിമേറ്റഡ് ദൃശ്യവത്കരണം പ്രദർശിപ്പിക്കും. ഇത് Vue.js, D3 ഉപയോഗിച്ച് [നെറ്റ്‌വർക്ക് ദൃശ്യവത്കരണം](https://github.com/emiliorizzo/vue-d3-network) സൃഷ്ടിക്കാൻ നിർമ്മിച്ച ഒരു ലൈബ്രറി ഉപയോഗിക്കുന്നു. ആപ്പ് പ്രവർത്തിക്കുമ്പോൾ, സ്ക്രീനിൽ നോഡുകൾ നീക്കി ഡാറ്റ മാറ്റാം.
![liaisons](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.ml.png)
![liaisons](../../../../../translated_images/ml/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
## പ്രോജക്ട്: D3.js ഉപയോഗിച്ച് ഒരു നെറ്റ്‌വർക്ക് കാണിക്കുന്ന ചാർട്ട് നിർമ്മിക്കുക

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ദൃശ്യവത്കരണങ്ങൾ
![a bee on a lavender flower](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.ml.jpg)
![a bee on a lavender flower](../../../translated_images/ml/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
> ഫോട്ടോ <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ജെന്ന ലി</a> യുടെ <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a> നിന്നാണ്

@ -25,7 +25,7 @@ CO_OP_TRANSLATOR_METADATA:
ഈ പാഠം ലൈഫ്‌സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു.
![Diagram of the data science lifecycle](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.ml.jpg)
![Diagram of the data science lifecycle](../../../../translated_images/ml/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
> ഫോട്ടോ: [ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## പിടിച്ചെടുക്കൽ
@ -97,7 +97,7 @@ CO_OP_TRANSLATOR_METADATA:
|ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP)|ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.ml.png) | ![Data Science Process Alliance Image](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.ml.png) |
|![Team Data Science Lifecycle](../../../../translated_images/ml/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ml/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
| ചിത്രം: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ചിത്രം: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [പോസ്റ്റ്-ലെക്ചർ ക്വിസ്](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ
![communication](../../../translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.ml.jpg)
![communication](../../../translated_images/ml/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
> ഫോട്ടോ <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ഹെഡ്‌വേ</a> യുടെ <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">അൺസ്പ്ലാഷിൽ</a>
ഈ പാഠങ്ങളിൽ, ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ ചില ഭാഗങ്ങൾ, ഡാറ്റ ചുറ്റിപ്പറ്റിയുള്ള വിശകലനവും ആശയവിനിമയവും ഉൾപ്പെടെ, നിങ്ങൾ അന്വേഷിക്കും.

@ -62,7 +62,7 @@ CO_OP_TRANSLATOR_METADATA:
പ്രോജക്ടുകൾ നിർമ്മിച്ച് പരീക്ഷണങ്ങൾ നടത്തുന്നത് നിങ്ങളുടെ കഴിവുകളും അറിവുകളും പരീക്ഷിക്കാൻ ഏറ്റവും നല്ല മാർഗമാണ്. ഈ പാഠത്തിൽ, ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ ഹാർട്ട് ഫെയില്യർ ആക്രമണങ്ങൾ പ്രവചിക്കുന്ന ഡാറ്റാ സയൻസ് പ്രോജക്ട് നിർമ്മിക്കുന്ന രണ്ട് വ്യത്യസ്ത മാർഗങ്ങൾ പരിശോധിക്കാം: ലോ കോഡ്/നോ കോഡ് വഴി, ആസ്യൂർ ML SDK വഴി, താഴെ കാണുന്ന സ്കീമ പ്രകാരം:
![project-schema](../../../../translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.ml.png)
![project-schema](../../../../translated_images/ml/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.png)
ഓരോ മാർഗത്തിനും സ്വന്തം ഗുണങ്ങളും ദോഷങ്ങളും ഉണ്ട്. ലോ കോഡ്/നോ കോഡ് വഴി GUI (ഗ്രാഫിക്കൽ യൂസർ ഇന്റർഫേസ്) ഉപയോഗിച്ച് ആരംഭിക്കാൻ എളുപ്പമാണ്, കോഡ് അറിവ് ആവശ്യമില്ല. ഈ രീതിയിൽ പ്രോജക്ടിന്റെ സാധുത വേഗത്തിൽ പരിശോധിക്കാനും POC (പ്രൂഫ് ഓഫ് കോൺസെപ്റ്റ്) സൃഷ്ടിക്കാനും കഴിയും. എന്നാൽ, പ്രോജക്ട് വളരുമ്പോൾ പ്രൊഡക്ഷൻ റെഡിയാക്കേണ്ടതുണ്ടെങ്കിൽ GUI വഴി റിസോഴ്‌സുകൾ സൃഷ്ടിക്കുന്നത് പ്രായോഗികമല്ല. റിസോഴ്‌സുകൾ സൃഷ്ടിക്കുന്നതിൽ നിന്നും മോഡൽ ഡിപ്ലോയ്മെന്റിലേക്കുള്ള എല്ലാ കാര്യങ്ങളും പ്രോഗ്രാമാറ്റിക്കായി ഓട്ടോമേറ്റ് ചെയ്യേണ്ടതുണ്ട്. ആസ്യൂർ ML SDK ഉപയോഗിക്കുന്നതിന്റെ പ്രാധാന്യം ഇവിടെ വരുന്നു.
@ -115,15 +115,15 @@ CO_OP_TRANSLATOR_METADATA:
1. നിങ്ങളുടെ ആസ്യൂർ സബ്സ്ക്രിപ്ഷനുമായി ബന്ധപ്പെട്ട മൈക്രോസോഫ്റ്റ് ക്രെഡൻഷ്യലുകൾ ഉപയോഗിച്ച് [ആസ്യൂർ പോർട്ടലിൽ](https://ms.portal.azure.com/) സൈൻ ഇൻ ചെയ്യുക.
2. **Create a resource** തിരഞ്ഞെടുക്കുക
![workspace-1](../../../../translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.ml.png)
![workspace-1](../../../../translated_images/ml/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.png)
മെഷീൻ ലേണിംഗ് തിരയുക, മെഷീൻ ലേണിംഗ് ടൈൽ തിരഞ്ഞെടുക്കുക
![workspace-2](../../../../translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.ml.png)
![workspace-2](../../../../translated_images/ml/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.png)
സൃഷ്ടിക്കുക ബട്ടൺ ക്ലിക്ക് ചെയ്യുക
![workspace-3](../../../../translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.ml.png)
![workspace-3](../../../../translated_images/ml/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.png)
ക്രമീകരണങ്ങൾ താഴെപോലെ പൂരിപ്പിക്കുക:
- സബ്സ്ക്രിപ്ഷൻ: നിങ്ങളുടെ ആസ്യൂർ സബ്സ്ക്രിപ്ഷൻ
@ -135,17 +135,17 @@ CO_OP_TRANSLATOR_METADATA:
- അപ്ലിക്കേഷൻ ഇൻസൈറ്റ്സ്: നിങ്ങളുടെ വർക്ക്സ്പേസിനായി സൃഷ്ടിക്കപ്പെടുന്ന ഡിഫോൾട്ട് പുതിയ അപ്ലിക്കേഷൻ ഇൻസൈറ്റ്സ് റിസോഴ്‌സ് ശ്രദ്ധിക്കുക
- കണ്ടെയ്‌നർ രജിസ്ട്രി: ഇല്ല (മോഡൽ ആദ്യമായി കണ്ടെയ്‌നറിൽ ഡിപ്ലോയ് ചെയ്യുമ്പോൾ സ്വയം സൃഷ്ടിക്കും)
![workspace-4](../../../../translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.ml.png)
![workspace-4](../../../../translated_images/ml/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.png)
- സൃഷ്ടിക്കുക + അവലോകനം ക്ലിക്ക് ചെയ്ത് പിന്നീട് സൃഷ്ടിക്കുക ബട്ടൺ ക്ലിക്ക് ചെയ്യുക
3. നിങ്ങളുടെ വർക്ക്സ്പേസ് സൃഷ്ടിക്കപ്പെടുന്നത് കാത്തിരിക്കുക (ചില മിനിറ്റുകൾ എടുക്കാം). ശേഷം പോർട്ടലിൽ അതിലേക്ക് പോകുക. ഇത് മെഷീൻ ലേണിംഗ് ആസ്യൂർ സേവനത്തിലൂടെ കണ്ടെത്താം.
4. നിങ്ങളുടെ വർക്ക്സ്പേസ് ഓവർവ്യൂ പേജിൽ, ആസ്യൂർ മെഷീൻ ലേണിംഗ് സ്റ്റുഡിയോ ആരംഭിക്കുക (അല്ലെങ്കിൽ പുതിയ ബ്രൗസർ ടാബ് തുറന്ന് https://ml.azure.com-ൽ പോകുക), നിങ്ങളുടെ മൈക്രോസോഫ്റ്റ് അക്കൗണ്ട് ഉപയോഗിച്ച് സൈൻ ഇൻ ചെയ്യുക. ആവശ്യമായാൽ, നിങ്ങളുടെ ആസ്യൂർ ഡയറക്ടറി, സബ്സ്ക്രിപ്ഷൻ, ആസ്യൂർ ML വർക്ക്സ്പേസ് തിരഞ്ഞെടുക്കുക.
![workspace-5](../../../../translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.ml.png)
![workspace-5](../../../../translated_images/ml/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.png)
5. ആസ്യൂർ ML സ്റ്റുഡിയോയിൽ, ഇടത് മുകളിൽ ☰ ഐക്കൺ ടോഗിൾ ചെയ്ത് ഇന്റർഫേസ് ഉള്ള വിവിധ പേജുകൾ കാണുക. ഈ പേജുകൾ ഉപയോഗിച്ച് നിങ്ങളുടെ വർക്ക്സ്പേസ് റിസോഴ്‌സുകൾ നിയന്ത്രിക്കാം.
![workspace-6](../../../../translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.ml.png)
![workspace-6](../../../../translated_images/ml/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.png)
നിങ്ങൾ ആസ്യൂർ പോർട്ടൽ ഉപയോഗിച്ച് വർക്ക്സ്പേസ് നിയന്ത്രിക്കാം, എന്നാൽ ഡാറ്റാ സയന്റിസ്റ്റുകൾക്കും മെഷീൻ ലേണിംഗ് ഓപ്പറേഷൻസ് എഞ്ചിനീയർമാർക്കും, ആസ്യൂർ ML സ്റ്റുഡിയോ വർക്ക്സ്പേസ് റിസോഴ്‌സുകൾ നിയന്ത്രിക്കാൻ കൂടുതൽ കേന്ദ്രീകൃതമായ യൂസർ ഇന്റർഫേസ് നൽകുന്നു.
@ -193,18 +193,18 @@ Low-priority instance എന്നത് ഇടപെടാവുന്നതാ
മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, compute ലേക്ക് പോകുക, നിങ്ങൾ ഇപ്പോൾ ചർച്ച ചെയ്ത വിവിധ കംപ്യൂട്ട് റിസോഴ്‌സുകൾ കാണാൻ കഴിയും (ഉദാ: compute instances, compute clusters, inference clusters, attached compute). ഈ പ്രോജക്ടിനായി, മോഡൽ പരിശീലനത്തിനായി ഒരു compute cluster ആവശ്യമുണ്ട്. സ്റ്റുഡിയോയിൽ, "Compute" മെനുവിൽ ക്ലിക്ക് ചെയ്യുക, തുടർന്ന് "Compute cluster" ടാബിൽ ക്ലിക്ക് ചെയ്ത് "+ New" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് compute cluster സൃഷ്ടിക്കുക.
![22](../../../../translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.ml.png)
![22](../../../../translated_images/ml/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.png)
1. നിങ്ങളുടെ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക: Dedicated vs Low priority, CPU അല്ലെങ്കിൽ GPU, VM വലുപ്പം, കോർ എണ്ണം (ഈ പ്രോജക്ടിനായി ഡിഫോൾട്ട് സെറ്റിംഗുകൾ നിലനിർത്താം).
2. Next ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
![23](../../../../translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.ml.png)
![23](../../../../translated_images/ml/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.png)
3. ക്ലസ്റ്ററിന് ഒരു കംപ്യൂട്ട് പേര് നൽകുക
4. നിങ്ങളുടെ ഓപ്ഷനുകൾ തിരഞ്ഞെടുക്കുക: കുറഞ്ഞ/പരമാവധി നോഡുകളുടെ എണ്ണം, സ്കെയിൽ ഡൗൺ ചെയ്യുന്നതിന് മുമ്പുള്ള ഐഡിൽ സെക്കൻഡുകൾ, SSH ആക്‌സസ്. കുറഞ്ഞ നോഡുകളുടെ എണ്ണം 0 ആണെങ്കിൽ, ക്ലസ്റ്റർ ഐഡിൽ ആയപ്പോൾ പണം ലാഭിക്കും. പരമാവധി നോഡുകളുടെ എണ്ണം കൂടുതലായാൽ പരിശീലനം കുറച്ച് സമയം എടുക്കും. പരമാവധി നോഡുകളുടെ ശുപാർശ 3 ആണ്.
5. "Create" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം കുറച്ച് മിനിറ്റുകൾ എടുക്കാം.
![29](../../../../translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.ml.png)
![29](../../../../translated_images/ml/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.png)
അദ്ഭുതം! ഇപ്പോൾ ഒരു Compute cluster ഉണ്ടാകുമ്പോൾ, ഡാറ്റ Azure ML Studio-യിൽ ലോഡ് ചെയ്യേണ്ടതാണ്.
@ -212,15 +212,15 @@ Low-priority instance എന്നത് ഇടപെടാവുന്നതാ
1. മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, ഇടത് മെനുവിൽ "Datasets" ക്ലിക്ക് ചെയ്ത് "+ Create dataset" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് ഒരു dataset സൃഷ്ടിക്കുക. "From local files" ഓപ്ഷൻ തിരഞ്ഞെടുക്കുക, മുൻപ് ഡൗൺലോഡ് ചെയ്ത Kaggle dataset തിരഞ്ഞെടുക്കുക.
![24](../../../../translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.ml.png)
![24](../../../../translated_images/ml/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.png)
2. നിങ്ങളുടെ dataset-ന് ഒരു പേര്, തരം, വിവരണം നൽകുക. Next ക്ലിക്ക് ചെയ്യുക. ഫയലുകളിൽ നിന്ന് ഡാറ്റ അപ്‌ലോഡ് ചെയ്യുക. Next ക്ലിക്ക് ചെയ്യുക.
![25](../../../../translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.ml.png)
![25](../../../../translated_images/ml/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.png)
3. Schema-യിൽ, താഴെപ്പറയുന്ന ഫീച്ചറുകൾക്ക് ഡാറ്റ ടൈപ്പ് Boolean ആയി മാറ്റുക: anaemia, diabetes, high blood pressure, sex, smoking, DEATH_EVENT. Next ക്ലിക്ക് ചെയ്ത് Create ക്ലിക്ക് ചെയ്യുക.
![26](../../../../translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.ml.png)
![26](../../../../translated_images/ml/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.png)
ശ്രേഷ്ഠം! Dataset സജ്ജമായപ്പോൾ, compute cluster സൃഷ്ടിച്ചതിനുശേഷം, മോഡൽ പരിശീലനം ആരംഭിക്കാം!
@ -231,19 +231,19 @@ Automated machine learning (AutoML) മെഷീൻ ലേണിംഗ് മോ
1. മുൻപ് സൃഷ്ടിച്ച [Azure ML workspace](https://ml.azure.com/) ൽ, ഇടത് മെനുവിൽ "Automated ML" ക്ലിക്ക് ചെയ്ത് നിങ്ങൾ അപ്‌ലോഡ് ചെയ്ത dataset തിരഞ്ഞെടുക്കുക. Next ക്ലിക്ക് ചെയ്യുക.
![27](../../../../translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.ml.png)
![27](../../../../translated_images/ml/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.png)
2. പുതിയ experiment പേര് നൽകുക, target column (DEATH_EVENT) തിരഞ്ഞെടുക്കുക, സൃഷ്ടിച്ച compute cluster തിരഞ്ഞെടുക്കുക. Next ക്ലിക്ക് ചെയ്യുക.
![28](../../../../translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.ml.png)
![28](../../../../translated_images/ml/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.png)
3. "Classification" തിരഞ്ഞെടുക്കുക, Finish ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം compute cluster വലുപ്പം അനുസരിച്ച് 30 മിനിറ്റിൽ 1 മണിക്കൂർ വരെ എടുക്കാം.
![30](../../../../translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.ml.png)
![30](../../../../translated_images/ml/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.png)
4. റൺ പൂർത്തിയായ ശേഷം, "Automated ML" ടാബിൽ ക്ലിക്ക് ചെയ്യുക, നിങ്ങളുടെ റൺ തിരഞ്ഞെടുക്കുക, "Best model summary" കാർഡിലെ Algorithm ക്ലിക്ക് ചെയ്യുക.
![31](../../../../translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.ml.png)
![31](../../../../translated_images/ml/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.png)
ഇവിടെ AutoML സൃഷ്ടിച്ച മികച്ച മോഡലിന്റെ വിശദമായ വിവരണം കാണാം. Models ടാബിൽ മറ്റ് മോഡലുകളും പരിശോധിക്കാം. Explanations (preview ബട്ടൺ) ൽ മോഡലുകൾ പരിശോധിക്കാൻ കുറച്ച് സമയം ചെലവഴിക്കുക. നിങ്ങൾ ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്ന മോഡൽ തിരഞ്ഞെടുക്കുമ്പോൾ (ഇവിടെ AutoML തിരഞ്ഞെടുത്ത മികച്ച മോഡൽ തിരഞ്ഞെടുക്കും), അതിനെ എങ്ങനെ വിന്യസിക്കാമെന്ന് കാണാം.
@ -254,15 +254,15 @@ Automated machine learning ഇന്റർഫേസ് മികച്ച മോ
മികച്ച മോഡൽ വിവരണത്തിൽ "Deploy" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
![deploy-1](../../../../translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.ml.png)
![deploy-1](../../../../translated_images/ml/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.png)
15. ഒരു പേര്, വിവരണം, കംപ്യൂട്ട് തരം (Azure Container Instance), authentication സജ്ജമാക്കുക, Deploy ക്ലിക്ക് ചെയ്യുക. ഈ ഘട്ടം പൂർത്തിയാകാൻ ഏകദേശം 20 മിനിറ്റ് എടുക്കാം. വിന്യാസ പ്രക്രിയയിൽ മോഡൽ രജിസ്റ്റർ ചെയ്യൽ, റിസോഴ്‌സുകൾ സൃഷ്ടിക്കൽ, വെബ് സേവനത്തിനായി അവ ക്രമീകരിക്കൽ ഉൾപ്പെടുന്നു. Deploy status കീഴിൽ സ്റ്റാറ്റസ് സന്ദേശം കാണാം. സ്റ്റാറ്റസ് "Healthy" ആണെങ്കിൽ വിന്യസിച്ചും പ്രവർത്തിക്കുന്നുമാണ്.
![deploy-2](../../../../translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.ml.png)
![deploy-2](../../../../translated_images/ml/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.png)
16. വിന്യസിച്ച ശേഷം, Endpoint ടാബിൽ ക്ലിക്ക് ചെയ്ത് നിങ്ങൾ വിന്യസിച്ച എൻഡ്‌പോയിന്റ് തിരഞ്ഞെടുക്കുക. ഇവിടെ എൻഡ്‌പോയിന്റ് സംബന്ധിച്ച എല്ലാ വിവരങ്ങളും കാണാം.
![deploy-3](../../../../translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.ml.png)
![deploy-3](../../../../translated_images/ml/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.png)
അദ്ഭുതം! ഇപ്പോൾ ഒരു മോഡൽ വിന്യസിച്ചിരിക്കുന്നു, എൻഡ്‌പോയിന്റ് ഉപഭോഗം ആരംഭിക്കാം.
@ -272,7 +272,7 @@ Automated machine learning ഇന്റർഫേസ് മികച്ച മോ
ഈ സ്ക്രിപ്റ്റ് നിങ്ങളുടെ ലോക്കൽ മെഷീനിൽ നിന്ന് നേരിട്ട് പ്രവർത്തിപ്പിക്കാം, നിങ്ങളുടെ എൻഡ്‌പോയിന്റ് ഉപഭോഗിക്കും.
![35](../../../../translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.ml.png)
![35](../../../../translated_images/ml/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.png)
ഈ 2 കോഡ് ലൈൻ പരിശോധിക്കുക:

@ -57,7 +57,7 @@ SDKയുടെ പ്രധാന മേഖലകൾ:
[മുൻപത്തെ പാഠത്തിൽ](../18-Low-Code/README.md) നാം ലോ കോഡ്/നോ കോഡ് രീതിയിൽ മോഡൽ പരിശീലിപ്പിക്കുകയും വിന്യസിക്കുകയും ഉപയോഗിക്കുകയും ചെയ്തിരുന്നു. ഹാർട്ട് ഫെയില്യർ ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച് ഹാർട്ട് ഫെയില്യർ പ്രവചന മോഡൽ സൃഷ്ടിച്ചു. ഈ പാഠത്തിൽ, നാം അതേ പ്രവർത്തി Azure Machine Learning SDK ഉപയോഗിച്ച് ചെയ്യാൻ പോകുന്നു.
![project-schema](../../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.ml.png)
![project-schema](../../../../translated_images/ml/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
### 1.2 ഹാർട്ട് ഫെയില്യർ പ്രവചനം പ്രോജക്ടും ഡാറ്റാസെറ്റും പരിചയം
@ -74,7 +74,7 @@ SDKയുടെ പ്രധാന മേഖലകൾ:
മുൻപ് സൃഷ്ടിച്ച [Azure ML വർക്ക്‌സ്‌പേസിൽ](https://ml.azure.com/) കംപ്യൂട്ട് മെനുവിലേക്ക് പോകുക, അവിടെ ലഭ്യമായ വിവിധ കംപ്യൂട്ട് വിഭവങ്ങൾ കാണാം
![compute-instance-1](../../../../translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.ml.png)
![compute-instance-1](../../../../translated_images/ml/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.png)
Jupyter നോട്ട്‌ബുക്ക് പ്രൊവിഷൻ ചെയ്യാൻ ഒരു കംപ്യൂട്ട് ഇൻസ്റ്റൻസ് സൃഷ്ടിക്കാം.
1. + New ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
@ -97,10 +97,10 @@ Jupyter നോട്ട്‌ബുക്ക് പ്രൊവിഷൻ ചെ
1. Applications വിഭാഗത്തിൽ Jupyter ഓപ്ഷൻ ക്ലിക്ക് ചെയ്യുക.
2. "Yes, I understand" ബോക്സ് ടിക്ക് ചെയ്ത് Continue ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.
![notebook-1](../../../../translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.ml.png)
![notebook-1](../../../../translated_images/ml/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.png)
3. ഇത് പുതിയ ബ്രൗസർ ടാബിൽ നിങ്ങളുടെ ജുപിറ്റർ നോട്ട്‌ബുക്ക് ഇൻസ്റ്റൻസ് തുറക്കും. "New" ബട്ടൺ ക്ലിക്ക് ചെയ്ത് നോട്ട്‌ബുക്ക് സൃഷ്ടിക്കുക.
![notebook-2](../../../../translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.ml.png)
![notebook-2](../../../../translated_images/ml/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.png)
ഇപ്പോൾ നോട്ട്‌ബുക്ക് ഉണ്ടാകുമ്പോൾ, Azure ML SDK ഉപയോഗിച്ച് മോഡൽ പരിശീലനം ആരംഭിക്കാം.

@ -9,13 +9,13 @@ CO_OP_TRANSLATOR_METADATA:
-->
# ക്ലൗഡിലെ ഡാറ്റാ സയൻസ്
![cloud-picture](../../../translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.ml.jpg)
![cloud-picture](../../../translated_images/ml/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
> ഫോട്ടോ [Jelleke Vanooteghem](https://unsplash.com/@ilumire) യുടെ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) ൽ നിന്നാണ്
വലിയ ഡാറ്റയുമായി ഡാറ്റാ സയൻസ് ചെയ്യുമ്പോൾ, ക്ലൗഡ് ഒരു ഗെയിം ചേഞ്ചർ ആകാം. അടുത്ത മൂന്ന് പാഠങ്ങളിൽ, ക്ലൗഡ് എന്താണെന്നും അത് എങ്ങനെ സഹായകരമാകാമെന്നും നാം കാണാൻ പോകുന്നു. ഹൃദയ പരാജയ ഡാറ്റാസെറ്റ് പരിശോധിച്ച്, ആരെങ്കിലും ഹൃദയ പരാജയ സാധ്യതയുള്ളതെന്ന് വിലയിരുത്താൻ സഹായിക്കുന്ന ഒരു മോഡൽ നിർമ്മിക്കാനും നാം പോകുന്നു. മോഡൽ പരിശീലിപ്പിക്കാൻ, വിന്യസിക്കാൻ, ഉപയോഗിക്കാൻ ക്ലൗഡിന്റെ ശക്തി ഉപയോഗിക്കും. ഒരു വഴി കുറഞ്ഞ കോഡ്/കോഡ് ഇല്ലാത്ത രീതിയിൽ മാത്രം ഉപയോക്തൃ ഇന്റർഫേസ് ഉപയോഗിച്ച്, മറ്റൊരു വഴി Azure മെഷീൻ ലേണിംഗ് സോഫ്റ്റ്വെയർ ഡെവലപ്പർ കിറ്റ് (Azure ML SDK) ഉപയോഗിച്ച്.
![project-schema](../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.ml.png)
![project-schema](../../../translated_images/ml/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
### വിഷയങ്ങൾ

@ -41,7 +41,7 @@ AI-യുടെ ജനാധിപത്യവൽക്കരണത്തിന
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - മെഡിക്കൽ ഇമേജിംഗ് (MRI, X-Ray, CT-സ്കാൻ), ജീനോമിക്സ് (DNA സീക്വൻസിംഗ്), മരുന്ന് വികസനം (റിസ്‌ക് വിലയിരുത്തൽ, വിജയ പ്രവചന), പ്രവചനാത്മക വിശകലനം (രോഗി പരിചരണം & വിതരണ ലജിസ്റ്റിക്സ്), രോഗം ട്രാക്കിംഗ് & പ്രതിരോധം തുടങ്ങിയ പ്രയോഗങ്ങൾ ഹൈലൈറ്റ് ചെയ്യുന്നു.
![Data Science Applications in The Real World](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.ml.png) ചിത്രം ക്രെഡിറ്റ്: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Data Science Applications in The Real World](../../../../translated_images/ml/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) ചിത്രം ക്രെഡിറ്റ്: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
ചിത്രം ഡാറ്റാ സയൻസ് സാങ്കേതിക വിദ്യകൾ പ്രയോഗിക്കാവുന്ന മറ്റ് മേഖലകളും ഉദാഹരണങ്ങളും കാണിക്കുന്നു. മറ്റ് പ്രയോഗങ്ങൾ അന്വേഷിക്കണോ? താഴെയുള്ള [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) വിഭാഗം പരിശോധിക്കുക.

@ -22,7 +22,7 @@ Explorer ഇന്റർഫേസ് (താഴെ സ്ക്രീൻഷോ
2. ഡാറ്റാസെറ്റ് [കാറ്റലോഗ്](https://planetarycomputer.microsoft.com/catalog) പരിശോധിക്കുക - ഓരോന്നിന്റെയും ഉദ്ദേശ്യം പഠിക്കുക.
3. Explorer ഉപയോഗിക്കുക - താൽപ്പര്യമുള്ള ഒരു ഡാറ്റാസെറ്റ് തിരഞ്ഞെടുക്കുക, പ്രസക്തമായ ക്വറി & റെൻഡറിംഗ് ഓപ്ഷൻ തിരഞ്ഞെടുക്കുക.
![The Planetary Computer Explorer](../../../../translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.ml.png)
![The Planetary Computer Explorer](../../../../translated_images/ml/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
`നിങ്ങളുടെ ജോലി:`
ഇപ്പോൾ ബ്രൗസറിൽ റെൻഡർ ചെയ്ത വിസ്വലൈസേഷൻ പഠിച്ച് താഴെ പറയുന്നവയ്ക്ക് ഉത്തരം നൽകുക:

@ -310,7 +310,7 @@ def calculate_mean(data):
import pandas as pd
```
````
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് ചേർക്കുക: `![Alt text](../../translated_images/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.ml.png)`
- ചിത്രങ്ങൾക്ക് alt ടെക്സ്റ്റ് ചേർക്കുക: `![Alt text](../../translated_images/ml/image.4ee84a82b5e4c9e6651b13fd27dcf615e427ec584929f2cef7167aa99151a77a.png)`
- വരി നീളം യുക്തമായിരിക്കണം (ഏകദേശം 80-100 അക്ഷരങ്ങൾ)
### Python

@ -28,7 +28,7 @@ Microsoft-യിലെ Azure Cloud Advocates-കൾ ഡാറ്റാ സയൻ
**🙏 പ്രത്യേക നന്ദി 🙏 ഞങ്ങളുടെ [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) എഴുത്തുകാർക്കും, അവലോകനക്കാരും ഉള്ളടക്ക സംഭാവകർക്കും,** പ്രത്യേകിച്ച് Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![സ്കെച്നോട്ട് - @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.ml.png)|
|![സ്കെച്നോട്ട് - @sketchthedocs https://sketchthedocs.dev](../../translated_images/ml/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.png)|
|:---:|
| ബെഗിന്നർമാർക്കുള്ള ഡാറ്റാ സയൻസ് - _സ്കെച്നോട്ട് — [@nitya](https://twitter.com/nitya)_ |
@ -47,7 +47,7 @@ Microsoft-യിലെ Azure Cloud Advocates-കൾ ഡാറ്റാ സയൻ
ഞങ്ങളുടേത് Discord-ൽ "Learn with AI" സീരീസ ongoing ആണ്, കൂടുതൽ അറിയാനും പങ്കുചേരാനുമായി [Learn with AI Series](https://aka.ms/learnwithai/discord)ൽ 2025 സെപ്റ്റംബർ 18 മുതൽ 30 വരെ. നിങ്ങള്ക്ക് GitHub Copilot ഡാറ്റാ സയൻസിന് ഉപയോഗിക്കുന്നതിന്റെ ടിപ്പുകൾക്കും ട്രിക്കുകൾക്കും ലഭിക്കും.
![AI-യുമായി പഠനം പരമ്പരം](../../translated_images/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.ml.jpg)
![AI-യുമായി പഠനം പരമ്പരം](../../translated_images/ml/1.2b28cdc6205e26fef6a21817fe5d83ae8b50fbd0a33e9fed0df05845da5b30b6.jpg)
# നിങ്ങൾ വിദ്യാർത്ഥിയാണോ?
@ -127,7 +127,7 @@ Microsoft-യിലെ Azure Cloud Advocates-കൾ ഡാറ്റാ സയൻ
## പാഠങ്ങൾ
|![ സ്കെച്ച്നോട്ട്: @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.ml.png)|
|![ സ്കെച്ച്നോട്ട്: @sketchthedocs https://sketchthedocs.dev](../../translated_images/ml/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)|
|:---:|
| ഡേറ്റാ സയൻസ് ഫോർ ബിഗിന്നേഴ്സ്: റോഡ്‌മാപ് - _സ്കെച്ച്നോട്ട് രചിച്ചത് [@nitya](https://twitter.com/nitya)_ |

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
നിത്യ നരസിംഹൻ, കലാകാരൻ
![roadmap sketchnote](../../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.ml.png)
![roadmap sketchnote](../../../translated_images/ml/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
---

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
---
[![定義數據科學影片](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.mo.png)](https://youtu.be/beZ7Mb_oz9I)
[![定義數據科學影片](../../../../translated_images/mo/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -153,7 +153,7 @@ CO_OP_TRANSLATOR_METADATA:
在這個挑戰中,我們將透過分析文本來尋找與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
![資料科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.mo.png)
![資料科學文字雲](../../../../translated_images/mo/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
請訪問 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 來閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有的資料轉換。

@ -15,7 +15,7 @@ CO_OP_TRANSLATOR_METADATA:
統計學與機率論是數學中兩個密切相關的領域,對於數據科學非常重要。雖然在沒有深入數學知識的情況下也可以處理數據,但了解一些基本概念仍然是有益的。在這裡,我們將提供一個簡短的介紹,幫助你入門。
[![介紹影片](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.mo.png)](https://youtu.be/Z5Zy85g4Yjw)
[![介紹影片](../../../../translated_images/mo/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -39,7 +39,7 @@ CO_OP_TRANSLATOR_METADATA:
我們只能討論變數落在某個值區間內的機率,例如 P(t<sub>1</sub>≤X<t<sub>2</sub>)。在這種情況下,機率分佈由 **機率密度函數** p(x) 描述,其公式如下:
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.mo.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/mo/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
連續型均勻分佈是均勻分佈的連續版本,定義在有限區間內。變數 X 落入某個區間的機率與區間長度 l 成正比,並且最大為 1。
@ -82,11 +82,11 @@ CO_OP_TRANSLATOR_METADATA:
以下是顯示我們數據的平均值、中位數和四分位數的盒形圖:
![體重盒形圖](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.mo.png)
![體重盒形圖](../../../../translated_images/mo/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
由於我們的數據包含不同球員 **角色** 的信息,我們也可以按角色繪製盒形圖——這將幫助我們了解參數值在不同角色之間的差異。這次我們將考慮身高:
![按角色繪製的盒形圖](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.mo.png)
![按角色繪製的盒形圖](../../../../translated_images/mo/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
這個圖表表明,平均而言,一壘手的身高高於二壘手的身高。在本課程的後面部分,我們將學習如何更正式地檢驗這一假設,以及如何證明我們的數據在統計上具有顯著性。
@ -94,7 +94,7 @@ CO_OP_TRANSLATOR_METADATA:
為了查看我們數據的分佈,我們可以繪製一個稱為 **直方圖** 的圖表。X 軸包含不同的體重區間(即 **箱**Y 軸顯示隨機變數樣本落入某個區間的次數。
![真實世界數據的直方圖](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.mo.png)
![真實世界數據的直方圖](../../../../translated_images/mo/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
從這個直方圖中可以看出,所有值都集中在某個平均體重附近,距離平均體重越遠,該值出現的次數越少。也就是說,棒球隊員的體重非常不同於平均體重的可能性很低。體重的方差顯示了體重與平均值可能的差異程度。
@ -112,7 +112,7 @@ samples = np.random.normal(mean,std,1000)
如果我們繪製生成樣本的直方圖,我們會看到與上面類似的圖像。如果我們增加樣本數量和箱數,我們可以生成更接近理想的正態分佈圖像:
![平均值=0標準差=1 的正態分佈](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.mo.png)
![平均值=0標準差=1 的正態分佈](../../../../translated_images/mo/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
*平均值=0標準差=1 的正態分佈*
@ -234,7 +234,7 @@ array([[1. , 0.52959196],
在我們的例子中,值 0.53 表明一個人的體重和身高之間存在一定的相關性。我們還可以繪製一個值對另一個值的散點圖,以直觀地查看關係:
![體重與身高的關係](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.mo.png)
![體重與身高的關係](../../../../translated_images/mo/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
> 更多關於相關性和協方差的例子可以在 [配套筆記本](notebook.ipynb) 中找到。

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 資料科學簡介
![數據運作](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.mo.jpg)
![數據運作](../../../translated_images/mo/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
> 照片由 <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> 提供,來源於 <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
在這些課程中,您將了解資料科學的定義,並學習作為資料科學家必須考慮的倫理問題。此外,您還會學習資料的定義,並簡單了解統計學和機率,這些是資料科學的核心學術領域。

@ -13,7 +13,7 @@ CO_OP_TRANSLATOR_METADATA:
| :-------------------------------------------------------------------------------------------------------: |
| 使用 Python - _由 [@nitya](https://twitter.com/nitya) 繪製的速記筆記_ |
[![介紹影片](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.mo.png)](https://youtu.be/dZjWOGbsN4Y)
[![介紹影片](../../../../translated_images/mo/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
雖然資料庫提供了非常高效的方式來存儲數據並使用查詢語言進行查詢,但最靈活的數據處理方式是編寫自己的程式來操作數據。在許多情況下,使用資料庫查詢可能更有效。然而,當需要更複雜的數據處理時,使用 SQL 可能不容易完成。
@ -74,7 +74,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![時間序列圖](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.mo.png)
![時間序列圖](../../../../translated_images/mo/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
假設每週我們都會為朋友舉辦派對,並額外準備 10 盒冰淇淋。我們可以創建另一個以週為索引的 Series 來展示這一點:
```python
@ -85,7 +85,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![時間序列圖](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.mo.png)
![時間序列圖](../../../../translated_images/mo/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
> **注意**:我們沒有使用簡單的語法 `total_items+additional_items`。如果使用該語法,我們會在結果 Series 中得到許多 `NaN`*非數值*)值。這是因為在 `additional_items` Series 的某些索引點缺少值,並且將 `NaN` 與任何值相加都會得到 `NaN`。因此,我們需要在相加時指定 `fill_value` 參數。
@ -94,7 +94,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![每月時間序列平均值](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.mo.png)
![每月時間序列平均值](../../../../translated_images/mo/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
### DataFrame
@ -220,7 +220,7 @@ df = pd.read_csv('file.csv')
由於我們想展示如何處理數據,我們邀請你打開 [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) 並從頭到尾閱讀。你也可以執行單元格,並完成我們在最後留下的一些挑戰。
![COVID 傳播](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.mo.png)
![COVID 傳播](../../../../translated_images/mo/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
> 如果你不知道如何在 Jupyter Notebook 中運行代碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
@ -242,7 +242,7 @@ df = pd.read_csv('file.csv')
打開 [`notebook-papers.ipynb`](notebook-papers.ipynb) 並從頭到尾閱讀。你也可以執行單元格,並完成我們在最後留下的一些挑戰。
![COVID 醫療處理](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.mo.png)
![COVID 醫療處理](../../../../translated_images/mo/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
## 處理圖像數據

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 資料處理
![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.mo.jpg)
![data love](../../../translated_images/mo/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
> 照片由 <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> 提供,來自 <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
在這些課程中,您將學習一些管理、操作和應用資料的方法。您將了解關聯式和非關聯式資料庫,以及資料如何存儲於其中。您還會學習使用 Python 管理資料的基礎知識,並探索使用 Python 管理和挖掘資料的多種方式。

@ -51,7 +51,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.mo.png)
![scatterplot 1](../../../../translated_images/mo/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
接下來,使用蜂蜜色系展示價格如何隨年份演變。您可以通過添加 'hue' 參數來顯示年份的變化:
@ -60,7 +60,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.mo.png)
![scatterplot 2](../../../../translated_images/mo/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
使用這種色彩方案,您可以清楚地看到蜂蜜每磅價格在多年來的明顯增長趨勢。事實上,如果您查看數據中的樣本集(例如選擇一個州,亞利桑那州),您會發現價格每年都有增長,只有少數例外:
@ -89,7 +89,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
您可以看到點的大小逐漸增大。
![scatterplot 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.mo.png)
![scatterplot 3](../../../../translated_images/mo/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
這是否只是供需的簡單案例?由於氣候變化和蜂群崩潰等因素,是否每年可供購買的蜂蜜減少,因此價格上漲?
@ -104,7 +104,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
答案是的除了2003年左右有一些例外
![line chart 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.mo.png)
![line chart 1](../../../../translated_images/mo/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
✅ 由於 Seaborn 將數據聚合到一條線上它通過繪製均值和均值周圍的95%置信區間來顯示「每個 x 值的多個測量值」。[來源](https://seaborn.pydata.org/tutorial/relational.html)。這種耗時的行為可以通過添加 `ci=None` 禁用。
@ -114,7 +114,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.mo.png)
![line chart 2](../../../../translated_images/mo/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
答案:並不完全。如果您查看總產量,實際上在那一年似乎有所增加,儘管總體而言,蜂蜜的生產量在這些年中呈下降趨勢。
@ -139,7 +139,7 @@ sns.relplot(
```
在這個視覺化中您可以比較每年的每群產量和蜂群數量並將列的包裹設置為3
![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.mo.png)
![facet grid](../../../../translated_images/mo/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
對於這個數據集,關於蜂群數量和每群產量,按年份和州比較並沒有特別突出的地方。是否有其他方式來尋找這兩個變數之間的相關性?
@ -162,7 +162,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.mo.png)
![superimposed plots](../../../../translated_images/mo/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
雖然在2003年沒有明顯的異常但這讓我們以一個稍微樂觀的結論結束這節課儘管蜂群數量總體上在下降但蜂群數量正在穩定即使每群產量在減少。

@ -67,7 +67,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
在這裡,您安裝了 `ggplot2` 套件,然後使用 `library("ggplot2")` 命令將其導入工作區。要在 ggplot 中繪製任何圖表,使用 `ggplot()` 函數並指定數據集、x 和 y 變數作為屬性。在此情況下,我們使用 `geom_line()` 函數,因為我們的目標是繪製折線圖。
![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.mo.png)
![MaxWingspan-lineplot](../../../../../translated_images/mo/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
您立即注意到什麼似乎至少有一個異常值——那是一個相當大的翼展2000+ 公分的翼展超過了 20 公尺——明尼蘇達州有翼龍在飛嗎?讓我們調查一下。
@ -85,7 +85,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
我們在 `theme` 中指定了角度,並在 `xlab()``ylab()` 中分別指定了 x 和 y 軸標籤。`ggtitle()` 為圖表/圖形命名。
![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.mo.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/mo/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
即使將標籤的旋轉設置為 45 度,仍然有太多標籤難以閱讀。讓我們嘗試另一種策略:僅標記那些異常值並在圖表內設置標籤。您可以使用散點圖來為標籤留出更多空間:
@ -101,7 +101,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
您發現了什麼?
![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.mo.png)
![MaxWingspan-scatterplot](../../../../../translated_images/mo/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
## 篩選數據
@ -120,7 +120,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
我們創建了一個新的數據框 `birds_filtered`,然後繪製了一個散點圖。通過篩選掉異常值,您的數據現在更加一致且易於理解。
![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.mo.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/mo/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
現在我們至少在翼展方面有了一個更乾淨的數據集,讓我們進一步探索這些鳥類。
@ -163,7 +163,7 @@ birds_filtered %>% group_by(Category) %>%
```
在以下代碼片段中,我們安裝了 [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) 和 [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) 套件,以幫助操作和分組數據以繪製堆疊條形圖。首先,您按鳥類的 `Category` 分組數據,然後總結 `MinLength`、`MaxLength`、`MinBodyMass`、`MaxBodyMass`、`MinWingspan`、`MaxWingspan` 列。接著,使用 `ggplot2` 套件繪製條形圖並指定不同類別的顏色和標籤。
![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.mo.png)
![Stacked bar chart](../../../../../translated_images/mo/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
然而,這個條形圖因為有太多未分組的數據而難以閱讀。您需要選擇僅想要繪製的數據,因此讓我們看看基於鳥類類別的鳥類長度。
@ -178,7 +178,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
您首先計算 `Category` 列中的唯一值,然後將它們排序到新的數據框 `birds_count` 中。這些排序後的數據在相同層次中進行分級,以便按排序方式繪製。使用 `ggplot2`,您接著繪製條形圖。`coord_flip()` 則繪製水平條形圖。
![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.mo.png)
![category-length](../../../../../translated_images/mo/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
這個條形圖很好地展示了每個類別中鳥類的數量。一眼就能看出,在這個地區最多的鳥類是鴨/鵝/水禽類別。明尼蘇達州是“萬湖之地”,所以這並不令人驚訝!
@ -201,7 +201,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
我們按 `Category` 分組 `birds_filtered` 數據,然後繪製條形圖。
![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.mo.png)
![comparing data](../../../../../translated_images/mo/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
這裡沒有什麼令人驚訝的:蜂鳥的最大長度比鵜鶘或鵝要小得多。當數據符合邏輯時,這是件好事!
@ -213,7 +213,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.mo.png)
![super-imposed values](../../../../../translated_images/mo/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
## 🚀 挑戰

@ -45,7 +45,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![每目最大長度](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.mo.png)
![每目最大長度](../../../../../translated_images/mo/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
這提供了每個鳥類目的一般身體長度分佈概況,但這並不是顯示真實分佈的最佳方式。通常使用直方圖來完成這項任務。
## 使用直方圖
@ -56,7 +56,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![整個數據集的分佈](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.mo.png)
![整個數據集的分佈](../../../../../translated_images/mo/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
如你所見,這個數據集中的 400 多種鳥類大多數最大體重都低於 2000。通過將 `bins` 參數更改為更高的數字,例如 30可以獲得更多的洞察
@ -64,7 +64,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![30個區間的分佈](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.mo.png)
![30個區間的分佈](../../../../../translated_images/mo/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
此圖表以更細緻的方式顯示了分佈。通過確保僅選擇特定範圍內的數據,可以創建一個不那麼偏向左側的圖表:
@ -76,7 +76,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![篩選後的直方圖](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.mo.png)
![篩選後的直方圖](../../../../../translated_images/mo/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
✅ 嘗試其他篩選條件和數據點。要查看數據的完整分佈,移除 `['MaxBodyMass']` 篩選器以顯示標籤分佈。
@ -90,7 +90,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
沿著預期的軸,這兩個元素之間似乎存在預期的相關性,其中有一個特別強的收斂點:
![2D 圖表](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.mo.png)
![2D 圖表](../../../../../translated_images/mo/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
直方圖默認適用於數值型數據。如果你需要查看基於文本數據的分佈該怎麼辦?
## 使用文本數據探索數據集的分佈
@ -121,7 +121,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![翼展與保育狀態的對比](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.mo.png)
![翼展與保育狀態的對比](../../../../../translated_images/mo/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
最小翼展和保育狀態之間似乎沒有良好的相關性。使用此方法測試數據集的其他元素。你可以嘗試不同的篩選條件。你是否發現了任何相關性?
@ -135,7 +135,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![密度圖](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.mo.png)
![密度圖](../../../../../translated_images/mo/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
你可以看到該圖表反映了之前的最小翼展數據;它只是稍微平滑了一些。如果你想重新訪問第二個圖表中那條鋸齒狀的最大體重線,可以通過使用此方法非常好地將其平滑化:
@ -143,7 +143,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![體重密度](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.mo.png)
![體重密度](../../../../../translated_images/mo/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
如果你想要一條平滑但不過於平滑的線,可以編輯 `adjust` 參數:
@ -151,7 +151,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![較不平滑的體重密度](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.mo.png)
![較不平滑的體重密度](../../../../../translated_images/mo/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
✅ 閱讀此類圖表可用的參數並進行實驗!
@ -161,7 +161,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![每目體重密度](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.mo.png)
![每目體重密度](../../../../../translated_images/mo/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
## 🚀 挑戰

@ -93,7 +93,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
完成了,一個圓餅圖展示了根據這兩類蘑菇的數據比例。正確排列標籤的順序非常重要,尤其是在這裡,因此請務必確認標籤數組的構建順序!
![圓餅圖](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.mo.png)
![圓餅圖](../../../../../translated_images/mo/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
## 甜甜圈圖!
@ -128,7 +128,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![甜甜圈圖](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.mo.png)
![甜甜圈圖](../../../../../translated_images/mo/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
這段代碼使用了兩個庫——ggplot2 和 webr。使用 webr 庫的 PieDonut 函數,我們可以輕鬆創建甜甜圈圖!
@ -166,7 +166,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
使用華夫圖,你可以清楚地看到這個蘑菇數據集中帽顏色的比例。有趣的是,有許多綠色帽子的蘑菇!
![華夫圖](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.mo.png)
![華夫圖](../../../../../translated_images/mo/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
在這節課中,你學到了三種視覺化比例的方法。首先,你需要將數據分組到分類中,然後決定哪種方式最適合展示數據——圓餅圖、甜甜圈圖或華夫圖。這些方法都很有趣,並能讓用戶快速了解數據集。

@ -51,7 +51,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.mo.png)
![scatterplot 1](../../../../../translated_images/mo/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
現在,使用蜂蜜色彩方案展示價格如何隨年份演變。您可以通過添加 'scale_color_gradientn' 參數來展示年份的變化:
@ -61,7 +61,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.mo.png)
![scatterplot 2](../../../../../translated_images/mo/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
通過這種色彩方案的改變,您可以明顯看到蜂蜜每磅價格在多年來的強烈增長趨勢。事實上,如果您查看數據中的樣本集(例如選擇亞利桑那州),您可以看到價格逐年上漲的模式,僅有少數例外:
@ -92,7 +92,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
您可以看到點的大小逐漸增大。
![scatterplot 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.mo.png)
![scatterplot 3](../../../../../translated_images/mo/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
這是否是一個簡單的供需問題?由於氣候變化和蜂群崩潰等因素,是否每年可供購買的蜂蜜減少,導致價格上漲?
@ -107,7 +107,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
答案是的但在2003年左右有一些例外
![line chart 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.mo.png)
![line chart 1](../../../../../translated_images/mo/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
問題那麼在2003年我們是否也能看到蜂蜜供應的激增如果您查看總產量逐年變化呢
@ -115,7 +115,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.mo.png)
![line chart 2](../../../../../translated_images/mo/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
答案:並不完全。如果您查看總產量,實際上在那一年似乎有所增加,儘管總體而言蜂蜜的生產量在這些年中呈下降趨勢。
@ -135,7 +135,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
在此視覺化中您可以比較每群產量和蜂群數量逐年變化並將列數設置為3
![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.mo.png)
![facet grid](../../../../../translated_images/mo/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
對於此數據集,逐年和逐州比較蜂群數量和每群產量,並未顯示出特別突出的情況。是否有其他方式來尋找這兩個變量之間的相關性?
@ -152,7 +152,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.mo.png)
![superimposed plots](../../../../../translated_images/mo/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
雖然在2003年並未有明顯的異常但這讓我們可以以一個稍微樂觀的結論結束本課儘管蜂群數量總體上在下降但蜂群數量正在穩定即使每群產量在減少。

@ -47,25 +47,25 @@ CO_OP_TRANSLATOR_METADATA:
即使數據科學家謹慎選擇了合適的圖表類型,數據仍然可能以某種方式被展示來支持某種觀點,往往以犧牲數據本身為代價。有許多誤導性圖表和信息圖的例子!
[![Alberto Cairo 的《How Charts Lie》](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.mo.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![Alberto Cairo 的《How Charts Lie》](../../../../../translated_images/mo/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 點擊上方圖片觀看有關誤導性圖表的會議演講
這張圖表反轉了 X 軸,根據日期顯示了與事實相反的內容:
![糟糕的圖表 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.mo.png)
![糟糕的圖表 1](../../../../../translated_images/mo/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
[這張圖表](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) 更具誤導性,因為人們的目光會被吸引到右側,得出隨時間推移各縣的 COVID 病例數下降的結論。事實上,如果仔細查看日期,你會發現日期被重新排列以製造出誤導性的下降趨勢。
![糟糕的圖表 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.mo.jpg)
![糟糕的圖表 2](../../../../../translated_images/mo/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
這個臭名昭著的例子使用顏色和翻轉的 Y 軸來誤導:原本應該得出槍支友好立法通過後槍支死亡率激增的結論,事實上卻讓人誤以為情況正好相反:
![糟糕的圖表 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.mo.jpg)
![糟糕的圖表 3](../../../../../translated_images/mo/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
這張奇怪的圖表展示了比例如何被操控,效果令人捧腹:
![糟糕的圖表 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.mo.jpg)
![糟糕的圖表 4](../../../../../translated_images/mo/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
比較不可比的事物是另一種不正當的手段。有一個[精彩的網站](https://tylervigen.com/spurious-correlations)專門展示「虛假的相關性」,例如緬因州的離婚率與人造奶油的消耗量之間的「事實」相關性。一個 Reddit 群組也收集了[糟糕的數據使用](https://www.reddit.com/r/dataisugly/top/?t=all)。
@ -100,13 +100,13 @@ CO_OP_TRANSLATOR_METADATA:
如果你的數據在 X 軸上是文本且冗長,可以將文本角度調整以提高可讀性。[plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 提供了 3D 繪圖功能,如果你的數據支持它,可以使用它製作更高級的數據視覺化。
![3D 圖表](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.mo.png)
![3D 圖表](../../../../../translated_images/mo/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
## 動畫和 3D 圖表展示
如今一些最好的數據視覺化是動畫化的。Shirley Wu 使用 D3 創作了令人驚嘆的作品,例如「[電影之花](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)」每朵花都是一部電影的視覺化。另一個例子是《衛報》的「Bussed Out」這是一個結合 Greensock 和 D3 的視覺化和滾動敘事文章格式的互動體驗,展示了紐約市如何通過將無家可歸者送出城市來處理其無家可歸問題。
![Bussed Out](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.mo.png)
![Bussed Out](../../../../../translated_images/mo/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
> 「Bussed Out: How America Moves its Homeless」來自[衛報](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study)。視覺化由 Nadieh Bremer 和 Shirley Wu 創作
@ -116,7 +116,7 @@ CO_OP_TRANSLATOR_METADATA:
你將完成一個網頁應用,展示這個社交網絡的動畫化視圖。它使用了一個庫,該庫旨在使用 Vue.js 和 D3 創建[網絡視覺化](https://github.com/emiliorizzo/vue-d3-network)。當應用運行時,你可以在屏幕上拖動節點來重新排列數據。
![危險關係](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.mo.png)
![危險關係](../../../../../translated_images/mo/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
## 專案:使用 D3.js 建立一個展示網絡的圖表

@ -9,7 +9,7 @@ CO_OP_TRANSLATOR_METADATA:
-->
# 視覺化
![一隻蜜蜂停在薰衣草花上](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.mo.jpg)
![一隻蜜蜂停在薰衣草花上](../../../translated_images/mo/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
> 照片由 <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> 提供,來源於 <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
視覺化數據是數據科學家最重要的任務之一。圖片勝過千言萬語,視覺化可以幫助你識別數據中的各種有趣部分,例如峰值、異常值、分組、趨勢等,這些都能幫助你理解數據背後的故事。

@ -25,7 +25,7 @@ CO_OP_TRANSLATOR_METADATA:
本課程將重點放在生命週期的三個部分:資料捕捉、資料處理和資料維護。
![資料科學生命週期圖示](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.mo.jpg)
![資料科學生命週期圖示](../../../../translated_images/mo/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
> 圖片來源:[Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## 資料捕捉
@ -98,7 +98,7 @@ CO_OP_TRANSLATOR_METADATA:
|團隊資料科學過程 (TDSP)|跨行業標準資料挖掘過程 (CRISP-DM)|
|--|--|
|![團隊資料科學生命週期](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.mo.png) | ![資料科學過程聯盟圖示](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.mo.png) |
|![團隊資料科學生命週期](../../../../translated_images/mo/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![資料科學過程聯盟圖示](../../../../translated_images/mo/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
| 圖片來源:[Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 圖片來源:[Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/27)

Some files were not shown because too many files have changed in this diff Show More

Loading…
Cancel
Save