History

localizeflow[bot] 810a53be1d chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)		1 month ago
..
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
assignment.ipynb	chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files)	3 months ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
notebook.ipynb	chore(i18n): sync translations with latest source changes (chunk 8/10, 100 files)	3 months ago

README.md

ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ


ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ - @nitya ಅವರ ಸ್ಕೆಚ್ ನೋಟ್

ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಡೇಟಾ ಜೀವನಚಕ್ರದಲ್ಲಿ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ, ಡೇಟಾ ಪ್ರಸ್ತಾಪಿಸಿದ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಬಹುದೇ ಅಥವಾ ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಬಹುದೇ ಎಂದು ದೃಢೀಕರಿಸುವುದು. ಈ ಹಂತವು ಮಾದರಿಯು ಈ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಸರಿಯಾಗಿ ಪರಿಹರಿಸುತ್ತಿದೆಯೇ ಎಂದು ದೃಢೀಕರಿಸುವುದರ ಮೇಲೂ ಕೇಂದ್ರೀಕರಿಸಬಹುದು. ಈ ಪಾಠವು ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಅಥವಾ EDA ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದೆ, ಇದು ಡೇಟಾದೊಳಗಿನ ಲಕ್ಷಣಗಳು ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು ನಿರ್ಧರಿಸುವ ತಂತ್ರಗಳು ಮತ್ತು ಮಾದರಿಗಾಗಿ ಡೇಟಾವನ್ನು ಸಿದ್ಧಪಡಿಸಲು ಬಳಸಬಹುದು.

ನಾವು Kaggle ನಿಂದ ಉದಾಹರಣಾ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ, ಇದನ್ನು Python ಮತ್ತು Pandas ಗ್ರಂಥಾಲಯದೊಂದಿಗೆ ಹೇಗೆ ಅನ್ವಯಿಸಬಹುದು ಎಂದು ತೋರಿಸಲು. ಈ ಡೇಟಾಸೆಟ್ ಇಮೇಲ್‌ಗಳಲ್ಲಿ ಕಂಡುಬರುವ ಕೆಲವು ಸಾಮಾನ್ಯ ಪದಗಳ ಎಣಿಕೆಯನ್ನು ಹೊಂದಿದೆ, ಈ ಇಮೇಲ್‌ಗಳ ಮೂಲಗಳು ಅನಾಮಧೇಯವಾಗಿವೆ. ಈ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿರುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ಅನುಸರಿಸಿ.

ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಜೀವನಚಕ್ರದ ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಡೇಟಾ ಮತ್ತು ಸಮಸ್ಯೆಗಳು ಮತ್ತು ಪ್ರಶ್ನೆಗಳು ಪಡೆಯಲ್ಪಡುತ್ತವೆ, ಆದರೆ ಡೇಟಾ ಅಂತಿಮ ಫಲಿತಾಂಶವನ್ನು ಬೆಂಬಲಿಸಬಹುದೆಂದು ನಾವು ಹೇಗೆ ತಿಳಿದುಕೊಳ್ಳಬಹುದು?
ಡೇಟಾ ವಿಜ್ಞಾನಿ ಡೇಟಾ ಪಡೆಯುವಾಗ ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಬಹುದು ಎಂದು ನೆನಪಿಸಿಕೊಳ್ಳಿ:

ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನನಗೆ ಸಾಕಷ್ಟು ಡೇಟಾ ಇದೆಯೇ?
ಈ ಸಮಸ್ಯೆಗೆ ಡೇಟಾ ಸ್ವೀಕಾರ್ಯ ಗುಣಮಟ್ಟದಿದೆಯೇ?
ಈ ಡೇಟಾದ ಮೂಲಕ ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಕಂಡುಹಿಡಿದರೆ, ಗುರಿಗಳನ್ನು ಬದಲಾಯಿಸುವ ಅಥವಾ ಮರುನಿರ್ಧರಿಸುವ ಬಗ್ಗೆ ಪರಿಗಣಿಸಬೇಕೇ?
ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ ಆ ಡೇಟಾವನ್ನು ತಿಳಿದುಕೊಳ್ಳುವ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಈ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು, ಜೊತೆಗೆ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸವಾಲುಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬಹುದು. ಇದನ್ನು ಸಾಧಿಸಲು ಬಳಸುವ ಕೆಲವು ತಂತ್ರಗಳ ಮೇಲೆ ಗಮನಹರಿಸೋಣ.

ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್, ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು Pandas

ನಾವು ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಸಾಕಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೇವೆ ಎಂದು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು? ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮ್ಮ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸಿ ಸಾರಾಂಶ ನೀಡಬಹುದು, ಇದು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳ ತಂತ್ರಗಳ ಮೂಲಕ ಸಾಧ್ಯ. ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮಗೆ ಲಭ್ಯವಿರುವುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಮತ್ತು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ನಮಗೆ ಎಷ್ಟು ವಸ್ತುಗಳು ಲಭ್ಯವಿವೆ ಎಂದು ತಿಳಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.

ಹಿಂದಿನ ಕೆಲವು ಪಾಠಗಳಲ್ಲಿ, ನಾವು Pandas ನ describe() ಫಂಕ್ಷನ್ ಅನ್ನು ಬಳಸಿದ್ದೇವೆ. ಇದು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾದ ಮೇಲೆ ಎಣಿಕೆ, ಗರಿಷ್ಠ ಮತ್ತು ಕನಿಷ್ಠ ಮೌಲ್ಯಗಳು, ಸರಾಸರಿ, ಮಾನಕ ವ್ಯತ್ಯಾಸ ಮತ್ತು ಕ್ವಾಂಟೈಲ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. describe() ಫಂಕ್ಷನ್ ಹೋಲುವ ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನೀವು ಎಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೀರಿ ಮತ್ತು ಇನ್ನಷ್ಟು ಬೇಕೇ ಎಂದು ಅಂದಾಜು ಮಾಡಬಹುದು.

ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮತ್ತು ಕ್ವೆರಿಂಗ್

ದೊಡ್ಡ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿನ ಎಲ್ಲವನ್ನೂ ಅನ್ವೇಷಿಸುವುದು ಬಹಳ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಕಂಪ್ಯೂಟರ್‌ಗೆ ಬಿಟ್ಟುಕೊಡಲಾಗುವ ಕೆಲಸ. ಆದಾಗ್ಯೂ, ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯಕ ಸಾಧನವಾಗಿದೆ ಮತ್ತು ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಏನಿದೆ ಮತ್ತು ಅದು ಏನನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಎಂಬುದರ ಉತ್ತಮ ಅರ್ಥವನ್ನು ನೀಡುತ್ತದೆ. ಸ್ಯಾಂಪಲ್ ಮೂಲಕ, ನೀವು ಪ್ರಾಬಬಿಲಿಟಿ ಮತ್ತು ಅಂಕಿಅಂಶಗಳನ್ನು ಅನ್ವಯಿಸಿ ನಿಮ್ಮ ಡೇಟಾ ಬಗ್ಗೆ ಸಾಮಾನ್ಯ ನಿರ್ಣಯಗಳಿಗೆ ಬರಬಹುದು. ನೀವು ಎಷ್ಟು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಬೇಕು ಎಂಬುದಕ್ಕೆ ನಿರ್ದಿಷ್ಟ ನಿಯಮವಿಲ್ಲ, ಆದರೆ ಹೆಚ್ಚು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಿದರೆ, ಡೇಟಾ ಬಗ್ಗೆ ನೀವು ಮಾಡಬಹುದಾದ ಸಾಮಾನ್ಯೀಕರಣ ಹೆಚ್ಚು ನಿಖರವಾಗಿರುತ್ತದೆ.
Pandas ನಲ್ಲಿ sample() ಫಂಕ್ಷನ್ ಇದೆ, ಇದರಲ್ಲಿ ನೀವು ಎಷ್ಟು ಯಾದೃಚ್ಛಿಕ ಸ್ಯಾಂಪಲ್‌ಗಳನ್ನು ಪಡೆಯಲು ಇಚ್ಛಿಸುತ್ತೀರಿ ಎಂಬ ಆರ್ಗ್ಯುಮೆಂಟ್ ಅನ್ನು ಪಾಸ್ ಮಾಡಬಹುದು.

ಡೇಟಾದ ಸಾಮಾನ್ಯ ಕ್ವೆರಿಗಳು ನಿಮಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಿದ್ಧಾಂತಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು ಸಹಾಯ ಮಾಡಬಹುದು. ಸ್ಯಾಂಪ್ಲಿಂಗ್‌ಗೆ ವಿರುದ್ಧವಾಗಿ, ಕ್ವೆರಿಗಳು ನಿಮಗೆ ನಿಯಂತ್ರಣ ಮತ್ತು ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳಿರುವ ಡೇಟಾದ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಲು ಅವಕಾಶ ನೀಡುತ್ತವೆ.
Pandas ಗ್ರಂಥಾಲಯದ query() ಫಂಕ್ಷನ್ ನಿಮಗೆ ಕಾಲಮ್‌ಗಳನ್ನು ಆಯ್ಕೆಮಾಡಲು ಮತ್ತು ಪಡೆಯಲಾದ ಸಾಲುಗಳ ಮೂಲಕ ಡೇಟಾ ಬಗ್ಗೆ ಸರಳ ಉತ್ತರಗಳನ್ನು ಪಡೆಯಲು ಅನುಮತಿಸುತ್ತದೆ.

ದೃಶ್ಯೀಕರಣಗಳೊಂದಿಗೆ ಅನ್ವೇಷಣೆ

ಡೇಟಾ ಸಂಪೂರ್ಣವಾಗಿ ಶುದ್ಧೀಕರಿಸಿ ವಿಶ್ಲೇಷಿಸುವವರೆಗೆ ಕಾಯಬೇಕಾಗಿಲ್ಲ, ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸೃಷ್ಟಿಸುವುದನ್ನು ಪ್ರಾರಂಭಿಸಲು. ವಾಸ್ತವದಲ್ಲಿ, ಅನ್ವೇಷಿಸುವಾಗ ದೃಶ್ಯಾತ್ಮಕ ಪ್ರತಿನಿಧಾನವು ಮಾದರಿಗಳು, ಸಂಬಂಧಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಜೊತೆಗೆ, ದೃಶ್ಯೀಕರಣಗಳು ಡೇಟಾ ನಿರ್ವಹಣೆಯಲ್ಲಿ ಭಾಗವಹಿಸದವರೊಂದಿಗೆ ಸಂವಹನದ ಮಾರ್ಗವನ್ನು ಒದಗಿಸುತ್ತವೆ ಮತ್ತು ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಸ್ಪರ್ಶಿಸಲ್ಪಟ್ಟಿಲ್ಲದ ಹೆಚ್ಚುವರಿ ಪ್ರಶ್ನೆಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ಮತ್ತು ಸ್ಪಷ್ಟಪಡಿಸಲು ಅವಕಾಶ ನೀಡಬಹುದು. ದೃಶ್ಯೀಕರಣಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ದೃಶ್ಯೀಕರಣಗಳ ವಿಭಾಗ ಅನ್ನು ನೋಡಿ.

ಅಸಂಗತಿಗಳನ್ನು ಗುರುತಿಸಲು ಅನ್ವೇಷಣೆ

ಈ ಪಾಠದ ಎಲ್ಲಾ ವಿಷಯಗಳು ಕಳೆದುಹೋಗಿದ ಅಥವಾ ಅಸಂಗತ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ Pandas ಕೆಲವು ಫಂಕ್ಷನ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. isna() ಅಥವಾ isnull() ಕಳೆದುಹೋಗಿದ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಶೀಲಿಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾದೊಳಗಿನ ಈ ಮೌಲ್ಯಗಳನ್ನು ಅನ್ವೇಷಿಸುವ ಪ್ರಮುಖ ಭಾಗವೆಂದರೆ ಅವು ಮೊದಲಿಗೆ ಏಕೆ ಹಾಗಾಗಿವೆ ಎಂದು ಅನ್ವೇಷಿಸುವುದು. ಇದು ಅವುಗಳನ್ನು ಪರಿಹರಿಸಲು ತೆಗೆದುಕೊಳ್ಳಬೇಕಾದ ಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ನಿರ್ಧಾರ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಅಸೈನ್‌ಮೆಂಟ್

ಉತ್ತರಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು Co-op Translator ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.