|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.ipynb | 3 months ago | |
| assignment.md | 1 month ago | |
| notebook.ipynb | 3 months ago | |
README.md
ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ
![]() |
|---|
| ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ - @nitya ಅವರ ಸ್ಕೆಚ್ ನೋಟ್ |
ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್
ಡೇಟಾ ಜೀವನಚಕ್ರದಲ್ಲಿ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ, ಡೇಟಾ ಪ್ರಸ್ತಾಪಿಸಿದ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಬಹುದೇ ಅಥವಾ ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಬಹುದೇ ಎಂದು ದೃಢೀಕರಿಸುವುದು. ಈ ಹಂತವು ಮಾದರಿಯು ಈ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಸರಿಯಾಗಿ ಪರಿಹರಿಸುತ್ತಿದೆಯೇ ಎಂದು ದೃಢೀಕರಿಸುವುದರ ಮೇಲೂ ಕೇಂದ್ರೀಕರಿಸಬಹುದು. ಈ ಪಾಠವು ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಅಥವಾ EDA ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದೆ, ಇದು ಡೇಟಾದೊಳಗಿನ ಲಕ್ಷಣಗಳು ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು ನಿರ್ಧರಿಸುವ ತಂತ್ರಗಳು ಮತ್ತು ಮಾದರಿಗಾಗಿ ಡೇಟಾವನ್ನು ಸಿದ್ಧಪಡಿಸಲು ಬಳಸಬಹುದು.
ನಾವು Kaggle ನಿಂದ ಉದಾಹರಣಾ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ, ಇದನ್ನು Python ಮತ್ತು Pandas ಗ್ರಂಥಾಲಯದೊಂದಿಗೆ ಹೇಗೆ ಅನ್ವಯಿಸಬಹುದು ಎಂದು ತೋರಿಸಲು. ಈ ಡೇಟಾಸೆಟ್ ಇಮೇಲ್ಗಳಲ್ಲಿ ಕಂಡುಬರುವ ಕೆಲವು ಸಾಮಾನ್ಯ ಪದಗಳ ಎಣಿಕೆಯನ್ನು ಹೊಂದಿದೆ, ಈ ಇಮೇಲ್ಗಳ ಮೂಲಗಳು ಅನಾಮಧೇಯವಾಗಿವೆ. ಈ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿರುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ಅನುಸರಿಸಿ.
ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ
ಜೀವನಚಕ್ರದ ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಡೇಟಾ ಮತ್ತು ಸಮಸ್ಯೆಗಳು ಮತ್ತು ಪ್ರಶ್ನೆಗಳು ಪಡೆಯಲ್ಪಡುತ್ತವೆ, ಆದರೆ ಡೇಟಾ ಅಂತಿಮ ಫಲಿತಾಂಶವನ್ನು ಬೆಂಬಲಿಸಬಹುದೆಂದು ನಾವು ಹೇಗೆ ತಿಳಿದುಕೊಳ್ಳಬಹುದು?
ಡೇಟಾ ವಿಜ್ಞಾನಿ ಡೇಟಾ ಪಡೆಯುವಾಗ ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಬಹುದು ಎಂದು ನೆನಪಿಸಿಕೊಳ್ಳಿ:
- ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನನಗೆ ಸಾಕಷ್ಟು ಡೇಟಾ ಇದೆಯೇ?
- ಈ ಸಮಸ್ಯೆಗೆ ಡೇಟಾ ಸ್ವೀಕಾರ್ಯ ಗುಣಮಟ್ಟದಿದೆಯೇ?
- ಈ ಡೇಟಾದ ಮೂಲಕ ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಕಂಡುಹಿಡಿದರೆ, ಗುರಿಗಳನ್ನು ಬದಲಾಯಿಸುವ ಅಥವಾ ಮರುನಿರ್ಧರಿಸುವ ಬಗ್ಗೆ ಪರಿಗಣಿಸಬೇಕೇ?
ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ ಆ ಡೇಟಾವನ್ನು ತಿಳಿದುಕೊಳ್ಳುವ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಈ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು, ಜೊತೆಗೆ ಡೇಟಾಸೆಟ್ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸವಾಲುಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬಹುದು. ಇದನ್ನು ಸಾಧಿಸಲು ಬಳಸುವ ಕೆಲವು ತಂತ್ರಗಳ ಮೇಲೆ ಗಮನಹರಿಸೋಣ.
ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್, ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು Pandas
ನಾವು ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಸಾಕಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೇವೆ ಎಂದು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು? ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮ್ಮ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸಿ ಸಾರಾಂಶ ನೀಡಬಹುದು, ಇದು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳ ತಂತ್ರಗಳ ಮೂಲಕ ಸಾಧ್ಯ. ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮಗೆ ಲಭ್ಯವಿರುವುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಮತ್ತು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ನಮಗೆ ಎಷ್ಟು ವಸ್ತುಗಳು ಲಭ್ಯವಿವೆ ಎಂದು ತಿಳಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.
ಹಿಂದಿನ ಕೆಲವು ಪಾಠಗಳಲ್ಲಿ, ನಾವು Pandas ನ describe() ಫಂಕ್ಷನ್ ಅನ್ನು ಬಳಸಿದ್ದೇವೆ. ಇದು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾದ ಮೇಲೆ ಎಣಿಕೆ, ಗರಿಷ್ಠ ಮತ್ತು ಕನಿಷ್ಠ ಮೌಲ್ಯಗಳು, ಸರಾಸರಿ, ಮಾನಕ ವ್ಯತ್ಯಾಸ ಮತ್ತು ಕ್ವಾಂಟೈಲ್ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. describe() ಫಂಕ್ಷನ್ ಹೋಲುವ ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನೀವು ಎಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೀರಿ ಮತ್ತು ಇನ್ನಷ್ಟು ಬೇಕೇ ಎಂದು ಅಂದಾಜು ಮಾಡಬಹುದು.
ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮತ್ತು ಕ್ವೆರಿಂಗ್
ದೊಡ್ಡ ಡೇಟಾಸೆಟ್ನಲ್ಲಿನ ಎಲ್ಲವನ್ನೂ ಅನ್ವೇಷಿಸುವುದು ಬಹಳ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಕಂಪ್ಯೂಟರ್ಗೆ ಬಿಟ್ಟುಕೊಡಲಾಗುವ ಕೆಲಸ. ಆದಾಗ್ಯೂ, ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯಕ ಸಾಧನವಾಗಿದೆ ಮತ್ತು ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಏನಿದೆ ಮತ್ತು ಅದು ಏನನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಎಂಬುದರ ಉತ್ತಮ ಅರ್ಥವನ್ನು ನೀಡುತ್ತದೆ. ಸ್ಯಾಂಪಲ್ ಮೂಲಕ, ನೀವು ಪ್ರಾಬಬಿಲಿಟಿ ಮತ್ತು ಅಂಕಿಅಂಶಗಳನ್ನು ಅನ್ವಯಿಸಿ ನಿಮ್ಮ ಡೇಟಾ ಬಗ್ಗೆ ಸಾಮಾನ್ಯ ನಿರ್ಣಯಗಳಿಗೆ ಬರಬಹುದು. ನೀವು ಎಷ್ಟು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಬೇಕು ಎಂಬುದಕ್ಕೆ ನಿರ್ದಿಷ್ಟ ನಿಯಮವಿಲ್ಲ, ಆದರೆ ಹೆಚ್ಚು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಿದರೆ, ಡೇಟಾ ಬಗ್ಗೆ ನೀವು ಮಾಡಬಹುದಾದ ಸಾಮಾನ್ಯೀಕರಣ ಹೆಚ್ಚು ನಿಖರವಾಗಿರುತ್ತದೆ.
Pandas ನಲ್ಲಿ sample() ಫಂಕ್ಷನ್ ಇದೆ, ಇದರಲ್ಲಿ ನೀವು ಎಷ್ಟು ಯಾದೃಚ್ಛಿಕ ಸ್ಯಾಂಪಲ್ಗಳನ್ನು ಪಡೆಯಲು ಇಚ್ಛಿಸುತ್ತೀರಿ ಎಂಬ ಆರ್ಗ್ಯುಮೆಂಟ್ ಅನ್ನು ಪಾಸ್ ಮಾಡಬಹುದು.
ಡೇಟಾದ ಸಾಮಾನ್ಯ ಕ್ವೆರಿಗಳು ನಿಮಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಿದ್ಧಾಂತಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು ಸಹಾಯ ಮಾಡಬಹುದು. ಸ್ಯಾಂಪ್ಲಿಂಗ್ಗೆ ವಿರುದ್ಧವಾಗಿ, ಕ್ವೆರಿಗಳು ನಿಮಗೆ ನಿಯಂತ್ರಣ ಮತ್ತು ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳಿರುವ ಡೇಟಾದ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಲು ಅವಕಾಶ ನೀಡುತ್ತವೆ.
Pandas ಗ್ರಂಥಾಲಯದ query() ಫಂಕ್ಷನ್ ನಿಮಗೆ ಕಾಲಮ್ಗಳನ್ನು ಆಯ್ಕೆಮಾಡಲು ಮತ್ತು ಪಡೆಯಲಾದ ಸಾಲುಗಳ ಮೂಲಕ ಡೇಟಾ ಬಗ್ಗೆ ಸರಳ ಉತ್ತರಗಳನ್ನು ಪಡೆಯಲು ಅನುಮತಿಸುತ್ತದೆ.
ದೃಶ್ಯೀಕರಣಗಳೊಂದಿಗೆ ಅನ್ವೇಷಣೆ
ಡೇಟಾ ಸಂಪೂರ್ಣವಾಗಿ ಶುದ್ಧೀಕರಿಸಿ ವಿಶ್ಲೇಷಿಸುವವರೆಗೆ ಕಾಯಬೇಕಾಗಿಲ್ಲ, ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸೃಷ್ಟಿಸುವುದನ್ನು ಪ್ರಾರಂಭಿಸಲು. ವಾಸ್ತವದಲ್ಲಿ, ಅನ್ವೇಷಿಸುವಾಗ ದೃಶ್ಯಾತ್ಮಕ ಪ್ರತಿನಿಧಾನವು ಮಾದರಿಗಳು, ಸಂಬಂಧಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಜೊತೆಗೆ, ದೃಶ್ಯೀಕರಣಗಳು ಡೇಟಾ ನಿರ್ವಹಣೆಯಲ್ಲಿ ಭಾಗವಹಿಸದವರೊಂದಿಗೆ ಸಂವಹನದ ಮಾರ್ಗವನ್ನು ಒದಗಿಸುತ್ತವೆ ಮತ್ತು ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಸ್ಪರ್ಶಿಸಲ್ಪಟ್ಟಿಲ್ಲದ ಹೆಚ್ಚುವರಿ ಪ್ರಶ್ನೆಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ಮತ್ತು ಸ್ಪಷ್ಟಪಡಿಸಲು ಅವಕಾಶ ನೀಡಬಹುದು. ದೃಶ್ಯೀಕರಣಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ದೃಶ್ಯೀಕರಣಗಳ ವಿಭಾಗ ಅನ್ನು ನೋಡಿ.
ಅಸಂಗತಿಗಳನ್ನು ಗುರುತಿಸಲು ಅನ್ವೇಷಣೆ
ಈ ಪಾಠದ ಎಲ್ಲಾ ವಿಷಯಗಳು ಕಳೆದುಹೋಗಿದ ಅಥವಾ ಅಸಂಗತ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ Pandas ಕೆಲವು ಫಂಕ್ಷನ್ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. isna() ಅಥವಾ isnull() ಕಳೆದುಹೋಗಿದ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಶೀಲಿಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾದೊಳಗಿನ ಈ ಮೌಲ್ಯಗಳನ್ನು ಅನ್ವೇಷಿಸುವ ಪ್ರಮುಖ ಭಾಗವೆಂದರೆ ಅವು ಮೊದಲಿಗೆ ಏಕೆ ಹಾಗಾಗಿವೆ ಎಂದು ಅನ್ವೇಷಿಸುವುದು. ಇದು ಅವುಗಳನ್ನು ಪರಿಹರಿಸಲು ತೆಗೆದುಕೊಳ್ಳಬೇಕಾದ ಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ನಿರ್ಧಾರ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್
ಅಸೈನ್ಮೆಂಟ್
ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು Co-op Translator ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.
