# ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ |![ [(@sketchthedocs)](https://sketchthedocs.dev) ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸਕੈਚਨੋਟ ](../../sketchnotes/15-Analyzing.png)| |:---:| | ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ: ਵਿਸ਼ਲੇਸ਼ਣ - _[@nitya](https://twitter.com/nitya) ਦੁਆਰਾ ਸਕੈਚਨੋਟ_ | ## [ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/28) ਡਾਟਾ ਲਾਈਫਸਾਈਕਲ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਇਹ ਪੱਕਾ ਕਰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਉਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਹਨ ਜਾਂ ਕਿਸੇ ਖਾਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਕਦਮ ਇਹ ਵੀ ਯਕੀਨੀ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਸਵਾਲਾਂ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਪਾਠ ਵਿੱਚ Exploratory Data Analysis (EDA) 'ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜੋ ਡਾਟਾ ਦੇ ਅੰਦਰ ਫੀਚਰਾਂ ਅਤੇ ਸੰਬੰਧਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਦੇ ਤਰੀਕੇ ਹਨ ਅਤੇ ਮਾਡਲਿੰਗ ਲਈ ਡਾਟਾ ਤਿਆਰ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ। ਅਸੀਂ [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) ਤੋਂ ਇੱਕ ਉਦਾਹਰਨ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਾਂ ਇਹ ਦਿਖਾਉਣ ਲਈ ਕਿ ਇਸਨੂੰ Python ਅਤੇ Pandas ਲਾਇਬ੍ਰੇਰੀ ਨਾਲ ਕਿਵੇਂ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਈਮੇਲਾਂ ਵਿੱਚ ਪਾਏ ਗਏ ਕੁਝ ਆਮ ਸ਼ਬਦਾਂ ਦੀ ਗਿਣਤੀ ਸ਼ਾਮਲ ਹੈ, ਅਤੇ ਇਹ ਈਮੇਲਾਂ ਦੇ ਸਰੋਤ ਗੁਪਤ ਹਨ। ਇਸ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ [ਨੋਟਬੁੱਕ](notebook.ipynb) ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਵਰਤੋਂ ਕਰੋ। ## Exploratory Data Analysis ਲਾਈਫਸਾਈਕਲ ਦਾ ਕੈਪਚਰ ਫੇਜ਼ ਉਹ ਹੈ ਜਿੱਥੇ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਅਤੇ ਸਵਾਲਾਂ ਨੂੰ ਹੱਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਅਸੀਂ ਕਿਵੇਂ ਜਾਣ ਸਕਦੇ ਹਾਂ ਕਿ ਡਾਟਾ ਅੰਤਮ ਨਤੀਜੇ ਨੂੰ ਸਹਾਇਤਾ ਦੇ ਸਕਦਾ ਹੈ? ਯਾਦ ਕਰੋ ਕਿ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਸਮੇਂ ਹੇਠ ਲਿਖੇ ਸਵਾਲ ਪੁੱਛ ਸਕਦਾ ਹੈ: - ਕੀ ਮੇਰੇ ਕੋਲ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕਾਫੀ ਡਾਟਾ ਹੈ? - ਕੀ ਡਾਟਾ ਇਸ ਸਮੱਸਿਆ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦਾ ਹੈ? - ਜੇ ਮੈਂ ਇਸ ਡਾਟਾ ਰਾਹੀਂ ਵਾਧੂ ਜਾਣਕਾਰੀ ਖੋਜਦਾ ਹਾਂ, ਤਾਂ ਕੀ ਸਾਨੂੰ ਲਕਸ਼ਾਂ ਨੂੰ ਬਦਲਣ ਜਾਂ ਦੁਬਾਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਬਾਰੇ ਸੋਚਣਾ ਚਾਹੀਦਾ ਹੈ? Exploratory Data Analysis ਡਾਟਾ ਨੂੰ ਜਾਣਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ ਅਤੇ ਇਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਡਾਟਾਸੈੱਟ ਨਾਲ ਕੰਮ ਕਰਨ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ। ਆਓ ਕੁਝ ਤਕਨੀਕਾਂ 'ਤੇ ਧਿਆਨ ਦੇਈਏ ਜੋ ਇਸਨੂੰ ਹਾਸਲ ਕਰਨ ਲਈ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ## ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ, ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ, ਅਤੇ Pandas ਅਸੀਂ ਕਿਵੇਂ ਅੰਕਲਣ ਕਰਦੇ ਹਾਂ ਕਿ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਸਾਡੇ ਕੋਲ ਕਾਫੀ ਡਾਟਾ ਹੈ? ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ ਦੀਆਂ ਤਕਨੀਕਾਂ ਰਾਹੀਂ ਸਾਡੇ ਡਾਟਾਸੈੱਟ ਬਾਰੇ ਕੁਝ ਆਮ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਖੇਪ ਅਤੇ ਇਕੱਠਾ ਕਰ ਸਕਦੀ ਹੈ। ਡਾਟਾ ਪ੍ਰੋਫਾਈਲਿੰਗ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕੀ ਉਪਲਬਧ ਹੈ, ਅਤੇ ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ ਕਿ ਸਾਡੇ ਕੋਲ ਕਿੰਨੀ ਚੀਜ਼ਾਂ ਉਪਲਬਧ ਹਨ। ਪਿਛਲੇ ਕੁਝ ਪਾਠਾਂ ਵਿੱਚ, ਅਸੀਂ Pandas ਦੀ [`describe()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ। ਇਹ ਗਿਣਤੀ, ਵੱਧ ਤੋਂ ਵੱਧ ਅਤੇ ਘੱਟ ਤੋਂ ਘੱਟ ਮੁੱਲ, ਔਸਤ, ਮਿਆਰੀ ਵਿਸਥਾਪਨ ਅਤੇ ਗਣਾਂਕਾਂ ਨੂੰ ਸੰਖਿਆਤਮਕ ਡਾਟਾ 'ਤੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਵਰਣਾਤਮਕ ਸਾਂਖਿਆਕੀ ਜਿਵੇਂ ਕਿ `describe()` ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਸੀਂ ਅੰਕਲਣ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਡੇ ਕੋਲ ਕਿੰਨਾ ਹੈ ਅਤੇ ਕੀ ਤੁਹਾਨੂੰ ਹੋਰ ਦੀ ਲੋੜ ਹੈ। ## ਸੈਂਪਲਿੰਗ ਅਤੇ ਕਵੈਰੀ ਕਰਨਾ ਵੱਡੇ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਸਭ ਕੁਝ ਖੋਜਣਾ ਬਹੁਤ ਸਮਾਂ ਲੈਣ ਵਾਲਾ ਕੰਮ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਕੰਮ ਕੰਪਿਊਟਰ 'ਤੇ ਛੱਡਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਸੈਂਪਲਿੰਗ ਡਾਟਾ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦਗਾਰ ਸਾਧਨ ਹੈ ਅਤੇ ਸਾਨੂੰ ਡਾਟਾਸੈੱਟ ਵਿੱਚ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕੀ ਦਰਸਾਉਂਦਾ ਹੈ ਇਸ ਬਾਰੇ ਬਿਹਤਰ ਸਮਝ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਸੈਂਪਲ ਨਾਲ, ਤੁਸੀਂ ਸੰਭਾਵਨਾ ਅਤੇ ਸਾਂਖਿਆਕੀ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਆਪਣੇ ਡਾਟਾ ਬਾਰੇ ਕੁਝ ਆਮ ਨਤੀਜੇ ਕੱਢ ਸਕਦੇ ਹੋ। ਜਦੋਂ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨਾ ਡਾਟਾ ਸੈਂਪਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਇਸ ਬਾਰੇ ਕੋਈ ਨਿਰਧਾਰਤ ਨਿਯਮ ਨਹੀਂ ਹੈ, ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਡਾਟਾ ਤੁਸੀਂ ਸੈਂਪਲ ਕਰਦੇ ਹੋ, ਉਨ੍ਹਾਂ ਡਾਟਾ ਬਾਰੇ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਜ਼ਿਆਦਾ ਸਹੀ ਹੋ ਸਕਦੀ ਹੈ। Pandas ਵਿੱਚ [`sample()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) ਹੈ ਜਿੱਥੇ ਤੁਸੀਂ ਦੱਸ ਸਕਦੇ ਹੋ ਕਿ ਤੁਹਾਨੂੰ ਕਿੰਨੇ ਰੈਂਡਮ ਸੈਂਪਲ ਚਾਹੀਦੇ ਹਨ ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ। ਡਾਟਾ ਦੀ ਆਮ ਕਵੈਰੀ ਕਰਨਾ ਤੁਹਾਨੂੰ ਕੁਝ ਆਮ ਸਵਾਲਾਂ ਅਤੇ ਸਿਧਾਂਤਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਸੈਂਪਲਿੰਗ ਦੇ ਵਿਰੁੱਧ, ਕਵੈਰੀਜ਼ ਤੁਹਾਨੂੰ ਨਿਯੰਤਰਣ ਅਤੇ ਡਾਟਾ ਦੇ ਖਾਸ ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਤੁਹਾਡੇ ਕੋਲ ਸਵਾਲ ਹਨ। Pandas ਲਾਇਬ੍ਰੇਰੀ ਵਿੱਚ [`query()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) ਤੁਹਾਨੂੰ ਕਾਲਮ ਚੁਣਨ ਅਤੇ ਡਾਟਾ ਬਾਰੇ ਸਧਾਰਨ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ## ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਨਾਲ ਖੋਜ ਕਰਨਾ ਤੁਹਾਨੂੰ ਡਾਟਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਾਫ਼ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ ਤਾਂ ਜੋ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈ ਜਾ ਸਕੇ। ਹਕੀਕਤ ਵਿੱਚ, ਖੋਜ ਕਰਦੇ ਸਮੇਂ ਵਿਜੁਅਲ ਪ੍ਰਸਤੁਤੀ ਹੋਣ ਨਾਲ ਡਾਟਾ ਵਿੱਚ ਪੈਟਰਨ, ਸੰਬੰਧਾਂ, ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਮਿਲ ਸਕਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਉਹਨਾਂ ਲੋਕਾਂ ਨਾਲ ਸੰਚਾਰ ਕਰਨ ਦਾ ਸਾਧਨ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਡਾਟਾ ਦੇ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ ਅਤੇ ਇਹ ਕੈਪਚਰ ਸਟੇਜ ਵਿੱਚ ਹੱਲ ਨਾ ਕੀਤੇ ਗਏ ਵਾਧੂ ਸਵਾਲਾਂ ਨੂੰ ਸਾਂਝਾ ਕਰਨ ਅਤੇ ਸਪਸ਼ਟ ਕਰਨ ਦਾ ਮੌਕਾ ਹੋ ਸਕਦਾ ਹੈ। ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਕੁਝ ਪ੍ਰਸਿੱਧ ਤਰੀਕਿਆਂ ਬਾਰੇ ਜਾਣਨ ਲਈ [Visualizations ਸੈਕਸ਼ਨ](../../../../../../../../../3-Data-Visualization) ਨੂੰ ਵੇਖੋ। ## ਅਸੰਗਤਤਾ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਖੋਜ ਕਰਨਾ ਇਸ ਪਾਠ ਵਿੱਚ ਸਾਰੇ ਵਿਸ਼ੇ ਗੁੰਮ ਜਾਂ ਅਸੰਗਤ ਮੁੱਲਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ Pandas ਕੁਝ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਫੰਕਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। [isna() ਜਾਂ isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) ਗੁੰਮ ਮੁੱਲਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦਾ ਹੈ। ਤੁਹਾਡੇ ਡਾਟਾ ਵਿੱਚ ਇਹ ਮੁੱਲ ਕਿਵੇਂ ਆਏ ਇਸ ਦੀ ਖੋਜ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਫੈਸਲਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ [ਇਨ੍ਹਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕੀ ਕਾਰਵਾਈ ਕੀਤੀ ਜਾਵੇ](/2-Working-With-Data/08-data-preparation/notebook.ipynb)। ## [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/29) ## ਅਸਾਈਨਮੈਂਟ [ਜਵਾਬਾਂ ਦੀ ਖੋਜ](assignment.md) --- **ਅਸਵੀਕਤੀ**: ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤ ਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।