ML-For-Beginners/translations/pa/4-Classification/1-Introduction/solution/R/lesson_10-R.ipynb

{
 "nbformat": 4,
 "nbformat_minor": 2,
 "metadata": {
  "colab": {
   "name": "lesson_10-R.ipynb",
   "provenance": [],
   "collapsed_sections": []
  },
  "kernelspec": {
   "name": "ir",
   "display_name": "R"
  },
  "language_info": {
   "name": "R"
  },
  "coopTranslator": {
   "original_hash": "2621e24705e8100893c9bf84e0fc8aef",
   "translation_date": "2025-08-29T19:37:52+00:00",
   "source_file": "4-Classification/1-Introduction/solution/R/lesson_10-R.ipynb",
   "language_code": "pa"
  }
 },
 "cells": [
  {
   "cell_type": "markdown",
   "source": [
    "# ਇੱਕ ਵਰਗੀਕਰਨ ਮਾਡਲ ਬਣਾਓ: ਸੁਆਦਿਸ਼ਟ ਏਸ਼ੀਆਈ ਅਤੇ ਭਾਰਤੀ ਖਾਣੇ\n"
   ],
   "metadata": {
    "id": "ItETB4tSFprR"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਦਾ ਪਰਚੇ: ਡਾਟਾ ਸਾਫ਼ ਕਰੋ, ਤਿਆਰ ਕਰੋ ਅਤੇ ਵਿਜੁਅਲਾਈਜ਼ ਕਰੋ\n",
    "\n",
    "ਇਨ੍ਹਾਂ ਚਾਰ ਪਾਠਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਕਲਾਸਿਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਇੱਕ ਮੁੱਖ ਧਿਆਨ - *ਕਲਾਸੀਫਿਕੇਸ਼ਨ* - ਦੀ ਖੋਜ ਕਰੋਗੇ। ਅਸੀਂ ਏਸ਼ੀਆ ਅਤੇ ਭਾਰਤ ਦੇ ਸ਼ਾਨਦਾਰ ਖਾਣਿਆਂ ਬਾਰੇ ਇੱਕ ਡਾਟਾਸੈਟ ਨਾਲ ਵੱਖ-ਵੱਖ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਐਲਗੋਰਿਥਮ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦਾ ਤਰੀਕਾ ਸਿੱਖਾਂਗੇ। ਉਮੀਦ ਹੈ ਕਿ ਤੁਸੀਂ ਭੁੱਖੇ ਹੋ!\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/pinch.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>ਇਨ੍ਹਾਂ ਪਾਠਾਂ ਵਿੱਚ ਪੈਨ-ਏਸ਼ੀਆਈ ਖਾਣਿਆਂ ਦਾ ਜਸ਼ਨ ਮਨਾਓ! ਜੇਨ ਲੂਪਰ ਦੁਆਰਾ ਚਿੱਤਰ</figcaption>\n",
    "\n",
    "<!--![ਇਨ੍ਹਾਂ ਪਾਠਾਂ ਵਿੱਚ ਪੈਨ-ਏਸ਼ੀਆਈ ਖਾਣਿਆਂ ਦਾ ਜਸ਼ਨ ਮਨਾਓ! ਜੇਨ ਲੂਪਰ ਦੁਆਰਾ ਚਿੱਤਰ](../../../../../../translated_images/pinch.b33c0ba76f284aad94a3c4e3ed83e13ed1e17fbcf4db8ca8583c3a0c135e2e99.pa.png)-->\n",
    "\n",
    "ਕਲਾਸੀਫਿਕੇਸ਼ਨ [ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ](https://wikipedia.org/wiki/Supervised_learning) ਦਾ ਇੱਕ ਰੂਪ ਹੈ ਜੋ ਰਿਗ੍ਰੈਸ਼ਨ ਤਕਨੀਕਾਂ ਨਾਲ ਕਾਫ਼ੀ ਸਮਾਨਤਾ ਰੱਖਦਾ ਹੈ। ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਵਿੱਚ, ਤੁਸੀਂ ਇੱਕ ਮਾਡਲ ਨੂੰ ਸਿਖਾਉਂਦੇ ਹੋ ਕਿ ਕਿਸ `ਸ਼੍ਰੇਣੀ` ਵਿੱਚ ਕੋਈ ਆਈਟਮ ਆਉਂਦਾ ਹੈ। ਜੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਡਾਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਚੀਜ਼ਾਂ ਦੇ ਮੁੱਲ ਜਾਂ ਨਾਮਾਂ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਬਾਰੇ ਹੈ, ਤਾਂ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਆਮ ਤੌਰ 'ਤੇ ਦੋ ਸਮੂਹਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ: *ਬਾਈਨਰੀ ਕਲਾਸੀਫਿਕੇਸ਼ਨ* ਅਤੇ *ਮਲਟੀਕਲਾਸ ਕਲਾਸੀਫਿਕੇਸ਼ਨ*।\n",
    "\n",
    "ਯਾਦ ਰੱਖੋ:\n",
    "\n",
    "-   **ਲਿਨੀਅਰ ਰਿਗ੍ਰੈਸ਼ਨ** ਨੇ ਤੁਹਾਨੂੰ ਵੈਰੀਏਬਲਾਂ ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧਾਂ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ ਅਤੇ ਇਹ ਪਤਾ ਲਗਾਇਆ ਕਿ ਕੋਈ ਨਵਾਂ ਡਾਟਾਪੌਇੰਟ ਉਸ ਲਾਈਨ ਦੇ ਸੰਬੰਧ ਵਿੱਚ ਕਿੱਥੇ ਆਵੇਗਾ। ਉਦਾਹਰਣ ਲਈ, ਤੁਸੀਂ ਅੰਕਾਂ ਦੀ ਪੇਸ਼ਗੂਈ ਕਰ ਸਕਦੇ ਹੋ ਜਿਵੇਂ ਕਿ *ਸਿਤੰਬਰ ਦੇ ਮੁਕਾਬਲੇ ਦਸੰਬਰ ਵਿੱਚ ਕਦੂ ਦੀ ਕੀਮਤ ਕੀ ਹੋਵੇਗੀ*।\n",
    "\n",
    "-   **ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ** ਨੇ ਤੁਹਾਨੂੰ \"ਬਾਈਨਰੀ ਸ਼੍ਰੇਣੀਆਂ\" ਦੀ ਖੋਜ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ: ਇਸ ਕੀਮਤ ਦੇ ਬਿੰਦੂ 'ਤੇ, *ਕੀ ਇਹ ਕਦੂ ਸੰਤਰੀ ਹੈ ਜਾਂ ਨਾ-ਸੰਤਰੀ*?\n",
    "\n",
    "ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਵੱਖ-ਵੱਖ ਐਲਗੋਰਿਥਮ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਡਾਟਾਪੌਇੰਟ ਦੇ ਲੇਬਲ ਜਾਂ ਕਲਾਸ ਨੂੰ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾ ਸਕੇ। ਆਓ ਇਸ ਖਾਣੇ ਦੇ ਡਾਟੇ ਨਾਲ ਕੰਮ ਕਰੀਏ ਤਾਂ ਜੋ ਦੇਖ ਸਕੀਏ ਕਿ ਸਮੱਗਰੀ ਦੇ ਇੱਕ ਸਮੂਹ ਨੂੰ ਦੇਖ ਕੇ, ਅਸੀਂ ਇਸ ਦੇ ਮੂਲ ਖਾਣੇ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦੇ ਹਾਂ।\n",
    "\n",
    "### [**ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)\n",
    "\n",
    "### **ਪ੍ਰਸਤਾਵਨਾ**\n",
    "\n",
    "ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਖੋਜਕਰਤਾ ਅਤੇ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਦੀਆਂ ਮੁੱਖ ਗਤੀਵਿਧੀਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਬਾਈਨਰੀ ਮੁੱਲ ਦੀ ਬੁਨਿਆਦੀ ਕਲਾਸੀਫਿਕੇਸ਼ਨ (\"ਕੀ ਇਹ ਈਮੇਲ ਸਪੈਮ ਹੈ ਜਾਂ ਨਹੀਂ?\") ਤੋਂ ਲੈ ਕੇ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਜਟਿਲ ਚਿੱਤਰ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਅਤੇ ਸੈਗਮੈਂਟੇਸ਼ਨ ਤੱਕ, ਡਾਟੇ ਨੂੰ ਕਲਾਸਾਂ ਵਿੱਚ ਵੰਡਣਾ ਅਤੇ ਇਸ ਤੋਂ ਸਵਾਲ ਪੁੱਛਣਾ ਹਮੇਸ਼ਾ ਲਾਭਦਾਇਕ ਹੁੰਦਾ ਹੈ।\n",
    "\n",
    "ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਹੋਰ ਵਿਗਿਆਨਕ ਢੰਗ ਨਾਲ ਵਿਆਖਿਆ ਕਰਨ ਲਈ, ਤੁਹਾਡੀ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਵਿਧੀ ਇੱਕ ਪੇਸ਼ਗੂਈ ਮਾਡਲ ਬਣਾਉਂਦੀ ਹੈ ਜੋ ਤੁਹਾਨੂੰ ਇਨਪੁਟ ਵੈਰੀਏਬਲਾਂ ਅਤੇ ਆਉਟਪੁਟ ਵੈਰੀਏਬਲਾਂ ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧ ਨੂੰ ਨਕਸ਼ੇ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/binary-multiclass.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਐਲਗੋਰਿਥਮਾਂ ਲਈ ਬਾਈਨਰੀ ਅਤੇ ਮਲਟੀਕਲਾਸ ਸਮੱਸਿਆਵਾਂ। ਜੇਨ ਲੂਪਰ ਦੁਆਰਾ ਇਨਫੋਗ੍ਰਾਫਿਕ</figcaption>\n",
    "\n",
    "ਡਾਟੇ ਨੂੰ ਸਾਫ਼ ਕਰਨ, ਇਸ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਅਤੇ ਇਸ ਨੂੰ ML ਕੰਮਾਂ ਲਈ ਤਿਆਰ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਆਓ ਸਿੱਖੀਏ ਕਿ ਕਿਵੇਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਡਾਟੇ ਨੂੰ ਕਲਾਸੀਫਾਈ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।\n",
    "\n",
    "[ਅੰਕੜੇ](https://wikipedia.org/wiki/Statistical_classification) ਤੋਂ ਲਿਆ ਗਿਆ, ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਕਲਾਸਿਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਕਿ `smoker`, `weight`, ਅਤੇ `age` ਵਰਗੇ ਫੀਚਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ *ਕਿਸੇ X ਬਿਮਾਰੀ ਦੇ ਵਿਕਾਸ ਦੀ ਸੰਭਾਵਨਾ* ਦਾ ਨਿਰਧਾਰਨ ਕਰਨਾ। ਇੱਕ ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਤਕਨੀਕ ਦੇ ਤੌਰ 'ਤੇ ਜੋ ਤੁਸੀਂ ਪਹਿਲਾਂ ਕੀਤੇ ਰਿਗ੍ਰੈਸ਼ਨ ਅਭਿਆਸਾਂ ਦੇ ਸਮਾਨ ਹੈ, ਤੁਹਾਡਾ ਡਾਟਾ ਲੇਬਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ML ਐਲਗੋਰਿਥਮ ਉਹਨਾਂ ਲੇਬਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਡਾਟਾਸੈਟ ਦੀਆਂ ਕਲਾਸਾਂ (ਜਾਂ 'ਫੀਚਰਾਂ') ਦੀ ਪੇਸ਼ਗੂਈ ਕੀਤੀ ਜਾ ਸਕੇ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਸਮੂਹ ਜਾਂ ਨਤੀਜੇ ਵਿੱਚ ਸੌਂਪਿਆ ਜਾ ਸਕੇ।\n",
    "\n",
    "✅ ਇੱਕ ਪਲ ਲਈ ਖਾਣਿਆਂ ਬਾਰੇ ਇੱਕ ਡਾਟਾਸੈਟ ਦੀ ਕਲਪਨਾ ਕਰੋ। ਇੱਕ ਮਲਟੀਕਲਾਸ ਮਾਡਲ ਕੀ ਸਵਾਲ ਦੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ? ਇੱਕ ਬਾਈਨਰੀ ਮਾਡਲ ਕੀ ਸਵਾਲ ਦੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ? ਜੇ ਤੁਸੀਂ ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ ਕਿ ਦਿੱਤੇ ਗਏ ਖਾਣੇ ਵਿੱਚ ਮੇਥੀ ਦੀ ਵਰਤੋਂ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ ਜਾਂ ਨਹੀਂ, ਤਾਂ ਕੀ ਹੋਵੇਗਾ? ਜੇ ਤੁਸੀਂ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹੋ ਕਿ, ਜੇ ਤੁਹਾਨੂੰ ਸਤਾਰ ਅਨੀਸ, ਅਰਟੀਚੋਕ, ਫੁੱਲਗੋਭੀ ਅਤੇ ਹੋਰਸਰੈਡਿਸ਼ ਨਾਲ ਭਰੇ ਹੋਏ ਗ੍ਰੋਸਰੀ ਬੈਗ ਦਾ ਤੋਹਫ਼ਾ ਮਿਲੇ, ਤਾਂ ਕੀ ਤੁਸੀਂ ਇੱਕ ਆਮ ਭਾਰਤੀ ਖਾਣਾ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹੋ?\n",
    "\n",
    "### **ਹੈਲੋ 'ਕਲਾਸੀਫਾਇਰ'**\n",
    "\n",
    "ਜੋ ਸਵਾਲ ਅਸੀਂ ਇਸ ਖਾਣੇ ਦੇ ਡਾਟਾਸੈਟ ਤੋਂ ਪੁੱਛਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਉਹ ਅਸਲ ਵਿੱਚ ਇੱਕ **ਮਲਟੀਕਲਾਸ ਸਵਾਲ** ਹੈ, ਕਿਉਂਕਿ ਸਾਡੇ ਕੋਲ ਕੰਮ ਕਰਨ ਲਈ ਕਈ ਸੰਭਾਵਿਤ ਰਾਸ਼ਟਰੀ ਖਾਣੇ ਹਨ। ਸਮੱਗਰੀ ਦੇ ਇੱਕ ਬੈਚ ਨੂੰ ਦੇਖ ਕੇ, ਇਹ ਡਾਟਾ ਕਿਹੜੀ ਕਲਾਸ ਵਿੱਚ ਫਿੱਟ ਹੋਵੇਗਾ?\n",
    "\n",
    "Tidymodels ਵੱਖ-ਵੱਖ ਐਲਗੋਰਿਥਮ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਤੁਸੀਂ ਡਾਟੇ ਨੂੰ ਕਲਾਸੀਫਾਈ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹੋ, ਇਹ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕਿਹੜੀ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ। ਅਗਲੇ ਦੋ ਪਾਠਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਇਨ੍ਹਾਂ ਐਲਗੋਰਿਥਮਾਂ ਵਿੱਚੋਂ ਕੁਝ ਬਾਰੇ ਸਿੱਖੋਗੇ।\n",
    "\n",
    "#### **ਪੂਰਵ-ਆਵਸ਼ਕਤਾ**\n",
    "\n",
    "ਇਸ ਪਾਠ ਲਈ, ਅਸੀਂ ਡਾਟੇ ਨੂੰ ਸਾਫ਼ ਕਰਨ, ਤਿਆਰ ਕਰਨ ਅਤੇ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਪੈਕੇਜਾਂ ਦੀ ਲੋੜ ਹੋਵੇਗੀ:\n",
    "\n",
    "-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) ਇੱਕ [R ਪੈਕੇਜਾਂ ਦਾ ਸੰਗ੍ਰਹਿ](https://www.tidyverse.org/packages) ਹੈ ਜੋ ਡਾਟਾ ਸਾਇੰਸ ਨੂੰ ਤੇਜ਼, ਆਸਾਨ ਅਤੇ ਮਜ਼ੇਦਾਰ ਬਣਾਉਂਦਾ ਹੈ!\n",
    "\n",
    "-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) ਫਰੇਮਵਰਕ ਮਾਡਲਿੰਗ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ [ਪੈਕੇਜਾਂ ਦਾ ਸੰਗ੍ਰਹਿ](https://www.tidymodels.org/packages/) ਹੈ।\n",
    "\n",
    "-   `DataExplorer`: [DataExplorer ਪੈਕੇਜ](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) EDA ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਰਿਪੋਰਟ ਜਨਰੇਸ਼ਨ ਨੂੰ ਸਧਾਰਨ ਅਤੇ ਆਟੋਮੈਟਿਕ ਬਣਾਉਣ ਲਈ ਹੈ।\n",
    "\n",
    "-   `themis`: [themis ਪੈਕੇਜ](https://themis.tidymodels.org/) ਅਸੰਤੁਲਿਤ ਡਾਟੇ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਵਾਧੂ ਰੈਸੀਪੀ ਸਟੈਪ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।\n",
    "\n",
    "ਤੁਸੀਂ ਇਹਨਾਂ ਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਤਰੀਕੇ ਨਾਲ ਇੰਸਟਾਲ ਕਰ ਸਕਦੇ ਹੋ:\n",
    "\n",
    "`install.packages(c(\"tidyverse\", \"tidymodels\", \"DataExplorer\", \"here\"))`\n",
    "\n",
    "ਵਿਕਲਪਕ ਤੌਰ 'ਤੇ, ਹੇਠਾਂ ਦਿੱਤਾ ਸਕ੍ਰਿਪਟ ਜਾਂਚਦਾ ਹੈ ਕਿ ਕੀ ਤੁਹਾਡੇ ਕੋਲ ਇਸ ਮੋਡਿਊਲ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਪੈਕੇਜ ਹਨ ਅਤੇ ਜੇ ਉਹ ਗੁੰਮ ਹਨ ਤਾਂ ਉਹਨਾਂ ਨੂੰ ਤੁਹਾਡੇ ਲਈ ਇੰਸਟਾਲ ਕਰਦਾ ਹੈ।\n"
   ],
   "metadata": {
    "id": "ri5bQxZ-Fz_0"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "suppressWarnings(if (!require(\"pacman\"))install.packages(\"pacman\"))\r\n",
    "\r\n",
    "pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)"
   ],
   "outputs": [],
   "metadata": {
    "id": "KIPxa4elGAPI"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਅਸੀਂ ਬਾਅਦ ਵਿੱਚ ਇਹ ਸ਼ਾਨਦਾਰ ਪੈਕੇਜ ਲੋਡ ਕਰਾਂਗੇ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਆਪਣੀ ਮੌਜੂਦਾ R ਸੈਸ਼ਨ ਵਿੱਚ ਉਪਲਬਧ ਕਰਾਂਗੇ। (ਇਹ ਸਿਰਫ਼ ਦ੍ਰਿਸ਼ਾਂਤ ਲਈ ਹੈ, `pacman::p_load()` ਨੇ ਇਹ ਤੁਹਾਡੇ ਲਈ ਪਹਿਲਾਂ ਹੀ ਕਰ ਦਿੱਤਾ ਹੈ)\n"
   ],
   "metadata": {
    "id": "YkKAxOJvGD4C"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## ਕਸਰਤ - ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਸਾਫ ਅਤੇ ਸੰਤੁਲਿਤ ਕਰੋ\n",
    "\n",
    "ਇਸ ਪ੍ਰੋਜੈਕਟ ਨੂੰ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪਹਿਲਾ ਕੰਮ ਹੈ ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਸਾਫ ਅਤੇ **ਸੰਤੁਲਿਤ** ਕਰਨਾ ਤਾਂ ਜੋ ਵਧੀਆ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਹੋਣ।\n",
    "\n",
    "ਆਓ ਡਾਟਾ ਨਾਲ ਜਾਣ-ਪਛਾਣ ਕਰੀਏ!🕵️\n"
   ],
   "metadata": {
    "id": "PFkQDlk0GN5O"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Import data\r\n",
    "df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv\")\r\n",
    "\r\n",
    "# View the first 5 rows\r\n",
    "df %>% \r\n",
    "  slice_head(n = 5)\r\n"
   ],
   "outputs": [],
   "metadata": {
    "id": "Qccw7okxGT0S"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਰੁਚਿਕਰ! ਲਗਦਾ ਹੈ ਕਿ ਪਹਿਲਾ ਕਾਲਮ ਕਿਸਮ ਦਾ `id` ਕਾਲਮ ਹੈ। ਆਓ ਡੇਟਾ ਬਾਰੇ ਥੋੜ੍ਹੀ ਹੋਰ ਜਾਣਕਾਰੀ ਲਵਾਂ।\n"
   ],
   "metadata": {
    "id": "XrWnlgSrGVmR"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Basic information about the data\r\n",
    "df %>%\r\n",
    "  introduce()\r\n",
    "\r\n",
    "# Visualize basic information above\r\n",
    "df %>% \r\n",
    "  plot_intro(ggtheme = theme_light())"
   ],
   "outputs": [],
   "metadata": {
    "id": "4UcGmxRxGieA"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਨਤੀਜੇ ਤੋਂ, ਅਸੀਂ ਤੁਰੰਤ ਦੇਖ ਸਕਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਕੋਲ `2448` ਪੰਗਤਾਂ ਅਤੇ `385` ਕਾਲਮ ਹਨ ਅਤੇ `0` ਗੁੰਮ ਸ਼੍ਰੇਣੀਆਂ ਹਨ। ਸਾਡੇ ਕੋਲ 1 ਵਿਸ਼ੇਸ਼ ਕਾਲਮ ਹੈ, *cuisine*।\n",
    "\n",
    "## ਅਭਿਆਸ - ਖਾਣੇ ਦੀ ਕਿਸਮਾਂ ਬਾਰੇ ਸਿੱਖਣਾ\n",
    "\n",
    "ਹੁਣ ਕੰਮ ਹੋਰ ਦਿਲਚਸਪ ਹੋਣਾ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ। ਆਓ ਖਾਣੇ ਦੀ ਕਿਸਮ ਦੇ ਅਨੁਸਾਰ ਡਾਟਾ ਦੇ ਵੰਡ ਦਾ ਪਤਾ ਲਗਾਈਏ।\n"
   ],
   "metadata": {
    "id": "AaPubl__GmH5"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Count observations per cuisine\r\n",
    "df %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  arrange(n)\r\n",
    "\r\n",
    "# Plot the distribution\r\n",
    "theme_set(theme_light())\r\n",
    "df %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +\r\n",
    "  geom_col(fill = \"midnightblue\", alpha = 0.7) +\r\n",
    "  ylab(\"cuisine\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "FRsBVy5eGrrv"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਖਾਣਿਆਂ ਦੀ ਗਿਣਤੀ ਸੀਮਿਤ ਹੈ, ਪਰ ਡਾਟਾ ਦਾ ਵੰਡ ਅਸਮਾਨ ਹੈ। ਤੁਸੀਂ ਇਸਨੂੰ ਠੀਕ ਕਰ ਸਕਦੇ ਹੋ! ਇਸ ਤੋਂ ਪਹਿਲਾਂ, ਥੋੜ੍ਹਾ ਹੋਰ ਪੜਚੋਲ ਕਰੋ।\n",
    "\n",
    "ਅਗਲੇ ਕਦਮ ਵਿੱਚ, ਹਰ ਖਾਣੇ ਨੂੰ ਇਸਦੇ ਅਲੱਗ-ਅਲੱਗ ਟਿਬਲ ਵਿੱਚ ਵੰਡੋ ਅਤੇ ਪਤਾ ਕਰੋ ਕਿ ਹਰ ਖਾਣੇ ਲਈ ਕਿੰਨਾ ਡਾਟਾ ਉਪਲਬਧ ਹੈ (ਕਤਾਰਾਂ, ਕਾਲਮ)।\n",
    "\n",
    "> ਇੱਕ [tibble](https://tibble.tidyverse.org/) ਇੱਕ ਆਧੁਨਿਕ ਡਾਟਾ ਫਰੇਮ ਹੈ।\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/dplyr_filter.jpg\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>ਚਿੱਤਰਕਲਾ @allison_horst ਦੁਆਰਾ</figcaption>\n"
   ],
   "metadata": {
    "id": "vVvyDb1kG2in"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Create individual tibble for the cuisines\r\n",
    "thai_df <- df %>% \r\n",
    "  filter(cuisine == \"thai\")\r\n",
    "japanese_df <- df %>% \r\n",
    "  filter(cuisine == \"japanese\")\r\n",
    "chinese_df <- df %>% \r\n",
    "  filter(cuisine == \"chinese\")\r\n",
    "indian_df <- df %>% \r\n",
    "  filter(cuisine == \"indian\")\r\n",
    "korean_df <- df %>% \r\n",
    "  filter(cuisine == \"korean\")\r\n",
    "\r\n",
    "\r\n",
    "# Find out how much data is available per cuisine\r\n",
    "cat(\" thai df:\", dim(thai_df), \"\\n\",\r\n",
    "    \"japanese df:\", dim(japanese_df), \"\\n\",\r\n",
    "    \"chinese_df:\", dim(chinese_df), \"\\n\",\r\n",
    "    \"indian_df:\", dim(indian_df), \"\\n\",\r\n",
    "    \"korean_df:\", dim(korean_df))"
   ],
   "outputs": [],
   "metadata": {
    "id": "0TvXUxD3G8Bk"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## **ਕਸਰਤ - dplyr ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖਾਣੇ ਦੇ ਮੁੱਖ ਸਮੱਗਰੀ ਦੀ ਖੋਜ ਕਰਨਾ**\n",
    "\n",
    "ਹੁਣ ਤੁਸੀਂ ਡਾਟਾ ਵਿੱਚ ਗਹਿਰਾਈ ਨਾਲ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਸਿੱਖ ਸਕਦੇ ਹੋ ਕਿ ਹਰ ਖਾਣੇ ਲਈ ਆਮ ਸਮੱਗਰੀ ਕੀ ਹੈ। ਤੁਹਾਨੂੰ ਉਹ ਮੁੜ ਆਉਣ ਵਾਲੇ ਡਾਟਾ ਨੂੰ ਸਾਫ਼ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਖਾਣਿਆਂ ਵਿੱਚ ਗਲਤਫਹਿਮੀ ਪੈਦਾ ਕਰਦਾ ਹੈ, ਤਾਂ ਆਓ ਇਸ ਸਮੱਸਿਆ ਬਾਰੇ ਸਿੱਖੀਏ।\n",
    "\n",
    "R ਵਿੱਚ ਇੱਕ ਫੰਕਸ਼ਨ `create_ingredient()` ਬਣਾਓ ਜੋ ਇੱਕ ਸਮੱਗਰੀ ਡਾਟਾਫਰੇਮ ਵਾਪਸ ਕਰਦਾ ਹੈ। ਇਹ ਫੰਕਸ਼ਨ ਇੱਕ ਅਣਉਪਯੋਗ ਕਾਲਮ ਨੂੰ ਹਟਾ ਕੇ ਸ਼ੁਰੂ ਕਰੇਗਾ ਅਤੇ ਸਮੱਗਰੀ ਨੂੰ ਉਨ੍ਹਾਂ ਦੀ ਗਿਣਤੀ ਦੇ ਅਧਾਰ 'ਤੇ ਵਿਆਸਤ ਕਰੇਗਾ।\n",
    "\n",
    "R ਵਿੱਚ ਫੰਕਸ਼ਨ ਦੀ ਬੁਨਿਆਦੀ ਬਣਤਰ ਹੈ:\n",
    "\n",
    "`myFunction <- function(arglist){`\n",
    "\n",
    "**`...`**\n",
    "\n",
    "**`return`**`(value)`\n",
    "\n",
    "`}`\n",
    "\n",
    "R ਫੰਕਸ਼ਨ ਲਈ ਇੱਕ ਸਾਫ਼ ਸਿਰਜਣਾਤਮਕ ਜਾਣਕਾਰੀ [ਇੱਥੇ](https://skirmer.github.io/presentations/functions_with_r.html#1) ਮਿਲ ਸਕਦੀ ਹੈ।\n",
    "\n",
    "ਚਲੋ ਇਸ 'ਤੇ ਸਿੱਧੇ ਕੰਮ ਕਰੀਏ! ਅਸੀਂ [dplyr verbs](https://dplyr.tidyverse.org/) ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ ਜੋ ਅਸੀਂ ਪਿਛਲੇ ਪਾਠਾਂ ਵਿੱਚ ਸਿੱਖ ਰਹੇ ਹਾਂ। ਇੱਕ ਰੀਕੈਪ ਦੇ ਤੌਰ 'ਤੇ:\n",
    "\n",
    "-   `dplyr::select()`: ਤੁਹਾਨੂੰ ਚੁਣਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਕਿਹੜੇ **ਕਾਲਮ** ਰੱਖਣੇ ਹਨ ਜਾਂ ਹਟਾਉਣੇ ਹਨ।\n",
    "\n",
    "-   `dplyr::pivot_longer()`: ਤੁਹਾਨੂੰ ਡਾਟਾ ਨੂੰ \"ਲੰਬਾ\" ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਕਾਲਮਾਂ ਦੀ ਗਿਣਤੀ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਕਤਾਰਾਂ ਦੀ ਗਿਣਤੀ ਵਧਾਉਂਦਾ ਹੈ।\n",
    "\n",
    "-   `dplyr::group_by()` ਅਤੇ `dplyr::summarise()`: ਤੁਹਾਨੂੰ ਵੱਖ-ਵੱਖ ਸਮੂਹਾਂ ਲਈ ਸੰਖੇਪ ਸਾਂਖਿਆਤਿਕ ਜਾਣਕਾਰੀ ਲੱਭਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਅਤੇ ਇਸ ਨੂੰ ਇੱਕ ਸੁੰਦਰ ਟੇਬਲ ਵਿੱਚ ਰੱਖਦਾ ਹੈ।\n",
    "\n",
    "-   `dplyr::filter()`: ਡਾਟਾ ਦਾ ਇੱਕ ਉਪਸੈੱਟ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਸਿਰਫ਼ ਉਹ ਕਤਾਰਾਂ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ ਜੋ ਤੁਹਾਡੇ ਸ਼ਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੀਆਂ ਹਨ।\n",
    "\n",
    "-   `dplyr::mutate()`: ਤੁਹਾਨੂੰ ਕਾਲਮ ਬਣਾਉਣ ਜਾਂ ਸੋਧਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।\n",
    "\n",
    "ਇਹ [*ਕਲਾ*-ਭਰਪੂਰ learnr ਟਿਊਟੋਰਿਅਲ](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) ਦੇਖੋ ਜੋ Allison Horst ਦੁਆਰਾ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਇਹ dplyr *(Tidyverse ਦਾ ਹਿੱਸਾ)* ਵਿੱਚ ਕੁਝ ਉਪਯੋਗ ਡਾਟਾ ਸੰਭਾਲਣ ਵਾਲੇ ਫੰਕਸ਼ਨਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਦਾ ਹੈ।\n"
   ],
   "metadata": {
    "id": "K3RF5bSCHC76"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Creates a functions that returns the top ingredients by class\r\n",
    "\r\n",
    "create_ingredient <- function(df){\r\n",
    "  \r\n",
    "  # Drop the id column which is the first colum\r\n",
    "  ingredient_df = df %>% select(-1) %>% \r\n",
    "  # Transpose data to a long format\r\n",
    "    pivot_longer(!cuisine, names_to = \"ingredients\", values_to = \"count\") %>% \r\n",
    "  # Find the top most ingredients for a particular cuisine\r\n",
    "    group_by(ingredients) %>% \r\n",
    "    summarise(n_instances = sum(count)) %>% \r\n",
    "    filter(n_instances != 0) %>% \r\n",
    "  # Arrange by descending order\r\n",
    "    arrange(desc(n_instances)) %>% \r\n",
    "    mutate(ingredients = factor(ingredients) %>% fct_inorder())\r\n",
    "  \r\n",
    "  \r\n",
    "  return(ingredient_df)\r\n",
    "} # End of function"
   ],
   "outputs": [],
   "metadata": {
    "id": "uB_0JR82HTPa"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਹੁਣ ਅਸੀਂ ਇਸ ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖਾਣੇ ਦੇ ਰਸੋਈ ਅਨੁਸਾਰ ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਦਸ ਸਮੱਗਰੀਆਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕਦੇ ਹਾਂ। ਆਓ ਇਸਨੂੰ `thai_df` ਨਾਲ ਅਜ਼ਮਾਈਏ।\n"
   ],
   "metadata": {
    "id": "h9794WF8HWmc"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Call create_ingredient and display popular ingredients\r\n",
    "thai_ingredient_df <- create_ingredient(df = thai_df)\r\n",
    "\r\n",
    "thai_ingredient_df %>% \r\n",
    "  slice_head(n = 10)"
   ],
   "outputs": [],
   "metadata": {
    "id": "agQ-1HrcHaEA"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ `geom_col()` ਵਰਤਿਆ ਸੀ, ਆਓ ਵੇਖੀਏ ਕਿ ਤੁਸੀਂ `geom_bar` ਨੂੰ ਵੀ ਕਿਵੇਂ ਵਰਤ ਸਕਦੇ ਹੋ, ਬਾਰ ਚਾਰਟ ਬਣਾਉਣ ਲਈ। ਹੋਰ ਪੜ੍ਹਨ ਲਈ `?geom_bar` ਵਰਤੋ।\n"
   ],
   "metadata": {
    "id": "kHu9ffGjHdcX"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Make a bar chart for popular thai cuisines\r\n",
    "thai_ingredient_df %>% \r\n",
    "  slice_head(n = 10) %>% \r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"steelblue\") +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "fb3Bx_3DHj6e"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "RHP_xgdkHnvM"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Japanese cuisines and make bar chart\r\n",
    "create_ingredient(df = japanese_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"darkorange\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")\r\n"
   ],
   "outputs": [],
   "metadata": {
    "id": "019v8F0XHrRU"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਚੀਨੀ ਖਾਣੇ ਬਾਰੇ ਕੀ ਖਿਆਲ ਹੈ?\n"
   ],
   "metadata": {
    "id": "iIGM7vO8Hu3v"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Chinese cuisines and make bar chart\r\n",
    "create_ingredient(df = chinese_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"cyan4\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "lHd9_gd2HyzU"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "ir8qyQbNH1c7"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Indian cuisines and make bar chart\r\n",
    "create_ingredient(df = indian_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"#041E42FF\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "ApukQtKjH5FO"
   }
  },
  {
   "cell_type": "markdown",
   "source": [],
   "metadata": {
    "id": "qv30cwY1H-FM"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Get popular ingredients for Korean cuisines and make bar chart\r\n",
    "create_ingredient(df = korean_df) %>% \r\n",
    "  slice_head(n = 10) %>%\r\n",
    "  ggplot(aes(x = n_instances, y = ingredients)) +\r\n",
    "  geom_bar(stat = \"identity\", width = 0.5, fill = \"#852419FF\", alpha = 0.8) +\r\n",
    "  xlab(\"\") + ylab(\"\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "lumgk9cHIBie"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਡਾਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਤੋਂ, ਹੁਣ ਅਸੀਂ ਸਭ ਤੋਂ ਆਮ ਸਮੱਗਰੀਆਂ ਨੂੰ ਹਟਾ ਸਕਦੇ ਹਾਂ ਜੋ ਵੱਖ-ਵੱਖ ਖਾਣਿਆਂ ਵਿੱਚ ਗਲਤਫਹਮੀਆਂ ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ, `dplyr::select()` ਦੀ ਵਰਤੋਂ ਕਰਕੇ।\n",
    "\n",
    "ਸਭ ਨੂੰ ਚੌਲ, ਲਸਣ ਅਤੇ ਅਦਰਕ ਪਸੰਦ ਹੈ!\n"
   ],
   "metadata": {
    "id": "iO4veMXuIEta"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Drop id column, rice, garlic and ginger from our original data set\r\n",
    "df_select <- df %>% \r\n",
    "  select(-c(1, rice, garlic, ginger))\r\n",
    "\r\n",
    "# Display new data set\r\n",
    "df_select %>% \r\n",
    "  slice_head(n = 5)"
   ],
   "outputs": [],
   "metadata": {
    "id": "iHJPiG6rIUcK"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## ਰਿਸੇਪੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡਾਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ 👩‍🍳👨‍🍳 - ਅਸਮਾਨ ਡਾਟਾ ਨਾਲ ਨਜਿੱਠਣਾ ⚖️\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/recipes.png\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>ਕਲਾ ਰਚਨਾ @allison_horst ਵੱਲੋਂ</figcaption>\n",
    "\n",
    "ਜਿਵੇਂ ਕਿ ਇਹ ਪਾਠ ਭੋਜਨ ਵਿਧੀਆਂ ਬਾਰੇ ਹੈ, ਸਾਨੂੰ `ਰਿਸੇਪੀਆਂ` ਨੂੰ ਸੰਦਰਭ ਵਿੱਚ ਰੱਖਣਾ ਪਵੇਗਾ।\n",
    "\n",
    "Tidymodels ਇੱਕ ਹੋਰ ਵਧੀਆ ਪੈਕੇਜ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ: `recipes` - ਡਾਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਇੱਕ ਪੈਕੇਜ।\n"
   ],
   "metadata": {
    "id": "kkFd-JxdIaL6"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਚਲੋ ਫਿਰ ਸਾਡੇ ਖਾਣਿਆਂ ਦੇ ਵੰਡਵਾਰ ਨੂੰ ਦੁਬਾਰਾ ਦੇਖਦੇ ਹਾਂ।\n"
   ],
   "metadata": {
    "id": "6l2ubtTPJAhY"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Distribution of cuisines\r\n",
    "old_label_count <- df_select %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  arrange(desc(n))\r\n",
    "\r\n",
    "old_label_count"
   ],
   "outputs": [],
   "metadata": {
    "id": "1e-E9cb7JDVi"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਜਿਵੇਂ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਖਾਣਿਆਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ ਕਾਫੀ ਅਸਮਾਨਤਾ ਹੈ। ਕੋਰੀਅਨ ਖਾਣੇ ਥਾਈ ਖਾਣਿਆਂ ਨਾਲ ਲਗਭਗ 3 ਗੁਣਾ ਹਨ। ਅਸਮਾਨਤ ਡਾਟਾ ਅਕਸਰ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ 'ਤੇ ਨਕਾਰਾਤਮਕ ਪ੍ਰਭਾਵ ਪਾਂਦਾ ਹੈ। ਇੱਕ ਬਾਈਨਰੀ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਬਾਰੇ ਸੋਚੋ। ਜੇ ਤੁਹਾਡਾ ਜ਼ਿਆਦਾਤਰ ਡਾਟਾ ਇੱਕ ਹੀ ਕਲਾਸ ਦਾ ਹੈ, ਤਾਂ ਇੱਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਉਸ ਕਲਾਸ ਦੀ ਅਕਸਰ ਭਵਿੱਖਵਾਣੀ ਕਰੇਗਾ, ਸਿਰਫ ਇਸ ਲਈ ਕਿ ਉਸ ਲਈ ਜ਼ਿਆਦਾ ਡਾਟਾ ਉਪਲਬਧ ਹੈ। ਡਾਟਾ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨਾ ਕਿਸੇ ਵੀ ਤਰ੍ਹਾਂ ਦੇ ਝੁਕਾਅ ਵਾਲੇ ਡਾਟਾ ਨੂੰ ਹਟਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਮਾਡਲ ਉਸ ਸਮੇਂ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ ਜਦੋਂ ਅਵਲੋਕਨਾਂ ਦੀ ਗਿਣਤੀ ਬਰਾਬਰ ਹੁੰਦੀ ਹੈ ਅਤੇ ਇਸ ਲਈ ਅਸਮਾਨਤ ਡਾਟਾ ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ।\n",
    "\n",
    "ਅਸਮਾਨਤ ਡਾਟਾ ਸੈੱਟ ਨਾਲ ਨਜਿੱਠਣ ਦੇ ਮੁੱਖ ਤੌਰ 'ਤੇ ਦੋ ਤਰੀਕੇ ਹਨ:\n",
    "\n",
    "- ਘੱਟ ਗਿਣਤੀ ਵਾਲੀ ਕਲਾਸ ਵਿੱਚ ਅਵਲੋਕਨ ਸ਼ਾਮਲ ਕਰਨਾ: `Over-sampling` ਜਿਵੇਂ ਕਿ SMOTE algorithm ਦੀ ਵਰਤੋਂ ਕਰਨਾ\n",
    "\n",
    "- ਵੱਧ ਗਿਣਤੀ ਵਾਲੀ ਕਲਾਸ ਤੋਂ ਅਵਲੋਕਨ ਹਟਾਉਣਾ: `Under-sampling`\n",
    "\n",
    "ਆਓ ਹੁਣ ਇੱਕ `recipe` ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਸਮਾਨਤ ਡਾਟਾ ਸੈੱਟ ਨਾਲ ਨਜਿੱਠਣ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰੀਏ। ਇੱਕ ਰੈਸੀਪੀ ਨੂੰ ਇੱਕ ਬਲੂਪ੍ਰਿੰਟ ਵਜੋਂ ਸੋਚਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਵੇਰਵਾ ਦਿੰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਤਿਆਰ ਕਰਨ ਲਈ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇ ਕਦਮ ਲਾਗੂ ਕੀਤੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ।\n"
   ],
   "metadata": {
    "id": "soAw6826JKx9"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Load themis package for dealing with imbalanced data\r\n",
    "library(themis)\r\n",
    "\r\n",
    "# Create a recipe for preprocessing data\r\n",
    "cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% \r\n",
    "  step_smote(cuisine)\r\n",
    "\r\n",
    "cuisines_recipe"
   ],
   "outputs": [],
   "metadata": {
    "id": "HS41brUIJVJy"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਆਓ ਅਸੀਂ ਆਪਣੇ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਕਦਮਾਂ ਨੂੰ ਵੰਡ ਕੇ ਸਮਝੀਏ।\n",
    "\n",
    "-   `recipe()` ਨੂੰ ਇੱਕ ਫਾਰਮੂਲਾ ਨਾਲ ਕਾਲ ਕਰਨ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਰੈਸਪੀ ਨੂੰ ਬਤਾਉਂਦਾ ਹੈ ਕਿ ਵੈਰੀਏਬਲਾਂ ਦੇ *ਰੋਲ* ਕੀ ਹਨ, ਜਿਸ ਵਿੱਚ `df_select` ਡਾਟਾ ਨੂੰ ਰਿਫਰੈਂਸ ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, `cuisine` ਕਾਲਮ ਨੂੰ `outcome` ਰੋਲ ਦਿੱਤਾ ਗਿਆ ਹੈ ਜਦਕਿ ਬਾਕੀ ਕਾਲਮਾਂ ਨੂੰ `predictor` ਰੋਲ ਦਿੱਤਾ ਗਿਆ ਹੈ।\n",
    "\n",
    "-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) ਰੈਸਪੀ ਦੇ ਇੱਕ ਕਦਮ ਦੀ *ਵਿਸ਼ੇਸ਼ਤਾ* ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਘੱਟ ਗਿਣਤੀ ਵਾਲੇ ਵਰਗ ਦੇ ਨਵੇਂ ਉਦਾਹਰਣਾਂ ਨੂੰ ਨਜ਼ਦੀਕੀ ਪੜੋਸੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕ੍ਰਿਤ੍ਰਿਮ ਤਰੀਕੇ ਨਾਲ ਤਿਆਰ ਕਰਦਾ ਹੈ।\n",
    "\n",
    "ਹੁਣ, ਜੇ ਅਸੀਂ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸ ਕੀਤਾ ਡਾਟਾ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਸਾਨੂੰ ਆਪਣੀ ਰੈਸਪੀ ਨੂੰ [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) ਅਤੇ [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) ਕਰਨਾ ਪਵੇਗਾ।\n",
    "\n",
    "`prep()`: ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਤੋਂ ਲੋੜੀਂਦੇ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦਾ ਹੈ, ਜੋ ਬਾਅਦ ਵਿੱਚ ਹੋਰ ਡਾਟਾ ਸੈੱਟਾਂ 'ਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ।\n",
    "\n",
    "`bake()`: ਇੱਕ ਤਿਆਰ ਕੀਤੀ ਗਈ ਰੈਸਪੀ ਲੈਂਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਕਿਸੇ ਵੀ ਡਾਟਾ ਸੈੱਟ 'ਤੇ ਲਾਗੂ ਕਰਦਾ ਹੈ।\n"
   ],
   "metadata": {
    "id": "Yb-7t7XcJaC8"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Prep and bake the recipe\r\n",
    "preprocessed_df <- cuisines_recipe %>% \r\n",
    "  prep() %>% \r\n",
    "  bake(new_data = NULL) %>% \r\n",
    "  relocate(cuisine)\r\n",
    "\r\n",
    "# Display data\r\n",
    "preprocessed_df %>% \r\n",
    "  slice_head(n = 5)\r\n",
    "\r\n",
    "# Quick summary stats\r\n",
    "preprocessed_df %>% \r\n",
    "  introduce()"
   ],
   "outputs": [],
   "metadata": {
    "id": "9QhSgdpxJl44"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਚਲੋ ਹੁਣ ਸਾਡੀਆਂ ਖਾਣਿਆਂ ਦੀ ਵੰਡ ਦੀ ਜਾਂਚ ਕਰੀਏ ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਤੁਲਨਾ ਅਸਮਤਲ ਡਾਟਾ ਨਾਲ ਕਰੀਏ।\n"
   ],
   "metadata": {
    "id": "dmidELh_LdV7"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Distribution of cuisines\r\n",
    "new_label_count <- preprocessed_df %>% \r\n",
    "  count(cuisine) %>% \r\n",
    "  arrange(desc(n))\r\n",
    "\r\n",
    "list(new_label_count = new_label_count,\r\n",
    "     old_label_count = old_label_count)"
   ],
   "outputs": [],
   "metadata": {
    "id": "aSh23klBLwDz"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਯਮ! ਡਾਟਾ ਸੁਚੱਜਾ, ਸੰਤੁਲਿਤ ਅਤੇ ਬਹੁਤ ਹੀ ਸੁਆਦਿਸ਼ਟ ਹੈ 😋!\n",
    "\n",
    "> ਆਮ ਤੌਰ 'ਤੇ, ਇੱਕ ਰੈਸਿਪੀ ਆਮ ਤੌਰ 'ਤੇ ਮਾਡਲਿੰਗ ਲਈ ਇੱਕ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਰ ਵਜੋਂ ਵਰਤੀ ਜਾਂਦੀ ਹੈ, ਜਿੱਥੇ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਡਾਟਾ ਸੈਟ 'ਤੇ ਮਾਡਲਿੰਗ ਲਈ ਤਿਆਰ ਕਰਨ ਲਈ ਕਿਹੜੇ ਕਦਮ ਲਾਗੂ ਕੀਤੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ। ਇਸ ਸਥਿਤੀ ਵਿੱਚ, ਇੱਕ `workflow()` ਆਮ ਤੌਰ 'ਤੇ ਵਰਤੀ ਜਾਂਦੀ ਹੈ (ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲੇ ਪਾਠਾਂ ਵਿੱਚ ਵੇਖਿਆ ਹੈ) ਰੈਸਿਪੀ ਨੂੰ ਹੱਥੋਂ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਬਜਾਏ।\n",
    ">\n",
    "> ਇਸ ਤਰ੍ਹਾਂ, ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ **`prep()`** ਅਤੇ **`bake()`** ਰੈਸਿਪੀ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ ਜਦੋਂ ਤੁਸੀਂ tidymodels ਵਰਤਦੇ ਹੋ, ਪਰ ਇਹ ਤੁਹਾਡੇ ਟੂਲਕਿਟ ਵਿੱਚ ਮਦਦਗਾਰ ਫੰਕਸ਼ਨ ਹਨ ਇਹ ਪੱਕਾ ਕਰਨ ਲਈ ਕਿ ਰੈਸਿਪੀ ਉਹੀ ਕਰ ਰਹੇ ਹਨ ਜੋ ਤੁਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹੋ, ਜਿਵੇਂ ਕਿ ਸਾਡੇ ਕੇਸ ਵਿੱਚ।\n",
    ">\n",
    "> ਜਦੋਂ ਤੁਸੀਂ **`new_data = NULL`** ਨਾਲ ਇੱਕ ਤਿਆਰ ਕੀਤੀ ਰੈਸਿਪੀ ਨੂੰ **`bake()`** ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਉਹ ਡਾਟਾ ਵਾਪਸ ਮਿਲਦਾ ਹੈ ਜੋ ਤੁਸੀਂ ਰੈਸਿਪੀ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦੇ ਸਮੇਂ ਦਿੱਤਾ ਸੀ, ਪਰ ਇਹ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਕਦਮਾਂ ਵਿੱਚੋਂ ਗੁਜ਼ਰ ਚੁੱਕਾ ਹੁੰਦਾ ਹੈ।\n",
    "\n",
    "ਆਓ ਹੁਣ ਇਸ ਡਾਟਾ ਦੀ ਇੱਕ ਕਾਪੀ ਭਵਿੱਖ ਦੇ ਪਾਠਾਂ ਵਿੱਚ ਵਰਤਣ ਲਈ ਸੰਭਾਲੀਏ:\n"
   ],
   "metadata": {
    "id": "HEu80HZ8L7ae"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "# Save preprocessed data\r\n",
    "write_csv(preprocessed_df, \"../../../data/cleaned_cuisines_R.csv\")"
   ],
   "outputs": [],
   "metadata": {
    "id": "cBmCbIgrMOI6"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "ਇਹ ਨਵਾਂ CSV ਹੁਣ ਮੂਲ ਡਾਟਾ ਫੋਲਡਰ ਵਿੱਚ ਮਿਲ ਸਕਦਾ ਹੈ।\n",
    "\n",
    "**🚀ਚੁਣੌਤੀ**\n",
    "\n",
    "ਇਸ ਪਾਠਕ੍ਰਮ ਵਿੱਚ ਕਈ ਦਿਲਚਸਪ ਡਾਟਾਸੈਟਸ ਸ਼ਾਮਲ ਹਨ। `data` ਫੋਲਡਰਾਂ ਵਿੱਚ ਖੋਜ ਕਰੋ ਅਤੇ ਵੇਖੋ ਕਿ ਕੀ ਕੋਈ ਡਾਟਾਸੈਟ ਦੋ-ਵਰਗੀ ਜਾਂ ਬਹੁ-ਵਰਗੀ ਵਰਗੀਕਰਨ ਲਈ ਉਚਿਤ ਹੈ? ਤੁਸੀਂ ਇਸ ਡਾਟਾਸੈਟ ਤੋਂ ਕਿਹੜੇ ਸਵਾਲ ਪੁੱਛੋਗੇ?\n",
    "\n",
    "## [**ਪਾਠ ਬਾਅਦ ਕਵੀਜ਼**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)\n",
    "\n",
    "## **ਸਮੀਖਿਆ ਅਤੇ ਸਵੈ ਅਧਿਐਨ**\n",
    "\n",
    "-   [ਪੈਕੇਜ themis](https://github.com/tidymodels/themis) ਦੇਖੋ। ਅਸਮਤਲ ਡਾਟਾ ਨਾਲ ਨਿਪਟਣ ਲਈ ਹੋਰ ਕਿਹੜੀਆਂ ਤਕਨੀਕਾਂ ਵਰਤੀ ਜਾ ਸਕਦੀਆਂ ਹਨ?\n",
    "\n",
    "-   Tidy models [ਸੰਬੰਧਿਤ ਵੈਬਸਾਈਟ](https://www.tidymodels.org/start/)।\n",
    "\n",
    "-   H. Wickham ਅਤੇ G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/)।\n",
    "\n",
    "#### ਧੰਨਵਾਦ:\n",
    "\n",
    "[`Allison Horst`](https://twitter.com/allison_horst/) ਨੂੰ ਸ਼ਾਨਦਾਰ ਚਿੱਤਰਕਲਾਵਾਂ ਬਣਾਉਣ ਲਈ ਜੋ R ਨੂੰ ਹੋਰ ਸਵਾਗਤਯੋਗ ਅਤੇ ਦਿਲਚਸਪ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਹੋਰ ਚਿੱਤਰਕਲਾਵਾਂ ਉਸ ਦੇ [ਗੈਲਰੀ](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM) 'ਤੇ ਲੱਭੋ।\n",
    "\n",
    "[Cassie Breviu](https://www.twitter.com/cassieview) ਅਤੇ [Jen Looper](https://www.twitter.com/jenlooper) ਨੂੰ ਇਸ ਮੋਡੀਊਲ ਦੇ ਮੂਲ Python ਸੰਸਕਰਣ ਬਣਾਉਣ ਲਈ ♥️\n",
    "\n",
    "<p >\n",
    "   <img src=\"../../images/r_learners_sm.jpeg\"\n",
    "   width=\"600\"/>\n",
    "   <figcaption>@allison_horst ਦੁਆਰਾ ਕਲਾ</figcaption>\n"
   ],
   "metadata": {
    "id": "WQs5621pMGwf"
   }
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n---\n\n**ਅਸਵੀਕਤੀ**:  \nਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।\n"
   ]
  }
 ]
}