{ "nbformat": 4, "nbformat_minor": 2, "metadata": { "colab": { "name": "lesson_11-R.ipynb", "provenance": [], "collapsed_sections": [], "toc_visible": true }, "kernelspec": { "name": "ir", "display_name": "R" }, "language_info": { "name": "R" }, "coopTranslator": { "original_hash": "6ea6a5171b1b99b7b5a55f7469c048d2", "translation_date": "2025-08-29T19:27:54+00:00", "source_file": "4-Classification/2-Classifiers-1/solution/R/lesson_11-R.ipynb", "language_code": "pa" } }, "cells": [ { "cell_type": "markdown", "source": [ "# ਇੱਕ ਵਰਗੀਕਰਨ ਮਾਡਲ ਬਣਾਓ: ਸੁਆਦਿਸ਼ਟ ਏਸ਼ੀਆਈ ਅਤੇ ਭਾਰਤੀ ਖਾਣੇ\n" ], "metadata": { "id": "zs2woWv_HoE8" } }, { "cell_type": "markdown", "source": [ "## ਖਾਣੇ ਦੇ ਵਰਗੀਕਰਨ 1\n", "\n", "ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਵੱਖ-ਵੱਖ ਵਰਗੀਕਰਨ ਕਰਨ ਵਾਲੇ ਤਰੀਕੇ ਦੀ ਜਾਂਚ ਕਰਾਂਗੇ *ਇਕ ਸਮੂਹ ਸਮੱਗਰੀਆਂ ਦੇ ਆਧਾਰ 'ਤੇ ਦਿੱਤੇ ਗਏ ਰਾਸ਼ਟਰੀ ਖਾਣੇ ਦੀ ਭਵਿੱਖਵਾਣੀ ਕਰਨ ਲਈ।* ਇਸ ਦੌਰਾਨ, ਅਸੀਂ ਸਿੱਖਾਂਗੇ ਕਿ ਵਰਗੀਕਰਨ ਦੇ ਕੰਮਾਂ ਲਈ ਅਲਗੋਰਿਥਮਾਂ ਨੂੰ ਕਿਵੇਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।\n", "\n", "### [**ਪਾਠ ਤੋਂ ਪਹਿਲਾਂ ਕਵੀਜ਼**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/21/)\n", "\n", "### **ਤਿਆਰੀ**\n", "\n", "ਇਹ ਪਾਠ ਸਾਡੇ [ਪਿਛਲੇ ਪਾਠ](https://github.com/microsoft/ML-For-Beginners/blob/main/4-Classification/1-Introduction/solution/lesson_10-R.ipynb) 'ਤੇ ਅਧਾਰਿਤ ਹੈ ਜਿੱਥੇ ਅਸੀਂ:\n", "\n", "- ਏਸ਼ੀਆ ਅਤੇ ਭਾਰਤ ਦੇ ਸਾਰੇ ਸ਼ਾਨਦਾਰ ਖਾਣਿਆਂ ਦੇ ਡਾਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਰਗੀਕਰਨ ਦਾ ਹੌਲੀ ਤਰੀਕੇ ਨਾਲ ਪੇਸ਼ਕਰਮ ਕੀਤਾ ਸੀ 😋।\n", "\n", "- ਡਾਟਾ ਨੂੰ ਤਿਆਰ ਅਤੇ ਸਾਫ ਕਰਨ ਲਈ ਕੁਝ [dplyr verbs](https://dplyr.tidyverse.org/) ਦੀ ਜਾਂਚ ਕੀਤੀ ਸੀ।\n", "\n", "- ggplot2 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੁੰਦਰ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈਆਂ।\n", "\n", "- [recipes](https://recipes.tidymodels.org/articles/Simple_Example.html) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਸੰਤੁਲਿਤ ਡਾਟਾ ਨਾਲ ਨਜਿੱਠਣ ਦਾ ਤਰੀਕਾ ਦਿਖਾਇਆ।\n", "\n", "- ਇਹ ਪੱਕਾ ਕਰਨ ਲਈ ਕਿ ਸਾਡਾ ਰੈਸਿਪੀ ਜਿਵੇਂ ਚਾਹੀਦਾ ਹੈ ਤਿਵੇਂ ਕੰਮ ਕਰੇਗਾ, `prep` ਅਤੇ `bake` ਕਰਨ ਦਾ ਤਰੀਕਾ ਦਿਖਾਇਆ।\n", "\n", "#### **ਪੂਰਵ ਸ਼ਰਤ**\n", "\n", "ਇਸ ਪਾਠ ਲਈ, ਅਸੀਂ ਡਾਟਾ ਨੂੰ ਸਾਫ, ਤਿਆਰ ਅਤੇ ਵਿਜ਼ੁਅਲਾਈਜ਼ ਕਰਨ ਲਈ ਹੇਠ ਲਿਖੇ ਪੈਕੇਜਾਂ ਦੀ ਲੋੜ ਹੋਵੇਗੀ:\n", "\n", "- `tidyverse`: [tidyverse](https://www.tidyverse.org/) ਇੱਕ [R ਪੈਕੇਜਾਂ ਦਾ ਸੰਗ੍ਰਹਿ](https://www.tidyverse.org/packages) ਹੈ ਜੋ ਡਾਟਾ ਸਾਇੰਸ ਨੂੰ ਤੇਜ਼, ਆਸਾਨ ਅਤੇ ਮਜ਼ੇਦਾਰ ਬਣਾਉਂਦਾ ਹੈ!\n", "\n", "- `tidymodels`: [tidymodels](https://www.tidymodels.org/) ਫਰੇਮਵਰਕ ਮਾਡਲਿੰਗ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ [ਪੈਕੇਜਾਂ ਦਾ ਸੰਗ੍ਰਹਿ](https://www.tidymodels.org/packages/) ਹੈ।\n", "\n", "- `themis`: [themis ਪੈਕੇਜ](https://themis.tidymodels.org/) ਅਸੰਤੁਲਿਤ ਡਾਟਾ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਵਾਧੂ ਰੈਸਿਪੀ ਕਦਮ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।\n", "\n", "- `nnet`: [nnet ਪੈਕੇਜ](https://cran.r-project.org/web/packages/nnet/nnet.pdf) ਇੱਕ ਲੁਕਵੇਂ ਲੇਅਰ ਵਾਲੇ ਫੀਡ-ਫਾਰਵਰਡ ਨਿਊਰਲ ਨੈਟਵਰਕ ਅਤੇ ਮਲਟੀਨੋਮਿਅਲ ਲੋਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ ਮਾਡਲਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਫੰਕਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।\n", "\n", "ਤੁਹਾਨੂੰ ਇਹਨਾਂ ਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਤਰੀਕੇ ਨਾਲ ਇੰਸਟਾਲ ਕਰ ਸਕਦੇ ਹੋ:\n" ], "metadata": { "id": "iDFOb3ebHwQC" } }, { "cell_type": "markdown", "source": [ "`install.packages(c(\"tidyverse\", \"tidymodels\", \"DataExplorer\", \"here\"))`\n", "\n", "ਇਸ ਦੇ ਬਦਲੇ, ਹੇਠਾਂ ਦਿੱਤਾ ਸਕ੍ਰਿਪਟ ਜਾਂਚ ਕਰਦਾ ਹੈ ਕਿ ਕੀ ਤੁਹਾਡੇ ਕੋਲ ਇਸ ਮੋਡਿਊਲ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਪੈਕੇਜ ਮੌਜੂਦ ਹਨ ਅਤੇ ਜੇ ਉਹ ਗੁੰਮ ਹਨ ਤਾਂ ਉਹਨਾਂ ਨੂੰ ਤੁਹਾਡੇ ਲਈ ਇੰਸਟਾਲ ਕਰਦਾ ਹੈ।\n" ], "metadata": { "id": "4V85BGCjII7F" } }, { "cell_type": "code", "execution_count": 2, "source": [ "suppressWarnings(if (!require(\"pacman\"))install.packages(\"pacman\"))\r\n", "\r\n", "pacman::p_load(tidyverse, tidymodels, themis, here)" ], "outputs": [ { "output_type": "stream", "name": "stderr", "text": [ "Loading required package: pacman\n", "\n" ] } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "an5NPyyKIKNR", "outputId": "834d5e74-f4b8-49f9-8ab5-4c52ff2d7bc8" } }, { "cell_type": "markdown", "source": [ "ਚਲੋ, ਸ਼ੁਰੂ ਕਰੀਏ!\n", "\n", "## 1. ਡਾਟਾ ਨੂੰ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਟੈਸਟ ਸੈਟਾਂ ਵਿੱਚ ਵੰਡੋ।\n", "\n", "ਅਸੀਂ ਪਿਛਲੇ ਪਾਠ ਦੇ ਕੁਝ ਕਦਮਾਂ ਨੂੰ ਚੁਣ ਕੇ ਸ਼ੁਰੂ ਕਰਾਂਗੇ।\n", "\n", "### ਵੱਖ-ਵੱਖ ਖਾਣਿਆਂ ਵਿੱਚ ਗਲਤਫਹਮੀਆਂ ਪੈਦਾ ਕਰਨ ਵਾਲੀਆਂ ਸਭ ਤੋਂ ਆਮ ਸਮੱਗਰੀਆਂ ਨੂੰ ਹਟਾਓ, `dplyr::select()` ਦੀ ਵਰਤੋਂ ਕਰਕੇ।\n", "\n", "ਸਭ ਨੂੰ ਚਾਵਲ, ਲਸਣ ਅਤੇ ਅਦਰਕ ਪਸੰਦ ਹੈ!\n" ], "metadata": { "id": "0ax9GQLBINVv" } }, { "cell_type": "code", "execution_count": 3, "source": [ "# Load the original cuisines data\r\n", "df <- read_csv(file = \"https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv\")\r\n", "\r\n", "# Drop id column, rice, garlic and ginger from our original data set\r\n", "df_select <- df %>% \r\n", " select(-c(1, rice, garlic, ginger)) %>%\r\n", " # Encode cuisine column as categorical\r\n", " mutate(cuisine = factor(cuisine))\r\n", "\r\n", "# Display new data set\r\n", "df_select %>% \r\n", " slice_head(n = 5)\r\n", "\r\n", "# Display distribution of cuisines\r\n", "df_select %>% \r\n", " count(cuisine) %>% \r\n", " arrange(desc(n))" ], "outputs": [ { "output_type": "stream", "name": "stderr", "text": [ "New names:\n", "* `` -> ...1\n", "\n", "\u001b[1m\u001b[1mRows: \u001b[1m\u001b[22m\u001b[34m\u001b[34m2448\u001b[34m\u001b[39m \u001b[1m\u001b[1mColumns: \u001b[1m\u001b[22m\u001b[34m\u001b[34m385\u001b[34m\u001b[39m\n", "\n", "\u001b[36m──\u001b[39m \u001b[1m\u001b[1mColumn specification\u001b[1m\u001b[22m \u001b[36m────────────────────────────────────────────────────────\u001b[39m\n", "\u001b[1mDelimiter:\u001b[22m \",\"\n", "\u001b[31mchr\u001b[39m (1): cuisine\n", "\u001b[32mdbl\u001b[39m (384): ...1, almond, angelica, anise, anise_seed, apple, apple_brandy, a...\n", "\n", "\n", "\u001b[36mℹ\u001b[39m Use \u001b[30m\u001b[47m\u001b[30m\u001b[47m`spec()`\u001b[47m\u001b[30m\u001b[49m\u001b[39m to retrieve the full column specification for this data.\n", "\u001b[36mℹ\u001b[39m Specify the column types or set \u001b[30m\u001b[47m\u001b[30m\u001b[47m`show_col_types = FALSE`\u001b[47m\u001b[30m\u001b[49m\u001b[39m to quiet this message.\n", "\n" ] }, { "output_type": "display_data", "data": { "text/plain": [ " cuisine almond angelica anise anise_seed apple apple_brandy apricot armagnac\n", "1 indian 0 0 0 0 0 0 0 0 \n", "2 indian 1 0 0 0 0 0 0 0 \n", "3 indian 0 0 0 0 0 0 0 0 \n", "4 indian 0 0 0 0 0 0 0 0 \n", "5 indian 0 0 0 0 0 0 0 0 \n", " artemisia ⋯ whiskey white_bread white_wine whole_grain_wheat_flour wine wood\n", "1 0 ⋯ 0 0 0 0 0 0 \n", "2 0 ⋯ 0 0 0 0 0 0 \n", "3 0 ⋯ 0 0 0 0 0 0 \n", "4 0 ⋯ 0 0 0 0 0 0 \n", "5 0 ⋯ 0 0 0 0 0 0 \n", " yam yeast yogurt zucchini\n", "1 0 0 0 0 \n", "2 0 0 0 0 \n", "3 0 0 0 0 \n", "4 0 0 0 0 \n", "5 0 0 1 0 " ], "text/markdown": [ "\n", "A tibble: 5 × 381\n", "\n", "| cuisine <fct> | almond <dbl> | angelica <dbl> | anise <dbl> | anise_seed <dbl> | apple <dbl> | apple_brandy <dbl> | apricot <dbl> | armagnac <dbl> | artemisia <dbl> | ⋯ ⋯ | whiskey <dbl> | white_bread <dbl> | white_wine <dbl> | whole_grain_wheat_flour <dbl> | wine <dbl> | wood <dbl> | yam <dbl> | yeast <dbl> | yogurt <dbl> | zucchini <dbl> |\n", "|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|\n", "| indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "| indian | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "| indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "| indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "| indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |\n", "\n" ], "text/latex": [ "A tibble: 5 × 381\n", "\\begin{tabular}{lllllllllllllllllllll}\n", " cuisine & almond & angelica & anise & anise\\_seed & apple & apple\\_brandy & apricot & armagnac & artemisia & ⋯ & whiskey & white\\_bread & white\\_wine & whole\\_grain\\_wheat\\_flour & wine & wood & yam & yeast & yogurt & zucchini\\\\\n", " & & & & & & & & & & ⋯ & & & & & & & & & & \\\\\n", "\\hline\n", "\t indian & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t indian & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t indian & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t indian & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t indian & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 5 × 381
cuisinealmondangelicaaniseanise_seedappleapple_brandyapricotarmagnacartemisiawhiskeywhite_breadwhite_winewhole_grain_wheat_flourwinewoodyamyeastyogurtzucchini
<fct><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl>
indian0000000000000000000
indian1000000000000000000
indian0000000000000000000
indian0000000000000000000
indian0000000000000000010
\n" ] }, "metadata": {} }, { "output_type": "display_data", "data": { "text/plain": [ " cuisine n \n", "1 korean 799\n", "2 indian 598\n", "3 chinese 442\n", "4 japanese 320\n", "5 thai 289" ], "text/markdown": [ "\n", "A tibble: 5 × 2\n", "\n", "| cuisine <fct> | n <int> |\n", "|---|---|\n", "| korean | 799 |\n", "| indian | 598 |\n", "| chinese | 442 |\n", "| japanese | 320 |\n", "| thai | 289 |\n", "\n" ], "text/latex": [ "A tibble: 5 × 2\n", "\\begin{tabular}{ll}\n", " cuisine & n\\\\\n", " & \\\\\n", "\\hline\n", "\t korean & 799\\\\\n", "\t indian & 598\\\\\n", "\t chinese & 442\\\\\n", "\t japanese & 320\\\\\n", "\t thai & 289\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 5 × 2
cuisinen
<fct><int>
korean 799
indian 598
chinese 442
japanese320
thai 289
\n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 735 }, "id": "jhCrrH22IWVR", "outputId": "d444a85c-1d8b-485f-bc4f-8be2e8f8217c" } }, { "cell_type": "markdown", "source": [ "ਬਿਲਕੁਲ! ਹੁਣ, ਡੇਟਾ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਵੰਡਣ ਦਾ ਸਮਾਂ ਹੈ ਕਿ 70% ਡੇਟਾ ਟ੍ਰੇਨਿੰਗ ਲਈ ਜਾਵੇ ਅਤੇ 30% ਟੈਸਟਿੰਗ ਲਈ। ਅਸੀਂ ਡੇਟਾ ਵੰਡਣ ਵੇਲੇ `stratification` ਤਕਨੀਕ ਨੂੰ ਲਾਗੂ ਕਰਾਂਗੇ ਤਾਂ ਜੋ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਵੈਲੀਡੇਸ਼ਨ ਡੇਟਾਸੈਟ ਵਿੱਚ ਹਰ ਇੱਕ ਖਾਣੇ ਦੀ `ਅਨੁਪਾਤ ਨੂੰ ਕਾਇਮ ਰੱਖਿਆ ਜਾ ਸਕੇ`।\n", "\n", "[rsample](https://rsample.tidymodels.org/), ਜੋ ਕਿ Tidymodels ਵਿੱਚ ਇੱਕ ਪੈਕੇਜ ਹੈ, ਡੇਟਾ ਵੰਡਣ ਅਤੇ ਰੀਸੈਂਪਲਿੰਗ ਲਈ ਕੁਸ਼ਲ ਢਾਂਚਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ:\n" ], "metadata": { "id": "AYTjVyajIdny" } }, { "cell_type": "code", "execution_count": 4, "source": [ "# Load the core Tidymodels packages into R session\r\n", "library(tidymodels)\r\n", "\r\n", "# Create split specification\r\n", "set.seed(2056)\r\n", "cuisines_split <- initial_split(data = df_select,\r\n", " strata = cuisine,\r\n", " prop = 0.7)\r\n", "\r\n", "# Extract the data in each split\r\n", "cuisines_train <- training(cuisines_split)\r\n", "cuisines_test <- testing(cuisines_split)\r\n", "\r\n", "# Print the number of cases in each split\r\n", "cat(\"Training cases: \", nrow(cuisines_train), \"\\n\",\r\n", " \"Test cases: \", nrow(cuisines_test), sep = \"\")\r\n", "\r\n", "# Display the first few rows of the training set\r\n", "cuisines_train %>% \r\n", " slice_head(n = 5)\r\n", "\r\n", "\r\n", "# Display distribution of cuisines in the training set\r\n", "cuisines_train %>% \r\n", " count(cuisine) %>% \r\n", " arrange(desc(n))" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Training cases: 1712\n", "Test cases: 736" ] }, { "output_type": "display_data", "data": { "text/plain": [ " cuisine almond angelica anise anise_seed apple apple_brandy apricot armagnac\n", "1 chinese 0 0 0 0 0 0 0 0 \n", "2 chinese 0 0 0 0 0 0 0 0 \n", "3 chinese 0 0 0 0 0 0 0 0 \n", "4 chinese 0 0 0 0 0 0 0 0 \n", "5 chinese 0 0 0 0 0 0 0 0 \n", " artemisia ⋯ whiskey white_bread white_wine whole_grain_wheat_flour wine wood\n", "1 0 ⋯ 0 0 0 0 1 0 \n", "2 0 ⋯ 0 0 0 0 1 0 \n", "3 0 ⋯ 0 0 0 0 0 0 \n", "4 0 ⋯ 0 0 0 0 0 0 \n", "5 0 ⋯ 0 0 0 0 0 0 \n", " yam yeast yogurt zucchini\n", "1 0 0 0 0 \n", "2 0 0 0 0 \n", "3 0 0 0 0 \n", "4 0 0 0 0 \n", "5 0 0 0 0 " ], "text/markdown": [ "\n", "A tibble: 5 × 381\n", "\n", "| cuisine <fct> | almond <dbl> | angelica <dbl> | anise <dbl> | anise_seed <dbl> | apple <dbl> | apple_brandy <dbl> | apricot <dbl> | armagnac <dbl> | artemisia <dbl> | ⋯ ⋯ | whiskey <dbl> | white_bread <dbl> | white_wine <dbl> | whole_grain_wheat_flour <dbl> | wine <dbl> | wood <dbl> | yam <dbl> | yeast <dbl> | yogurt <dbl> | zucchini <dbl> |\n", "|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|\n", "| chinese | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |\n", "| chinese | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |\n", "| chinese | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "| chinese | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "| chinese | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ⋯ | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |\n", "\n" ], "text/latex": [ "A tibble: 5 × 381\n", "\\begin{tabular}{lllllllllllllllllllll}\n", " cuisine & almond & angelica & anise & anise\\_seed & apple & apple\\_brandy & apricot & armagnac & artemisia & ⋯ & whiskey & white\\_bread & white\\_wine & whole\\_grain\\_wheat\\_flour & wine & wood & yam & yeast & yogurt & zucchini\\\\\n", " & & & & & & & & & & ⋯ & & & & & & & & & & \\\\\n", "\\hline\n", "\t chinese & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t chinese & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t chinese & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t chinese & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\t chinese & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & ⋯ & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 5 × 381
cuisinealmondangelicaaniseanise_seedappleapple_brandyapricotarmagnacartemisiawhiskeywhite_breadwhite_winewhole_grain_wheat_flourwinewoodyamyeastyogurtzucchini
<fct><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl><dbl>
chinese0000000000000100000
chinese0000000000000100000
chinese0000000000000000000
chinese0000000000000000000
chinese0000000000000000000
\n" ] }, "metadata": {} }, { "output_type": "display_data", "data": { "text/plain": [ " cuisine n \n", "1 korean 559\n", "2 indian 418\n", "3 chinese 309\n", "4 japanese 224\n", "5 thai 202" ], "text/markdown": [ "\n", "A tibble: 5 × 2\n", "\n", "| cuisine <fct> | n <int> |\n", "|---|---|\n", "| korean | 559 |\n", "| indian | 418 |\n", "| chinese | 309 |\n", "| japanese | 224 |\n", "| thai | 202 |\n", "\n" ], "text/latex": [ "A tibble: 5 × 2\n", "\\begin{tabular}{ll}\n", " cuisine & n\\\\\n", " & \\\\\n", "\\hline\n", "\t korean & 559\\\\\n", "\t indian & 418\\\\\n", "\t chinese & 309\\\\\n", "\t japanese & 224\\\\\n", "\t thai & 202\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 5 × 2
cuisinen
<fct><int>
korean 559
indian 418
chinese 309
japanese224
thai 202
\n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 535 }, "id": "w5FWIkEiIjdN", "outputId": "2e195fd9-1a8f-4b91-9573-cce5582242df" } }, { "cell_type": "markdown", "source": [ "## 2. ਅਸਮਾਨ ਡਾਟਾ ਨਾਲ ਨਿਪਟਣਾ\n", "\n", "ਜਿਵੇਂ ਤੁਸੀਂ ਮੂਲ ਡਾਟਾ ਸੈੱਟ ਅਤੇ ਸਾਡੇ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਵਿੱਚ ਵੇਖਿਆ ਹੋਵੇਗਾ, ਖਾਣਿਆਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ ਕਾਫ਼ੀ ਅਸਮਾਨ ਵਰਤੋਂ ਹੈ। ਕੋਰੀਅਨ ਖਾਣੇ *ਲਗਭਗ* ਤਿੰਨ ਗੁਣਾ ਥਾਈ ਖਾਣਿਆਂ ਤੋਂ ਵੱਧ ਹਨ। ਅਸਮਾਨ ਡਾਟਾ ਅਕਸਰ ਮਾਡਲ ਦੀ ਪ੍ਰਦਰਸ਼ਨਸ਼ੀਲਤਾ 'ਤੇ ਨਕਾਰਾਤਮਕ ਪ੍ਰਭਾਵ ਪਾਉਂਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਮਾਡਲ ਉਸ ਸਮੇਂ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਹਨ ਜਦੋਂ ਅਵਲੋਕਨਾਂ ਦੀ ਗਿਣਤੀ ਬਰਾਬਰ ਹੁੰਦੀ ਹੈ ਅਤੇ ਇਸ ਲਈ ਅਸਮਾਨ ਡਾਟਾ ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ।\n", "\n", "ਅਸਮਾਨ ਡਾਟਾ ਸੈੱਟ ਨਾਲ ਨਿਪਟਣ ਦੇ ਮੁੱਖ ਤੌਰ 'ਤੇ ਦੋ ਤਰੀਕੇ ਹਨ:\n", "\n", "- ਘੱਟ ਗਿਣਤੀ ਵਾਲੇ ਵਰਗ ਵਿੱਚ ਅਵਲੋਕਨ ਸ਼ਾਮਲ ਕਰਨਾ: `Over-sampling` ਜਿਵੇਂ ਕਿ SMOTE ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰਨਾ, ਜੋ ਘੱਟ ਗਿਣਤੀ ਵਾਲੇ ਵਰਗ ਦੇ ਨਜ਼ਦੀਕੀ ਪੜੋਸੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨਵੇਂ ਉਦਾਹਰਨਾਂ ਨੂੰ ਕ੍ਰਿਤ੍ਰਿਮ ਤੌਰ 'ਤੇ ਤਿਆਰ ਕਰਦਾ ਹੈ।\n", "\n", "- ਵੱਧ ਗਿਣਤੀ ਵਾਲੇ ਵਰਗ ਤੋਂ ਅਵਲੋਕਨ ਹਟਾਉਣਾ: `Under-sampling`\n", "\n", "ਸਾਡੇ ਪਿਛਲੇ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ `recipe` ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਸਮਾਨ ਡਾਟਾ ਸੈੱਟ ਨਾਲ ਨਿਪਟਣ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਸੀ। ਇੱਕ recipe ਨੂੰ ਇੱਕ ਬਲੂਪ੍ਰਿੰਟ ਵਜੋਂ ਸੋਚਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਇਹ ਵਰਣਨ ਕਰਦਾ ਹੈ ਕਿ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਤਿਆਰ ਕਰਨ ਲਈ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇ ਕਦਮ ਲਾਗੂ ਕੀਤੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ `training set` ਵਿੱਚ ਖਾਣਿਆਂ ਦੀ ਗਿਣਤੀ ਦਾ ਵੰਡਨ ਬਰਾਬਰ ਹੋਵੇ। ਆਓ ਇਸ 'ਤੇ ਸਿੱਧੇ ਚੱਲੀਏ।\n" ], "metadata": { "id": "daBi9qJNIwqW" } }, { "cell_type": "code", "execution_count": 5, "source": [ "# Load themis package for dealing with imbalanced data\r\n", "library(themis)\r\n", "\r\n", "# Create a recipe for preprocessing training data\r\n", "cuisines_recipe <- recipe(cuisine ~ ., data = cuisines_train) %>% \r\n", " step_smote(cuisine)\r\n", "\r\n", "# Print recipe\r\n", "cuisines_recipe" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "Data Recipe\n", "\n", "Inputs:\n", "\n", " role #variables\n", " outcome 1\n", " predictor 380\n", "\n", "Operations:\n", "\n", "SMOTE based on cuisine" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 200 }, "id": "Az6LFBGxI1X0", "outputId": "29d71d85-64b0-4e62-871e-bcd5398573b6" } }, { "cell_type": "markdown", "source": [ "ਤੁਸੀਂ ਬੇਸ਼ਕ ਪੱਕਾ ਕਰ ਸਕਦੇ ਹੋ (prep+bake ਦੀ ਵਰਤੋਂ ਕਰਕੇ) ਕਿ ਰੈਸਿਪੀ ਤੁਹਾਡੇ ਉਮੀਦਾਂ ਅਨੁਸਾਰ ਕੰਮ ਕਰੇਗੀ - ਸਾਰੇ ਖਾਣੇ ਦੇ ਲੇਬਲਾਂ ਵਿੱਚ `559` ਅਧਿਐਨ ਹਨ।\n", "\n", "ਕਿਉਂਕਿ ਅਸੀਂ ਇਸ ਰੈਸਿਪੀ ਨੂੰ ਮਾਡਲਿੰਗ ਲਈ ਇੱਕ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਰ ਵਜੋਂ ਵਰਤ ਰਹੇ ਹਾਂ, ਇੱਕ `workflow()` ਸਾਰੇ ਤਿਆਰੀ ਅਤੇ ਬੇਕ ਕੰਮ ਕਰੇਗਾ, ਇਸ ਲਈ ਸਾਨੂੰ ਰੈਸਿਪੀ ਨੂੰ ਹੱਥੋਂ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਲੋੜ ਨਹੀਂ ਪਵੇਗੀ।\n", "\n", "ਹੁਣ ਅਸੀਂ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਤਿਆਰ ਹਾਂ 👩‍💻👨‍💻!\n", "\n", "## 3. ਆਪਣੇ ਕਲਾਸੀਫਾਇਰ ਦੀ ਚੋਣ\n", "\n", "

\n", " \n", "

Artwork by @allison_horst
\n" ], "metadata": { "id": "NBL3PqIWJBBB" } }, { "cell_type": "markdown", "source": [ "ਹੁਣ ਸਾਨੂੰ ਫੈਸਲਾ ਕਰਨਾ ਹੈ ਕਿ ਇਸ ਕੰਮ ਲਈ ਕਿਹੜਾ ਐਲਗੋਰਿਥਮ ਵਰਤਣਾ ਹੈ 🤔।\n", "\n", "Tidymodels ਵਿੱਚ, [`parsnip ਪੈਕੇਜ`](https://parsnip.tidymodels.org/index.html) ਵੱਖ-ਵੱਖ ਇੰਜਨਾਂ (ਪੈਕੇਜਾਂ) ਵਿੱਚ ਮਾਡਲਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਇੱਕ ਸਥਿਰ ਇੰਟਰਫੇਸ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਕਿਰਪਾ ਕਰਕੇ [ਮਾਡਲ ਦੀਆਂ ਕਿਸਮਾਂ ਅਤੇ ਇੰਜਨ](https://www.tidymodels.org/find/parsnip/#models) ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ [ਮਾਡਲ ਆਰਗੂਮੈਂਟ](https://www.tidymodels.org/find/parsnip/#model-args) ਦੀ ਖੋਜ ਕਰਨ ਲਈ parsnip ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਵੇਖੋ। ਪਹਿਲੀ ਨਜ਼ਰ ਵਿੱਚ ਇਹ ਵੱਖ-ਵੱਖ ਵਿਕਲਪ ਕਾਫ਼ੀ ਹੈਰਾਨੀਜਨਕ ਲੱਗਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਹੇਠਾਂ ਦਿੱਤੇ ਤਰੀਕੇ ਸਾਰੇ ਵਰਗੀਕਰਨ ਤਕਨੀਕਾਂ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ:\n", "\n", "- C5.0 ਰੂਲ-ਅਧਾਰਿਤ ਵਰਗੀਕਰਨ ਮਾਡਲ\n", "\n", "- ਲਚਕਦਾਰ ਵਿਭਾਜਕ ਮਾਡਲ\n", "\n", "- ਰੇਖੀ ਵਿਭਾਜਕ ਮਾਡਲ\n", "\n", "- ਨਿਯਮਿਤ ਵਿਭਾਜਕ ਮਾਡਲ\n", "\n", "- ਲਾਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ ਮਾਡਲ\n", "\n", "- ਮਲਟੀਨੋਮਿਅਲ ਰਿਗਰੈਸ਼ਨ ਮਾਡਲ\n", "\n", "- ਨਾਈਵ ਬੇਅਜ਼ ਮਾਡਲ\n", "\n", "- ਸਪੋਰਟ ਵੈਕਟਰ ਮਸ਼ੀਨ\n", "\n", "- ਨਜ਼ਦੀਕੀ ਪੜੋਸੀ\n", "\n", "- ਫੈਸਲਾ ਲੱਕੜ\n", "\n", "- ਐਨਸੈਂਬਲ ਤਰੀਕੇ\n", "\n", "- ਨਿਊਰਲ ਨੈਟਵਰਕ\n", "\n", "ਇਹ ਸੂਚੀ ਜਾਰੀ ਹੈ!\n", "\n", "### **ਕਿਹੜੇ ਵਰਗੀਕਰਤਾ ਨੂੰ ਚੁਣਨਾ ਹੈ?**\n", "\n", "ਤਾਂ, ਤੁਸੀਂ ਕਿਹੜੇ ਵਰਗੀਕਰਤਾ ਨੂੰ ਚੁਣਨਾ ਚਾਹੁੰਦੇ ਹੋ? ਅਕਸਰ, ਕਈ ਤਰੀਕਿਆਂ ਨੂੰ ਚਲਾਉਣਾ ਅਤੇ ਚੰਗੇ ਨਤੀਜੇ ਦੀ ਭਾਲ ਕਰਨਾ ਇੱਕ ਤਰੀਕਾ ਹੁੰਦਾ ਹੈ।\n", "\n", "> AutoML ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਬਹੁਤ ਹੀ ਸੁਚਾਰੂ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਦਾ ਹੈ, ਇਹ ਕਲਾਉਡ ਵਿੱਚ ਇਹ ਤੁਲਨਾਵਾਂ ਚਲਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਤੁਹਾਨੂੰ ਆਪਣੇ ਡਾਟਾ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਐਲਗੋਰਿਥਮ ਚੁਣਨ ਦੀ ਸਹੂਲਤ ਮਿਲਦੀ ਹੈ। ਇਸਨੂੰ [ਇਥੇ](https://docs.microsoft.com/learn/modules/automate-model-selection-with-azure-automl/?WT.mc_id=academic-77952-leestott) ਅਜ਼ਮਾਓ।\n", "\n", "ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵਰਗੀਕਰਤਾ ਦੀ ਚੋਣ ਸਾਡੇ ਸਮੱਸਿਆ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਜਦੋਂ ਨਤੀਜਾ `ਦੋ ਤੋਂ ਵੱਧ ਵਰਗਾਂ` ਵਿੱਚ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਤੁਹਾਨੂੰ `ਮਲਟੀਕਲਾਸ ਵਰਗੀਕਰਨ ਐਲਗੋਰਿਥਮ` ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਪਵੇਗੀ, ਨਾ ਕਿ `ਬਾਈਨਰੀ ਵਰਗੀਕਰਨ।`\n", "\n", "### **ਇੱਕ ਵਧੀਆ ਤਰੀਕਾ**\n", "\n", "ਤਾਂਕਿ ਅੰਧੇਵਾਹੀ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਬਜਾਏ, ਇੱਕ ਵਧੀਆ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਇਸ ਡਾਊਨਲੋਡ ਕਰਨ ਯੋਗ [ML Cheat Sheet](https://docs.microsoft.com/azure/machine-learning/algorithm-cheat-sheet?WT.mc_id=academic-77952-leestott) ਦੇ ਵਿਚਾਰਾਂ ਦੀ ਪਾਲਣਾ ਕੀਤੀ ਜਾਵੇ। ਇੱਥੇ, ਅਸੀਂ ਪਤਾ ਲਗਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਮਲਟੀਕਲਾਸ ਸਮੱਸਿਆ ਲਈ ਸਾਡੇ ਕੋਲ ਕੁਝ ਚੋਣਾਂ ਹਨ:\n", "\n", "

\n", " \n", "

ਮਾਈਕਰੋਸਾਫਟ ਦੇ ਐਲਗੋਰਿਥਮ ਚੀਟ ਸ਼ੀਟ ਦਾ ਇੱਕ ਹਿੱਸਾ, ਜੋ ਮਲਟੀਕਲਾਸ ਵਰਗੀਕਰਨ ਵਿਕਲਪਾਂ ਦਾ ਵੇਰਵਾ ਦਿੰਦਾ ਹੈ
\n" ], "metadata": { "id": "a6DLAZ3vJZ14" } }, { "cell_type": "markdown", "source": [ "### **ਵਿਚਾਰਧਾਰਾ**\n", "\n", "ਆਓ ਵੇਖੀਏ ਕਿ ਦਿੱਤੀਆਂ ਪਾਬੰਦੀਆਂ ਦੇ ਤਹਿਤ ਅਸੀਂ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਇਸ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਿਵੇਂ ਲੱਭ ਸਕਦੇ ਹਾਂ:\n", "\n", "- **ਡੀਪ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਬਹੁਤ ਭਾਰੀ ਹਨ।** ਸਾਫ-ਸੁਥਰੇ ਪਰ ਘੱਟ ਡਾਟਾਸੈੱਟ ਅਤੇ ਨੋਟਬੁੱਕਸ ਰਾਹੀਂ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਚਲਾਉਣ ਦੇ ਕਾਰਨ, ਡੀਪ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਇਸ ਕੰਮ ਲਈ ਬਹੁਤ ਭਾਰੀ ਹਨ।\n", "\n", "- **ਦੋ-ਕਲਾਸ ਕਲਾਸੀਫਾਇਰ ਨਹੀਂ।** ਅਸੀਂ ਦੋ-ਕਲਾਸ ਕਲਾਸੀਫਾਇਰ ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰਦੇ, ਇਸ ਲਈ ਇਹ \"ਵਨ-ਵਰਸਸ-ਆਲ\" ਤਰੀਕੇ ਨੂੰ ਰੱਦ ਕਰ ਦਿੰਦਾ ਹੈ।\n", "\n", "- **ਡਿਸੀਜ਼ਨ ਟ੍ਰੀ ਜਾਂ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ।** ਡਿਸੀਜ਼ਨ ਟ੍ਰੀ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਮਲਟੀਨੋਮਿਅਲ ਰਿਗ੍ਰੈਸ਼ਨ/ਮਲਟੀਕਲਾਸ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਮਲਟੀਕਲਾਸ ਡਾਟਾ ਲਈ।\n", "\n", "- **ਮਲਟੀਕਲਾਸ ਬੂਸਟਡ ਡਿਸੀਜ਼ਨ ਟ੍ਰੀ ਵੱਖਰੀ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਦੇ ਹਨ।** ਮਲਟੀਕਲਾਸ ਬੂਸਟਡ ਡਿਸੀਜ਼ਨ ਟ੍ਰੀ ਜ਼ਿਆਦਾਤਰ ਗੈਰ-ਪੈਰਾਮੈਟਰਿਕ ਕੰਮਾਂ ਲਈ ਉਚਿਤ ਹਨ, ਜਿਵੇਂ ਕਿ ਰੈਂਕਿੰਗ ਬਣਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਕੰਮ, ਇਸ ਲਈ ਇਹ ਸਾਡੇ ਲਈ ਲਾਭਕਾਰੀ ਨਹੀਂ ਹੈ।\n", "\n", "ਇਸ ਤੋਂ ਇਲਾਵਾ, ਆਮ ਤੌਰ 'ਤੇ ਜਦੋਂ ਅਸੀਂ ਜਟਿਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ (ਜਿਵੇਂ ਕਿ ਐਂਸੈਂਬਲ ਮੈਥਡਸ) ਦੀ ਸ਼ੁਰੂਆਤ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਸਭ ਤੋਂ ਸਧਾਰਣ ਮਾਡਲ ਬਣਾਉਣਾ ਚੰਗਾ ਹੁੰਦਾ ਹੈ ਤਾਂ ਜੋ ਇਹ ਸਮਝਿਆ ਜਾ ਸਕੇ ਕਿ ਕੀ ਚੱਲ ਰਿਹਾ ਹੈ। ਇਸ ਲਈ, ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ `ਮਲਟੀਨੋਮਿਅਲ ਰਿਗ੍ਰੈਸ਼ਨ` ਮਾਡਲ ਨਾਲ ਸ਼ੁਰੂ ਕਰਾਂਗੇ।\n", "\n", "> ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਇੱਕ ਤਕਨੀਕ ਹੈ ਜਦੋਂ ਆਉਟਕਮ ਵੈਰੀਏਬਲ ਸ਼੍ਰੇਣੀਬੱਧ (ਜਾਂ ਨਾਮਵਾਚਕ) ਹੁੰਦਾ ਹੈ। ਬਾਈਨਰੀ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਵਿੱਚ ਆਉਟਕਮ ਵੈਰੀਏਬਲ ਦੀ ਗਿਣਤੀ ਦੋ ਹੁੰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਮਲਟੀਨੋਮਿਅਲ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਵਿੱਚ ਆਉਟਕਮ ਵੈਰੀਏਬਲ ਦੀ ਗਿਣਤੀ ਦੋ ਤੋਂ ਵੱਧ ਹੁੰਦੀ ਹੈ। ਹੋਰ ਪੜ੍ਹਨ ਲਈ [Advanced Regression Methods](https://bookdown.org/chua/ber642_advanced_regression/multinomial-logistic-regression.html) ਵੇਖੋ।\n", "\n", "## 4. ਮਲਟੀਨੋਮਿਅਲ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰੋ।\n", "\n", "Tidymodels ਵਿੱਚ, `parsnip::multinom_reg()`, ਇੱਕ ਮਾਡਲ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ ਜੋ ਮਲਟੀਨੋਮਿਅਲ ਵੰਡਣ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਲਟੀਕਲਾਸ ਡਾਟਾ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਰੇਖੀ ਪੇਸ਼ਗੋਈਕਾਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਸ ਮਾਡਲ ਨੂੰ ਫਿੱਟ ਕਰਨ ਲਈ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ/ਇੰਜਨਾਂ ਬਾਰੇ ਜਾਣਨ ਲਈ `?multinom_reg()` ਵੇਖੋ।\n", "\n", "ਇਸ ਉਦਾਹਰਨ ਵਿੱਚ, ਅਸੀਂ ਡਿਫਾਲਟ [nnet](https://cran.r-project.org/web/packages/nnet/nnet.pdf) ਇੰਜਨ ਰਾਹੀਂ ਇੱਕ ਮਲਟੀਨੋਮਿਅਲ ਰਿਗ੍ਰੈਸ਼ਨ ਮਾਡਲ ਨੂੰ ਫਿੱਟ ਕਰਾਂਗੇ।\n", "\n", "> ਮੈਂ `penalty` ਲਈ ਇੱਕ ਮੁੱਲ ਲਗਭਗ ਰੈਂਡਮ ਤਰੀਕੇ ਨਾਲ ਚੁਣਿਆ। ਇਸ ਮੁੱਲ ਨੂੰ ਚੁਣਨ ਦੇ ਹੋਰ ਵਧੀਆ ਤਰੀਕੇ ਹਨ, ਜਿਵੇਂ ਕਿ `resampling` ਅਤੇ ਮਾਡਲ ਨੂੰ `tuning` ਕਰਨਾ, ਜਿਸ ਬਾਰੇ ਅਸੀਂ ਬਾਅਦ ਵਿੱਚ ਚਰਚਾ ਕਰਾਂਗੇ।\n", ">\n", "> ਜੇ ਤੁਸੀਂ ਮਾਡਲ ਹਾਈਪਰਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਟਿਊਨ ਕਰਨ ਬਾਰੇ ਹੋਰ ਸਿੱਖਣਾ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ [Tidymodels: Get Started](https://www.tidymodels.org/start/tuning/) ਵੇਖੋ।\n" ], "metadata": { "id": "gWMsVcbBJemu" } }, { "cell_type": "code", "execution_count": 6, "source": [ "# Create a multinomial regression model specification\r\n", "mr_spec <- multinom_reg(penalty = 1) %>% \r\n", " set_engine(\"nnet\", MaxNWts = 2086) %>% \r\n", " set_mode(\"classification\")\r\n", "\r\n", "# Print model specification\r\n", "mr_spec" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "Multinomial Regression Model Specification (classification)\n", "\n", "Main Arguments:\n", " penalty = 1\n", "\n", "Engine-Specific Arguments:\n", " MaxNWts = 2086\n", "\n", "Computational engine: nnet \n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 166 }, "id": "Wq_fcyQiJvfG", "outputId": "c30449c7-3864-4be7-f810-72a003743e2d" } }, { "cell_type": "markdown", "source": [ "ਵਧੀਆ ਕੰਮ 🥳! ਹੁਣ ਸਾਡੇ ਕੋਲ ਇੱਕ ਰੈਸਪੀ ਅਤੇ ਮਾਡਲ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ, ਅਸੀਂ ਇਹਨਾਂ ਨੂੰ ਇੱਕ ਆਬਜੈਕਟ ਵਿੱਚ ਇਕੱਠਾ ਕਰਨ ਦਾ ਤਰੀਕਾ ਲੱਭਣਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਡਾਟਾ ਨੂੰ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸ ਕਰੇਗਾ, ਫਿਰ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਡਾਟਾ 'ਤੇ ਮਾਡਲ ਫਿੱਟ ਕਰੇਗਾ ਅਤੇ ਸੰਭਾਵਿਤ ਪੋਸਟ-ਪ੍ਰੋਸੈਸਿੰਗ ਗਤੀਵਿਧੀਆਂ ਦੀ ਵੀ ਆਗਿਆ ਦੇਵੇਗਾ। Tidymodels ਵਿੱਚ, ਇਹ ਸੁਵਿਧਾਜਨਕ ਆਬਜੈਕਟ [`workflow`](https://workflows.tidymodels.org/) ਕਹਾਉਂਦਾ ਹੈ ਅਤੇ ਇਹ ਤੁਹਾਡੇ ਮਾਡਲਿੰਗ ਕੰਪੋਨੈਂਟਸ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਸੰਭਾਲਦਾ ਹੈ! ਇਹ ਉਹੀ ਚੀਜ਼ ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ *Python* ਵਿੱਚ *pipelines* ਕਹਿੰਦੇ ਹਾਂ।\n", "\n", "ਤਾਂ ਆਓ ਸਾਰਾ ਕੁਝ ਇੱਕ workflow ਵਿੱਚ ਇਕੱਠਾ ਕਰੀਏ!📦\n" ], "metadata": { "id": "NlSbzDfgJ0zh" } }, { "cell_type": "code", "execution_count": 7, "source": [ "# Bundle recipe and model specification\r\n", "mr_wf <- workflow() %>% \r\n", " add_recipe(cuisines_recipe) %>% \r\n", " add_model(mr_spec)\r\n", "\r\n", "# Print out workflow\r\n", "mr_wf" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "══ Workflow ════════════════════════════════════════════════════════════════════\n", "\u001b[3mPreprocessor:\u001b[23m Recipe\n", "\u001b[3mModel:\u001b[23m multinom_reg()\n", "\n", "── Preprocessor ────────────────────────────────────────────────────────────────\n", "1 Recipe Step\n", "\n", "• step_smote()\n", "\n", "── Model ───────────────────────────────────────────────────────────────────────\n", "Multinomial Regression Model Specification (classification)\n", "\n", "Main Arguments:\n", " penalty = 1\n", "\n", "Engine-Specific Arguments:\n", " MaxNWts = 2086\n", "\n", "Computational engine: nnet \n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 333 }, "id": "Sc1TfPA4Ke3_", "outputId": "82c70013-e431-4e7e-cef6-9fcf8aad4a6c" } }, { "cell_type": "markdown", "source": [ "ਵਰਕਫਲੋਜ਼ 👌👌! ਇੱਕ **`workflow()`** ਨੂੰ ਲਗਭਗ ਉਸੇ ਤਰੀਕੇ ਨਾਲ ਫਿੱਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜਿਵੇਂ ਇੱਕ ਮਾਡਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਤਾਂ, ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦਾ ਸਮਾਂ!\n" ], "metadata": { "id": "TNQ8i85aKf9L" } }, { "cell_type": "code", "execution_count": 8, "source": [ "# Train a multinomial regression model\n", "mr_fit <- fit(object = mr_wf, data = cuisines_train)\n", "\n", "mr_fit" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "══ Workflow [trained] ══════════════════════════════════════════════════════════\n", "\u001b[3mPreprocessor:\u001b[23m Recipe\n", "\u001b[3mModel:\u001b[23m multinom_reg()\n", "\n", "── Preprocessor ────────────────────────────────────────────────────────────────\n", "1 Recipe Step\n", "\n", "• step_smote()\n", "\n", "── Model ───────────────────────────────────────────────────────────────────────\n", "Call:\n", "nnet::multinom(formula = ..y ~ ., data = data, decay = ~1, MaxNWts = ~2086, \n", " trace = FALSE)\n", "\n", "Coefficients:\n", " (Intercept) almond angelica anise anise_seed apple\n", "indian 0.19723325 0.2409661 0 -5.004955e-05 -0.1657635 -0.05769734\n", "japanese 0.13961959 -0.6262400 0 -1.169155e-04 -0.4893596 -0.08585717\n", "korean 0.22377347 -0.1833485 0 -5.560395e-05 -0.2489401 -0.15657804\n", "thai -0.04336577 -0.6106258 0 4.903828e-04 -0.5782866 0.63451105\n", " apple_brandy apricot armagnac artemisia artichoke asparagus\n", "indian 0 0.37042636 0 -0.09122797 0 -0.27181970\n", "japanese 0 0.28895643 0 -0.12651100 0 0.14054037\n", "korean 0 -0.07981259 0 0.55756709 0 -0.66979948\n", "thai 0 -0.33160904 0 -0.10725182 0 -0.02602152\n", " avocado bacon baked_potato balm banana barley\n", "indian -0.46624197 0.16008055 0 0 -0.2838796 0.2230625\n", "japanese 0.90341344 0.02932727 0 0 -0.4142787 2.0953906\n", "korean -0.06925382 -0.35804134 0 0 -0.2686963 -0.7233404\n", "thai -0.21473955 -0.75594439 0 0 0.6784880 -0.4363320\n", " bartlett_pear basil bay bean beech\n", "indian 0 -0.7128756 0.1011587 -0.8777275 -0.0004380795\n", "japanese 0 0.1288697 0.9425626 -0.2380748 0.3373437611\n", "korean 0 -0.2445193 -0.4744318 -0.8957870 -0.0048784496\n", "thai 0 1.5365848 0.1333256 0.2196970 -0.0113078024\n", " beef beef_broth beef_liver beer beet\n", "indian -0.7985278 0.2430186 -0.035598065 -0.002173738 0.01005813\n", "japanese 0.2241875 -0.3653020 -0.139551027 0.128905553 0.04923911\n", "korean 0.5366515 -0.6153237 0.213455197 -0.010828645 0.27325423\n", "thai 0.1570012 -0.9364154 -0.008032213 -0.035063746 -0.28279823\n", " bell_pepper bergamot berry bitter_orange black_bean\n", "indian 0.49074330 0 0.58947607 0.191256164 -0.1945233\n", "japanese 0.09074167 0 -0.25917977 -0.118915977 -0.3442400\n", "korean -0.57876763 0 -0.07874180 -0.007729435 -0.5220672\n", "thai 0.92554006 0 -0.07210196 -0.002983296 -0.4614426\n", " black_currant black_mustard_seed_oil black_pepper black_raspberry\n", "indian 0 0.38935801 -0.4453495 0\n", "japanese 0 -0.05452887 -0.5440869 0\n", "korean 0 -0.03929970 0.8025454 0\n", "thai 0 -0.21498372 -0.9854806 0\n", " black_sesame_seed black_tea blackberry blackberry_brandy\n", "indian -0.2759246 0.3079977 0.191256164 0\n", "japanese -0.6101687 -0.1671913 -0.118915977 0\n", "korean 1.5197674 -0.3036261 -0.007729435 0\n", "thai -0.1755656 -0.1487033 -0.002983296 0\n", " blue_cheese blueberry bone_oil bourbon_whiskey brandy\n", "indian 0 0.216164294 -0.2276744 0 0.22427587\n", "japanese 0 -0.119186087 0.3913019 0 -0.15595599\n", "korean 0 -0.007821986 0.2854487 0 -0.02562342\n", "thai 0 -0.004947048 -0.0253658 0 -0.05715244\n", "\n", "...\n", "and 308 more lines." ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "id": "GMbdfVmTKkJI", "outputId": "adf9ebdf-d69d-4a64-e9fd-e06e5322292e" } }, { "cell_type": "markdown", "source": [ "ਮਾਡਲ ਨੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਸਿੱਖੇ ਗਏ ਗੁਣਾਂ ਨੂੰ ਦਿਖਾਉਂਦਾ ਹੈ।\n", "\n", "### ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਨ ਕਰੋ\n", "\n", "ਹੁਣ ਸਮਾਂ ਆ ਗਿਆ ਹੈ ਦੇਖਣ ਦਾ ਕਿ ਮਾਡਲ ਨੇ ਕਿਵੇਂ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ 📏, ਇਸਨੂੰ ਟੈਸਟ ਸੈੱਟ 'ਤੇ ਮੁਲਾਂਕਨ ਕਰਕੇ! ਆਓ ਟੈਸਟ ਸੈੱਟ 'ਤੇ ਅਨੁਮਾਨ ਲਗਾਉਣ ਨਾਲ ਸ਼ੁਰੂ ਕਰੀਏ।\n" ], "metadata": { "id": "tt2BfOxrKmcJ" } }, { "cell_type": "code", "execution_count": 9, "source": [ "# Make predictions on the test set\n", "results <- cuisines_test %>% select(cuisine) %>% \n", " bind_cols(mr_fit %>% predict(new_data = cuisines_test))\n", "\n", "# Print out results\n", "results %>% \n", " slice_head(n = 5)" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ " cuisine .pred_class\n", "1 indian thai \n", "2 indian indian \n", "3 indian indian \n", "4 indian indian \n", "5 indian indian " ], "text/markdown": [ "\n", "A tibble: 5 × 2\n", "\n", "| cuisine <fct> | .pred_class <fct> |\n", "|---|---|\n", "| indian | thai |\n", "| indian | indian |\n", "| indian | indian |\n", "| indian | indian |\n", "| indian | indian |\n", "\n" ], "text/latex": [ "A tibble: 5 × 2\n", "\\begin{tabular}{ll}\n", " cuisine & .pred\\_class\\\\\n", " & \\\\\n", "\\hline\n", "\t indian & thai \\\\\n", "\t indian & indian\\\\\n", "\t indian & indian\\\\\n", "\t indian & indian\\\\\n", "\t indian & indian\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 5 × 2
cuisine.pred_class
<fct><fct>
indianthai
indianindian
indianindian
indianindian
indianindian
\n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 248 }, "id": "CqtckvtsKqax", "outputId": "e57fe557-6a68-4217-fe82-173328c5436d" } }, { "cell_type": "markdown", "source": [ "ਸ਼ਾਨਦਾਰ ਕੰਮ! Tidymodels ਵਿੱਚ, ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ [yardstick](https://yardstick.tidymodels.org/) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ - ਇੱਕ ਪੈਕੇਜ ਜੋ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਦੰਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲਾਂ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਜਿਵੇਂ ਅਸੀਂ ਆਪਣੇ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ ਪਾਠ ਵਿੱਚ ਕੀਤਾ ਸੀ, ਆਓ ਇੱਕ ਗਲਤੀ ਮੈਟ੍ਰਿਕਸ ਦੀ ਗਿਣਤੀ ਕਰਕੇ ਸ਼ੁਰੂ ਕਰੀਏ।\n" ], "metadata": { "id": "8w5N6XsBKss7" } }, { "cell_type": "code", "execution_count": 10, "source": [ "# Confusion matrix for categorical data\n", "conf_mat(data = results, truth = cuisine, estimate = .pred_class)\n" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ " Truth\n", "Prediction chinese indian japanese korean thai\n", " chinese 83 1 8 15 10\n", " indian 4 163 1 2 6\n", " japanese 21 5 73 25 1\n", " korean 15 0 11 191 0\n", " thai 10 11 3 7 70" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 133 }, "id": "YvODvsLkK0iG", "outputId": "bb69da84-1266-47ad-b174-d43b88ca2988" } }, { "cell_type": "markdown", "source": [ "ਜਦੋਂ ਕਈ ਕਲਾਸਾਂ ਨਾਲ ਨਿਪਟਿਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਇੱਕ ਹੀਟ ਮੈਪ ਵਜੋਂ ਦ੍ਰਿਸ਼ਮਾਨ ਕਰਨਾ ਆਮ ਤੌਰ 'ਤੇ ਜ਼ਿਆਦਾ ਬੁੱਝਣਯੋਗ ਹੁੰਦਾ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ:\n" ], "metadata": { "id": "c0HfPL16Lr6U" } }, { "cell_type": "code", "execution_count": 11, "source": [ "update_geom_defaults(geom = \"tile\", new = list(color = \"black\", alpha = 0.7))\n", "# Visualize confusion matrix\n", "results %>% \n", " conf_mat(cuisine, .pred_class) %>% \n", " autoplot(type = \"heatmap\")" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "plot without title" ], "image/png": "" }, "metadata": { "image/png": { "width": 420, "height": 420 } } } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 436 }, "id": "HsAtwukyLsvt", "outputId": "3032a224-a2c8-4270-b4f2-7bb620317400" } }, { "cell_type": "markdown", "source": [ "ਕੰਫਿਊਜ਼ਨ ਮੈਟ੍ਰਿਕਸ ਪਲਾਟ ਵਿੱਚ ਗੂੜ੍ਹੇ ਚੌਕੋਰ ਉੱਚੇ ਮਾਮਲਿਆਂ ਦੀ ਗਿਣਤੀ ਦਰਸਾਉਂਦੇ ਹਨ, ਅਤੇ ਤੁਸੀਂ ਸ਼ਾਇਦ ਗੂੜ੍ਹੇ ਚੌਕੋਰਾਂ ਦੀ ਇੱਕ ਤਿਰਛੀ ਲਾਈਨ ਵੇਖ ਸਕਦੇ ਹੋ ਜੋ ਇਹ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਜਿੱਥੇ ਅਨੁਮਾਨਿਤ ਅਤੇ ਅਸਲ ਲੇਬਲ ਇੱਕੋ ਜਿਹੇ ਹਨ।\n", "\n", "ਆਓ ਹੁਣ ਕੰਫਿਊਜ਼ਨ ਮੈਟ੍ਰਿਕਸ ਲਈ ਸਾਰਾਂਖ ਅੰਕੜੇ ਗਿਣੀਏ।\n" ], "metadata": { "id": "oOJC87dkLwPr" } }, { "cell_type": "code", "execution_count": 12, "source": [ "# Summary stats for confusion matrix\n", "conf_mat(data = results, truth = cuisine, estimate = .pred_class) %>% \n", "summary()" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ " .metric .estimator .estimate\n", "1 accuracy multiclass 0.7880435\n", "2 kap multiclass 0.7276583\n", "3 sens macro 0.7780927\n", "4 spec macro 0.9477598\n", "5 ppv macro 0.7585583\n", "6 npv macro 0.9460080\n", "7 mcc multiclass 0.7292724\n", "8 j_index macro 0.7258524\n", "9 bal_accuracy macro 0.8629262\n", "10 detection_prevalence macro 0.2000000\n", "11 precision macro 0.7585583\n", "12 recall macro 0.7780927\n", "13 f_meas macro 0.7641862" ], "text/markdown": [ "\n", "A tibble: 13 × 3\n", "\n", "| .metric <chr> | .estimator <chr> | .estimate <dbl> |\n", "|---|---|---|\n", "| accuracy | multiclass | 0.7880435 |\n", "| kap | multiclass | 0.7276583 |\n", "| sens | macro | 0.7780927 |\n", "| spec | macro | 0.9477598 |\n", "| ppv | macro | 0.7585583 |\n", "| npv | macro | 0.9460080 |\n", "| mcc | multiclass | 0.7292724 |\n", "| j_index | macro | 0.7258524 |\n", "| bal_accuracy | macro | 0.8629262 |\n", "| detection_prevalence | macro | 0.2000000 |\n", "| precision | macro | 0.7585583 |\n", "| recall | macro | 0.7780927 |\n", "| f_meas | macro | 0.7641862 |\n", "\n" ], "text/latex": [ "A tibble: 13 × 3\n", "\\begin{tabular}{lll}\n", " .metric & .estimator & .estimate\\\\\n", " & & \\\\\n", "\\hline\n", "\t accuracy & multiclass & 0.7880435\\\\\n", "\t kap & multiclass & 0.7276583\\\\\n", "\t sens & macro & 0.7780927\\\\\n", "\t spec & macro & 0.9477598\\\\\n", "\t ppv & macro & 0.7585583\\\\\n", "\t npv & macro & 0.9460080\\\\\n", "\t mcc & multiclass & 0.7292724\\\\\n", "\t j\\_index & macro & 0.7258524\\\\\n", "\t bal\\_accuracy & macro & 0.8629262\\\\\n", "\t detection\\_prevalence & macro & 0.2000000\\\\\n", "\t precision & macro & 0.7585583\\\\\n", "\t recall & macro & 0.7780927\\\\\n", "\t f\\_meas & macro & 0.7641862\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 13 × 3
.metric.estimator.estimate
<chr><chr><dbl>
accuracy multiclass0.7880435
kap multiclass0.7276583
sens macro 0.7780927
spec macro 0.9477598
ppv macro 0.7585583
npv macro 0.9460080
mcc multiclass0.7292724
j_index macro 0.7258524
bal_accuracy macro 0.8629262
detection_prevalencemacro 0.2000000
precision macro 0.7585583
recall macro 0.7780927
f_meas macro 0.7641862
\n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 494 }, "id": "OYqetUyzL5Wz", "outputId": "6a84d65e-113d-4281-dfc1-16e8b70f37e6" } }, { "cell_type": "markdown", "source": [ "ਜੇ ਅਸੀਂ ਕੁਝ ਮਾਪਦੰਡਾਂ ਜਿਵੇਂ ਕਿ ਸਹੀਤਾ, ਸੰਵੇਦਨਸ਼ੀਲਤਾ, ਅਤੇ ppv 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰੀਏ, ਤਾਂ ਸ਼ੁਰੂਆਤ ਲਈ ਸਾਡੀ ਸਥਿਤੀ ਬੁਰੀ ਨਹੀਂ ਹੈ 🥳!\n", "\n", "## 4. ਹੋਰ ਗਹਿਰਾਈ ਵਿੱਚ ਜਾਣਾ\n", "\n", "ਆਓ ਇੱਕ ਸੁਖਮ ਸਵਾਲ ਪੁੱਛੀਏ: ਕਿਸੇ ਦਿੱਤੇ ਗਏ ਖਾਣੇ ਦੀ ਕਿਸਮ ਨੂੰ ਅਨੁਮਾਨਿਤ ਨਤੀਜੇ ਵਜੋਂ ਚੁਣਨ ਲਈ ਕਿਹੜੇ ਮਾਪਦੰਡ ਵਰਤੇ ਜਾਂਦੇ ਹਨ?\n", "\n", "ਅਸਲ ਵਿੱਚ, ਸਾਂਖਿਆਕੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਐਲਗੋਰਿਥਮ, ਜਿਵੇਂ ਕਿ ਲੌਜਿਸਟਿਕ ਰਿਗ੍ਰੈਸ਼ਨ, `ਸੰਭਾਵਨਾ` 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੇ ਹਨ; ਇਸ ਲਈ, ਜੋ ਚੀਜ਼ ਇੱਕ ਕਲਾਸੀਫਾਇਰ ਦੁਆਰਾ ਅਸਲ ਵਿੱਚ ਅਨੁਮਾਨਿਤ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਉਹ ਸੰਭਾਵਨਾ ਵੰਡ ਹੁੰਦੀ ਹੈ ਜੋ ਸੰਭਾਵਿਤ ਨਤੀਜਿਆਂ ਦੇ ਇੱਕ ਸੈੱਟ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੀ ਹੈ। ਸਭ ਤੋਂ ਉੱਚੀ ਸੰਭਾਵਨਾ ਵਾਲੀ ਕਲਾਸ ਨੂੰ ਫਿਰ ਦਿੱਤੇ ਗਏ ਅਵਲੋਕਨਾਂ ਲਈ ਸਭ ਤੋਂ ਸੰਭਾਵਿਤ ਨਤੀਜੇ ਵਜੋਂ ਚੁਣਿਆ ਜਾਂਦਾ ਹੈ।\n", "\n", "ਆਓ ਇਸਨੂੰ ਕਿਰਿਆਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਵੇਖੀਏ, ਦੋਵੇਂ ਕਠੋਰ ਕਲਾਸ ਅਨੁਮਾਨ ਅਤੇ ਸੰਭਾਵਨਾਵਾਂ ਬਣਾਕੇ।\n" ], "metadata": { "id": "43t7vz8vMJtW" } }, { "cell_type": "code", "execution_count": 13, "source": [ "# Make hard class prediction and probabilities\n", "results_prob <- cuisines_test %>%\n", " select(cuisine) %>% \n", " bind_cols(mr_fit %>% predict(new_data = cuisines_test)) %>% \n", " bind_cols(mr_fit %>% predict(new_data = cuisines_test, type = \"prob\"))\n", "\n", "# Print out results\n", "results_prob %>% \n", " slice_head(n = 5)" ], "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ " cuisine .pred_class .pred_chinese .pred_indian .pred_japanese .pred_korean\n", "1 indian thai 1.551259e-03 0.4587877 5.988039e-04 2.428503e-04\n", "2 indian indian 2.637133e-05 0.9999488 6.648651e-07 2.259993e-05\n", "3 indian indian 1.049433e-03 0.9909982 1.060937e-03 1.644947e-05\n", "4 indian indian 6.237482e-02 0.4763035 9.136702e-02 3.660913e-01\n", "5 indian indian 1.431745e-02 0.9418551 2.945239e-02 8.721782e-03\n", " .pred_thai \n", "1 5.388194e-01\n", "2 1.577948e-06\n", "3 6.874989e-03\n", "4 3.863391e-03\n", "5 5.653283e-03" ], "text/markdown": [ "\n", "A tibble: 5 × 7\n", "\n", "| cuisine <fct> | .pred_class <fct> | .pred_chinese <dbl> | .pred_indian <dbl> | .pred_japanese <dbl> | .pred_korean <dbl> | .pred_thai <dbl> |\n", "|---|---|---|---|---|---|---|\n", "| indian | thai | 1.551259e-03 | 0.4587877 | 5.988039e-04 | 2.428503e-04 | 5.388194e-01 |\n", "| indian | indian | 2.637133e-05 | 0.9999488 | 6.648651e-07 | 2.259993e-05 | 1.577948e-06 |\n", "| indian | indian | 1.049433e-03 | 0.9909982 | 1.060937e-03 | 1.644947e-05 | 6.874989e-03 |\n", "| indian | indian | 6.237482e-02 | 0.4763035 | 9.136702e-02 | 3.660913e-01 | 3.863391e-03 |\n", "| indian | indian | 1.431745e-02 | 0.9418551 | 2.945239e-02 | 8.721782e-03 | 5.653283e-03 |\n", "\n" ], "text/latex": [ "A tibble: 5 × 7\n", "\\begin{tabular}{lllllll}\n", " cuisine & .pred\\_class & .pred\\_chinese & .pred\\_indian & .pred\\_japanese & .pred\\_korean & .pred\\_thai\\\\\n", " & & & & & & \\\\\n", "\\hline\n", "\t indian & thai & 1.551259e-03 & 0.4587877 & 5.988039e-04 & 2.428503e-04 & 5.388194e-01\\\\\n", "\t indian & indian & 2.637133e-05 & 0.9999488 & 6.648651e-07 & 2.259993e-05 & 1.577948e-06\\\\\n", "\t indian & indian & 1.049433e-03 & 0.9909982 & 1.060937e-03 & 1.644947e-05 & 6.874989e-03\\\\\n", "\t indian & indian & 6.237482e-02 & 0.4763035 & 9.136702e-02 & 3.660913e-01 & 3.863391e-03\\\\\n", "\t indian & indian & 1.431745e-02 & 0.9418551 & 2.945239e-02 & 8.721782e-03 & 5.653283e-03\\\\\n", "\\end{tabular}\n" ], "text/html": [ "\n", "\n", "\n", "\t\n", "\t\n", "\n", "\n", "\t\n", "\t\n", "\t\n", "\t\n", "\t\n", "\n", "
A tibble: 5 × 7
cuisine.pred_class.pred_chinese.pred_indian.pred_japanese.pred_korean.pred_thai
<fct><fct><dbl><dbl><dbl><dbl><dbl>
indianthai 1.551259e-030.45878775.988039e-042.428503e-045.388194e-01
indianindian2.637133e-050.99994886.648651e-072.259993e-051.577948e-06
indianindian1.049433e-030.99099821.060937e-031.644947e-056.874989e-03
indianindian6.237482e-020.47630359.136702e-023.660913e-013.863391e-03
indianindian1.431745e-020.94185512.945239e-028.721782e-035.653283e-03
\n" ] }, "metadata": {} } ], "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 248 }, "id": "xdKNs-ZPMTJL", "outputId": "68f6ac5a-725a-4eff-9ea6-481fef00e008" } }, { "cell_type": "markdown", "source": [ "✅ ਕੀ ਤੁਸੀਂ ਸਮਝਾ ਸਕਦੇ ਹੋ ਕਿ ਮਾਡਲ ਪਹਿਲੀ ਅਵਲੋਕਨ ਨੂੰ ਥਾਈ ਕਿਉਂ ਮੰਨਦਾ ਹੈ?\n", "\n", "## **🚀ਚੁਣੌਤੀ**\n", "\n", "ਇਸ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਆਪਣੇ ਸਾਫ ਕੀਤੇ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਬਣਾਇਆ ਜੋ ਸਾਮਗਰੀਆਂ ਦੇ ਇੱਕ ਸਿਰਲੇਖ ਦੇ ਆਧਾਰ 'ਤੇ ਰਾਸ਼ਟਰੀ ਖਾਣੇ ਦੀ ਪੇਸ਼ਗੋਈ ਕਰ ਸਕਦਾ ਹੈ। ਕੁਝ ਸਮਾਂ ਲਓ ਅਤੇ [ਕਈ ਵਿਕਲਪਾਂ](https://www.tidymodels.org/find/parsnip/#models) ਨੂੰ ਪੜ੍ਹੋ ਜੋ Tidymodels ਡਾਟਾ ਨੂੰ ਵਰਗਬੱਧ ਕਰਨ ਲਈ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਅਤੇ [ਹੋਰ ਤਰੀਕੇ](https://parsnip.tidymodels.org/articles/articles/Examples.html#multinom_reg-models) ਬਹੁ-ਵਿਕਲਪਕ ਰਿਗਰੈਸ਼ਨ ਨੂੰ ਫਿੱਟ ਕਰਨ ਲਈ।\n", "\n", "#### ਧੰਨਵਾਦ:\n", "\n", "[`ਐਲਿਸਨ ਹੋਰਸਟ`](https://twitter.com/allison_horst/) ਨੂੰ ਸ਼ਾਨਦਾਰ ਚਿੱਤਰ ਬਣਾਉਣ ਲਈ ਜੋ R ਨੂੰ ਹੋਰ ਸੁਹਜ ਅਤੇ ਦਿਲਚਸਪ ਬਣਾਉਂਦੇ ਹਨ। ਹੋਰ ਚਿੱਤਰ ਉਸ ਦੇ [ਗੈਲਰੀ](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM) 'ਤੇ ਲੱਭੋ।\n", "\n", "[Cassie Breviu](https://www.twitter.com/cassieview) ਅਤੇ [Jen Looper](https://www.twitter.com/jenlooper) ਨੂੰ ਇਸ ਮਾਡਿਊਲ ਦੇ ਅਸਲ Python ਵਰਜਨ ਬਣਾਉਣ ਲਈ ♥️\n", "\n", "
\n", "ਕੁਝ ਮਜ਼ਾਕ ਸ਼ਾਮਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਪਰ ਮੈਨੂੰ ਖਾਣੇ ਦੇ ਪਨਸ ਸਮਝ ਨਹੀਂ ਆਉਂਦੇ 😅।\n", "\n", "
\n", "\n", "ਖੁਸ਼ ਰਹੋ ਅਤੇ ਸਿੱਖੋ,\n", "\n", "[Eric](https://twitter.com/ericntay), ਗੋਲਡ ਮਾਈਕਰੋਸਾਫਟ ਲਰਨ ਸਟੂਡੈਂਟ ਐਮਬੈਸਡਰ।\n" ], "metadata": { "id": "2tWVHMeLMYdM" } }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n---\n\n**ਅਸਵੀਕਰਤੀ**: \nਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦਾ ਯਤਨ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਣਤੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਇਸ ਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਮੌਜੂਦ ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪ੍ਰਮਾਣਿਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੇ ਪ੍ਰਯੋਗ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਮੀਆਂ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। \n" ] } ] }