Bina model klasifikasi: Masakan Asia dan India yang Lazat


## Pengenalan kepada klasifikasi: Bersihkan, sediakan, dan visualisasikan data anda

Dalam empat pelajaran ini, anda akan meneroka fokus asas pembelajaran mesin klasik - *klasifikasi*. Kami akan melalui penggunaan pelbagai algoritma klasifikasi dengan dataset tentang semua masakan hebat dari Asia dan India. Harap anda lapar!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Raikan masakan pan-Asia dalam pelajaran ini! Imej oleh Jen Looper</figcaption>


<!--![Raikan masakan pan-Asia dalam pelajaran ini! Imej oleh Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Klasifikasi adalah satu bentuk [pembelajaran terkawal](https://wikipedia.org/wiki/Supervised_learning) yang mempunyai banyak persamaan dengan teknik regresi. Dalam klasifikasi, anda melatih model untuk meramalkan kategori mana sesuatu item tergolong. Jika pembelajaran mesin berkaitan dengan meramalkan nilai atau nama kepada sesuatu menggunakan dataset, maka klasifikasi biasanya terbahagi kepada dua kumpulan: *klasifikasi binari* dan *klasifikasi pelbagai kelas*.

Ingat:

-   **Regresi linear** membantu anda meramalkan hubungan antara pembolehubah dan membuat ramalan tepat tentang di mana titik data baru akan berada dalam hubungan dengan garis tersebut. Sebagai contoh, anda boleh meramalkan nilai berangka seperti *berapa harga labu pada bulan September berbanding Disember*.

-   **Regresi logistik** membantu anda menemui "kategori binari": pada titik harga ini, *adakah labu ini berwarna oren atau tidak-oren*?

Klasifikasi menggunakan pelbagai algoritma untuk menentukan cara lain dalam menentukan label atau kelas titik data. Mari kita bekerja dengan data masakan ini untuk melihat sama ada, dengan memerhatikan sekumpulan bahan, kita boleh menentukan asal-usul masakannya.

### [**Kuiz sebelum pelajaran**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Pengenalan**

Klasifikasi adalah salah satu aktiviti asas bagi penyelidik pembelajaran mesin dan saintis data. Daripada klasifikasi asas nilai binari ("adakah e-mel ini spam atau tidak?"), kepada klasifikasi imej kompleks dan segmentasi menggunakan penglihatan komputer, sentiasa berguna untuk dapat menyusun data ke dalam kelas dan bertanya soalan mengenainya.

Untuk menyatakan proses ini dengan cara yang lebih saintifik, kaedah klasifikasi anda mencipta model ramalan yang membolehkan anda memetakan hubungan antara pembolehubah input kepada pembolehubah output.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Masalah binari vs. pelbagai kelas untuk algoritma klasifikasi. Infografik oleh Jen Looper</figcaption>



Sebelum memulakan proses membersihkan data kita, memvisualisasikannya, dan menyediakannya untuk tugas ML kita, mari kita pelajari sedikit tentang pelbagai cara pembelajaran mesin boleh digunakan untuk mengklasifikasikan data.

Berasal daripada [statistik](https://wikipedia.org/wiki/Statistical_classification), klasifikasi menggunakan pembelajaran mesin klasik menggunakan ciri-ciri seperti `smoker`, `weight`, dan `age` untuk menentukan *kemungkinan menghidap penyakit X*. Sebagai teknik pembelajaran terkawal yang serupa dengan latihan regresi yang anda lakukan sebelum ini, data anda dilabelkan dan algoritma ML menggunakan label tersebut untuk mengklasifikasikan dan meramalkan kelas (atau 'ciri') dataset dan menetapkannya kepada kumpulan atau hasil.

‚úÖ Luangkan masa untuk membayangkan dataset tentang masakan. Apakah yang boleh dijawab oleh model pelbagai kelas? Apakah yang boleh dijawab oleh model binari? Bagaimana jika anda ingin menentukan sama ada sesuatu masakan cenderung menggunakan fenugreek? Bagaimana jika anda ingin melihat sama ada, dengan kehadiran beg runcit penuh dengan bunga lawang, artichoke, kembang kol, dan lobak pedas, anda boleh mencipta hidangan India yang tipikal?

### **Hello 'classifier'**

Soalan yang ingin kita tanyakan kepada dataset masakan ini sebenarnya adalah soalan **pelbagai kelas**, kerana kita mempunyai beberapa kemungkinan masakan kebangsaan untuk bekerja. Berdasarkan sekumpulan bahan, kelas mana daripada banyak kelas ini yang sesuai dengan data?

Tidymodels menawarkan beberapa algoritma berbeza untuk digunakan bagi mengklasifikasikan data, bergantung pada jenis masalah yang ingin anda selesaikan. Dalam dua pelajaran seterusnya, anda akan belajar tentang beberapa algoritma ini.

#### **Prasyarat**

Untuk pelajaran ini, kita memerlukan pakej berikut untuk membersihkan, menyediakan dan memvisualisasikan data kita:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) adalah [koleksi pakej R](https://www.tidyverse.org/packages) yang direka untuk menjadikan sains data lebih pantas, mudah dan menyeronokkan!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) adalah rangka kerja [koleksi pakej](https://www.tidymodels.org/packages/) untuk pemodelan dan pembelajaran mesin.

-   `DataExplorer`: Pakej [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) bertujuan untuk mempermudah dan mengautomasi proses EDA dan penjanaan laporan.

-   `themis`: Pakej [themis](https://themis.tidymodels.org/) menyediakan Langkah Resipi Tambahan untuk Menangani Data Tidak Seimbang.

Anda boleh memasangnya seperti berikut:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Sebagai alternatif, skrip di bawah akan memeriksa sama ada anda mempunyai pakej yang diperlukan untuk melengkapkan modul ini dan memasangnya untuk anda jika ia tidak ada.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Kita akan memuatkan pakej-pakej hebat ini kemudian dan menjadikannya tersedia dalam sesi R semasa kita. (Ini hanya untuk ilustrasi, `pacman::p_load()` sudah melakukannya untuk anda)


## Latihan - bersihkan dan seimbangkan data anda

Tugas pertama sebelum memulakan projek ini adalah untuk membersihkan dan **menyeimbangkan** data anda bagi mendapatkan hasil yang lebih baik.

Mari kita kenali data ini!üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Menarik! Dari pandangan, lajur pertama adalah sejenis lajur `id`. Mari kita dapatkan sedikit lagi maklumat tentang data ini.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Daripada output, kita dapat melihat bahawa kita mempunyai `2448` baris dan `385` lajur serta `0` nilai yang hilang. Kita juga mempunyai 1 lajur diskret, *cuisine*.

## Latihan - mempelajari tentang masakan

Sekarang kerja mula menjadi lebih menarik. Mari kita terokai pengagihan data, mengikut jenis masakan.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Terdapat bilangan masakan yang terhad, tetapi pengagihan data tidak sekata. Anda boleh membetulkannya! Sebelum itu, terokai sedikit lagi.

Seterusnya, mari kita tetapkan setiap masakan ke dalam tibble masing-masing dan ketahui berapa banyak data yang tersedia (baris, lajur) bagi setiap masakan.

> [Tibble](https://tibble.tidyverse.org/) ialah kerangka data moden.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Latihan - Meneroka bahan utama mengikut masakan menggunakan dplyr**

Sekarang anda boleh menyelami data dengan lebih mendalam dan mengetahui apakah bahan-bahan tipikal bagi setiap jenis masakan. Anda perlu membersihkan data berulang yang boleh menyebabkan kekeliruan antara jenis masakan, jadi mari kita pelajari masalah ini.

Cipta fungsi `create_ingredient()` dalam R yang mengembalikan dataframe bahan. Fungsi ini akan bermula dengan membuang satu lajur yang tidak berguna dan menyusun bahan-bahan mengikut kiraan mereka.

Struktur asas fungsi dalam R adalah:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Pengenalan ringkas kepada fungsi dalam R boleh didapati [di sini](https://skirmer.github.io/presentations/functions_with_r.html#1).

Mari kita teruskan! Kita akan menggunakan [kata kerja dplyr](https://dplyr.tidyverse.org/) yang telah kita pelajari dalam pelajaran sebelum ini. Sebagai imbasan:

-   `dplyr::select()`: membantu anda memilih lajur **mana** yang ingin disimpan atau dikecualikan.

-   `dplyr::pivot_longer()`: membantu anda untuk "memanjangkan" data, meningkatkan bilangan baris dan mengurangkan bilangan lajur.

-   `dplyr::group_by()` dan `dplyr::summarise()`: membantu anda mencari statistik ringkasan untuk kumpulan yang berbeza, dan menyusunnya dalam jadual yang kemas.

-   `dplyr::filter()`: mencipta subset data yang hanya mengandungi baris yang memenuhi syarat anda.

-   `dplyr::mutate()`: membantu anda mencipta atau mengubah suai lajur.

Lihat tutorial [*seni*-penuh learnr ini](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) oleh Allison Horst, yang memperkenalkan beberapa fungsi pengendalian data berguna dalam dplyr *(sebahagian daripada Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Sekarang kita boleh menggunakan fungsi ini untuk mendapatkan gambaran tentang sepuluh bahan paling popular mengikut masakan. Mari kita cuba dengan `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Dalam bahagian sebelumnya, kami menggunakan `geom_col()`, mari lihat bagaimana anda boleh menggunakan `geom_bar` juga, untuk mencipta carta bar. Gunakan `?geom_bar` untuk bacaan lanjut.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Bagaimana pula dengan masakan Cina?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Akhirnya, plotkan bahan-bahan Korea.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Daripada visualisasi data, kita kini boleh menghapuskan bahan-bahan yang paling biasa dan sering menyebabkan kekeliruan antara masakan yang berbeza, menggunakan `dplyr::select()`.

Semua orang suka nasi, bawang putih dan halia!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Pra-pemprosesan data menggunakan resipi üë©‚Äçüç≥üë®‚Äçüç≥ - Menangani data tidak seimbang ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Karya oleh @allison_horst</figcaption>

Memandangkan pelajaran ini berkaitan dengan masakan, kita perlu meletakkan `resipi` dalam konteks.

Tidymodels menyediakan satu lagi pakej yang menarik: `recipes` - pakej untuk pra-pemprosesan data.


Mari kita lihat semula pengagihan masakan kita.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Seperti yang anda lihat, terdapat pengagihan yang agak tidak seimbang dalam bilangan jenis masakan. Masakan Korea hampir 3 kali ganda lebih banyak daripada masakan Thai. Data yang tidak seimbang sering memberi kesan negatif terhadap prestasi model. Fikirkan tentang klasifikasi binari. Jika kebanyakan data anda adalah daripada satu kelas, model ML akan cenderung meramalkan kelas tersebut lebih kerap, hanya kerana terdapat lebih banyak data untuknya. Mengimbangkan data mengambil data yang condong dan membantu menghapuskan ketidakseimbangan ini. Banyak model berprestasi terbaik apabila bilangan pemerhatian adalah sama dan, oleh itu, cenderung menghadapi kesukaran dengan data yang tidak seimbang.

Terdapat dua cara utama untuk menangani set data yang tidak seimbang:

-   menambah pemerhatian kepada kelas minoriti: `Over-sampling` contohnya menggunakan algoritma SMOTE

-   mengeluarkan pemerhatian daripada kelas majoriti: `Under-sampling`

Sekarang mari kita tunjukkan cara menangani set data yang tidak seimbang menggunakan `recipe`. Recipe boleh dianggap sebagai pelan tindakan yang menerangkan langkah-langkah yang perlu diterapkan pada set data untuk menjadikannya sedia untuk analisis data.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Mari kita pecahkan langkah-langkah prapemprosesan kita.

-   Panggilan kepada `recipe()` dengan formula memberitahu resipi tentang *peranan* pemboleh ubah menggunakan data `df_select` sebagai rujukan. Sebagai contoh, lajur `cuisine` telah diberikan peranan `outcome` manakala lajur-lajur lain telah diberikan peranan `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) mencipta *spesifikasi* langkah resipi yang secara sintetik menjana contoh baharu bagi kelas minoriti menggunakan jiran terdekat bagi kes-kes ini.

Sekarang, jika kita ingin melihat data yang telah dipraproses, kita perlu [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) dan [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) resipi kita.

`prep()`: menganggarkan parameter yang diperlukan daripada set latihan yang kemudiannya boleh digunakan pada set data lain.

`bake()`: mengambil resipi yang telah dipraproses dan menerapkan operasi tersebut pada mana-mana set data.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Mari kita periksa pengagihan masakan kita dan bandingkannya dengan data yang tidak seimbang.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! Data ini bersih, seimbang, dan sangat lazat üòã!

> Biasanya, resipi digunakan sebagai prapemproses untuk pemodelan di mana ia menentukan langkah-langkah yang perlu diterapkan pada set data supaya ia sedia untuk pemodelan. Dalam kes ini, `workflow()` biasanya digunakan (seperti yang telah kita lihat dalam pelajaran sebelumnya) daripada menganggarkan resipi secara manual.
>
> Oleh itu, anda biasanya tidak perlu **`prep()`** dan **`bake()`** resipi apabila menggunakan tidymodels, tetapi ia adalah fungsi yang berguna untuk dimiliki dalam alat anda untuk mengesahkan bahawa resipi berfungsi seperti yang anda harapkan, seperti dalam kes kita.
>
> Apabila anda **`bake()`** resipi yang telah dipraproses dengan **`new_data = NULL`**, anda akan mendapat kembali data yang anda berikan semasa mendefinisikan resipi, tetapi telah melalui langkah-langkah prapemprosesan.

Mari kita simpan salinan data ini untuk digunakan dalam pelajaran akan datang:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

CSV baharu ini kini boleh didapati dalam folder data utama.

**üöÄCabaran**

Kurikulum ini mengandungi beberapa set data yang menarik. Selidiki folder `data` dan lihat jika ada yang mengandungi set data yang sesuai untuk klasifikasi binari atau multi-kelas? Soalan apa yang anda akan tanya tentang set data ini?

## [**Kuiz selepas kuliah**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Ulasan & Kajian Kendiri**

-   Lihat [pakej themis](https://github.com/tidymodels/themis). Apakah teknik lain yang boleh kita gunakan untuk menangani data yang tidak seimbang?

-   Laman rujukan model Tidy [laman web rujukan](https://www.tidymodels.org/start/).

-   H. Wickham dan G. Grolemund, [*R for Data Science: Visualize, Model, Transform, Tidy, and Import Data*](https://r4ds.had.co.nz/).

#### TERIMA KASIH KEPADA:

[`Allison Horst`](https://twitter.com/allison_horst/) kerana mencipta ilustrasi yang menakjubkan yang menjadikan R lebih mesra dan menarik. Cari lebih banyak ilustrasi di [galerinya](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) dan [Jen Looper](https://www.twitter.com/jenlooper) kerana mencipta versi asal modul ini dalam Python ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat yang kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
