## Pengantar Klasifikasi: Membersihkan, Mempersiapkan, dan Memvisualisasikan Data Anda

Dalam empat pelajaran ini, Anda akan menjelajahi salah satu fokus utama pembelajaran mesin klasik - *klasifikasi*. Kita akan mempelajari penggunaan berbagai algoritma klasifikasi dengan dataset tentang berbagai masakan brilian dari Asia dan India. Semoga Anda lapar!

<p >
   <img src="../../images/pinch.png"
   width="600"/>
   <figcaption>Rayakan masakan pan-Asia dalam pelajaran ini! Gambar oleh Jen Looper</figcaption>


<!--![Rayakan masakan pan-Asia dalam pelajaran ini! Gambar oleh Jen Looper](../../../../../../4-Classification/1-Introduction/solution/R/images/pinch.png)-->

Klasifikasi adalah bentuk [pembelajaran terawasi](https://wikipedia.org/wiki/Supervised_learning) yang memiliki banyak kesamaan dengan teknik regresi. Dalam klasifikasi, Anda melatih model untuk memprediksi kategori mana suatu item termasuk. Jika pembelajaran mesin bertujuan untuk memprediksi nilai atau nama sesuatu menggunakan dataset, maka klasifikasi umumnya terbagi menjadi dua kelompok: *klasifikasi biner* dan *klasifikasi multikelas*.

Ingat:

-   **Regresi linear** membantu Anda memprediksi hubungan antara variabel dan membuat prediksi akurat tentang di mana titik data baru akan berada dalam hubungan dengan garis tersebut. Misalnya, Anda dapat memprediksi nilai numerik seperti *berapa harga labu pada bulan September dibandingkan Desember*.

-   **Regresi logistik** membantu Anda menemukan "kategori biner": pada titik harga ini, *apakah labu ini berwarna oranye atau tidak-oranye*?

Klasifikasi menggunakan berbagai algoritma untuk menentukan cara lain dalam menentukan label atau kelas suatu titik data. Mari kita bekerja dengan data masakan ini untuk melihat apakah, dengan mengamati sekelompok bahan, kita dapat menentukan asal masakannya.

### [**Kuis Pra-Pelajaran**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/19/)

### **Pengantar**

Klasifikasi adalah salah satu aktivitas mendasar bagi peneliti pembelajaran mesin dan ilmuwan data. Dari klasifikasi dasar nilai biner ("apakah email ini spam atau bukan?"), hingga klasifikasi dan segmentasi gambar yang kompleks menggunakan visi komputer, kemampuan untuk mengelompokkan data ke dalam kelas dan mengajukan pertanyaan tentangnya selalu berguna.

Untuk menyatakan proses ini secara lebih ilmiah, metode klasifikasi Anda menciptakan model prediktif yang memungkinkan Anda memetakan hubungan antara variabel input dengan variabel output.

<p >
   <img src="../../images/binary-multiclass.png"
   width="600"/>
   <figcaption>Masalah biner vs. multikelas untuk algoritma klasifikasi. Infografis oleh Jen Looper</figcaption>



Sebelum memulai proses membersihkan data, memvisualisasikannya, dan mempersiapkannya untuk tugas ML kita, mari kita pelajari sedikit tentang berbagai cara pembelajaran mesin dapat digunakan untuk mengklasifikasikan data.

Berasal dari [statistik](https://wikipedia.org/wiki/Statistical_classification), klasifikasi menggunakan pembelajaran mesin klasik memanfaatkan fitur-fitur seperti `smoker`, `weight`, dan `age` untuk menentukan *kemungkinan mengembangkan penyakit X*. Sebagai teknik pembelajaran terawasi yang mirip dengan latihan regresi yang Anda lakukan sebelumnya, data Anda diberi label dan algoritma ML menggunakan label tersebut untuk mengklasifikasikan dan memprediksi kelas (atau 'fitur') dari suatu dataset dan menetapkannya ke dalam kelompok atau hasil tertentu.

‚úÖ Luangkan waktu sejenak untuk membayangkan sebuah dataset tentang masakan. Apa yang dapat dijawab oleh model multikelas? Apa yang dapat dijawab oleh model biner? Bagaimana jika Anda ingin menentukan apakah suatu masakan kemungkinan menggunakan fenugreek? Bagaimana jika Anda ingin melihat apakah, dengan sekantong bahan seperti star anise, artichoke, kembang kol, dan lobak, Anda dapat membuat hidangan khas India?

### **Halo 'classifier'**

Pertanyaan yang ingin kita ajukan pada dataset masakan ini sebenarnya adalah pertanyaan **multikelas**, karena kita memiliki beberapa kemungkinan masakan nasional untuk dikerjakan. Diberikan sekumpulan bahan, ke dalam kelas mana dari banyak kelas ini data tersebut akan cocok?

Tidymodels menawarkan beberapa algoritma berbeda untuk digunakan dalam mengklasifikasikan data, tergantung pada jenis masalah yang ingin Anda selesaikan. Dalam dua pelajaran berikutnya, Anda akan mempelajari beberapa algoritma ini.

#### **Prasyarat**

Untuk pelajaran ini, kita memerlukan paket-paket berikut untuk membersihkan, mempersiapkan, dan memvisualisasikan data kita:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) adalah [koleksi paket R](https://www.tidyverse.org/packages) yang dirancang untuk membuat ilmu data lebih cepat, mudah, dan menyenangkan!

-   `tidymodels`: Kerangka kerja [tidymodels](https://www.tidymodels.org/) adalah [koleksi paket](https://www.tidymodels.org/packages/) untuk pemodelan dan pembelajaran mesin.

-   `DataExplorer`: Paket [DataExplorer](https://cran.r-project.org/web/packages/DataExplorer/vignettes/dataexplorer-intro.html) dirancang untuk menyederhanakan dan mengotomatisasi proses EDA serta pembuatan laporan.

-   `themis`: Paket [themis](https://themis.tidymodels.org/) menyediakan Langkah Resep Tambahan untuk Menangani Data yang Tidak Seimbang.

Anda dapat menginstalnya dengan:

`install.packages(c("tidyverse", "tidymodels", "DataExplorer", "here"))`

Sebagai alternatif, skrip di bawah ini akan memeriksa apakah Anda memiliki paket yang diperlukan untuk menyelesaikan modul ini dan menginstalnya untuk Anda jika belum ada.


In [None]:
suppressWarnings(if (!require("pacman"))install.packages("pacman"))

pacman::p_load(tidyverse, tidymodels, DataExplorer, themis, here)

Nanti kita akan memuat paket-paket keren ini dan membuatnya tersedia di sesi R kita saat ini. (Ini hanya untuk ilustrasi, `pacman::p_load()` sudah melakukannya untuk Anda)


## Latihan - membersihkan dan menyeimbangkan data Anda

Tugas pertama yang harus dilakukan sebelum memulai proyek ini adalah membersihkan dan **menyeimbangkan** data Anda untuk mendapatkan hasil yang lebih baik.

Mari kita kenali datanya! üïµÔ∏è


In [None]:
# Import data
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/4-Classification/data/cuisines.csv")

# View the first 5 rows
df %>% 
  slice_head(n = 5)


Menarik! Dari tampilannya, kolom pertama adalah semacam kolom `id`. Mari kita cari sedikit lebih banyak informasi tentang data tersebut.


In [None]:
# Basic information about the data
df %>%
  introduce()

# Visualize basic information above
df %>% 
  plot_intro(ggtheme = theme_light())

Dari outputnya, kita dapat langsung melihat bahwa kita memiliki `2448` baris dan `385` kolom serta `0` nilai yang hilang. Kita juga memiliki 1 kolom diskret, *cuisine*.

## Latihan - mempelajari tentang jenis masakan

Sekarang pekerjaan mulai menjadi lebih menarik. Mari kita temukan distribusi data berdasarkan jenis masakan.


In [None]:
# Count observations per cuisine
df %>% 
  count(cuisine) %>% 
  arrange(n)

# Plot the distribution
theme_set(theme_light())
df %>% 
  count(cuisine) %>% 
  ggplot(mapping = aes(x = n, y = reorder(cuisine, -n))) +
  geom_col(fill = "midnightblue", alpha = 0.7) +
  ylab("cuisine")

Ada sejumlah jenis masakan, tetapi distribusi datanya tidak merata. Kamu bisa memperbaikinya! Sebelum itu, jelajahi sedikit lebih jauh.

Selanjutnya, mari kita tetapkan setiap jenis masakan ke dalam tibble masing-masing dan cari tahu seberapa banyak data yang tersedia (baris, kolom) untuk setiap jenis masakan.

> Sebuah [tibble](https://tibble.tidyverse.org/) adalah kerangka data modern.

<p >
   <img src="../../images/dplyr_filter.jpg"
   width="600"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>


In [None]:
# Create individual tibble for the cuisines
thai_df <- df %>% 
  filter(cuisine == "thai")
japanese_df <- df %>% 
  filter(cuisine == "japanese")
chinese_df <- df %>% 
  filter(cuisine == "chinese")
indian_df <- df %>% 
  filter(cuisine == "indian")
korean_df <- df %>% 
  filter(cuisine == "korean")


# Find out how much data is available per cuisine
cat(" thai df:", dim(thai_df), "\n",
    "japanese df:", dim(japanese_df), "\n",
    "chinese_df:", dim(chinese_df), "\n",
    "indian_df:", dim(indian_df), "\n",
    "korean_df:", dim(korean_df))

## **Latihan - Menemukan bahan utama berdasarkan jenis masakan menggunakan dplyr**

Sekarang kamu bisa menggali lebih dalam ke dalam data dan mempelajari apa saja bahan khas untuk setiap jenis masakan. Kamu perlu membersihkan data berulang yang dapat menyebabkan kebingungan antar jenis masakan, jadi mari kita pelajari masalah ini.

Buatlah fungsi `create_ingredient()` dalam R yang mengembalikan dataframe bahan. Fungsi ini akan dimulai dengan menghapus kolom yang tidak berguna dan mengurutkan bahan berdasarkan jumlahnya.

Struktur dasar dari sebuah fungsi dalam R adalah:

`myFunction <- function(arglist){`

**`...`**

**`return`**`(value)`

`}`

Pengantar yang rapi tentang fungsi dalam R dapat ditemukan [di sini](https://skirmer.github.io/presentations/functions_with_r.html#1).

Mari kita langsung mulai! Kita akan menggunakan [kata kerja dplyr](https://dplyr.tidyverse.org/) yang telah kita pelajari di pelajaran sebelumnya. Sebagai pengingat:

-   `dplyr::select()`: membantu kamu memilih kolom mana yang ingin disimpan atau dikecualikan.

-   `dplyr::pivot_longer()`: membantu kamu "memanjangkan" data, meningkatkan jumlah baris dan mengurangi jumlah kolom.

-   `dplyr::group_by()` dan `dplyr::summarise()`: membantu kamu menemukan statistik ringkasan untuk berbagai grup, dan menyusunnya dalam tabel yang rapi.

-   `dplyr::filter()`: membuat subset data yang hanya berisi baris yang memenuhi kondisi kamu.

-   `dplyr::mutate()`: membantu kamu membuat atau memodifikasi kolom.

Lihatlah [tutorial learnr penuh seni ini](https://allisonhorst.shinyapps.io/dplyr-learnr/#section-welcome) oleh Allison Horst, yang memperkenalkan beberapa fungsi pengolahan data yang berguna dalam dplyr *(bagian dari Tidyverse)*.


In [None]:
# Creates a functions that returns the top ingredients by class

create_ingredient <- function(df){
  
  # Drop the id column which is the first colum
  ingredient_df = df %>% select(-1) %>% 
  # Transpose data to a long format
    pivot_longer(!cuisine, names_to = "ingredients", values_to = "count") %>% 
  # Find the top most ingredients for a particular cuisine
    group_by(ingredients) %>% 
    summarise(n_instances = sum(count)) %>% 
    filter(n_instances != 0) %>% 
  # Arrange by descending order
    arrange(desc(n_instances)) %>% 
    mutate(ingredients = factor(ingredients) %>% fct_inorder())
  
  
  return(ingredient_df)
} # End of function

Sekarang kita bisa menggunakan fungsi ini untuk mendapatkan gambaran tentang sepuluh bahan paling populer berdasarkan masakan. Mari kita coba dengan `thai_df`.


In [None]:
# Call create_ingredient and display popular ingredients
thai_ingredient_df <- create_ingredient(df = thai_df)

thai_ingredient_df %>% 
  slice_head(n = 10)

Pada bagian sebelumnya, kita menggunakan `geom_col()`, mari kita lihat bagaimana Anda juga dapat menggunakan `geom_bar` untuk membuat diagram batang. Gunakan `?geom_bar` untuk membaca lebih lanjut.


In [None]:
# Make a bar chart for popular thai cuisines
thai_ingredient_df %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "steelblue") +
  xlab("") + ylab("")

Mari kita lakukan hal yang sama untuk data Jepang


In [None]:
# Get popular ingredients for Japanese cuisines and make bar chart
create_ingredient(df = japanese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "darkorange", alpha = 0.8) +
  xlab("") + ylab("")


Bagaimana dengan masakan Cina?


In [None]:
# Get popular ingredients for Chinese cuisines and make bar chart
create_ingredient(df = chinese_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "cyan4", alpha = 0.8) +
  xlab("") + ylab("")

In [None]:
# Get popular ingredients for Indian cuisines and make bar chart
create_ingredient(df = indian_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#041E42FF", alpha = 0.8) +
  xlab("") + ylab("")

Akhirnya, plot bahan-bahan Korea.


In [None]:
# Get popular ingredients for Korean cuisines and make bar chart
create_ingredient(df = korean_df) %>% 
  slice_head(n = 10) %>%
  ggplot(aes(x = n_instances, y = ingredients)) +
  geom_bar(stat = "identity", width = 0.5, fill = "#852419FF", alpha = 0.8) +
  xlab("") + ylab("")

Dari visualisasi data, kita sekarang dapat menghapus bahan-bahan yang paling umum yang menciptakan kebingungan antara masakan yang berbeda, menggunakan `dplyr::select()`.

Semua orang menyukai nasi, bawang putih, dan jahe!


In [None]:
# Drop id column, rice, garlic and ginger from our original data set
df_select <- df %>% 
  select(-c(1, rice, garlic, ginger))

# Display new data set
df_select %>% 
  slice_head(n = 5)

## Praproses data menggunakan resep üë©‚Äçüç≥üë®‚Äçüç≥ - Mengatasi data yang tidak seimbang ‚öñÔ∏è

<p >
   <img src="../../images/recipes.png"
   width="600"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>

Karena pelajaran ini berkaitan dengan masakan, kita harus menempatkan `recipes` dalam konteks yang sesuai.

Tidymodels menyediakan satu lagi paket yang keren: `recipes` - sebuah paket untuk praproses data.


Mari kita lihat kembali distribusi masakan kita.


In [None]:
# Distribution of cuisines
old_label_count <- df_select %>% 
  count(cuisine) %>% 
  arrange(desc(n))

old_label_count

Seperti yang dapat Anda lihat, terdapat distribusi yang cukup tidak merata dalam jumlah jenis masakan. Masakan Korea hampir 3 kali lebih banyak dibandingkan masakan Thailand. Data yang tidak seimbang sering kali memiliki dampak negatif terhadap kinerja model. Pikirkan tentang klasifikasi biner. Jika sebagian besar data Anda berasal dari satu kelas, model pembelajaran mesin akan lebih sering memprediksi kelas tersebut, hanya karena ada lebih banyak data untuk kelas itu. Menyeimbangkan data mengambil data yang miring dan membantu menghilangkan ketidakseimbangan ini. Banyak model bekerja paling baik ketika jumlah observasi seimbang dan, oleh karena itu, cenderung kesulitan dengan data yang tidak seimbang.

Ada dua cara utama untuk menangani kumpulan data yang tidak seimbang:

-   menambahkan observasi ke kelas minoritas: `Over-sampling` misalnya menggunakan algoritma SMOTE

-   menghapus observasi dari kelas mayoritas: `Under-sampling`

Sekarang, mari kita demonstrasikan cara menangani kumpulan data yang tidak seimbang menggunakan sebuah `recipe`. Recipe dapat dianggap sebagai cetak biru yang menjelaskan langkah-langkah apa saja yang harus diterapkan pada kumpulan data agar siap untuk analisis data.


In [None]:
# Load themis package for dealing with imbalanced data
library(themis)

# Create a recipe for preprocessing data
cuisines_recipe <- recipe(cuisine ~ ., data = df_select) %>% 
  step_smote(cuisine)

cuisines_recipe

Mari kita uraikan langkah-langkah pra-pemrosesan kita.

-   Pemanggilan `recipe()` dengan sebuah formula memberi tahu recipe tentang *peran* dari variabel-variabel menggunakan data `df_select` sebagai referensi. Sebagai contoh, kolom `cuisine` telah diberikan peran `outcome`, sementara kolom lainnya diberikan peran `predictor`.

-   [`step_smote(cuisine)`](https://themis.tidymodels.org/reference/step_smote.html) membuat *spesifikasi* dari langkah recipe yang secara sintetis menghasilkan contoh baru dari kelas minoritas menggunakan tetangga terdekat dari kasus-kasus tersebut.

Sekarang, jika kita ingin melihat data yang telah diproses, kita harus [**`prep()`**](https://recipes.tidymodels.org/reference/prep.html) dan [**`bake()`**](https://recipes.tidymodels.org/reference/bake.html) recipe kita.

`prep()`: memperkirakan parameter yang diperlukan dari set pelatihan yang nantinya dapat diterapkan pada set data lainnya.

`bake()`: mengambil recipe yang telah diproses (prepped) dan menerapkan operasi tersebut pada set data apa pun.


In [None]:
# Prep and bake the recipe
preprocessed_df <- cuisines_recipe %>% 
  prep() %>% 
  bake(new_data = NULL) %>% 
  relocate(cuisine)

# Display data
preprocessed_df %>% 
  slice_head(n = 5)

# Quick summary stats
preprocessed_df %>% 
  introduce()

Mari kita periksa distribusi masakan kita dan membandingkannya dengan data yang tidak seimbang.


In [None]:
# Distribution of cuisines
new_label_count <- preprocessed_df %>% 
  count(cuisine) %>% 
  arrange(desc(n))

list(new_label_count = new_label_count,
     old_label_count = old_label_count)

Yum! Datanya bersih, seimbang, dan sangat lezat üòã!

> Biasanya, sebuah resep digunakan sebagai praprosesor untuk pemodelan di mana ia mendefinisikan langkah-langkah apa yang harus diterapkan pada kumpulan data agar siap untuk pemodelan. Dalam kasus tersebut, biasanya digunakan `workflow()` (seperti yang telah kita lihat di pelajaran sebelumnya) daripada memperkirakan resep secara manual.
>
> Oleh karena itu, Anda biasanya tidak perlu menggunakan **`prep()`** dan **`bake()`** resep saat menggunakan tidymodels, tetapi fungsi-fungsi tersebut berguna untuk memastikan bahwa resep bekerja sesuai dengan yang Anda harapkan seperti dalam kasus kita.
>
> Ketika Anda **`bake()`** sebuah resep yang telah dipersiapkan dengan **`new_data = NULL`**, Anda akan mendapatkan kembali data yang Anda berikan saat mendefinisikan resep, tetapi telah melalui langkah-langkah praproses.

Sekarang mari kita simpan salinan data ini untuk digunakan di pelajaran mendatang:


In [None]:
# Save preprocessed data
write_csv(preprocessed_df, "../../../data/cleaned_cuisines_R.csv")

CSV baru ini sekarang dapat ditemukan di folder data utama.

**üöÄTantangan**

Kurikulum ini berisi beberapa dataset yang menarik. Telusuri folder `data` dan lihat apakah ada dataset yang cocok untuk klasifikasi biner atau multi-kelas? Pertanyaan apa yang akan Anda ajukan terhadap dataset ini?

## [**Kuis setelah kuliah**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/20/)

## **Tinjauan & Studi Mandiri**

-   Lihat [paket themis](https://github.com/tidymodels/themis). Teknik lain apa yang bisa kita gunakan untuk menangani data yang tidak seimbang?

-   Situs referensi model Tidy [website referensi](https://www.tidymodels.org/start/).

-   H. Wickham dan G. Grolemund, [*R untuk Ilmu Data: Visualisasi, Model, Transformasi, Penataan, dan Impor Data*](https://r4ds.had.co.nz/).

#### TERIMA KASIH KEPADA:

[`Allison Horst`](https://twitter.com/allison_horst/) atas ilustrasi luar biasa yang membuat R lebih ramah dan menarik. Temukan lebih banyak ilustrasi di [galerinya](https://www.google.com/url?q=https://github.com/allisonhorst/stats-illustrations&sa=D&source=editors&ust=1626380772530000&usg=AOvVaw3zcfyCizFQZpkSLzxiiQEM).

[Cassie Breviu](https://www.twitter.com/cassieview) dan [Jen Looper](https://www.twitter.com/jenlooper) atas pembuatan versi Python asli dari modul ini ‚ô•Ô∏è

<p >
   <img src="../../images/r_learners_sm.jpeg"
   width="600"/>
   <figcaption>Karya seni oleh @allison_horst</figcaption>



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berupaya untuk memberikan hasil yang akurat, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang berwenang. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa terjemahan manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.
