{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "name": "lesson_12-R.ipynb", "provenance": [], "collapsed_sections": [] }, "kernelspec": { "name": "ir", "display_name": "R" }, "language_info": { "name": "R" }, "coopTranslator": { "original_hash": "fab50046ca413a38939d579f8432274f", "translation_date": "2025-09-04T08:38:27+00:00", "source_file": "4-Classification/3-Classifiers-2/solution/R/lesson_12-R.ipynb", "language_code": "fi" } }, "cells": [ { "cell_type": "markdown", "metadata": { "id": "jsFutf_ygqSx" }, "source": [ "# Rakenna luokittelumalli: Herkulliset aasialaiset ja intialaiset keittiöt\n" ] }, { "cell_type": "markdown", "metadata": { "id": "HD54bEefgtNO" }, "source": [ "## Keittiöluokittelijat 2\n", "\n", "Tässä toisessa luokittelutunnissa tutkimme `lisätapoja` kategorisen datan luokitteluun. Opimme myös, mitä seurauksia on, kun valitsemme yhden luokittelijan toisen sijaan.\n", "\n", "### [**Esiluennon kysely**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/23/)\n", "\n", "### **Edellytykset**\n", "\n", "Oletamme, että olet suorittanut aiemmat oppitunnit, sillä jatkamme joitakin aiemmin opittuja käsitteitä.\n", "\n", "Tätä oppituntia varten tarvitsemme seuraavat paketit:\n", "\n", "- `tidyverse`: [tidyverse](https://www.tidyverse.org/) on [R-pakettien kokoelma](https://www.tidyverse.org/packages), joka tekee datatieteestä nopeampaa, helpompaa ja hauskempaa!\n", "\n", "- `tidymodels`: [tidymodels](https://www.tidymodels.org/) -kehys on [pakettien kokoelma](https://www.tidymodels.org/packages/) mallinnukseen ja koneoppimiseen.\n", "\n", "- `themis`: [themis-paketti](https://themis.tidymodels.org/) tarjoaa lisäreseptivaiheita epätasapainoisen datan käsittelyyn.\n", "\n", "Voit asentaa ne seuraavasti:\n", "\n", "`install.packages(c(\"tidyverse\", \"tidymodels\", \"kernlab\", \"themis\", \"ranger\", \"xgboost\", \"kknn\"))`\n", "\n", "Vaihtoehtoisesti alla oleva skripti tarkistaa, onko sinulla tarvittavat paketit tämän moduulin suorittamiseen, ja asentaa ne puolestasi, jos ne puuttuvat.\n" ] }, { "cell_type": "code", "metadata": { "id": "vZ57IuUxgyQt" }, "source": [ "suppressWarnings(if (!require(\"pacman\"))install.packages(\"pacman\"))\n", "\n", "pacman::p_load(tidyverse, tidymodels, themis, kernlab, ranger, xgboost, kknn)" ], "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "z22M-pj4g07x" }, "source": [ "## **1. Luokittelukartta**\n", "\n", "Edellisessä [oppitunnissamme](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification/2-Classifiers-1) yritimme vastata kysymykseen: kuinka valitsemme useiden mallien välillä? Suurelta osin se riippuu datan ominaisuuksista ja ongelman tyypistä, jonka haluamme ratkaista (esimerkiksi luokittelu tai regressio).\n", "\n", "Aiemmin opimme eri vaihtoehdoista, joita sinulla on datan luokittelussa Microsoftin huijauslistan avulla. Pythonin koneoppimisen kehys, Scikit-learn, tarjoaa vastaavan mutta tarkemman huijauslistan, joka voi auttaa kaventamaan valintaa estimointien (toinen termi luokittelijoille) välillä:\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"