21 KiB

Raw Permalink Blame History Unescape Escape

Класификатори за кухни 1

В този урок ще използвате набора от данни, който запазихте от предишния урок, пълен с балансирани и почистени данни за различни кухни.

Ще използвате този набор от данни с разнообразие от класификатори, за да предвидите дадена национална кухня въз основа на група съставки. Докато правите това, ще научите повече за някои от начините, по които алгоритмите могат да бъдат използвани за задачи по класификация.

Тест преди лекцията

Подготовка

При условие че сте завършили Урок 1, уверете се, че файлът cleaned_cuisines.csv съществува в основната папка /data за тези четири урока.

Упражнение - предвиждане на национална кухня

Работейки в папката notebook.ipynb на този урок, импортирайте този файл заедно с библиотеката Pandas:
```
import pandas as pd
cuisines_df = pd.read_csv("../data/cleaned_cuisines.csv")
cuisines_df.head()
```
Данните изглеждат така:

	Unnamed: 0	cuisine	almond	...	yogurt
0	0	indian	0	...	0
1	1	indian	1	...	0
2	2	indian	0	...	0
3	3	indian	0	...	0
4	4	indian	0	...	1

Сега импортирайте още няколко библиотеки:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve
from sklearn.svm import SVC
import numpy as np

Разделете X и y координатите в два датафрейма за обучение. cuisine може да бъде датафреймът с етикети:
```
cuisines_label_df = cuisines_df['cuisine']
cuisines_label_df.head()
```
Ще изглежда така:
```
0    indian
1    indian
2    indian
3    indian
4    indian
Name: cuisine, dtype: object
```
Премахнете колоната Unnamed: 0 и колоната cuisine, използвайки drop(). Запазете останалите данни като обучаеми характеристики:
```
cuisines_feature_df = cuisines_df.drop(['Unnamed: 0', 'cuisine'], axis=1)
cuisines_feature_df.head()
```
Вашите характеристики изглеждат така:

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

Сега сте готови да обучите модела си!

Избор на класификатор

Сега, когато данните ви са почистени и готови за обучение, трябва да решите кой алгоритъм да използвате за задачата.

Scikit-learn групира класификацията под Надзорно Обучение, и в тази категория ще намерите много начини за класифициране. Разнообразието може да изглежда объркващо на пръв поглед. Следните методи включват техники за класификация:

Линейни модели
Машини за опорни вектори
Стохастичен градиентен спуск
Най-близки съседи
Гаусови процеси
Дървета за решения
Методи на ансамбъл (гласуващ класификатор)
Мултикласови и мултиизходни алгоритми (мултикласова и мултиетикетна класификация, мултикласова-мултиизходна класификация)

Можете също да използвате невронни мрежи за класифициране на данни, но това е извън обхвата на този урок.

Какъв класификатор да изберете?

И така, кой класификатор трябва да изберете? Често, преминаването през няколко и търсенето на добър резултат е начин за тестване. Scikit-learn предлага сравнение рамо до рамо на създаден набор от данни, сравнявайки KNeighbors, SVC по два начина, GaussianProcessClassifier, DecisionTreeClassifier, RandomForestClassifier, MLPClassifier, AdaBoostClassifier, GaussianNB и QuadraticDiscriminationAnalysis, показвайки резултатите визуализирани:

Графики, генерирани от документацията на Scikit-learn

AutoML решава този проблем лесно, като изпълнява тези сравнения в облака, позволявайки ви да изберете най-добрия алгоритъм за вашите данни. Опитайте тук

По-добър подход

По-добър начин от случайното предположение е да следвате идеите от този изтегляем ML Cheat sheet. Тук откриваме, че за нашия мултикласов проблем имаме някои опции:

Част от Cheat Sheet на Microsoft за алгоритми, описваща опции за мултикласова класификация

✅ Изтеглете този cheat sheet, разпечатайте го и го закачете на стената си!

Разсъждения

Нека видим дали можем да разсъждаваме върху различни подходи, като се вземат предвид ограниченията, които имаме:

Невронните мрежи са твърде тежки. Като се има предвид нашият почистен, но минимален набор от данни и фактът, че изпълняваме обучението локално чрез ноутбуци, невронните мрежи са твърде тежки за тази задача.
Не използваме двукласов класификатор. Не използваме двукласов класификатор, така че това изключва one-vs-all.
Дърво за решения или логистична регресия може да работи. Дърво за решения може да работи, или логистична регресия за мултикласови данни.
Мултикласовите Boosted Decision Trees решават различен проблем. Мултикласовото Boosted Decision Tree е най-подходящо за непараметрични задачи, например задачи, предназначени за изграждане на класации, така че не е полезно за нас.

Използване на Scikit-learn

Ще използваме Scikit-learn за анализ на нашите данни. Въпреки това, има много начини за използване на логистична регресия в Scikit-learn. Вижте параметрите за предаване.

По същество има два важни параметъра - multi_class и solver - които трябва да зададем, когато поискаме от Scikit-learn да изпълни логистична регресия. Стойността на multi_class прилага определено поведение. Стойността на solver определя кой алгоритъм да се използва. Не всички solver могат да се комбинират с всички стойности на multi_class.

Според документацията, в случая на мултиклас, алгоритъмът за обучение:

Използва схемата one-vs-rest (OvR), ако опцията multi_class е зададена на ovr
Използва загубата на кръстосана ентропия, ако опцията multi_class е зададена на multinomial. (В момента опцията multinomial се поддържа само от solver-ите ‘lbfgs’, ‘sag’, ‘saga’ и ‘newton-cg’.)"

🎓 "Схемата" тук може да бъде 'ovr' (one-vs-rest) или 'multinomial'. Тъй като логистичната регресия е наистина предназначена да поддържа бинарна класификация, тези схеми й позволяват да се справя по-добре с задачи за мултикласова класификация. източник

🎓 "Solver" се определя като "алгоритъмът, който да се използва в проблема за оптимизация". източник.

Scikit-learn предлага тази таблица, за да обясни как solver-ите се справят с различни предизвикателства, представени от различни видове структури на данни:

Упражнение - разделяне на данните

Можем да се фокусираме върху логистичната регресия за първия ни опит за обучение, тъй като наскоро научихте за нея в предишен урок. Разделете данните си на групи за обучение и тестване, като извикате train_test_split():

X_train, X_test, y_train, y_test = train_test_split(cuisines_feature_df, cuisines_label_df, test_size=0.3)

Упражнение - прилагане на логистична регресия

Тъй като използвате случая на мултиклас, трябва да изберете каква схема да използвате и какъв solver да зададете. Използвайте LogisticRegression с настройка за мултиклас и solver liblinear за обучение.

Създайте логистична регресия с multi_class, зададено на ovr, и solver, зададен на liblinear:
```
lr = LogisticRegression(multi_class='ovr',solver='liblinear')
model = lr.fit(X_train, np.ravel(y_train))

accuracy = model.score(X_test, y_test)
print ("Accuracy is {}".format(accuracy))
```
✅ Опитайте различен solver като lbfgs, който често е зададен като стандартен

Забележка: Използвайте функцията Pandas ravel, за да изравните данните си, когато е необходимо. Точността е добра при над 80%!

Можете да видите този модел в действие, като тествате един ред данни (#50):
```
print(f'ingredients: {X_test.iloc[50][X_test.iloc[50]!=0].keys()}')
print(f'cuisine: {y_test.iloc[50]}')
```
Резултатът се отпечатва:
```
ingredients: Index(['cilantro', 'onion', 'pea', 'potato', 'tomato', 'vegetable_oil'], dtype='object')
cuisine: indian
```
✅ Опитайте с различен номер на ред и проверете резултатите.
Ако искате да се задълбочите, можете да проверите точността на тази прогноза:
```
test= X_test.iloc[50].values.reshape(-1, 1).T
proba = model.predict_proba(test)
classes = model.classes_
resultdf = pd.DataFrame(data=proba, columns=classes)

topPrediction = resultdf.T.sort_values(by=[0], ascending = [False])
topPrediction.head()
```
Резултатът се отпечатва - индийската кухня е най-доброто предположение, с добра вероятност:

0

indian 0.715851

chinese 0.229475

japanese 0.029763

korean 0.017277

thai 0.007634

✅ Можете ли да обясните защо моделът е доста сигурен, че това е индийска кухня?

	0
indian	0.715851
chinese	0.229475
japanese	0.029763
korean	0.017277
thai	0.007634

Получете повече подробности, като отпечатате отчет за класификация, както направихте в уроците за регресия:

y_pred = model.predict(X_test)
print(classification_report(y_test,y_pred))

	precision	recall	f1-score	support
chinese	0.73	0.71	0.72	229
indian	0.91	0.93	0.92	254
japanese	0.70	0.75	0.72	220
korean	0.86	0.76	0.81	242
thai	0.79	0.85	0.82	254
accuracy	0.80	1199
macro avg	0.80	0.80	0.80	1199
weighted avg	0.80	0.80	0.80	1199

🚀Предизвикателство

В този урок използвахте почистените си данни, за да изградите модел за машинно обучение, който може да предскаже национална кухня въз основа на серия от съставки. Отделете време да разгледате многото опции, които Scikit-learn предоставя за класифициране на данни. Задълбочете се в концепцията за 'solver', за да разберете какво се случва зад кулисите.

Тест след лекцията

Преглед и самостоятелно обучение

Разгледайте малко повече математиката зад логистичната регресия в този урок

Задача

Проучете решаващите алгоритми

Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

21 KiB Raw Permalink Blame History Unescape Escape