21 KiB
Класификатори за кухни 1
В този урок ще използвате набора от данни, който запазихте от предишния урок, пълен с балансирани и почистени данни за различни кухни.
Ще използвате този набор от данни с разнообразие от класификатори, за да предвидите дадена национална кухня въз основа на група съставки. Докато правите това, ще научите повече за някои от начините, по които алгоритмите могат да бъдат използвани за задачи по класификация.
Тест преди лекцията
Подготовка
При условие че сте завършили Урок 1, уверете се, че файлът cleaned_cuisines.csv съществува в основната папка /data
за тези четири урока.
Упражнение - предвиждане на национална кухня
-
Работейки в папката notebook.ipynb на този урок, импортирайте този файл заедно с библиотеката Pandas:
import pandas as pd cuisines_df = pd.read_csv("../data/cleaned_cuisines.csv") cuisines_df.head()
Данните изглеждат така:
Unnamed: 0 | cuisine | almond | angelica | anise | anise_seed | apple | apple_brandy | apricot | armagnac | ... | whiskey | white_bread | white_wine | whole_grain_wheat_flour | wine | wood | yam | yeast | yogurt | zucchini | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1 | 1 | indian | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
2 | 2 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
3 | 3 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 4 | indian | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
-
Сега импортирайте още няколко библиотеки:
from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split, cross_val_score from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve from sklearn.svm import SVC import numpy as np
-
Разделете X и y координатите в два датафрейма за обучение.
cuisine
може да бъде датафреймът с етикети:cuisines_label_df = cuisines_df['cuisine'] cuisines_label_df.head()
Ще изглежда така:
0 indian 1 indian 2 indian 3 indian 4 indian Name: cuisine, dtype: object
-
Премахнете колоната
Unnamed: 0
и колонатаcuisine
, използвайкиdrop()
. Запазете останалите данни като обучаеми характеристики:cuisines_feature_df = cuisines_df.drop(['Unnamed: 0', 'cuisine'], axis=1) cuisines_feature_df.head()
Вашите характеристики изглеждат така:
almond | angelica | anise | anise_seed | apple | apple_brandy | apricot | armagnac | artemisia | artichoke | ... | whiskey | white_bread | white_wine | whole_grain_wheat_flour | wine | wood | yam | yeast | yogurt | zucchini | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ... | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
Сега сте готови да обучите модела си!
Избор на класификатор
Сега, когато данните ви са почистени и готови за обучение, трябва да решите кой алгоритъм да използвате за задачата.
Scikit-learn групира класификацията под Надзорно Обучение, и в тази категория ще намерите много начини за класифициране. Разнообразието може да изглежда объркващо на пръв поглед. Следните методи включват техники за класификация:
- Линейни модели
- Машини за опорни вектори
- Стохастичен градиентен спуск
- Най-близки съседи
- Гаусови процеси
- Дървета за решения
- Методи на ансамбъл (гласуващ класификатор)
- Мултикласови и мултиизходни алгоритми (мултикласова и мултиетикетна класификация, мултикласова-мултиизходна класификация)
Можете също да използвате невронни мрежи за класифициране на данни, но това е извън обхвата на този урок.
Какъв класификатор да изберете?
И така, кой класификатор трябва да изберете? Често, преминаването през няколко и търсенето на добър резултат е начин за тестване. Scikit-learn предлага сравнение рамо до рамо на създаден набор от данни, сравнявайки KNeighbors, SVC по два начина, GaussianProcessClassifier, DecisionTreeClassifier, RandomForestClassifier, MLPClassifier, AdaBoostClassifier, GaussianNB и QuadraticDiscriminationAnalysis, показвайки резултатите визуализирани:
Графики, генерирани от документацията на Scikit-learn
AutoML решава този проблем лесно, като изпълнява тези сравнения в облака, позволявайки ви да изберете най-добрия алгоритъм за вашите данни. Опитайте тук
По-добър подход
По-добър начин от случайното предположение е да следвате идеите от този изтегляем ML Cheat sheet. Тук откриваме, че за нашия мултикласов проблем имаме някои опции:
Част от Cheat Sheet на Microsoft за алгоритми, описваща опции за мултикласова класификация
✅ Изтеглете този cheat sheet, разпечатайте го и го закачете на стената си!
Разсъждения
Нека видим дали можем да разсъждаваме върху различни подходи, като се вземат предвид ограниченията, които имаме:
- Невронните мрежи са твърде тежки. Като се има предвид нашият почистен, но минимален набор от данни и фактът, че изпълняваме обучението локално чрез ноутбуци, невронните мрежи са твърде тежки за тази задача.
- Не използваме двукласов класификатор. Не използваме двукласов класификатор, така че това изключва one-vs-all.
- Дърво за решения или логистична регресия може да работи. Дърво за решения може да работи, или логистична регресия за мултикласови данни.
- Мултикласовите Boosted Decision Trees решават различен проблем. Мултикласовото Boosted Decision Tree е най-подходящо за непараметрични задачи, например задачи, предназначени за изграждане на класации, така че не е полезно за нас.
Използване на Scikit-learn
Ще използваме Scikit-learn за анализ на нашите данни. Въпреки това, има много начини за използване на логистична регресия в Scikit-learn. Вижте параметрите за предаване.
По същество има два важни параметъра - multi_class
и solver
- които трябва да зададем, когато поискаме от Scikit-learn да изпълни логистична регресия. Стойността на multi_class
прилага определено поведение. Стойността на solver определя кой алгоритъм да се използва. Не всички solver могат да се комбинират с всички стойности на multi_class
.
Според документацията, в случая на мултиклас, алгоритъмът за обучение:
- Използва схемата one-vs-rest (OvR), ако опцията
multi_class
е зададена наovr
- Използва загубата на кръстосана ентропия, ако опцията
multi_class
е зададена наmultinomial
. (В момента опциятаmultinomial
се поддържа само от solver-ите ‘lbfgs’, ‘sag’, ‘saga’ и ‘newton-cg’.)"
🎓 "Схемата" тук може да бъде 'ovr' (one-vs-rest) или 'multinomial'. Тъй като логистичната регресия е наистина предназначена да поддържа бинарна класификация, тези схеми й позволяват да се справя по-добре с задачи за мултикласова класификация. източник
🎓 "Solver" се определя като "алгоритъмът, който да се използва в проблема за оптимизация". източник.
Scikit-learn предлага тази таблица, за да обясни как solver-ите се справят с различни предизвикателства, представени от различни видове структури на данни:
Упражнение - разделяне на данните
Можем да се фокусираме върху логистичната регресия за първия ни опит за обучение, тъй като наскоро научихте за нея в предишен урок.
Разделете данните си на групи за обучение и тестване, като извикате train_test_split()
:
X_train, X_test, y_train, y_test = train_test_split(cuisines_feature_df, cuisines_label_df, test_size=0.3)
Упражнение - прилагане на логистична регресия
Тъй като използвате случая на мултиклас, трябва да изберете каква схема да използвате и какъв solver да зададете. Използвайте LogisticRegression с настройка за мултиклас и solver liblinear за обучение.
-
Създайте логистична регресия с multi_class, зададено на
ovr
, и solver, зададен наliblinear
:lr = LogisticRegression(multi_class='ovr',solver='liblinear') model = lr.fit(X_train, np.ravel(y_train)) accuracy = model.score(X_test, y_test) print ("Accuracy is {}".format(accuracy))
✅ Опитайте различен solver като
lbfgs
, който често е зададен като стандартен
Забележка: Използвайте функцията Pandas
ravel
, за да изравните данните си, когато е необходимо. Точността е добра при над 80%!
-
Можете да видите този модел в действие, като тествате един ред данни (#50):
print(f'ingredients: {X_test.iloc[50][X_test.iloc[50]!=0].keys()}') print(f'cuisine: {y_test.iloc[50]}')
Резултатът се отпечатва:
ingredients: Index(['cilantro', 'onion', 'pea', 'potato', 'tomato', 'vegetable_oil'], dtype='object') cuisine: indian
✅ Опитайте с различен номер на ред и проверете резултатите.
-
Ако искате да се задълбочите, можете да проверите точността на тази прогноза:
test= X_test.iloc[50].values.reshape(-1, 1).T proba = model.predict_proba(test) classes = model.classes_ resultdf = pd.DataFrame(data=proba, columns=classes) topPrediction = resultdf.T.sort_values(by=[0], ascending = [False]) topPrediction.head()
Резултатът се отпечатва - индийската кухня е най-доброто предположение, с добра вероятност:
0 indian 0.715851 chinese 0.229475 japanese 0.029763 korean 0.017277 thai 0.007634 ✅ Можете ли да обясните защо моделът е доста сигурен, че това е индийска кухня?
-
Получете повече подробности, като отпечатате отчет за класификация, както направихте в уроците за регресия:
y_pred = model.predict(X_test) print(classification_report(y_test,y_pred))
precision recall f1-score support chinese 0.73 0.71 0.72 229 indian 0.91 0.93 0.92 254 japanese 0.70 0.75 0.72 220 korean 0.86 0.76 0.81 242 thai 0.79 0.85 0.82 254 accuracy 0.80 1199 macro avg 0.80 0.80 0.80 1199 weighted avg 0.80 0.80 0.80 1199
🚀Предизвикателство
В този урок използвахте почистените си данни, за да изградите модел за машинно обучение, който може да предскаже национална кухня въз основа на серия от съставки. Отделете време да разгледате многото опции, които Scikit-learn предоставя за класифициране на данни. Задълбочете се в концепцията за 'solver', за да разберете какво се случва зад кулисите.
Тест след лекцията
Преглед и самостоятелно обучение
Разгледайте малко повече математиката зад логистичната регресия в този урок
Задача
Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.