History

leestott 98900475bd 🌐 Update translations via Co-op Translator		3 weeks ago
..
solution	🌐 Update translations via Co-op Translator	3 weeks ago
README.md	🌐 Update translations via Co-op Translator	3 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	3 weeks ago
notebook.ipynb	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

Unescape Escape

Clasificatori de bucătărie 1

În această lecție, vei folosi setul de date salvat din lecția anterioară, plin de date echilibrate și curate despre bucătării.

Vei utiliza acest set de date cu o varietate de clasificatori pentru a prezice o bucătărie națională dată pe baza unui grup de ingrediente. În timp ce faci acest lucru, vei învăța mai multe despre unele dintre modurile în care algoritmii pot fi utilizați pentru sarcini de clasificare.

Chestionar înainte de lecție

Pregătire

Presupunând că ai finalizat Lecția 1, asigură-te că un fișier cleaned_cuisines.csv există în folderul rădăcină /data pentru aceste patru lecții.

Exercițiu - prezicerea unei bucătării naționale

Lucrând în folderul notebook.ipynb al acestei lecții, importă acel fișier împreună cu biblioteca Pandas:
```
import pandas as pd
cuisines_df = pd.read_csv("../data/cleaned_cuisines.csv")
cuisines_df.head()
```
Datele arată astfel:

	Unnamed: 0	cuisine	almond	...	yogurt
0	0	indian	0	...	0
1	1	indian	1	...	0
2	2	indian	0	...	0
3	3	indian	0	...	0
4	4	indian	0	...	1

Acum, importă mai multe biblioteci:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve
from sklearn.svm import SVC
import numpy as np

Împarte coordonatele X și y în două cadre de date pentru antrenament. cuisine poate fi cadrul de date pentru etichete:

cuisines_label_df = cuisines_df['cuisine']
cuisines_label_df.head()

Va arăta astfel:

0    indian
1    indian
2    indian
3    indian
4    indian
Name: cuisine, dtype: object

Elimină coloana Unnamed: 0 și coloana cuisine, folosind drop(). Salvează restul datelor ca caracteristici antrenabile:
```
cuisines_feature_df = cuisines_df.drop(['Unnamed: 0', 'cuisine'], axis=1)
cuisines_feature_df.head()
```
Caracteristicile tale arată astfel:

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

Acum ești gata să îți antrenezi modelul!

Alegerea clasificatorului

Acum că datele tale sunt curate și pregătite pentru antrenament, trebuie să decizi ce algoritm să folosești pentru sarcină.

Scikit-learn grupează clasificarea sub Învățare Supervizată, iar în această categorie vei găsi multe moduri de a clasifica. Varietatea poate fi copleșitoare la prima vedere. Metodele următoare includ tehnici de clasificare:

Modele liniare
Mașini cu vectori de suport
Gradient descendent stochastic
Vecini cei mai apropiați
Procese Gaussiene
Arbori de decizie
Metode de ansamblu (clasificator prin vot)
Algoritmi multiclasă și multioutput (clasificare multiclasă și multilabel, clasificare multiclasă-multioutput)

Poți folosi și rețele neuronale pentru a clasifica date, dar acest subiect este în afara scopului acestei lecții.

Ce clasificator să alegi?

Deci, ce clasificator ar trebui să alegi? Deseori, testarea mai multor clasificatori și căutarea unui rezultat bun este o metodă de testare. Scikit-learn oferă o comparație alăturată pe un set de date creat, comparând KNeighbors, SVC în două moduri, GaussianProcessClassifier, DecisionTreeClassifier, RandomForestClassifier, MLPClassifier, AdaBoostClassifier, GaussianNB și QuadraticDiscriminationAnalysis, arătând rezultatele vizualizate:

Grafice generate din documentația Scikit-learn

AutoML rezolvă această problemă elegant prin rularea acestor comparații în cloud, permițându-ți să alegi cel mai bun algoritm pentru datele tale. Încearcă aici

O abordare mai bună

O metodă mai bună decât ghicitul aleatoriu este să urmezi ideile din acest ML Cheat Sheet descărcabil. Aici descoperim că, pentru problema noastră multiclasă, avem câteva opțiuni:

O secțiune din Algorithm Cheat Sheet de la Microsoft, detaliind opțiuni de clasificare multiclasă

✅ Descarcă acest cheat sheet, printează-l și agață-l pe perete!

Raționament

Să vedem dacă putem raționa prin diferite abordări, având în vedere constrângerile pe care le avem:

Rețelele neuronale sunt prea grele. Având în vedere setul nostru de date curat, dar minimal, și faptul că rulăm antrenamentul local prin notebook-uri, rețelele neuronale sunt prea complexe pentru această sarcină.
Nu folosim clasificatori cu două clase. Nu utilizăm un clasificator cu două clase, deci excludem metoda one-vs-all.
Arborele de decizie sau regresia logistică ar putea funcționa. Un arbore de decizie ar putea funcționa, sau regresia logistică pentru date multiclasă.
Arborii de decizie boostați multiclasă rezolvă o altă problemă. Arborele de decizie boostat multiclasă este cel mai potrivit pentru sarcini nonparametrice, de exemplu sarcini concepute pentru a construi clasamente, deci nu este util pentru noi.

Utilizarea Scikit-learn

Vom folosi Scikit-learn pentru a analiza datele noastre. Totuși, există multe moduri de a utiliza regresia logistică în Scikit-learn. Consultă parametrii de transmis.

Practic, există doi parametri importanți - multi_class și solver - pe care trebuie să îi specificăm atunci când cerem Scikit-learn să efectueze o regresie logistică. Valoarea multi_class aplică un anumit comportament. Valoarea solverului indică ce algoritm să se folosească. Nu toți solverii pot fi combinați cu toate valorile multi_class.

Conform documentației, în cazul multiclasă, algoritmul de antrenament:

Folosește schema one-vs-rest (OvR), dacă opțiunea multi_class este setată la ovr
Folosește pierderea cross-entropy, dacă opțiunea multi_class este setată la multinomial. (În prezent, opțiunea multinomial este suportată doar de solverii ‘lbfgs’, ‘sag’, ‘saga’ și ‘newton-cg’.)"

🎓 'Schema' aici poate fi 'ovr' (one-vs-rest) sau 'multinomial'. Deoarece regresia logistică este concepută pentru a susține clasificarea binară, aceste scheme îi permit să gestioneze mai bine sarcinile de clasificare multiclasă. sursa

🎓 'Solverul' este definit ca "algoritmul utilizat în problema de optimizare". sursa.

Scikit-learn oferă acest tabel pentru a explica modul în care solverii gestionează diferite provocări prezentate de diferite structuri de date:

Exercițiu - împarte datele

Ne putem concentra pe regresia logistică pentru primul nostru test de antrenament, deoarece ai învățat recent despre aceasta într-o lecție anterioară. Împarte datele tale în grupuri de antrenament și testare, apelând train_test_split():

X_train, X_test, y_train, y_test = train_test_split(cuisines_feature_df, cuisines_label_df, test_size=0.3)

Exercițiu - aplică regresia logistică

Deoarece folosești cazul multiclasă, trebuie să alegi ce schemă să folosești și ce solver să setezi. Folosește LogisticRegression cu o setare multiclasă și solverul liblinear pentru antrenament.

Creează o regresie logistică cu multi_class setat la ovr și solverul setat la liblinear:

lr = LogisticRegression(multi_class='ovr',solver='liblinear')
model = lr.fit(X_train, np.ravel(y_train))

accuracy = model.score(X_test, y_test)
print ("Accuracy is {}".format(accuracy))

✅ Încearcă un alt solver, cum ar fi lbfgs, care este adesea setat ca implicit

Notă, folosește funcția Pandas ravel pentru a aplatiza datele tale atunci când este necesar. Acuratețea este bună la peste 80%!

Poți vedea acest model în acțiune testând un rând de date (#50):

print(f'ingredients: {X_test.iloc[50][X_test.iloc[50]!=0].keys()}')
print(f'cuisine: {y_test.iloc[50]}')

Rezultatul este afișat:

ingredients: Index(['cilantro', 'onion', 'pea', 'potato', 'tomato', 'vegetable_oil'], dtype='object')
cuisine: indian

✅ Încearcă un alt număr de rând și verifică rezultatele

Explorând mai profund, poți verifica acuratețea acestei predicții:
```
test= X_test.iloc[50].values.reshape(-1, 1).T
proba = model.predict_proba(test)
classes = model.classes_
resultdf = pd.DataFrame(data=proba, columns=classes)

topPrediction = resultdf.T.sort_values(by=[0], ascending = [False])
topPrediction.head()
```
Rezultatul este afișat - bucătăria indiană este cea mai probabilă, cu o bună probabilitate:

0

indian 0.715851

chinese 0.229475

japanese 0.029763

korean 0.017277

thai 0.007634

✅ Poți explica de ce modelul este destul de sigur că aceasta este o bucătărie indiană?

	0
indian	0.715851
chinese	0.229475
japanese	0.029763
korean	0.017277
thai	0.007634

Obține mai multe detalii prin afișarea unui raport de clasificare, așa cum ai făcut în lecțiile despre regresie:

y_pred = model.predict(X_test)
print(classification_report(y_test,y_pred))

	precizie	recall	f1-score	suport
chinese	0.73	0.71	0.72	229
indian	0.91	0.93	0.92	254
japanese	0.70	0.75	0.72	220
korean	0.86	0.76	0.81	242
thai	0.79	0.85	0.82	254
acuratețe	0.80	1199
macro avg	0.80	0.80	0.80	1199
weighted avg	0.80	0.80	0.80	1199

🚀Provocare

În această lecție, ai folosit datele curățate pentru a construi un model de învățare automată care poate prezice o bucătărie națională pe baza unei serii de ingrediente. Ia-ți timp să explorezi numeroasele opțiuni pe care Scikit-learn le oferă pentru clasificarea datelor. Explorează mai profund conceptul de 'solver' pentru a înțelege ce se întâmplă în culise.

Chestionar post-lecție

Recapitulare & Studiu Individual

Explorează puțin mai mult matematica din spatele regresiei logistice în această lecție

Temă

Studiază solvers

Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

README.md Unescape Escape