16 KiB

Raw Permalink Blame History Unescape Escape

Clasificadores de cocina 1

En esta lección, usarás el conjunto de datos que guardaste en la última lección, lleno de datos equilibrados y limpios sobre cocinas.

Utilizarás este conjunto de datos con una variedad de clasificadores para predecir una cocina nacional dada un grupo de ingredientes. Mientras lo haces, aprenderás más sobre algunas de las formas en que los algoritmos pueden ser aprovechados para tareas de clasificación.

Cuestionario previo a la lección

Preparación

Asumiendo que completaste Lección 1, asegúrate de que exista un archivo cleaned_cuisines.csv en la carpeta raíz /data para estas cuatro lecciones.

Ejercicio - predecir una cocina nacional

Trabajando en la carpeta notebook.ipynb de esta lección, importa ese archivo junto con la biblioteca Pandas:
```
import pandas as pd
cuisines_df = pd.read_csv("../data/cleaned_cuisines.csv")
cuisines_df.head()
```
Los datos se ven así:

	Unnamed: 0	cuisine	almond	...	yogurt
0	0	indian	0	...	0
1	1	indian	1	...	0
2	2	indian	0	...	0
3	3	indian	0	...	0
4	4	indian	0	...	1

Ahora, importa varias bibliotecas más:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve
from sklearn.svm import SVC
import numpy as np

Divide las coordenadas X e y en dos dataframes para entrenamiento. cuisine puede ser el dataframe de etiquetas:

cuisines_label_df = cuisines_df['cuisine']
cuisines_label_df.head()

Se verá así:

0    indian
1    indian
2    indian
3    indian
4    indian
Name: cuisine, dtype: object

Elimina la columna Unnamed: 0 y la columna cuisine, usando drop(). Guarda el resto de los datos como características entrenables:
```
cuisines_feature_df = cuisines_df.drop(['Unnamed: 0', 'cuisine'], axis=1)
cuisines_feature_df.head()
```
Tus características se ven así:

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

¡Ahora estás listo para entrenar tu modelo!

Elegir tu clasificador

Ahora que tus datos están limpios y listos para el entrenamiento, debes decidir qué algoritmo usar para la tarea.

Scikit-learn agrupa la clasificación bajo Aprendizaje Supervisado, y en esa categoría encontrarás muchas formas de clasificar. La variedad puede ser bastante abrumadora a primera vista. Los siguientes métodos incluyen técnicas de clasificación:

Modelos Lineales
Máquinas de Vectores de Soporte
Descenso de Gradiente Estocástico
Vecinos Más Cercanos
Procesos Gaussianos
Árboles de Decisión
Métodos de Ensamble (clasificador por votación)
Algoritmos multicategoría y multioutput (clasificación multicategoría y multilabel, clasificación multicategoría-multioutput)

También puedes usar redes neuronales para clasificar datos, pero eso está fuera del alcance de esta lección.

¿Qué clasificador elegir?

Entonces, ¿qué clasificador deberías elegir? A menudo, probar varios y buscar un buen resultado es una forma de evaluar. Scikit-learn ofrece una comparación lado a lado en un conjunto de datos creado, comparando KNeighbors, SVC de dos maneras, GaussianProcessClassifier, DecisionTreeClassifier, RandomForestClassifier, MLPClassifier, AdaBoostClassifier, GaussianNB y QuadraticDiscriminationAnalysis, mostrando los resultados visualizados:

Gráficos generados en la documentación de Scikit-learn

AutoML resuelve este problema de manera eficiente al realizar estas comparaciones en la nube, permitiéndote elegir el mejor algoritmo para tus datos. Pruébalo aquí

Un enfoque mejor

Una mejor manera que adivinar al azar, sin embargo, es seguir las ideas en esta descargable hoja de trucos de ML. Aquí, descubrimos que, para nuestro problema multicategoría, tenemos algunas opciones:

Una sección de la Hoja de Trucos de Algoritmos de Microsoft, detallando opciones de clasificación multicategoría

✅ Descarga esta hoja de trucos, imprímela y cuélgala en tu pared.

Razonamiento

Veamos si podemos razonar sobre diferentes enfoques dados los límites que tenemos:

Las redes neuronales son demasiado pesadas. Dado nuestro conjunto de datos limpio pero mínimo, y el hecho de que estamos ejecutando el entrenamiento localmente a través de notebooks, las redes neuronales son demasiado pesadas para esta tarea.
No usamos clasificadores de dos clases. No usamos un clasificador de dos clases, por lo que descartamos el enfoque uno-contra-todos.
Un árbol de decisión o regresión logística podrían funcionar. Un árbol de decisión podría funcionar, o regresión logística para datos multicategoría.
Los árboles de decisión potenciados multicategoría resuelven un problema diferente. El árbol de decisión potenciado multicategoría es más adecuado para tareas no paramétricas, por ejemplo, tareas diseñadas para construir rankings, por lo que no es útil para nosotros.

Usando Scikit-learn

Usaremos Scikit-learn para analizar nuestros datos. Sin embargo, hay muchas formas de usar regresión logística en Scikit-learn. Echa un vistazo a los parámetros que puedes pasar.

Esencialmente hay dos parámetros importantes - multi_class y solver - que necesitamos especificar cuando pedimos a Scikit-learn que realice una regresión logística. El valor de multi_class aplica un cierto comportamiento. El valor del solver es el algoritmo que se usará. No todos los solvers pueden ser emparejados con todos los valores de multi_class.

Según la documentación, en el caso multicategoría, el algoritmo de entrenamiento:

Usa el esquema uno-contra-resto (OvR), si la opción multi_class está configurada como ovr.
Usa la pérdida de entropía cruzada, si la opción multi_class está configurada como multinomial. (Actualmente la opción multinomial solo es compatible con los solvers ‘lbfgs’, ‘sag’, ‘saga’ y ‘newton-cg’).

🎓 El 'esquema' aquí puede ser 'ovr' (uno-contra-resto) o 'multinomial'. Dado que la regresión logística está realmente diseñada para soportar clasificación binaria, estos esquemas le permiten manejar mejor tareas de clasificación multicategoría. fuente

🎓 El 'solver' se define como "el algoritmo a usar en el problema de optimización". fuente.

Scikit-learn ofrece esta tabla para explicar cómo los solvers manejan diferentes desafíos presentados por diferentes tipos de estructuras de datos:

Ejercicio - dividir los datos

Podemos centrarnos en la regresión logística para nuestra primera prueba de entrenamiento, ya que recientemente aprendiste sobre esta en una lección anterior. Divide tus datos en grupos de entrenamiento y prueba llamando a train_test_split():

X_train, X_test, y_train, y_test = train_test_split(cuisines_feature_df, cuisines_label_df, test_size=0.3)

Ejercicio - aplicar regresión logística

Dado que estás usando el caso multicategoría, necesitas elegir qué esquema usar y qué solver configurar. Usa LogisticRegression con una configuración multicategoría y el solver liblinear para entrenar.

Crea una regresión logística con multi_class configurado como ovr y el solver configurado como liblinear:

lr = LogisticRegression(multi_class='ovr',solver='liblinear')
model = lr.fit(X_train, np.ravel(y_train))

accuracy = model.score(X_test, y_test)
print ("Accuracy is {}".format(accuracy))

✅ Prueba un solver diferente como lbfgs, que a menudo se configura como predeterminado.

Nota, utiliza la función ravel de Pandas para aplanar tus datos cuando sea necesario. ¡La precisión es buena, con más del 80%!

Puedes ver este modelo en acción probando una fila de datos (#50):

print(f'ingredients: {X_test.iloc[50][X_test.iloc[50]!=0].keys()}')
print(f'cuisine: {y_test.iloc[50]}')

El resultado se imprime:

ingredients: Index(['cilantro', 'onion', 'pea', 'potato', 'tomato', 'vegetable_oil'], dtype='object')
cuisine: indian

✅ Prueba con un número de fila diferente y verifica los resultados.

Profundizando más, puedes comprobar la precisión de esta predicción:
```
test= X_test.iloc[50].values.reshape(-1, 1).T
proba = model.predict_proba(test)
classes = model.classes_
resultdf = pd.DataFrame(data=proba, columns=classes)

topPrediction = resultdf.T.sort_values(by=[0], ascending = [False])
topPrediction.head()
```
El resultado se imprime: la cocina india es su mejor suposición, con buena probabilidad:

0

indian 0.715851

chinese 0.229475

japanese 0.029763

korean 0.017277

thai 0.007634

✅ ¿Puedes explicar por qué el modelo está bastante seguro de que se trata de una cocina india?

	0
indian	0.715851
chinese	0.229475
japanese	0.029763
korean	0.017277
thai	0.007634

Obtén más detalles imprimiendo un informe de clasificación, como hiciste en las lecciones de regresión:

y_pred = model.predict(X_test)
print(classification_report(y_test,y_pred))

	precisión	recall	f1-score	soporte
chinese	0.73	0.71	0.72	229
indian	0.91	0.93	0.92	254
japanese	0.70	0.75	0.72	220
korean	0.86	0.76	0.81	242
thai	0.79	0.85	0.82	254
exactitud	0.80	1199
promedio macro	0.80	0.80	0.80	1199
promedio ponderado	0.80	0.80	0.80	1199

🚀Desafío

En esta lección, utilizaste tus datos limpios para construir un modelo de aprendizaje automático que puede predecir una cocina nacional basada en una serie de ingredientes. Tómate un tiempo para leer las muchas opciones que Scikit-learn ofrece para clasificar datos. Profundiza en el concepto de 'solver' para entender qué sucede detrás de escena.

Cuestionario posterior a la lección

Revisión y autoestudio

Investiga un poco más sobre las matemáticas detrás de la regresión logística en esta lección

Tarea

Estudia los solvers

Descargo de responsabilidad:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

	almond	...	yogurt
0	0	...	0
1	1	...	0
2	0	...	0
3	0	...	0
4	0	...	1

16 KiB Raw Permalink Blame History Unescape Escape