¿ Cómo hacer Machine Learning de manera más sencilla con AutoML?

Roberto Esteves
4 min readJan 13, 2022

--

https://www.iberdrola.com/documents/20125/40921/machine_learning_746x419.jpg

Hay una pregunta que se repite constantemente en las conversaciones acerca del futuro del machine learning (aprendizaje automático), la creación de algoritmos y modelos ¿ estará accesible al público tan fácil como escribir una fórmula en una hoja de cálculo ?

Los modelos o algoritmos de aprendizaje automático se han convertido en una parte importante del día a día de las organizaciones y de los usuarios por igual, tenemos la necesidad de implementar nuevos modelos para resolver nuevos problemas y reentrenar los algoritmos viejos para resolver los viejos problemas de una manera nueva y con la llegada del Covid muchos de los algoritmos quedaron inútiles.

Nos encontramos con la necesidad de una herramienta que permita construir y poner modelos de aprendizaje automático en producción con un mínimo esfuerzo y sobre todo una herramienta que permita tener acceso a una mayor cantidad de personas( la palabra sería democratización ).

AutoML: Acelerando la construcción y puesta en producción de modelos de machine learning

AutoML es un área que tiene como objetivo automatizar, simplificar y acelerar la construcción de modelos aprendizaje automático y el despliegue de los mismos. Esta automatización permite a más personas (democratizar) hacer un uso eficaz del aprendizaje automático. Hoy en día, las herramientas de AutoML permiten construir varios modelos de ML, por ejemplo, regresión, clasificación, series temporales, análisis de texto y redes neuronales.

¿Hay interés acerca de AutoML por parte de los usuarios?

Como podemos observar en la gráfica (Google Trends) el término de búsqueda AutoML ha ido incrementando su relevancia a lo largo del tiempo, eso podría interpretarse como un interés mayor por parte los usuarios para aprender este tipo de herramientas.

¿ Que partes se automatizan(simplifican) en un proceso de aprendizaje automático con una herramienta de AutoML?

Cuando se trata de entregar modelos de aprendizaje automático, los equipos de científicos de datos suelen utilizar el conocido modelo CRISP-DM.

Hay tres fases del proceso CRISP-DM que pueden automatizarse en cierta medida

  • La fase de comprensión de los datos, que incluye el Análisis Exploratorio de Datos (EDA), que proporciona una primera visión del conjunto de datos.
  • La fase de preparación de los datos, cerca del 80% del tiempo de los proyectos de aprendizaje automático, ya que incluye la ingeniería de características.
  • La fase de modelización, que incluye la selección del mejor modelo y la optimización de hiperparámetros.
https://www.ibm.com/docs/es/spss-modeler/SaaS?topic=dm-crisp-help-overview

Herramienta de AutoML: PyCaret

PyCaret es una biblioteca de machine learning de código abierto que es simple y fácil de usar.

Su facilidad de uso, simplicidad y capacidad para construir y desplegar rápida y eficientemente pipelines de aprendizaje automático de extremo a extremo es una de sus características más relevantes

PyCaret es una biblioteca alternativa low code que puede reemplazar cientos de líneas de código con sólo unas pocas líneas. Esto hace que el ciclo de experimentación sea exponencialmente rápido y eficiente.

Para saber más sobre PyCaret, veamos este video.

Primeros pasos en Pycaret

Preparando el ambiente

Para este ejercicio vamos a trabajar en Goole Colab, para los que no lo conocen les dejo un link de introducción de la plataforma, https://colab.research.google.com/notebooks/welcome.ipynb?hl=es#scrollTo=lSrWNr3MuFUS

Problema

Para la mayoría de los aficionados al fútbol, los meses de mayo a julio representan un periodo de calma debido a la falta de fútbol de clubes.

Lo que compensa es la intensa especulación sobre los fichajes que rodea a todos los grandes traspasos de jugadores en la actualidad.

A los fanáticos del fútbol las valoraciones en el mercado dan lugar a unos cuantos ceños fruncidos.Vamos a tratar de crear un modelo que pueda estimar el valor de mercado de un jugador.

Los datos son recogidos de Kaggle ->https://www.kaggle.com/tiwariayan/predicted-market-value-of-players-using-regression/data

Desarrollo de la solución

Código publicado en https://jovian.ai/restevesd/pycaretblog

Conclusión

Podemos ver con este breve ejemplo, como utilizando herramientas de ML podemos llegar a construir un modelo completo, con todas las etapas implementadas, y poder tener de manera rápida los primeros resultados.

Estas herramientas funcionan perfectamente para establecer modelos “base”, es decir una primera iteración que nos permita hacer comparaciones con los resultados modelos construidos “handmade” que nos toma más tiempo y más detalle, de tal manera que todo lo que construimos deben tener mejores métricas que el modelo “base”

Fuentes:

Contactos

hola@masappec.com

info@robertoesteves.com

Para apoyar con más contenido -> https://ko-fi.com/resteves

--

--