Pure Knowledge
What is a Machine Learning Pipeline?

¿Qué es un pipeline de aprendizaje automático?

El aprendizaje automático (ML es un subconjunto de la inteligencia artificial (IA) que permite que los sistemas aprendan de los datos sin necesidad de programarlos explícitamente. En lugar de confiar en la programación basada en reglas, los algoritmos de ML detectan patrones en los datos y realizan predicciones o decisiones basadas en datos. El ML es cada vez más crucial en varios sectores, debido a su capacidad para analizar grandes conjuntos de datos, identificar patrones y realizar predicciones o decisiones con mayor precisión.

Los pipelines de aprendizaje automático se han convertido en una parte importante de MLOps . Si siguen un pipeline de aprendizaje automático bien definido, las organizaciones pueden reducir el tiempo de lanzamiento y garantizar la fiabilidad y la escalabilidad de sus soluciones de IA.

Este artículo analiza qué son las canalizaciones de ML, sus componentes clave, cómo crear una canalización de ML y los retos y las mejores prácticas de la canalización de ML.

¿Qué es un pipeline de ML?

Un pipeline de ML es una secuencia de pasos interconectados que transforman los datos brutos en modelos de ML entrenados y desplegables. Cada paso de la canalización realiza una tarea específica, como el preprocesamiento de datos, la ingeniería de características, la formación de modelos, la evaluación, el despliegue y el mantenimiento. El resultado de un paso sirve como entrada para el siguiente, creando un flujo de trabajo optimizado para desarrollar e implementar modelos de aprendizaje automático.

El objetivo de un pipeline de aprendizaje automático es automatizar y estandarizar el flujo de trabajo de ML automático con el fin de mejorar la eficiencia, la reproducibilidad y la escalabilidad.

Componentes de un pipeline de aprendizaje automático

Los componentes clave de un pipeline de aprendizaje automático abarcan varias fases, cada una de las cuales desempeña un papel fundamental en la transformación de los datos brutos en un modelo de aprendizaje automático entrenado y desplegable.

Estos componentes son:

1. Incorporación de datos

La ingestión de datos implica la recogida de datos brutos de diversas fuentes, como bases de datos, archivos, API o plataformas de transmisión. Los datos relevantes y de alta calidad son fundamentales para entrenar unos modelos de ML precisos. La introducción de datos garantiza que la canalización tenga acceso a los datos necesarios para el análisis y el desarrollo de modelos.

2. Preprocesamiento de datos

El preprocesamiento de datos incluye tareas como la limpieza, la transformación y la normalización de los datos brutos, para que sean adecuados para el análisis y el modelado. El preprocesamiento ayuda a abordar problemas como la falta de valores, los valores atípicos y las incoherencias en los datos, que pueden afectar negativamente al rendimiento del modelo si no se manejan. Garantiza que los datos tengan un formato coherente y utilizable para las fases posteriores.

3. Ingeniería de características

La ingeniería de características consiste en seleccionar, extraer o crear características relevantes a partir de los datos preprocesados que son informativas para formar el modelo de ML. Las características bien diseñadas capturan patrones y relaciones importantes en los datos, lo que conduce a unos modelos más precisos y robustos. La ingeniería de características es crucial para maximizar la potencia predictiva y la capacidad de generalización del modelo.

4. Formación de modelo

El entrenamiento del modelo implica seleccionar un algoritmo de ML automático adecuado, ajustarlo al conjunto de datos preparado y optimizar sus parámetros para minimizar los errores de predicción. El entrenamiento del modelo en datos etiquetados le permite aprender patrones y relaciones, lo que le permite realizar predicciones o tomar decisiones sobre datos no vistos. La elección del algoritmo y el proceso de entrenamiento influye de manera significativa en el rendimiento y la idoneidad del modelo para la tarea en cuestión.

5. Evaluación del modelo

La evaluación del modelo evalúa el rendimiento del modelo entrenado usando métricas como la precisión, la precisión, el recuerdo, la puntuación F1 o el área bajo la curva (AUC). Esta evaluación ayuda a evaluar lo bien que se generaliza el modelo en datos no vistos e identifica cualquier problema potencial, como el sobreajuste o el infraajuste. Proporciona información sobre los puntos fuertes y débiles del modelo, guiando más iteraciones y mejoras.

Cada uno de estos componentes desempeña un papel crucial en el pipeline de aprendizaje automático, contribuyendo colectivamente al desarrollo de modelos de ML precisos y fiables. Al abordar sistemáticamente los retos relacionados con los datos, optimizar la representación de las características y seleccionar los algoritmos adecuados, el pipeline permite que las organizaciones extraigan información valiosa y tomen decisiones fundamentadas a partir de sus datos.

Cómo crear un pipeline de aprendizaje automático

La creación de un pipeline de aprendizaje automático implica varios pasos:

1. Recopilar los datos

En primer lugar, debe identificar las fuentes de datos relevantes en función del dominio y los objetivos del problema y, a continuación, recopilar datos de bases de datos, API, archivos u otras fuentes. Por último, debe garantizar la calidad de los datos comprobando que estén completos, sean coherentes y precisos.

2. Limpiar los datos

El primer paso para limpiar sus datos es imputar los valores que faltan usando técnicas como la media, la mediana o la imputación de modo, o eliminar filas o columnas con valores que faltan, si procede. A continuación, detecte y maneje los valores atípicos usando métodos como el recorte, la winsorización o la sustitución de valores atípicos y estandarice las características numéricas para tener una media de 0 y una desviación estándar de 1, o escaléelos a un rango específico. Luego, convierta las variables categóricas en representaciones numéricas usando técnicas como la codificación en caliente o la codificación de etiquetas y aplique transformaciones como la transformación de registros, la transformación de Box-Cox o el escalamiento de características para mejorar la distribución de datos y el rendimiento del modelo.

3. Diseñe las características

En primer lugar, debe identificar características que probablemente sean informativas para predecir la variable objetivo basándose en el conocimiento del dominio o en el análisis de la importancia de las características. Luego, genere nuevas características combinando las características existentes, realizando operaciones matemáticas o extrayendo información del texto u otros datos no estructurados. Y, por último, escale las características numéricas a una escala común para evitar que ciertas características dominen el proceso de entrenamiento del modelo.

4. Seleccionar y formar el modelo

Seleccione algoritmos de aprendizaje automático (por ejemplo, regresión lineal, árboles de decisión, bosques aleatorios, máquinas vectoriales de soporte) en función de la naturaleza del problema (clasificación, regresión, agrupamiento), luego divida el conjunto de datos en conjuntos de entrenamiento y validación (por ejemplo, usando muestreo estratificado para tareas de clasificación) para evaluar el rendimiento del modelo. Por último, ajuste los algoritmos seleccionados a los datos de entrenamiento usando las técnicas de entrenamiento adecuadas (por ejemplo, descenso de gradiente para las redes neuronales, algoritmos basados en árboles para los árboles de decisión).

5. Ajuste los hiperparámetros

Identifique los hiperparámetros de los algoritmos elegidos que controlan el comportamiento del modelo (por ejemplo, tasa de aprendizaje, fuerza de regularización, profundidad de árbol). Utilice técnicas como la búsqueda de cuadrícula, la búsqueda aleatoria o la optimización bayesiana para encontrar los valores de hiperparámetros óptimos que maximizan el rendimiento del modelo en el conjunto de validación. Luego, ajuste los hiperparámetros del modelo de manera iterativa basándose en el rendimiento de la validación hasta obtener unos resultados satisfactorios.

6. Evalúe los modelos

Evalúe el rendimiento de los modelos entrenados en el conjunto de validación usando métricas de evaluación adecuadas (por ejemplo, precisión, precisión, recuerdo, F1-score ROC-AUC), luego compare el rendimiento de los diferentes modelos para seleccionar el que mejor funcione para la implementación.

7. Despliegue el modelo

En primer lugar, asegúrese de guardar el modelo entrenado en un disco en un formato que pueda cargarse fácilmente y usarse para predicciones. Luego, implemente el modelo en un entorno de producción, ya sea localmente o en la nube, usando plataformas como AWS , Azure o Google Cloud Platform. Cree un punto de enlace API para aceptar los datos de entrada y las predicciones de devolución del modelo desplegado. Por último, implemente mecanismos de supervisión y registro para realizar un seguimiento del rendimiento del modelo y detectar cualquier desviación o degradación con el tiempo.

Mejores prácticas para diseñar un canal de aprendizaje automático efectivo

El diseño de una canalización de aprendizaje automático efectiva requiere una consideración cuidadosa de varios factores para garantizar la eficiencia, la escalabilidad y la fiabilidad.

Estas son algunas de las mejores prácticas y directrices que hay que seguir:

1. Modularización

Divida la canalización en componentes modulares, cada uno de ellos responsable de una tarea específica (por ejemplo, preprocesamiento de datos, ingeniería de características, formación en modelos). Utilice patrones de diseño modulares (por ejemplo, programación orientada a objetos, composición de funciones) para encapsular la lógica y promover la reutilización del código. Mantenga unas interfaces claras entre los componentes de la canalización para facilitar la integración, las pruebas y el mantenimiento.

2. Automatización

Automatice las tareas y los flujos de trabajo repetitivos usando herramientas y marcos (por ejemplo, Apache Airflow, Kubeflow, MLflow). Implementar canalizaciones de integración y despliegue continuos (CI/CD) para automatizar los procesos de formación, evaluación e implementación de modelos. Utilice la automatización para optimizar la introducción de datos, el preprocesamiento y la formación en modelos en diferentes entornos (por ejemplo, desarrollo, pruebas, producción).

3. Control de versiones

Utilice sistemas de control de versiones (por ejemplo, Git, SVN) para realizar un seguimiento de los cambios en el código, los datos y los archivos de configuración en toda la canalización. Mantenga sucursales separadas para diferentes versiones de canalización o experimentos, lo que permite una comparación, colaboración y reversión fáciles.

4. Reproducibilidad

Documente todos los componentes de la canalización, incluidas las fuentes de datos, los pasos de preprocesamiento, las técnicas de ingeniería de características y las configuraciones de modelos. Anote los resultados de los experimentos, incluidas las métricas, los hiperparámetros y los artefactos del modelo, en un repositorio centralizado. Implementar pipelines de datos versionados para garantizar la coherencia y la reproducibilidad de los resultados en diferentes ejecuciones y entornos. Utilice herramientas de contenedorización (por ejemplo, Docker) para empaquetar toda la canalización, incluido el código, las dependencias y el entorno de tiempo de ejecución, para facilitar el despliegue y la reproducibilidad.

5. Escalabilidad

Diseñe la canalización para manejar grandes volúmenes de datos de manera eficiente, aprovechando los marcos informáticos distribuidos (por ejemplo, Apache Spark, Dask) y los servicios en la nube (por ejemplo, AWS EMR, Google Cloud Dataproc). Implemente técnicas de procesamiento paralelo y entrenamiento distribuido para acelerar el entrenamiento de modelos en clústeres de computación distribuida. Supervise el rendimiento de la canalización y el uso de los recursos para identificar los cuellos de botella de escalabilidad y optimizar la asignación de recursos en consecuencia.

6. Supervisión y mantenimiento continuos

Configure sistemas de supervisión y alerta para realizar un seguimiento del rendimiento de la canalización, la calidad de los datos y la deriva del modelo en tiempo real. Establecer programas de mantenimiento regulares para actualizar las dependencias, reentrenar los modelos e incorporar nuevos datos o características. Supervise periódicamente las métricas de rendimiento de los modelos de producción y vuelva a formarlos para garantizar que siguen siendo precisas y están actualizadas.

Retos y consideraciones en los pipelines de aprendizaje automático

El desarrollo y el despliegue de pipelines de aprendizaje automático pueden plantear varios retos, que van desde el preprocesamiento de datos hasta el despliegue de modelos.

Estos son los retos comunes y las posibles soluciones:

1. Calidad de los datos

Los datos inexactos, incompletos o incoherentes pueden afectar negativamente al rendimiento y la fiabilidad del modelo. Asegúrese de implementar unos procedimientos sólidos de validación y limpieza de los datos durante el preprocesamiento. Utilice técnicas como la detección de valores atípicos, la imputación de valor faltante y la normalización de datos para mejorar la calidad de los datos. Además, establezca mecanismos de supervisión de la calidad de los datos para detectar y abordar los problemas de manera proactiva.

2. Complejidad de la ingeniería de características

Seleccionar e diseñar características relevantes a partir de los datos brutos puede ser un reto, sobre todo en conjuntos de datos complejos. Para ayudar con esto, aproveche el conocimiento del dominio y el análisis de datos exploratorios para identificar las características informativas. Experimente con varias técnicas de transformación de características, como la reducción de la dimensionalidad, las características polinómicas o la inclusión de representaciones. Además, tenga en cuenta los métodos de selección de características automatizadas y el análisis de la importancia de las características para optimizar el proceso de ingeniería de características.

3. Selección y ajuste de modelos

Elegir el algoritmo de ML automático más adecuado y optimizar sus hiperparámetros para una tarea determinada puede llevar mucho tiempo y consumir muchos recursos. Realice una experimentación exhaustiva con múltiples algoritmos y configuraciones de hiperparámetros para identificar el modelo de mejor rendimiento. Utilice técnicas como la validación cruzada, la búsqueda de cuadrículas y la optimización bayesiana para buscar eficientemente el espacio de hiperparámetros. Además, considere el uso de plataformas de aprendizaje automático (AutoML) para acelerar el proceso de selección y ajuste de modelos.

4. Privacidad y seguridad de los datos

Garantizar la privacidad y la seguridad de los datos en toda la canalización del ML, especialmente cuando se trata de información sensible o de identificación personal (IIP), puede ser muy difícil. Implementar técnicas de anonimización de los datos, como el enmascaramiento de los datos, la tokenización o la privacidad diferencial, para proteger la información sensible. Respete las normas de gobernanza y cumplimiento de los datos (por ejemplo, RGPD, HIPAA) cuando gestione los datos personales. Utilice protocolos de transmisión de datos seguros y métodos de cifrado para proteger los datos durante el almacenamiento y el tránsito.

5. Interpretabilidad y explicabilidad del modelo

Entender e interpretar las decisiones tomadas por los modelos de ML, sobre todo en los ámbitos de alto riesgo o regulados, siempre es un reto. Utilice técnicas de ML automático interpretables, como árboles de decisión, modelos lineales o modelos basados en reglas, que proporcionen explicaciones transparentes de las predicciones de los modelos. Utilice métodos de interpretabilidad a posteriori, como el análisis de la importancia de las características, los valores SHAP o las explicaciones independientes del modelo interpretable local (LIME) para interpretar modelos complejos. Además, documente los supuestos, las limitaciones y las incertidumbres del modelo para facilitar la comprensión y la confianza de las partes interesadas.

6. Despliegue y escalabilidad de modelos

El despliegue de los modelos de ML en los entornos de producción y la garantía de escalabilidad, fiabilidad y capacidad de mantenimiento pueden ser muy difíciles. Contenedorice los modelos de ML automático usando herramientas como Docker y Kubernetes para facilitar la implementación en diferentes entornos y capacidades de escalamiento. Implemente una arquitectura de microservicios para desacoplar los componentes y escalar los servicios individuales de manera independiente. Utilice una infraestructura basada en la nube y plataformas informáticas sin servidor para una escalabilidad elástica y una optimización de los recursos. Establecer unos mecanismos de supervisión y registro sólidos para realizar un seguimiento del rendimiento del modelo, la utilización de los recursos y los posibles problemas de producción.

Conclusión

Los pipelines de ML agilizan y aceleran el proceso de desarrollo del ML, desde la introducción de datos hasta el despliegue de modelos. Automatizan las tareas repetitivas y aplican flujos de trabajo estandarizados, lo que reduce el tiempo de desarrollo y promueve la coherencia entre proyectos.

Los retos habituales de los pipelines de ML, como los problemas de calidad de los datos, las complejidades de la ingeniería de las características y la escalabilidad de los modelos, pueden abordarse mediante un sólido preprocesamiento de los datos, técnicas de selección de las características y estrategias de despliegue escalables.

Al aprovechar los beneficios de los pipelines de ML, las organizaciones pueden acelerar la innovación, obtener información procesable de los datos y seguir siendo competitivas.

Para los responsables tecnológicos y de almacenamiento que necesitan una infraestructura de almacenamiento eficiente para sus iniciativas de IA y ML , Pure Storage ofrece eficiencia operativa, un rendimiento líder en el sector y ahorros de costes gracias a productos innovadores como AIRI ® y FlashStack ®.

Vídeo: Acelere la IA y el aprendizaje automático con Pure Storage

Accelerate AI and Machine Learning with Pure Storage | Lightboard Session | 8:34

Explore los recursos y eventos clave

WEBINAR

Una nueva era para la seguridad bancaria: lo esencial para mejorar la resistencia operativa

A la luz de la nueva normativa de la Ley de Resiliencia Operativa Digital (DORA), la resiliencia operativa se ha convertido en una de las cuestiones más importantes del sector financiero.

Ver el Webinar

LIDERAZGO INTELECTUAL

La carrera por la innovación

Las últimas ideas y puntos de vista de los líderes del sector que están a la vanguardia de la innovación en almacenamiento.

Más información

INFORME DE ANALISTA

Planifique su futuro ciberresiliente

Aprenda estrategias de colaboración para aprovechar plenamente las inversiones en ciberseguridad y garantizar una respuesta y una recuperación rápidas.

Lea el informe

RECURSO

Deje de comprar almacenamiento y apueste por las plataformas

Explore las necesidades, los componentes y el proceso de selección de plataformas de almacenamiento empresarial.

Lea el informe

Vea todos los recursos

CONTACTAR CON NOSOTROS

¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure? Estamos aquí para ayudarle.

Contactar con nosotros Chat en directo

Programe una Demostración

Programe una demostración en vivo y vea personalmente cómo Pure puede ayudarle a convertir sus datos en unos resultados potentes.

Solicite una Demostración

Llámenos al: +34 51 889 8963

Medios de comunicación: pr@purestorage.com

Castellana 81

28046 Madrid

Oficinas Pure: 1415 y 1417 (planta 14)

info@purestorage.com

CERRAR

Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.