En el mundo de la IA empresarial, la deriva de datos se ha convertido en una preocupación importante y algo inevitable. Entender y gestionar la deriva de los datos es esencial para mantener la relevancia y la fiabilidad de los flujos de trabajo y proyectos de la IA, para garantizar que proporcionan información valiosa frente a los datos del mundo real en rápida evolución. La gestión adecuada de la deriva de datos ayuda a mantener unos modelos de IA dinámicos que se adaptan fácilmente a su entorno empresarial en constante cambio y permiten que las empresas se mantengan a la vanguardia —y a sus competidores—.
Este artículo examina qué es la deriva de datos, por qué es importante, la diferencia entre la deriva de datos y la deriva de concepto, la importancia de los modelos dinámicos y cómo tener una infraestructura de almacenamiento de datos preparada para la IA ayuda a prevenir la deriva de datos.
¿Qué es la deriva de datos?
La deriva de datos se refiere al fenómeno en el que las propiedades estadísticas de los datos de entrada utilizados para entrenar un modelo de aprendizaje automático cambian con el tiempo. En términos más sencillos, los datos en los que se entrenó inicialmente el modelo —los datos de entrada— ya no representan con precisión los nuevos datos con los que se encuentra el modelo. Este cambio puede ser gradual o abrupto y puede deberse a diversos factores, como los cambios en el comportamiento de los clientes, los cambios en las condiciones ambientales o las modificaciones en los métodos de recogida de datos.
Ejemplos de deriva de datos en escenarios del mundo real
Área Financiera
En el comercio algorítmico, un modelo formado en datos históricos del mercado puede experimentar una deriva de datos a medida que las condiciones del mercado evolucionan. Los acontecimientos económicos repentinos o los cambios en las políticas pueden provocar cambios en los precios de las acciones y los patrones de negociación, lo que afecta a la precisión predictiva del modelo.
Sanidad
Un modelo predictivo formado en los datos de los pacientes para identificar los riesgos de la enfermedad puede encontrarse con una deriva de los datos si hay cambios en los datos demográficos de la población, los patrones de estilo de vida o las prácticas de atención sanitaria con el tiempo. Estos cambios pueden afectar a la capacidad del modelo para realizar predicciones precisas, lo que en última instancia podría afectar al tratamiento y a los resultados del tratamiento.
Comercio electrónico
Un sistema de recomendación de comercio electrónico que se base en el comportamiento del usuario puede enfrentarse a una deriva de los datos si hay cambios en las preferencias del consumidor, los hábitos de compra o la disponibilidad del producto. Las nuevas tendencias o los cambios en las preferencias de los clientes pueden afectar a la efectividad del modelo de recomendación y, en última instancia, afectar a la experiencia del cliente.
Supervisión climática
Los modelos que predicen los patrones meteorológicos o los cambios climáticos pueden experimentar una deriva de los datos debido a las alteraciones en las condiciones ambientales. Factores como la deforestación, la urbanización o el cambio climático global pueden provocar cambios en los patrones de datos que afectan a la precisión de la previsión del modelo.
Ciberseguridad
Un sistema de detección de intrusiones puede encontrarse con una deriva de datos si hay cambios en las tácticas y las técnicas utilizadas por los ciberatacantes. A medida que los panoramas de amenazas evolucionan, el modelo tiene que adaptarse a nuevos patrones de comportamiento malicioso para mantener su efectividad.
¿Por qué es importante la deriva de datos?
En pocas palabras, la deriva de datos dificulta el rendimiento de los modelos de IA. Se trata de la idea de «la basura que entra, la basura que sale». Cuando los modelos de IA utilizan datos obsoletos, producen decisiones obsoletas. En un mundo en el que cada día se crean 2,5 billones de bytes de datos, las organizaciones no pueden permitirse el lujo de trabajar en datos obsoletos.
Las decisiones erróneas basadas en modelos de IA pueden generar costosos errores en las aplicaciones del mundo real. Por ejemplo, un modelo de predicción de ventas puede malinterpretar la demanda si no considera cambiar las preferencias de los clientes. Como hemos mencionado anteriormente, los modelos obsoletos o obsoletos debido a la deriva de los datos también pueden generar pérdidas financieras, una menor satisfacción del cliente y la pérdida de oportunidades.
Desviación del concepto y la importancia de los modelos dinámicos
La creación de modelos de IA se centra en encontrar la función F que asigna los datos de entrada x a una salida y (la predicción, la decisión o la acción) a través del modo y=F(x). Pero los modelos no pueden permanecer estáticos en un mundo muy dinámico dentro de un entorno operativo empresarial en evolución.
Cuando la deriva de datos implica que los datos empresariales de entrada x cambien, la deriva conceptual implica que la producción y (el resultado empresarial deseado que se modela) cambie. En cualquier caso, el modelo F tiene que cambiar dinámicamente a medida que se producen variaciones en las entradas y/o los resultados.
La deriva conceptual puede afectar significativamente al rendimiento de los modelos de aprendizaje automático al causar:
Degradación del modelo
A medida que la distribución de datos subyacente evoluciona, el modelo puede volverse menos preciso con el tiempo. Es posible que los patrones y las relaciones iniciales aprendidos durante el entrenamiento ya no se mantengan, lo que conduce a una disminución del rendimiento predictivo.
Reducción de la generalización
Los modelos que experimentan una deriva conceptual pueden tener dificultades para generalizarse bien a datos nuevos e invisibles. El conocimiento adquirido durante la formación puede ser menos aplicable a medida que el modelo encuentra características de entrada que difieren de las vistas durante la fase de formación.
Aumento de los falsos positivos/negativos
La deriva del concepto puede dar lugar a clasificaciones erróneas, lo que genera unas tasas más altas de falsos positivos o falsos negativos. Esto es especialmente problemático en aplicaciones como la asistencia sanitaria o las finanzas, en las que las predicciones precisas son cruciales.
Retos de la adaptación
Los modelos tienen que adaptarse a los patrones de datos cambiantes para mantener la eficacia. El hecho de no adaptarse rápidamente a la deriva conceptual puede dar lugar a unos modelos obsoletos que proporcionan predicciones inexactas, lo que puede dar lugar a una mala toma de decisiones.
Uso intensivo de recursos
Abordar la deriva conceptual puede requerir recursos computacionales adicionales y esfuerzos de recapacitación. Puede que sea necesario actualizar y recalibrar los modelos periódicamente para seguir el ritmo de los patrones de datos cambiantes, lo que aumenta los requisitos generales de los recursos.
Riesgo de obsolescencia del modelo
Si la deriva del concepto no se gestiona adecuadamente, los modelos pueden quedar obsoletos y perder su eficacia. Esto es especialmente preocupante en las aplicaciones en las que las predicciones oportunas y precisas son cruciales, como la detección del fraude o los sistemas autónomos.
Impacto en la toma de decisiones
En situaciones en las que los modelos de aprendizaje automático fundamentan las decisiones críticas, la desviación de los conceptos puede dar lugar a predicciones poco fiables, lo que puede dar lugar a unas opciones y unos resultados subóptimos.
Para evitar que los modelos de IA se vean afectados por cualquier tipo de deriva, los propios modelos tienen que ser dinámicos.
Imagine que crea un modelo de aprendizaje automático para predecir los precios de las acciones o el comportamiento de los clientes. Lo entrena con algunos datos y funciona bien. Luego, el entorno en el que funciona su modelo cambia. Las preferencias de los clientes cambian, las dinámicas del mercado evolucionan y, de repente, es posible que su modelo no sea tan definido como solía ser.
Aquí es donde entran en juego los retos. Los modelos estáticos, que no se adaptan a los cambios en su entorno, luchan en entornos dinámicos. Es como tratar de usar un mapa que nunca se actualiza —no muy útil cuando el panorama cambia constantemente—.
¿Las consecuencias? Los resultados de modelos obsoletos significan predicciones que ya no son precisas, lo que puede dar lugar a todos los problemas mencionados anteriormente. Si confía en estas predicciones para la toma de decisiones, es posible que tome decisiones basadas en información obsoleta. Imagine una previsión meteorológica que nunca tenga en cuenta el cambio climático —no muy fiable—.
Los resultados erróneos también pueden generar problemas. Si su modelo malinterpreta los patrones cambiantes de los datos, es como tener un GPS que le indique que se gire a la izquierda en un lago porque no sabe que la carretera ha cambiado. No solo es incómodo, sino que también puede tener consecuencias reales.
La conclusión aquí es que los modelos tienen que ser tan dinámicos como el mundo en el que operan. Las actualizaciones periódicas, la supervisión constante y quizá un toque de magia del aprendizaje automático pueden ayudar a mantenerlas sincronizadas con el panorama de datos en constante cambio. En un mundo dinámico, sus modelos también tienen que ser dinámicos.
Detección de datos y deriva de conceptos
La detección de la deriva de los datos y los conceptos es como dar a sus modelos de IA un par de gafas para ver los cambios en su entorno.
¿Por qué es tan crucial la detección oportuna?
Imagine que dirige un barco a través de mares en constante cambio. Si no nota un cambio en el actual o un cambio en los patrones meteorológicos, puede salirse de lo normal. Lo mismo ocurre con los modelos de aprendizaje automático que navegan por los datos en evolución.
La detección de la deriva tanto en los datos de entrada como en los de salida es como tener un radar para los cambios. No se trata solo de mirar hacia atrás el camino que ha recorrido, sino también de estar atento al horizonte para ver lo que viene a continuación.
Así que, ¿cómo lo hace? Para la deriva de los datos de entrada, los métodos estadísticos como las pruebas de Kolmogorov-Smirnov o los más avanzados, como la prueba de Page-Hinkley, pueden ser como los pronósticos meteorológicos de los datos. Le ayudan a detectar cuándo empiezan a cambiar los patrones de sus datos de entrada, lo que le da una ventaja.
Cuando se trata de los datos de salida, la supervisión de los cambios en la precisión de la predicción o las tasas de error puede ser una señal reveladora. Si su modelo lo estaba haciendo ayer, pero de repente empieza a regatear, es una señal de alerta.
Y no olvide el papel de los algoritmos de aprendizaje automático. No son solo para hacer predicciones, sino que también pueden ser guardianes de la deriva. Los métodos de ensamblaje, que combinan múltiples modelos, pueden actuar como un consejo de ancianos sabios, cada uno de los cuales aporta su punto de vista sobre los cambios en los datos.
El aprendizaje en línea es otro superhéroe de esta historia. Es como tener un modelo que no solo aprende de su pasado, sino que se adapta sobre la marcha, manteniéndose bien definido ante los entornos de datos cambiantes.
También hay herramientas diseñadas específicamente para la detección de la deriva. Piense en ellos como nuestros compañeros del aprendizaje automático, equipados con algoritmos para hacer sonar la alarma cuando algo cambia en la atmósfera de los datos.
En resumen, detectar la deriva no consiste solo en mirar atrás y decir: "Oh, las cosas han cambiado". Se trata de equipar los modelos con los sensores y las herramientas para anticiparse a esos cambios y garantizar que se mantienen en el buen camino en los mares de datos en constante cambio.
Cómo adaptar los modelos a la deriva
Piense en la deriva de datos como un baile complicado al que sus modelos tienen que adaptarse constantemente. Cuando los datos se desvían o el concepto se transforma en un nuevo ritmo, sus modelos de IA tienen que hacer algo más que mantenerse al día; tienen que ajustar sus movimientos para mantenerse sincronizados.
Las estrategias para adaptarse a la deriva de datos son como tener un instructor de danza o un coreógrafo para sus modelos. Un movimiento estratégico es la reformación, que es como devolver a sus modelos a la clase de baile con nuevos datos para que puedan aprender los últimos pasos. Las actualizaciones periódicas las mantienen definidas y en sintonía con los ritmos cambiantes.
Luego está el aprendizaje en línea, que consiste en ajustar sus movimientos en tiempo real. Los modelos que utilizan el aprendizaje en línea pueden adaptarse sobre la marcha, manteniéndose ágiles ante los cambios en la dinámica de los datos.
Pero también hay que pensar en el equilibrio. Piense en ello como en dirigir un barco. No quiere sacudir la rueda cada segundo, pero tampoco quiere navegar directamente hacia un iceberg porque se niega a ajustarlo. Es un baile delicado.
Equilibrar la estabilidad y la flexibilidad significa realizar ajustes reflexivos. Los métodos de ensamblaje, en los que múltiples modelos unen fuerzas, pueden ser como tener una compañía de danza, cada miembro ofrece su estilo único, pero juntos crean una actuación armoniosa.
En resumen, la adaptación de los modelos a la deriva no consiste solo en ser reactivo; se trata de ser bailarines proactivos en el conjunto de datos en constante evolución. Se trata de encontrar el ritmo, ajustar los pasos y garantizar que los modelos se mantengan fluidos, deslizando con gracia por los ritmos cambiantes del mundo de los datos.
Por qué Pure Storage le proporciona una ventaja para la deriva de datos
La deriva de datos obliga a todos los equipos implicados en los datos, pero en especial a los desarrolladores y analistas, a permanecer muy alerta. El problema es que la deriva de datos suele implicar un movimiento de datos muy costoso. Mover los datos es largo, utiliza muchos recursos y requiere mucho espacio. Estos procesos a menudo fallan o se rompen y pueden afectar a la capacidad de una empresa para informar o analizar sus datos, lo que normalmente conlleva implicaciones financieras.
Tenga en cuenta que el entorno de almacén de datos suele ser el entorno más grande de una empresa. Tener un entorno de prueba/desarrollo que coincida con la producción es difícil tanto logística como financieramente para la mayoría de las empresas. Incluso si tiene entornos de prueba que coinciden con la producción, los retos logísticos a menudo hacen que sea imposible mantenerlos sincronizados con los datos actuales. A menudo solo se actualizan una o dos veces al año, con puestas de sol de datos que se trasladan a entornos más bajos, según sea necesario. Esto genera una deriva de datos, que normalmente conduce a un movimiento constante de los datos hacia y desde un entorno de prueba para resolver los problemas de notificación.
Pure Storage mueve los datos de manera rápida, eficiente y gratuita, porque las copias de datos son gratuitas. FlashBlade ® de Pure Storage ® puede acelerar las consultas analíticas, mientras que FlashArray ™ incorpora la gestión de los datos de copia. Cuando pasa sus datos a Pure Storage , los procesos que tardaban horas en mover los datos ahora lo hacen en milisegundos. Esta es una gran ventaja cuando se trata de gestionar la deriva de datos.
Obtenga más información sobre FlashBlade y FlashArray .