Skip to Content

¿Qué es la desviación de datos? Modelo de desviación desmitificada

En el mundo de la AI empresarial, la desviación de datos se ha convertido en una preocupación importante y algo inevitable. Comprender y administrar la desviación de datos es esencial para mantener la relevancia y confiabilidad de los flujos de trabajo y proyectos de AI para garantizar que proporcionen información valiosa frente a los datos del mundo real en rápida evolución. La administración adecuada de la desviación de datos ayuda a mantener modelos de AI dinámicos que se adaptan fácilmente a su entorno comercial en constante cambio y permiten a las empresas mantenerse a la vanguardia, y a sus competidores. 

Este artículo examina qué es la desviación de datos, por qué es importante, la diferencia entre la desviación de datos y la desviación de conceptos, la importancia de los modelos dinámicos y cómo tener una infraestructura de almacenamiento de datos lista para la AI ayuda a evitar la desviación de datos. 

¿Qué es la desviación de datos?

La desviación de datos se refiere al fenómeno en el que las propiedades estadísticas de los datos de entrada utilizados para entrenar un modelo de aprendizaje automático cambian con el tiempo. En términos más simples, los datos en los que se capacitó inicialmente el modelo, los datos de entrada, ya no representan con precisión los nuevos datos que encuentra el modelo. Este cambio puede ser gradual o abrupto y puede ser el resultado de varios factores, como cambios en el comportamiento del cliente, cambios en las condiciones ambientales o modificaciones en los métodos de recopilación de datos.

Ejemplos de desviación de datos en escenarios del mundo real

Finanzas

En el comercio algorítmico, un modelo capacitado en datos históricos del mercado puede experimentar una desviación de datos a medida que evolucionan las condiciones del mercado. Los eventos económicos repentinos o los cambios en las políticas pueden provocar cambios en los precios de las acciones y los patrones de negociación, lo que afecta la precisión predictiva del modelo.

Salud

Un modelo predictivo capacitado en datos de pacientes para identificar los riesgos de enfermedad puede encontrarse con una desviación de datos si hay cambios en las características demográficas de la población, los patrones de estilo de vida o las prácticas de atención médica a lo largo del tiempo. Estos cambios pueden afectar la capacidad del modelo para hacer predicciones precisas, lo que, en última instancia, podría afectar el tratamiento y los resultados del tratamiento. 

Comercio electrónico

Un sistema de recomendación de comercio electrónico que se base en el comportamiento del usuario puede enfrentar una desviación de datos si hay cambios en las preferencias del consumidor, los hábitos de compra o la disponibilidad del producto. Las nuevas tendencias o cambios en las preferencias del cliente pueden afectar la eficacia del modelo de recomendación y, en última instancia, afectar la experiencia del cliente. 

Monitoreo del clima

Los modelos que predicen patrones climáticos o cambios climáticos pueden experimentar una desviación de datos debido a alteraciones en las condiciones ambientales. Factores como la deforestación, la urbanización o el cambio climático global pueden provocar cambios en los patrones de datos que afectan la precisión de la predicción del modelo.

Seguridad cibernética

Un sistema de detección de intrusos puede encontrar una desviación de datos si hay cambios en las tácticas y técnicas utilizadas por los ciberatacantes. A medida que los panoramas de amenazas evolucionan, el modelo debe adaptarse a nuevos patrones de comportamiento malicioso para mantener su eficacia.

¿Por qué es importante la desviación de datos? 

En pocas palabras, la desviación de datos dificulta el rendimiento de los modelos de AI. Se reduce a la idea de “recolección de basura”. Cuando los modelos de AI utilizan datos obsoletos, producen decisiones obsoletas. En un mundo en el que se crean 2,5 billones de bytes de datos todos los días, las organizaciones no pueden permitirse trabajar en datos obsoletos. 

Las decisiones erróneas basadas en modelos de AI pueden provocar errores costosos en aplicaciones del mundo real. Por ejemplo, un modelo de predicción de ventas podría juzgar erróneamente la demanda si no considera cambiar las preferencias del cliente. Como se mencionó anteriormente, los modelos obsoletos o obsoletos debido a la desviación de datos también pueden provocar pérdidas financieras, una menor satisfacción del cliente y oportunidades perdidas.

Desviación de conceptos y la importancia de los modelos dinámicos

La creación de modelos de AI se centra en encontrar la función F que asigna los datos de entrada x a una salida y (la predicción, decisión o acción) a través del modo y=F(x). Pero los modelos no pueden permanecer estáticos en un mundo altamente dinámico dentro de un entorno operativo empresarial en evolución. 

Cuando la desviación de datos implica que los datos comerciales de entrada x cambien, la desviación del concepto implica que la salida y (el resultado comercial deseado que se modela) cambie. En cualquier caso, el modelo F debe cambiar dinámicamente a medida que se producen desviaciones en las entradas y/o los resultados. 

La desviación conceptual puede afectar significativamente el rendimiento de los modelos de aprendizaje automático al causar:

Degradación del modelo

A medida que evoluciona la distribución de datos subyacente, el modelo puede volverse menos preciso con el tiempo. Es posible que los patrones iniciales y las relaciones aprendidas durante la capacitación ya no se mantengan, lo que provoca una disminución en el rendimiento predictivo.

Reducción de la generalización

Los modelos que experimentan una desviación conceptual pueden tener dificultades para generalizarse bien a datos nuevos e invisibles. El conocimiento adquirido durante la capacitación puede ser menos aplicable a medida que el modelo se encuentra con características de entrada que difieren de las observadas durante la fase de capacitación.

Aumento de falsos positivos/negativos

La desviación de conceptos puede llevar a clasificaciones erróneas, lo que resulta en tasas más altas de falsos positivos o falsos negativos. Esto es particularmente problemático en aplicaciones como la atención de la salud o las finanzas, donde las predicciones precisas son cruciales.

Desafíos de adaptación

Los modelos deben adaptarse a los patrones de datos cambiantes para mantener la eficacia. Si no se adapta rápidamente a la desviación del concepto, los modelos obsoletos pueden proporcionar predicciones imprecisas, lo que podría llevar a una toma de decisiones deficiente.

Uso de recursos pesados

Abordar la desviación de conceptos puede requerir recursos informáticos adicionales y esfuerzos de recapacitación. Es posible que sea necesario realizar actualizaciones y recalibraciones periódicas del modelo para mantenerse al día con los patrones de datos en evolución, lo que aumenta los requisitos generales de recursos.

Riesgo de la obsolescencia del modelo

Si la desviación del concepto no se gestiona adecuadamente, los modelos pueden volverse obsoletos y perder su eficacia. Esto es particularmente preocupante en aplicaciones donde las predicciones oportunas y precisas son cruciales, como la detección de fraude o los sistemas autónomos.

Impacto en la toma de decisiones

En situaciones en las que los modelos de aprendizaje automático informan decisiones críticas, la desviación de conceptos puede llevar a predicciones poco confiables, lo que puede dar lugar a opciones y resultados subóptimos.

Para evitar que los modelos de AI se vean afectados por cualquier tipo de desviación, los propios modelos deben ser dinámicos. 

Imagine que crea un modelo de aprendizaje automático para predecir los precios de las acciones o el comportamiento del cliente. Lo entrena en algunos datos y funciona bien. Luego, el entorno en el que opera su modelo cambia. Las preferencias de los clientes cambian, la dinámica del mercado evoluciona y, de repente, su modelo podría no ser tan definido como solía ser.

Aquí es donde entran en juego los desafíos. Los modelos estáticos, que no se adaptan a los cambios en su entorno, tienen dificultades en entornos dinámicos. Es como intentar usar un mapa que nunca se actualiza, no muy útil cuando el paisaje cambia constantemente.

¿Las consecuencias? Los resultados de modelos obsoletos significan predicciones que ya no son precisas, lo que puede llevar a todos los problemas mencionados anteriormente. Si confía en estas predicciones para la toma de decisiones, es posible que se encuentre tomando decisiones basadas en información obsoleta. Imagine un pronóstico del tiempo que nunca considere el clima cambiante, no muy confiable.

Las salidas erróneas también pueden crear problemas. Si su modelo malinterpreta los patrones cambiantes en los datos, es como tener un GPS que le indique que gire a la izquierda en un lago porque no sabe que el camino ha cambiado. No solo es inconveniente, puede tener consecuencias reales.

La conclusión aquí es que los modelos deben ser tan dinámicos como el mundo en el que operan. Las actualizaciones periódicas, el monitoreo constante y tal vez un toque de magia de aprendizaje automático pueden ayudar a mantenerlos sincronizados con el panorama de datos en constante cambio. En un mundo dinámico, sus modelos también deben ser dinámicos.

Detección de desviación de datos y conceptos

Detectar la desviación de datos y conceptos es como darles a sus modelos de AI un par de anteojos para ver los cambios en su entorno. 

¿Por qué es tan crucial la detección oportuna? 

Imagine que está dirigiendo un barco a través de mares en constante cambio. Si no nota un cambio en la corriente o un cambio en los patrones climáticos, podría perder el rumbo. Lo mismo sucede con los modelos de aprendizaje automático que navegan por los datos en evolución.

Detectar la desviación en los datos de entrada y salida es como tener un radar para los cambios. No se trata solo de mirar hacia atrás el camino que ha recorrido, sino también de estar atento al horizonte para lo que vendrá.

Entonces, ¿cómo lo hace? Para la desviación de datos de entrada, los métodos estadísticos como las pruebas de Kolmogorov-Smirnov o los más avanzados como la prueba de Page-Hinkley pueden ser como los pronosticadores del tiempo de datos. Le ayudan a detectar cuándo comienzan a cambiar los patrones en sus datos de entrada, lo que le da una ventaja.

Cuando se trata de datos de salida, monitorear los cambios en la precisión de predicción o las tasas de error puede ser un signo revelador. Si su modelo lo estaba logrando ayer pero de repente comienza a tambalear, es una señal de alerta.

Y no olvide el rol de los algoritmos de aprendizaje automático. No son solo para hacer predicciones, también pueden ser guardianes contra la deriva. Los métodos de Ensemble, que combinan varios modelos, pueden actuar como un consejo de ancianos sabios, cada uno aportando su perspectiva sobre los cambios de datos.

El aprendizaje en línea es otro superhéroe de esta historia. Es como tener un modelo que no solo aprende de su pasado, sino que se adapta sobre la marcha, manteniéndose afilada frente a los panoramas de datos en evolución.

También hay herramientas diseñadas específicamente para la detección de desviaciones. Considérelos como nuestros complementos del aprendizaje automático, equipados con algoritmos para hacer sonar la alarma cuando algo cambia en la atmósfera de datos.

En resumen, detectar la desviación no se trata solo de mirar hacia atrás y decir: “Oh, las cosas cambiaron”. Se trata de equipar los modelos con los sensores y las herramientas para anticipar esos cambios para garantizar que sigan en curso en los mares de datos en constante cambio. 

Cómo adaptar los modelos a la desviación

Piense en la desviación de datos como una danza complicada a la que sus modelos necesitan adaptarse constantemente. Cuando los datos se desvían o el concepto cambia a un nuevo ritmo, sus modelos de AI deben hacer más que simplemente mantenerse al día; necesitan ajustar sus movimientos para mantenerse sincronizados.

Las estrategias para adaptarse a la desviación de datos son como tener un instructor de danza o un coreógrafo para sus modelos. Un movimiento estratégico es volver a capacitar, lo que es como enviar sus modelos de vuelta a la clase de baile con nuevos datos para que puedan aprender los últimos pasos. Las actualizaciones periódicas los mantienen nítidos y en sintonía con los ritmos cambiantes.

Luego está el aprendizaje en línea, que se trata de ajustar sus movimientos en tiempo real. Los modelos que emplean el aprendizaje en línea pueden adaptarse sobre la marcha, manteniéndose ágiles frente a las dinámicas de datos cambiantes.

Pero también debe pensar en el equilibrio. Piénselo como dirigir un barco. No quiere mover la rueda cada segundo, pero tampoco quiere navegar directamente a un iceberg porque se niega a adaptarse. Es una danza delicada.

Equilibrar la estabilidad y la flexibilidad significa realizar ajustes bien pensados. Ensamblar métodos, donde varios modelos unen fuerzas, puede ser como tener una empresa de danza: cada miembro ofrece su estilo único, pero juntos crean un rendimiento armonioso.

En resumen, adaptar los modelos a la deriva no se trata solo de ser reactivos, sino de ser bailarines proactivos en el salón de datos en constante evolución. Se trata de encontrar el ritmo, ajustar los pasos y asegurarse de que los modelos se mantengan sin problemas, deslizando con gracia a través de los ritmos cambiantes del mundo de los datos.

Por qué Pure Storage le ofrece una ventaja para la deriva de datos 

La desviación de datos obliga a todos los equipos involucrados con los datos, pero especialmente a los desarrolladores y analistas, a permanecer muy atentos. El problema es que la desviación de datos a menudo implica un movimiento de datos muy costoso. Mover los datos lleva mucho tiempo, utiliza muchos recursos y requiere mucho espacio. Estos procesos a menudo fallan o se rompen y pueden afectar la capacidad de una empresa para informar o analizar sus datos, lo que generalmente conlleva consecuencias financieras. 

Tenga en cuenta que el entorno de almacenamiento de datos suele ser el entorno más grande de una empresa. Contar con un entorno de prueba/desarrollo que coincida con la producción es un desafío tanto logístico como financiero para la mayoría de las empresas. Incluso si tiene entornos de prueba que coinciden con la producción, los desafíos logísticos a menudo hacen imposible mantenerlos sincronizados con los datos actuales. A menudo, solo se actualizan una o dos veces al año con puestas de sol de datos que se trasladan a entornos más bajos según sea necesario. Esto crea una desviación de datos, lo que generalmente lleva a un movimiento constante de datos hacia y desde un entorno de prueba para resolver problemas de informes. 

Pure Storage mueve los datos de forma rápida, eficiente y sin costo, ya que las copias de datos son gratuitas. Pure Storage ® FlashBlade ® puede acelerar las consultas de análisis, mientras que FlashArray ™ incorpora la administración de datos de copia. Cuando mueve sus datos a Pure Storage, los procesos que tardaban horas en mover los datos ahora lo hacen en milisegundos. Esta es una gran ventaja cuando se trata de administrar la desviación de datos. 

Obtenga más información sobre FlashBlade y FlashArray .

10/2023
Driving AI Analytics and Future Business Expansion
NavInfo (Europe) uses Kubernetes on the AIRI architecture to make the AI platform transparent and easy to use. The company’s large models and data sets put high demands on data storage because tasks can run on many different servers and may be moved between them.
Casos de estudio de clientes
2 páginas
CONTÁCTENOS
¿Preguntas, comentarios?

¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure?  Estamos aquí para ayudar.

Programe una demostración

Programe una demostración en vivo y compruebe usted mismo cómo Pure puede ayudarlo a transformar sus datos en potentes resultados. 

Llámenos: 800-976-6494

Medios de comunicación: pr@purestorage.com

 

Pure Storage, Inc.

2555 Augustine Dr.

Santa Clara, CA 95054

800-379-7873 (información general)

info@purestorage.com

CERRAR
¡Su navegador ya no es compatible!

Los navegadores más antiguos a menudo representan riesgos de seguridad. Para brindar la mejor experiencia posible al utilizar nuestro sitio, actualice a cualquiera de estos navegadores más recientes.