Skip to Content

O que é desvio de dados? Desmistificado por desvio de modelo

No mundo da AI corporativa, o desvio de dados tornou-se uma grande e inevitável preocupação. Entender e gerenciar o desvio de dados é essencial para manter a relevância e a confiabilidade dos fluxos de trabalho e projetos de AI, a fim de garantir que eles forneçam insights valiosos diante dos dados do mundo real em rápida evolução. O gerenciamento adequado do desvio de dados ajuda a manter modelos dinâmicos de AI que se adaptam facilmente ao seu ambiente de negócios em constante mudança e permitem que as empresas fiquem à frente da curva e dos concorrentes. 

Este artigo examina o que é desvio de dados, por que é importante, a diferença entre desvio de dados e desvio de conceito, a importância de modelos dinâmicos e como ter uma infraestrutura de armazenamento de dados pronta para AI ajuda a evitar desvio de dados. 

O que é desvio de dados?

Desvio de dados refere-se ao fenômeno em que as propriedades estatísticas dos dados de entrada usados para treinar um modelo de aprendizado de máquina mudam ao longo do tempo. Em termos mais simples, os dados nos quais o modelo foi inicialmente treinado, os dados de entrada, não representam mais com precisão os novos dados que o modelo encontra. Essa mudança pode ser gradual ou abrupta e pode resultar de vários fatores, como mudanças no comportamento do cliente, mudanças nas condições ambientais ou modificações nos métodos de coleta de dados.

Exemplos de variação de dados em cenários do mundo real

Finanças

Na negociação algorítmica, um modelo treinado em dados históricos de mercado pode sofrer desvios de dados conforme as condições de mercado evoluem. Eventos econômicos repentinos ou mudanças políticas podem levar a mudanças nos preços das ações e padrões de negociação, afetando a precisão preditiva do modelo.

Área da saúde

Um modelo preditivo treinado em dados de pacientes para identificar riscos de doença pode encontrar desvios de dados se houver mudanças nos dados demográficos populacionais, padrões de estilo de vida ou práticas de saúde ao longo do tempo. Essas mudanças podem afetar a capacidade do modelo de fazer previsões precisas, o que pode afetar o tratamento e os resultados do tratamento. 

Comércio eletrônico

Um sistema de recomendação de comércio eletrônico que depende do comportamento do usuário pode enfrentar desvios de dados se houver mudanças nas preferências do consumidor, hábitos de compra ou disponibilidade de produtos. Novas tendências ou mudanças nas preferências do cliente podem afetar a eficácia do modelo de recomendação e, por fim, a experiência do cliente. 

Monitoramento do clima

Os modelos que preveem padrões climáticos ou mudanças climáticas podem sofrer desvios de dados devido a alterações nas condições ambientais. Fatores como desmatamento, urbanização ou mudança climática global podem levar a mudanças nos padrões de dados que afetam a precisão da previsão do modelo.

cibersegurança;

Um sistema de detecção de invasão pode encontrar desvios de dados se houver mudanças nas táticas e técnicas usadas pelos ciberatacantes. À medida que os cenários de ameaças evoluem, o modelo precisa se adaptar a novos padrões de comportamento malicioso para manter sua eficácia.

Por que o desvio de dados é importante? 

Simplificando, o desvio de dados dificulta o desempenho dos modelos de AI. Tudo se resume à ideia de “lixo entrando, lixo saindo”. Quando os modelos de AI usam dados obsoletos, eles geram decisões obsoletas. Em um mundo onde  2,5 quintilhões de bytes de dados são criados todos os dias, as organizações não podem se dar ao luxo de trabalhar com dados desatualizados. 

Decisões erradas baseadas em modelos de AI podem levar a erros caros em aplicativos do mundo real. Por exemplo, um modelo de previsão de vendas pode julgar a demanda erroneamente se não considerar mudar as preferências do cliente. Como mencionado anteriormente, modelos obsoletos ou desatualizados devido ao desvio de dados também podem levar a perdas financeiras, diminuição da satisfação do cliente e oportunidades perdidas.

Desvio do conceito e a importância dos modelos dinâmicos

A criação de modelos de AI é focada em encontrar a função F que mapeia os dados de entrada x para uma saída y (a previsão, a decisão ou a ação) por meio do modo, y=F(x). Mas os modelos não podem permanecer estáticos em um mundo altamente dinâmico dentro de um ambiente operacional de negócios em evolução. 

Quando o desvio de dados envolve a alteração x dos dados de negócios de entrada, o desvio de conceito envolve a alteração da saída y (o resultado de negócios desejado sendo modelado). Em ambos os casos, o modelo F precisa mudar dinamicamente conforme ocorrem desvios em entradas e/ou resultados. 

O desvio do conceito pode afetar significativamente o desempenho dos modelos de aprendizado de máquina ao causar:

Degradação do modelo

À medida que a distribuição de dados subjacentes evolui, o modelo pode se tornar menos preciso ao longo do tempo. Os padrões e relacionamentos iniciais aprendidos durante o treinamento podem não ser mais mantidos, levando a um declínio no desempenho preditivo.

Generalização reduzida

Os modelos que experimentam desvios de conceito podem ter dificuldade para generalizar bem os dados novos e invisíveis. O conhecimento adquirido durante o treinamento pode se tornar menos aplicável, pois o modelo encontra recursos de entrada que diferem daqueles vistos durante a fase de treinamento.

Aumento de falsos positivos/negativos

O desvio do conceito pode levar a classificações erradas, resultando em taxas mais altas de falsos positivos ou falsos negativos. Isso é particularmente problemático em aplicativos como saúde ou finanças, onde previsões precisas são cruciais.

Desafios de adaptação

Os modelos precisam se adaptar aos padrões de dados em mudança para manter a eficácia. A não adaptação rápida ao desvio do conceito pode resultar em modelos desatualizados que fornecem previsões imprecisas, potencialmente levando a uma tomada de decisão ruim.

Uso intenso de recursos

Abordar o desvio de conceito pode exigir recursos computacionais adicionais e esforços de retreinamento. Atualizações e recalibrações regulares de modelos podem ser necessárias para acompanhar a evolução dos padrões de dados, aumentando os requisitos gerais de recursos.

Risco de obsolescência do modelo

Se o desvio de conceito não for gerenciado adequadamente, os modelos podem se tornar obsoletos e perder sua eficácia. Isso é particularmente preocupante em aplicativos em que previsões oportunas e precisas são essenciais, como detecção de fraudes ou sistemas autônomos.

Impacto na tomada de decisões

Em cenários em que os modelos de aprendizado de máquina informam decisões críticas, o desvio do conceito pode levar a previsões não confiáveis, resultando potencialmente em escolhas e resultados abaixo do ideal.

Para evitar que os modelos de AI sejam afetados por qualquer tipo de desvio, os próprios modelos precisam ser dinâmicos. 

Imagine criar um modelo de aprendizado de máquina para prever preços de ações ou comportamento do cliente. Você os treina em alguns dados e funciona bem. Em seguida, o ambiente no qual seu modelo opera muda. As preferências dos clientes mudam, a dinâmica do mercado evolui e, de repente, seu modelo pode não ser tão nítido quanto costumava ser.

É aí que os desafios começam. Modelos estáticos, que não se adaptam às mudanças ao seu redor, lutam em ambientes dinâmicos. É como tentar usar um mapa que nunca é atualizado. Não é muito útil quando o cenário está em constante mudança.

As consequências? Saídas de modelo obsoletas significam previsões que não são mais precisas, o que pode levar a todos os problemas mencionados acima. Se você está confiando nessas previsões para tomar decisões, pode estar fazendo escolhas com base em informações desatualizadas. Imagine uma previsão do tempo que nunca considera a mudança climática - não muito confiável.

Saídas errôneas também podem criar problemas. Se seu modelo interpreta mal os padrões de mudança nos dados, é como ter um GPS que diz para você virar à esquerda em um lago porque não sabe que a estrada mudou. Não é apenas inconveniente; pode ter consequências reais.

A conclusão aqui é que os modelos precisam ser tão dinâmicos quanto o mundo em que operam. Atualizações regulares, monitoramento constante e talvez um toque de magia do aprendizado de máquina podem ajudar a mantê-los sincronizados com o cenário de dados em constante mudança. Em um mundo dinâmico, seus modelos também precisam ser dinâmicos.

Detecção de dados e desvio de conceito

Detectar desvios de dados e conceitos é como dar aos modelos de AI um par de óculos para ver as mudanças no ambiente. 

Por que a detecção oportuna é tão crucial? 

Imagine que você está dirigindo um navio por mares em constante mudança. Se você não notar uma mudança nos padrões atuais ou nos padrões climáticos, poderá sair do rumo. O mesmo vale para modelos de aprendizado de máquina que navegam pelos dados em evolução.

Detectar desvios nos dados de entrada e saída é como ter um radar para mudanças. Não se trata apenas de olhar para o caminho que você percorreu, mas também de ficar de olho no futuro.

Então, como você faz isso? Para desvios de dados de entrada, métodos estatísticos como testes Kolmogorov-Smirnov ou mais avançados, como o teste Page-Hinkley, podem ser como previsões meteorológicas de dados. Eles ajudam você a identificar quando os padrões nos dados de entrada começam a mudar, dando a você um aviso.

Quando se trata de dados de saída, monitorar mudanças na precisão da previsão ou taxas de erro pode ser um sinal indicador. Se o seu modelo estava lidando com isso ontem, mas de repente começa a desmoronar, é um sinal de alerta.

E não se esqueça do papel dos algoritmos de aprendizado de máquina. Eles não são apenas para fazer previsões; eles também podem ser responsáveis por desvios. Os métodos de conjunto, que combinam vários modelos, podem agir como um conselho de idosos sábios, cada um trazendo sua perspectiva sobre as mudanças de dados.

O aprendizado online é outro super-herói neste conto. É como ter um modelo que não apenas aprende com o passado, mas se adapta em tempo real, permanecendo nítido diante dos cenários de dados em evolução.

Há também ferramentas desenvolvidas especificamente para detecção de desvios. Pense neles como nossos parceiros de aprendizado de máquina, equipados com algoritmos para soar o alarme quando algo está mudando na atmosfera de dados.

Em resumo, detectar desvios não se trata apenas de olhar para trás e dizer: "Ah, as coisas mudaram." Trata-se de equipar modelos com sensores e ferramentas para antecipar essas mudanças e garantir que eles permaneçam no caminho certo nos mares de dados em constante mudança. 

Como adaptar modelos a desvios

Pense no desvio de dados como uma dança complicada à qual seus modelos precisam se adaptar constantemente. Quando os dados se desviam ou o conceito se transforma em um novo ritmo, seus modelos de AI precisam fazer mais do que apenas acompanhar; eles precisam ajustar seus movimentos para permanecerem sincronizados.

Estratégias para se adaptar ao desvio de dados são como ter um instrutor de dança ou coreógrafo para seus modelos. Um passo estratégico é o novo treinamento, que é como enviar seus modelos de volta para a aula de dança com novos dados para que eles possam aprender as etapas mais recentes. As atualizações regulares as mantêm nítidas e em sintonia com as mudanças.

Depois, há o aprendizado online, que é sobre ajustar seus movimentos em tempo real. Os modelos que empregam aprendizado online podem se adaptar rapidamente, permanecendo ágeis diante da mudança na dinâmica dos dados.

Mas você também precisa pensar em equilíbrio. Pense nisso como dirigir um navio. Você não quer arrancar a roda a cada segundo, mas também não quer navegar direto para um iceberg porque se recusa a se ajustar. É uma dança delicada.

Equilibrar estabilidade e flexibilidade significa fazer ajustes ponderados. Métodos de conjunto, onde vários modelos unem forças, podem ser como ter uma trupe de dança, cada membro oferecendo seu estilo único, mas juntos criando uma apresentação harmoniosa.

Em resumo, adaptar modelos ao desvio não se trata apenas de ser reativo; trata-se de ser dançarino proativo no salão de festas de dados em constante evolução. Trata-se de encontrar o ritmo, ajustar as etapas e garantir que os modelos permaneçam suaves, deslizando graciosamente pelas mudanças do mundo dos dados.

Por que a Pure Storage oferece uma vantagem para o desvio de dados 

O desvio de dados força todas as equipes envolvidas com dados, mas principalmente desenvolvedores e analistas, a permanecerem muito atentos. O problema é que o desvio de dados frequentemente envolve um movimento de dados muito caro. Mover dados é demorado, usa muitos recursos e exige muito espaço. Esses processos frequentemente falham ou quebram e podem afetar a capacidade de uma empresa de relatar ou analisar seus dados, o que normalmente vem com implicações financeiras. 

Tenha em mente que o ambiente de data warehouse normalmente é o maior ambiente de uma empresa. Ter um ambiente de teste/desenvolvimento que corresponda à produção é um desafio logístico e financeiro para a maioria das empresas. Mesmo que você tenha ambientes de teste que correspondam à produção, os desafios logísticos muitas vezes tornam impossível mantê-los sincronizados com os dados atuais. Muitas vezes, eles são atualizados apenas uma ou duas vezes por ano com o pôr do sol dos dados movidos para ambientes mais baixos, conforme necessário. Isso cria desvio de dados, o que normalmente leva a uma movimentação constante de dados de e para um ambiente de teste para descobrir problemas de relatório. 

A Pure Storage transfere dados com rapidez, eficiência e sem custo, pois as cópias de dados são gratuitas. O FlashBlade ®® da Pure Storage pode acelerar as consultas de análise, enquanto o FlashArray . . oferece gerenciamento de dados de cópia. Quando você move seus dados para a Pure Storage , os processos que levaram horas para mover dados agora fazem isso em milissegundos. Essa é uma grande vantagem quando se trata de gerenciar desvios de dados. 

Saiba mais sobre o FlashBlade e o FlashArray .

10/2023
Driving AI Analytics and Future Business Expansion
NavInfo (Europe) uses Kubernetes on the AIRI architecture to make the AI platform transparent and easy to use. The company’s large models and data sets put high demands on data storage because tasks can run on many different servers and may be moved between them.
estudos de caso de cliente
2 páginas
ENTRE EM CONTATO
Dúvidas ou comentários?

Tem dúvidas ou comentários sobre produtos ou certificações da Pure?  Estamos aqui para ajudar.

Agende uma demonstração

Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos. 

Telefone: 55-11-2844-8366

Imprensa: pr@purestorage.com

 

Sede da Pure Storage

Av. Juscelino Kubitschek, 2041

Torre B, 5º andar - Vila Olímpia

São Paulo, SP

04543-011 Brasil

info@purestorage.com

FECHAR
Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.