Inteligência artificial e aprendizado de máquina (AI/ML) são tecnologias empolgantes que fazem grandes promessas, mas estamos coletivamente atingindo o limite de nossos recursos para alcançá-los. Como um todo, nossas metas de AI e ambições de ML estão se aproximando rapidamente dos limites do que realmente é possível. Se houver um futuro em AI e ML, as unidades de processamento neural (NPUs, neural processing units) são a chave.
Para organizações que levam a sério as cargas de trabalho de AI em grande escala, entender o que é um NPU, como ele funciona e do que ele é capaz ajudará você a tomar a decisão certa sobre como criar seus pipelines. A solução de armazenamento certa será essencial, pois a maioria não consegue acompanhar a velocidade que as NPUs oferecem.
O que é uma unidade de processamento neural?
Uma unidade de processamento neural é uma peça especializada de hardware desenvolvida com foco em acelerar os cálculos de rede neural. Graças ao seu design, as NPUs aumentam drasticamente a velocidade e a eficiência dos sistemas de AI.
Não confunda NPUs com uma tecnologia avançada: As NPUs são um grande avanço para o processamento de AI/ML. Otimizadas para executar os algoritmos que tornam a AI e a ML possíveis, as NPUs são particularmente eficientes em tarefas como reconhecimento de imagem e processamento de linguagem natural, que exigem processamento rápido de grandes quantidades de dados multimídia.
As NPUs não competem necessariamente com suas contrapartes mais reconhecíveis, CPUs (unidades de processamento central) e GPUs (unidades de processamento gráfico). Em vez disso, as NPUs são complementares a elas e às suas funções.
As CPUs, mesmo as melhores, ainda são apenas mecanismos de computação de uso geral. As CPUs são capazes de lidar com uma ampla gama de tarefas, mas não têm otimização especializada para várias tarefas. As GPUs, por outro lado, são especializadas em processamento paralelo e são particularmente boas em cálculos complexos em gráficos. Graças à mineração digital de moedas, as GPUs desenvolveram uma reputação para processar cargas de trabalho de aprendizado de máquina, mas precisam de circuitos especiais para serem especialmente eficazes nessas tarefas.
Como funciona uma unidade de processamento neural?
As NPUs são especialmente desenvolvidas para processar algoritmos de aprendizado de máquina. Embora as GPUs sejam muito boas no processamento de dados paralelos, as NPUs são desenvolvidas especificamente para os cálculos necessários para executar redes neurais responsáveis pelos processos de AI/ML.
Algoritmos de aprendizado de máquina são a base e o andaime sobre os quais os aplicativos de AI são desenvolvidos. À medida que as redes neurais e os cálculos de aprendizado de máquina se tornaram cada vez mais complexos, surgiu a necessidade de uma solução personalizada.
As NPUs aceleram os algoritmos de aprendizagem profunda executando nativamente muitas das operações específicas que as redes neurais precisam. Em vez de criar a estrutura para executar essas operações ou ambientes de execução que permitem esses cálculos avançados, as NPUs são personalizadas para executar operações de AI/ML com eficiência.
As NPUs e sua capacidade integrada de computação de alto desempenho têm impactos drásticos no desempenho da AI. As multiplicações e convoluções de matrizes são tarefas especializadas das quais os processos de AI dependem e as NPUs se destacam. O reconhecimento de imagens e o processamento de linguagem são os lugares onde as NPUs estão transformando o setor, apresentando tempos de inferência mais rápidos e menor consumo de energia, o que pode afetar os resultados financeiros de uma organização.
Aplicações de unidades de processamento neural
A aplicação de unidades de processamento neural se estende a qualquer setor ou campo que precise de processamento rápido, eficiente e escalável de cargas de trabalho de AI/ML. As NPUs estão sendo implantadas no processamento de linguagem natural para análise de sentimento, tradução de linguagem, resumo de texto e chatbots. Quando usadas em cibersegurança, as NPUs processam grandes quantidades de dados e permitem detecção de ameaças, anomalias e invasões. As NPUs são significativamente melhores na análise de dados visuais e são usadas em veículos autônomos e assistência médica, dois campos que exigem análise rápida de imagens.
As NPUs mundiais abertas para nós ainda são amplamente inexploradas. No nível do consumidor, as NPUs (que já estão amplamente integradas a smartphones e SoC) desfocam os planos de fundo em chamadas de vídeo e geram imagens de AI em tempo real. Mas a verdadeira extensão do que as NPUs são capazes ainda não foi revelada.
Vantagens e limitações das unidades de processamento neural
As NPUs oferecem velocidades de inferência mais rápidas e aceleram as tarefas de inferência em modelos de aprendizagem profunda. Quando os cálculos de rede neural são descarregados para NPUs, a latência é reduzida e a experiência do usuário pode ser aprimorada. As NPUs estão cada vez mais implantadas em dispositivos de borda e IoT graças à eficiência energética que elas têm do que suas contrapartes de GPU e CPU.
Mas as NPUs têm uma desvantagem: Elas podem ser muito rápidas. Os sistemas de armazenamento de dados compostos por data lakes e data warehouses foram desenvolvidos em resposta às limitações físicas e rígidas das velocidades de processamento de dados. A velocidade das NPUs pode sobrecarregar os sistemas de armazenamento tradicionais.
Para serem usadas adequadamente em grande escala, as NPUs precisam de uma solução de armazenamento holística que seja rápida o suficiente para acompanhar. No nível corporativo, o armazenamento precisa ser desenvolvido especificamente para AI. Vejamos, por exemplo, o FlashBlade//S (FlashBlade//S) da Pure Storage, que foi desenvolvido para ser uma arquitetura de transferência, compartilhada e de expansão horizontal capaz de lidar com pipelines de AI/ML de grande escala.
Há também uma infraestrutura pronta para inteligência artificial. Desenvolvida para transformar a desvantagem potencial das velocidades de bolhas das NPUs em um ativo, a AIRI ® é uma solução completa que simplifica a implantação de AI e expande com rapidez e eficiência.
Unidades de processamento neural x unidades de processamento gráfico
Como mencionado acima, as NPUs e as GPUs diferem significativamente em arquitetura, desempenho e aplicativo. NPUs e GPUs são diferentes peças de hardware, cada uma otimizada para o que faz melhor: NPUs para tarefas de AI/ML e GPUs para renderização gráfica.
Como as NPUs são hardware especializado desenvolvido especificamente para acelerar os cálculos de rede neural, sua arquitetura é personalizada para tarefas de aprendizagem profunda. As GPUs, por outro lado, precisam ser redirecionadas para tarefas de aprendizagem profunda e são muito mais fortes na renderização de gráficos. As GPUs têm uma arquitetura generalizada com milhares de núcleos. As NPUs apresentam um design mais simplificado com hardware dedicado para tarefas como multiplicações de matriz e convoluções.
As NPUs tendem a superar as GPUs em tarefas de inferência em tempo real em dispositivos de borda, onde a baixa latência e a eficiência energética são essenciais. As NPUs também são preferíveis em aplicativos que exigem processamento de AI no dispositivo. Pense em veículos autônomos e dispositivos IoT. E as NPUs superam as GPUs para velocidades de carga de trabalho de AI em ambientes com recursos limitados.
Conclusão
Em qualquer projeto, há uma troca constante entre ter a ferramenta certa para cada parte do trabalho e a simplicidade de ter uma ferramenta generalizada. Essa desvantagem é a razão pela qual, por exemplo, os marceneiros amadores não investem em uma serra circular, uma serra de esquadria, um quebra-cabeça, uma serra de mesa, uma serra de faixa, uma serra rotativa e uma serra de corrente até que precisem de uma para o projeto em que estão trabalhando. Da mesma forma, o mundo da AI/ML estava ficando bem com as GPUs até recentemente.
As unidades de processamento neural são ferramentas avançadas e personalizadas para algoritmos de inteligência artificial e aprendizado de máquina. As NPUs podem muito bem revolucionar a face das cargas de trabalho de AI/ML. E faz sentido que mais redes e empresas estejam investindo neles: A AI e a ML estão prontas para remodelar nossa cultura, tecnologias e até mesmo nossa arte.
Aproveitar todo o poder e a eficiência das NPUs em grande escala exige reimaginar o que é possível no lado do armazenamento da casa. Mas não é apenas reimaginar o que é possível com AI/ML Você também pode ter que reimaginar suas redes de armazenamento, híbridas ou de nuvem para garantir que, enquanto suas NPUs estão entrando e processando grandes quantidades de dados rapidamente, você tenha uma solução de armazenamento que possa acompanhar.