Skip to Content

O que é a geração aumentada de recuperação (RAG)?

O aprendizado de máquina e a AI são ferramentas poderosas com potencial para mudar o mundo, mas são tão poderosas quanto os dados que os alimentam e os modelos que usam. Uma parte essencial do aprendizado de máquina e AI, o processamento de linguagem natural (PLN, Natural Language Processing) oferece aos computadores a capacidade de interpretar, manipular e compreender a linguagem humana. 

A geração aumentada de recuperação (RAG, Recovery augmented Generation) representa um grande avanço no PLN ao preencher a lacuna entre recursos geradores e acesso ao conhecimento externo, levando a sistemas de geração e compreensão de linguagem mais robustos e sensíveis ao contexto.

Este artigo explica o que é RAG, por que é importante, como funciona e seus aplicativos e benefícios. 

O que é RAG?

O RAG é uma técnica para estender os recursos dos LLMs além dos dados de treinamento originais, integrando-os a uma base de conhecimento externa autorizada.

No RAG, um modelo de aprendizado de máquina gerativo recupera informações relevantes de uma grande base de conhecimento externa durante o processo de geração, levando a um contexto mais rico, resultados mais ricos e melhor conteúdo. 

Por que o RAG é importante no campo do PLN?

O RAG combina os pontos fortes dos modelos de linguagem pré-treinados com a riqueza contextual das informações recuperadas, levando a uma geração de texto mais informada e precisa em vários aplicativos, incluindo sistemas de resposta a perguntas, resumo e diálogo.

O RAG é um conceito importante no campo do PLN porque traz:

Melhor compreensão contextual: Ao incorporar um mecanismo de recuperação, os modelos RAG podem acessar uma grande quantidade de conhecimento externo ou contexto relevante para a consulta de entrada ou tarefa de geração. Isso permite que o modelo tenha uma compreensão mais profunda do contexto, levando a respostas mais precisas e contextualmente relevantes.

Melhor geração de conteúdo: Os modelos RAG podem gerar conteúdo que não é apenas fluente, mas também fundamentado em conhecimento do mundo real. Isso é particularmente útil em tarefas em que a saída gerada precisa ser factual e coerente.

Redução de vieses e informações incorretas: Os modelos RAG podem ajudar a reduzir vieses e informações incorretas ao verificar o conteúdo gerado em relação a fontes externas. Ao incorporar diversas perspectivas de uma base de conhecimento, o modelo pode produzir resultados mais equilibrados e precisos.

Flexibilidade e adaptabilidade: As arquiteturas RAG são flexíveis e adaptáveis a diferentes domínios e linguagens. Eles podem aproveitar bases de conhecimento específicas do domínio ou se adaptar a novos tópicos recuperando informações relevantes dinamicamente durante a inferência.

Escalabilidade: Os modelos RAG podem ser dimensionados com eficácia para lidar com bases de conhecimento de grande escala. O componente de recuperação não depende apenas de parâmetros pré-treinados, tornando a abordagem escalável para diversos aplicativos e casos de uso.

Aprendizagem e melhoria contínuas: Os sistemas RAG podem ser desenvolvidos para aprender e melhorar continuamente ao longo do tempo. Ao incorporar mecanismos de feedback e processos de refinamento iterativos, os modelos RAG podem melhorar seu desempenho, precisão e relevância na geração de conteúdo de alta qualidade. Esse loop de aprendizagem iterativo contribui para a eficácia e a confiabilidade de longo prazo dos aplicativos com tecnologia RAG.

Como funciona o RAG?

O RAG combina modelos de linguagem pré-treinados com mecanismos de recuperação para melhorar a geração de saídas baseadas em texto. 

Vejamos os componentes fundamentais do RAG:

  1. Modelos de linguagem pré-treinados 
  2. O processo começa com um modelo de linguagem pré-treinado, como um transformador pré-treinado generativo (GPT, Generative Pre-trained Transformation) ou representações de codificadores bidirecionais de transformadores (BERT, Bidirectional Encoder Representations from Transformers). Esses modelos são treinados em grandes quantidades de dados de texto e podem entender e gerar texto humano.

  3. Mecanismos de recuperação
  4. O mecanismo de recuperação obtém informações relevantes de uma base de conhecimento usando técnicas como o Okapi BM25 (uma função de classificação usada por mecanismos de pesquisa). 

  5. Bases de conhecimento
  6. O RAG exige acesso a uma base de conhecimento ou a um corpo de trabalho que tenha informações relevantes para a tarefa em questão. Isso pode ser um banco de dados, um conjunto de documentos ou até mesmo um conjunto selecionado de páginas da Web.

  7. Consultas de entrada
  8. O usuário fornece uma consulta de entrada ou prompt para o sistema RAG. Essa consulta pode ser uma pergunta, uma frase parcial ou qualquer forma de entrada que exija contexto ou informações para gerar uma resposta significativa.

  9. Processo de recuperação
  10. O mecanismo de recuperação processa a consulta de entrada e recupera documentos ou passagens relevantes da base de conhecimento. 

  11. Fusão de contexto
  12. As informações recuperadas são combinadas com a consulta de entrada original ou prompt para criar uma entrada rica em contexto para o modelo de linguagem. Essa etapa de fusão de contexto garante que o modelo de linguagem tenha acesso a informações relevantes antes de gerar a saída.

  13. Geração
  14. O modelo de linguagem pré-treinado pega a entrada enriquecida com contexto e gera a saída desejada. Esse resultado pode ser uma resposta completa a uma pergunta, a continuação de uma história, uma frase parafraseada ou qualquer outra resposta baseada em texto.

  15. Avaliação e refinamento
  16. A saída gerada pode ser avaliada com base em métricas predefinidas ou julgamento humano. O sistema pode ser refinado e ajustado com base no feedback para melhorar a qualidade das saídas geradas ao longo do tempo.

Aplicativos RAG

O RAG é útil em muitos tipos de aplicativos em vários setores. 

Chatbots

O exemplo mais comum seriam chatbots e assistentes virtuais, onde o RAG melhora os recursos de conversação fornecendo respostas contextualmente relevantes e precisas. Um chatbot de atendimento ao cliente para uma empresa de telecomunicações, por exemplo, pode usar o RAG para recuperar informações de sua base de conhecimento, como perguntas frequentes, especificações de produtos e guias de solução de problemas. Quando um usuário do site faz uma pergunta, o chatbot pode gerar respostas com base na consulta do usuário e no conhecimento recuperado, levando a interações mais informativas e úteis.

Geração de conteúdo

Outros aplicativos RAG comuns são geração e resumo de conteúdo. Por exemplo, um sistema de resumo de notícias pode usar o RAG para buscar artigos relacionados ou informações básicas sobre um determinado tópico. O sistema pode criar um resumo conciso e informativo sintetizando o conhecimento recuperado com os principais pontos da notícia, fornecendo aos leitores uma visão geral abrangente sem omitir detalhes importantes.

Modelos de linguagem grandes

O RAG pode ser usado para casos de uso de modelo de linguagem grande (LLM, Large Language Model) de grande escala e alto desempenho, permitindo que as empresas melhorem e personalizem LLMs gerais com fontes de dados externas, mais específicas e exclusivas. Isso aborda os principais problemas de AI generativa, como alucinações, tornando os LLMs mais precisos, oportunos e relevantes consultando bases de conhecimento fora daquelas nas quais foram treinados.

Comércio eletrônico

O RAG também ajuda em coisas como aplicativos de comércio eletrônico, recuperando avaliações de produtos, especificações e feedback do usuário. Quando o usuário pesquisa um produto ou categoria específica, o sistema pode gerar recomendações personalizadas com base nas preferências do usuário, interações anteriores e conhecimento recuperado. 

Educação

Instituições educacionais e sites podem usar o RAG para criar experiências de aprendizagem personalizadas e fornecer contexto adicional ao conteúdo educacional. Um sistema AI, por exemplo, pode usar o RAG para acessar materiais educacionais, livros didáticos e recursos complementares relacionados aos tópicos que estão sendo ensinados. Quando um aluno faz uma pergunta ou solicita esclarecimentos sobre um conceito, o sistema pode gerar explicações ou exemplos combinando o conhecimento recuperado com o contexto de aprendizagem atual do aluno.

Área da saúde

Os sistemas de informação de assistência médica podem usar o RAG para fornecer aos médicos e pacientes informações médicas precisas e atualizadas. Um chatbot médico ou sistema de informações pode usar o RAG para recuperar literatura médica, diretrizes de tratamento e materiais educacionais para pacientes. Quando um profissional de saúde ou paciente pergunta sobre uma condição médica específica, opção de tratamento ou sintoma, o sistema pode gerar respostas informativas com base no conhecimento recuperado, ajudando os usuários a tomar decisões informadas e entender conceitos médicos complexos com mais facilidade.

Esses exemplos mostram a versatilidade do RAG em todos os setores e destacam seu potencial de melhorar vários aspectos de PLN, geração de conteúdo, sistemas de recomendação e aplicativos de gerenciamento de conhecimento.

Conclusão

O RAG combina modelos de linguagem pré-treinados com mecanismos de recuperação para melhorar as tarefas de geração de texto. Ele melhora a qualidade do conteúdo, reduz o viés e aumenta a satisfação do usuário, a escalabilidade e os recursos de aprendizado contínuo. Os aplicativos RAG incluem chatbots, geração de conteúdo, sistemas de recomendação, plataformas educacionais, sistemas de informações de saúde e muito mais. 

À medida que o RAG continua evoluindo e se integrando a tecnologias avançadas de AI, ele tem o potencial de revolucionar a forma como interagimos com sistemas de AI, proporcionando experiências mais personalizadas, informativas e envolventes em interações de linguagem natural.

Saiba como um fluxo RAG com GPUs NVIDIA, rede NVIDIA, microsserviços NVIDIA e TM do FlashBlade//S da Pure Storage pode otimizar aplicativos de inteligência artificial corporativos.

09/2024
Seven Key Storage Considerations for Digital Pathology
Explore 7 key considerations your organization should consider when choosing data storage for digital pathology.
Whitepaper
4 páginas
ENTRE EM CONTATO
Dúvidas ou comentários?

Tem dúvidas ou comentários sobre produtos ou certificações da Pure?  Estamos aqui para ajudar.

Agende uma demonstração

Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos. 

Telefone: 55-11-2844-8366

Imprensa: pr@purestorage.com

 

Sede da Pure Storage

Av. Juscelino Kubitschek, 2041

Torre B, 5º andar - Vila Olímpia

São Paulo, SP

04543-011 Brasil

info@purestorage.com

FECHAR
Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.