Os sistemas RAG preenchem as lacunas de conhecimento nos LLMs.
Tivemos várias publicações que cobrem as muitas tecnologias que se enquadram na categoria de inteligência artificial. As nossas duas últimas publicações abordaram os modelos de linguagem grande (LLMs) e introduziram os modelos de geração aumentada por recuperação (RAG). Nesta publicação, vamos analisar este modelo e como ele melhora a precisão de uma resposta de LLM.
Limitações do LLM
Os grandes modelos de linguagem podem realizar uma ampla gama de tarefas sem necessidade de complementos. Os LLMs podem gerar documentação, traduzir entre idiomas e responder a uma grande variedade de perguntas com base nos seus dados de treino. Aqui está uma visão truncada do processo de treino dos LLM:
| Etapa | Descrição | 
| Recolha e Pré-processamento de Dados | Recolha de fontes (livros, sites, artigos) e preparação dos dados de treinamento (limpeza e normalização de dados) | 
| Pré-treino através de teste e validação | Formação principal da GPU, avaliação de precisão, teste de resultados para precisão e execução de verificações de segurança para respostas prejudiciais. | 
| Monitorização e manutenção contínuas | Atualizações regulares com novos dados, mitigando problemas emergentes. | 
Os grandes modelos de linguagem podem ser excelentes nas suas áreas, mas o seu conhecimento é limitado aos seus dados de treino. Isto pode levar a resultados inaceitáveis e potencialmente prejudiciais. Para ilustrar isto, vejamos uma consulta ambígua a um LLM:
"Quando é que ele subiu a montanha?"
Sem contexto ou mais informações, o LLM pode apenas "adivinhar" uma resposta com base no seu treino. Neste exemplo, pode adivinhar que a pergunta é sobre Hillary e Everest. Pode oferecer algumas teorias sobre Mallory e Irvine, ou pode listar as datas em que todas as montanhas proeminentes foram escaladas pela primeira vez. É assim que um prompt ambíguo pode levar a uma resposta incorreta, também conhecida como uma "alucinação".
As alucinações também são produzidas quando o LLM não tem treino sobre o tema consultado. Utilizando este prompt,
"Quanto tempo dura a viagem de comboio do Canadá até ao planeta Alderaan?"
Assumindo que o LLM nunca ouviu falar de Alderaan, poderia responder com algo como isto:
"A duração da viagem de comboio do Canadá para Alderaan varia, dependendo da cidade canadiana de onde parte. Recomenda-se chegar à estação de comboios pelo menos 3 horas antes da partida."
É óbvio que esta resposta é uma alucinação, mas a alucinação baseia-se em pelo menos dois pontos distintos. O primeiro é óbvio: Alderaan é um planeta fictício do universo Star Wars. O segundo é algo que também sabemos mas que talvez não consideremos, que é que não existem comboios que possam viajar entre planetas. Estes são os detalhes que a geração aumentada por recuperação obteria para um LLM que não foi treinado nesta informação.
O que é RAG?
Em termos simples, o nome 'geração aumentada por recuperação' explica o que faz. RAG melhora as capacidades dos grandes modelos de linguagem (LLMs) ao recuperar informações relevantes de bases de dados ou bases de conhecimento no momento de uma consulta ou prompt. Esta informação é usada para melhorar a precisão e relevância tanto do prompt como da resposta. Os modelos RAG complementam os LLMs e mitigam algumas das suas limitações.
O RAG divide-se em estes componentes:
R – Recuperação: O modelo procura dados relevantes para a consulta. A pesquisa pode utilizar bases de dados especializadas, repositórios de documentos, bases de conhecimento específicas do domínio e outras fontes disponíveis para este fim.
A – Aumentada: Os dados encontrados durante a recuperação são adicionados ao contexto do prompt. Isto permite que o LLM forneça informações mais precisas, informadas e atualizadas do que as que recebeu durante o seu treino.
G – Geração: O modelo processa a informação do prompt aumentado e combina-a com o conhecimento pré-treinado do LLM. As capacidades de linguagem natural do modelo são usadas para criar uma resposta à consulta. Pode também haver alguma verificação de factos ou outros refinamentos à resposta, antes de apresentar a resposta ao utilizador.
Vamos ver como este sistema funciona em resposta ao prompt ambíguo, “Quando é que ele subiu a montanha?”
O sistema primeiro analisa o prompt e tenta compreender a sua intenção e os seus componentes principais. Esta análise é toda baseada em comparações matemáticas possibilitadas pela vetorização dos dados. A vetorização é um processo que converte dados brutos, como texto e imagens, em representações numéricas que podem ser processadas por algoritmos de IA. A vetorização em aprendizagem automática (ML), processamento de linguagem natural (NLP) e outras tecnologias de IA é um tópico vasto. Para este post, só precisamos entender que existe um processo de conversão aqui que melhora a eficiência e a eficácia de todo o sistema RAG.
O sistema RAG tenta recuperar informações para esclarecer o pedido. Se não conseguir resolver a ambiguidade, pode gerar uma pergunta de acompanhamento para o utilizador.
Lamento, mas preciso de mais informações para responder à sua pergunta com precisão. Poderia especificar:
A quem te referes com "ele"?
Sobre que montanha está a perguntar?
O utilizador responde, e o sistema RAG repete a operação de recuperação com uma pesquisa mais específica. A informação recuperada é utilizada para melhorar o pedido original do utilizador. Este é um processo de engenharia de prompts que está a ocorrer dentro do próprio sistema RAG, e esta fase inclui tarefas como a priorização de informações, garantindo que a intenção da consulta permaneça intacta e formatando o prompt aumentado para consumo por LLM. Nesta fase aumentada, o prompt pode incluir tanto representações de texto como vetoriais. Isto depende dos tipos de dados que o modelo pode processar.
Durante a fase de geração, o LLM recebe e processa o prompt aumentado e outras informações fornecidas pelo sistema RAG. Usando esta informação, o LLM produz uma resposta que provavelmente será precisa, atualizada e contextualmente apropriada. A fase de geração inclui vários passos realizados pelo LLM:
Processamento, compreensão e síntese de entrada: Estes passos distintos contribuem para a capacidade do LLM de compreender a consulta e a informação aumentada.
Formulação de resposta e geração de linguagem natural: O LLM estrutura a resposta, garante a sua relevância e fornece a resposta em linguagem natural que é clara e relevante para a consulta original. Os vetores matemáticos são traduzidos para linguagem natural.
Outro: A fase de geração também inclui verificação de factos e atribuição de fontes, dependendo da configuração do LLM.
Se tudo funcionar como projetado , o LLM responderá com algo assim:
Edmund Hillary e Tenzing Norgay alcançaram o cume do Monte Everest a 29 de maio de 1953.
https://teara.govt.nz/en/biographies/6h1/hillary-edmund-percival”
RAG em ação
Existem imensos sistemas RAG a funcionar em todos os sectores económicos, mas aqui estão alguns onde este modelo realmente demonstra o seu valor:
Chatbots de apoio ao cliente: Todos nós provavelmente já tivemos uma experiência frustrante com o chatbot de uma empresa, mas os sistemas RAG tornam-nos melhores. Eles podem aceder a inventários, históricos de clientes e compreender melhor as questões dos clientes. Um estudo descobriu que estes chatbots são 30% mais precisos do que aqueles sem sistemas RAG.
Assistência à Investigação Médica: Os sistemas RAG podem aceder e analisar literatura e dados médicos de diferentes fontes mais rapidamente do que um investigador humano. Pode até ajudar a gerar novas hipóteses ao identificar padrões e relações em dados dispersos existentes.
Análise e Relatórios Financeiros: Esses sistemas têm sido uma excelente adição ao conjunto de ferramentas do profissional financeiro. Os LLMs aprimorados com RAG produzem relatórios mais perspicazes, oportunos e abrangentes e reduzem o tempo gasto no processamento manual de dados.
Existem obviamente muitas mais tecnologias e processos que podem ser melhorados pela geração aumentada por recuperação. O tamanho do mercado global de RAG é projetado para crescer de mais de 1 mil milhão de dólares (2023) para mais de 11 mil milhões de dólares em 2030.
Pode encontrar muitos recursos gratuitos online para saber mais sobre RAG e LLMs. É uma tecnologia empolgante e pode ser exatamente o que precisa para levar a sua empresa ao próximo nível.