<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>Forem: Igor M. Soares</title>
    <description>The latest articles on Forem by Igor M. Soares (@igormsoares).</description>
    <link>https://forem.com/igormsoares</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F997481%2Fb475c2f0-eb39-45bf-98f0-14b3fb624651.png</url>
      <title>Forem: Igor M. Soares</title>
      <link>https://forem.com/igormsoares</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://forem.com/feed/igormsoares"/>
    <language>en</language>
    <item>
      <title>Melhorando as respostas de um LLM: RAG de vídeo do Fábio Akita</title>
      <dc:creator>Igor M. Soares</dc:creator>
      <pubDate>Thu, 21 Mar 2024 07:32:01 +0000</pubDate>
      <link>https://forem.com/igormsoares/melhorando-as-respostas-de-um-llm-rag-de-video-do-fabio-akita-5h98</link>
      <guid>https://forem.com/igormsoares/melhorando-as-respostas-de-um-llm-rag-de-video-do-fabio-akita-5h98</guid>
      <description>&lt;h4&gt;
  
  
  Uma introdução a Retrieval-Augmented Generation com Pinecone
&lt;/h4&gt;

&lt;h2&gt;
  
  
  O que é RAG?
&lt;/h2&gt;

&lt;p&gt;A geração aumentada de recuperação (&lt;em&gt;Retrieval-Augmented Generation&lt;/em&gt;) é "&lt;em&gt;uma maneira de otimizar o resultado de um LLM com informações direcionadas sem modificar o próprio modelo subjacente; as informações direcionadas podem ser mais atualizadas do que o LLM, bem como serem específicas para uma determinada organização e setor. Isso significa que o sistema de IA generativa pode fornecer respostas mais contextualmente apropriadas às solicitações, bem como basear essas respostas em dados extremamente atuais.&lt;/em&gt;"&lt;/p&gt;

&lt;p&gt;Fonte: &lt;a href="https://www.oracle.com/br/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/"&gt;O que é geração aumentada de recuperação&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Como funciona
&lt;/h2&gt;

&lt;p&gt;De forma simplificada, para implementar RAG, uma base de conhecimento composta por textos, documentos, etc, será segmentada em pedaços (&lt;code&gt;chunks&lt;/code&gt;) e cada segmento será transformado em um &lt;em&gt;embedding&lt;/em&gt;. Embeddings são representações numéricas (um vetor) de uma informação qualquer que serão armazenados em um banco de dados vetorial como o &lt;a href="https://www.pinecone.io/"&gt;Pinecone&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;A vantagem de utilizar vetores é que as pesquisas em um banco de dados vetoriais serão feitas por similaridade semântica, calculando-se quais são os trechos mais similares à query pesquisada. Estes trechos mais relevantes serão, então, passados como contexto para um grande modelo de linguagem (LLM) junto à pergunta feita pelo usuário.&lt;/p&gt;

&lt;h2&gt;
  
  
  Iniciando com RAG
&lt;/h2&gt;

&lt;p&gt;A idéia desse artigo é documentar o processo que fiz para experimentar pela primeira vez o uso de RAG. É apenas uma introdução prática à essa técnica e encorajo a todas as pessoas interessadas no assunto que pesquisem mais a respeito para que possam se aprofundar e entender melhor as nuâncias envolvidas em cada etapa do processo.&lt;/p&gt;

&lt;p&gt;Este teste de conceito foi criado adaptando o &lt;a href="https://github.com/pinecone-io/semantic-search-example"&gt;exemplo de Semantic Search&lt;/a&gt; disponibilizado pela equipe do Pinecone.&lt;/p&gt;

&lt;p&gt;Criei um fork (&lt;a href="https://github.com/igorMSoares/semantic-search-example"&gt;https://github.com/igorMSoares/semantic-search-example&lt;/a&gt;) adaptando o exemplo do Pinecone. Para rodar os exemplos mostrados aqui, clone o repositório, e acompanhe as instruções descritas no README para configurar e rodar o projeto.&lt;/p&gt;

&lt;p&gt;Para compor a base de conhecimentos utilizei o &lt;a href="https://www.akitaonrails.com/2023/12/16/akitando-149-configurando-docker-compose-postgres-com-testes-de-carga-parte-final-da-rinha-de-backend"&gt;roteiro do vídeo do Fábio Akita&lt;/a&gt; &lt;code&gt;"Configurando Docker Compose, Postgres, com Testes de Carga - Parte Final da Rinha de Backend"&lt;/code&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Tecnologias utilizadas
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;&lt;a href="https://www.pinecone.io/"&gt;Pinecone DB&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"&gt;all-MiniLM-L6-v2 sentence-transformer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href="https://chat.openai.com/"&gt;Chat-GPT-3.5&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Gerando a base de conhecimentos
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Semantic Chunking
&lt;/h3&gt;

&lt;p&gt;Foi feito o &lt;em&gt;Semantic Chunking&lt;/em&gt; do roteiro do vídeo utilizando o Chat-GPT.&lt;br&gt;
Para isso o seguinte prompt foi utilizado:&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;Nos próximos prompts irei passar, por partes, o roteiro de um vídeo do Fábio Akita.&lt;/p&gt;

&lt;p&gt;Para cada prompt que eu passar a seguir, use técnicas de processamento de linguagem natural para identificar limites semânticos lógicos para segmentar o texto (Semantic Chunking).&lt;/p&gt;

&lt;p&gt;Cada segmento deve ser identificado por um título que represente corretamente o conteúdo do segmento.&lt;/p&gt;

&lt;p&gt;Além do título, o conteúdo do segmento deve ser apresentado como uma listagem com APENAS UM nível de profundidade.&lt;/p&gt;

&lt;p&gt;EM HIPOTÉSE ALGUMA utilize sublistas no conteúdo do segmento. A sua resposta deverá ser no formato markdown, de forma que o título identificador do conteúdo seja precedido por "### " e o conteúdo referente a este título deverá ser uma lista em que cada item será precedido por "- ".&lt;/p&gt;

&lt;p&gt;Exemplo do formato de resposta:&lt;/p&gt;
&lt;h3&gt;
  
  
  Título desta seção
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Primeiro ítem do conteúdo da seção&lt;/li&gt;
&lt;li&gt;Segundo ítem do conteúdo da seção&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;
  
  
  Título de outra seção
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Primeiro ítem do conteúdo da outra seção&lt;/li&gt;
&lt;li&gt;Segundo ítem do conteúdo da outra seção&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Confirme que entendeu as instruções e, a partir da próxima mensagem que eu enviar, já estarei passando o primeiro trecho do roteiro do vídeo.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3&gt;
  
  
  Estruturando os dados obtidos
&lt;/h3&gt;

&lt;p&gt;A partir do markdown obtido pelo Semantic Chunking, será gerado um CSV que será utilizado para criar os &lt;em&gt;embeddings&lt;/em&gt; que serão armazenados no &lt;em&gt;Pinecone&lt;/em&gt;.&lt;/p&gt;
&lt;h4&gt;
  
  
  Observação
&lt;/h4&gt;

&lt;p&gt;A abordagem mais utilizada seria salvar os trechos do roteiro do vídeo em um banco de dados de documentos, como MongoDB, e os embeddings gerados na etapa anterior deveriam conter o id do trecho à qual se referem. Desta forma, os chunks vetorizados armazenados no &lt;em&gt;Pinecone&lt;/em&gt; poderão ser relacionados ao trecho original do roteiro armazenado no &lt;em&gt;MongoDB&lt;/em&gt;.&lt;/p&gt;

&lt;p&gt;Para simplificar este teste de conceito, não armazenei os trechos originais do roteiro e, portanto, os chunks não possuem referência ao texto original. Além disso, os &lt;em&gt;chunks&lt;/em&gt; foram armazenados no próprio Pinecone como metadados dos &lt;em&gt;embeddings&lt;/em&gt;.&lt;/p&gt;

&lt;p&gt;Dessa forma, ao invés de enviar os trechos originais como contexto para a resposta das perguntas, o contexto passado será composto apenas pelos próprios chunks gerados pelo Chat-GPT e armazenados no &lt;em&gt;Pinecone&lt;/em&gt;.&lt;/p&gt;
&lt;h3&gt;
  
  
  Criando os embeddings
&lt;/h3&gt;

&lt;p&gt;O &lt;a href="https://github.com/pinecone-io/semantic-search-example"&gt;exemplo&lt;/a&gt; apresentado pela equipe do Pinecone define uma classe &lt;code&gt;Embedder&lt;/code&gt; que é responsável por:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Carregar o arquivo estruturado dos chunks da base de conhecimento (&lt;code&gt;semantic-chunks.csv&lt;/code&gt;)&lt;/li&gt;
&lt;li&gt;Conectar à instância do Pinecone&lt;/li&gt;
&lt;li&gt;Gerar os embeddings dos chunks utilizando o modelo &lt;a href="https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"&gt;all-MiniLM-L6-v2&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Salvar no Pinecone DB os embeddings gerados&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;em&gt;Para mais informações sobre o setup do projeto, conferir o &lt;a href="https://github.com/igorMSoares/semantic-search-example/blob/main/README.md"&gt;README&lt;/a&gt; no repositório deste exemplo.&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;Para criar os embeddings a partir do CSV com os dados pré-processados e salvá-las no Pinecone, utilizar o seguinte comando, no diretório raiz do projeto clonado:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;npm start &lt;span class="nt"&gt;--&lt;/span&gt; load &lt;span class="nt"&gt;--csvPath&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;semantic-chunks.csv &lt;span class="nt"&gt;--column&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;CHUNK
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  Estrutura do CSV utilizado
&lt;/h4&gt;

&lt;p&gt;Possui uma única coluna (CHUNK) formatada como &lt;code&gt;Title:"título da seção",Content:"item-1",...,"intem-N"|&lt;/code&gt; e o caracter &lt;code&gt;|&lt;/code&gt; é o delimitador de coluna.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;CHUNK
Title:"Entendendo o HTTP e a Importância da Troca de Mensagens",Content:"Introdução ao HTTP","Relevância da troca de mensagens em formato texto","Ferramentas como Curl e Wget para navegação de linha de comando"|
Title:"Importância do Conhecimento Básico de HTTP",Content:"Necessidade de entender como enviar e receber mensagens HTTP","Essencial para compreensão da web e desenvolvimento web","Implicações para entender APIs e problemas de segurança"|
Title:"Introdução ao Gatling",Content:"Descrição do Gatling como ferramenta de teste de carga","Patrocínio da ferramenta pela rinha","Linguagens suportadas para scripts: Scala ou Kotlin"|
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h3&gt;
  
  
  Pesquisando no Pinecone DB
&lt;/h3&gt;

&lt;p&gt;Quando o usuário faz uma pergunta à IA, iremos fazer o embedding da pergunta e pesquisar no Pinecone por chunks que sejam semanticamente similares à pergunta.&lt;br&gt;
E os chunks retornados serão passados como contexto para o Chat-GPT.&lt;/p&gt;

&lt;p&gt;No nosso exemplo, a pesquisa por similaridade é feita utilizando o seguinte comando:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;npm start &lt;span class="nt"&gt;--&lt;/span&gt; query &lt;span class="nt"&gt;--query&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;"Como configurar a rede do docker?"&lt;/span&gt; &lt;span class="nt"&gt;--topK&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;5
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;npm start -- query --query="" --topK=n&lt;/code&gt;: executa a função que irá fazer a busca no espaço vetorial, retornando os &lt;em&gt;n&lt;/em&gt; resultados mais relevantes.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;em&gt;Adaptei a função &lt;code&gt;query&lt;/code&gt; para salvar o resultado do match no arquivo &lt;code&gt;out.json&lt;/code&gt;&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;Em seguida, utilizo o comando &lt;code&gt;jq&lt;/code&gt; para retornar apenas a chave &lt;code&gt;text&lt;/code&gt; do json retornado pela query e o resultado desse comando copio para o clipboard utilizando &lt;code&gt;xclip&lt;/code&gt;:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;jq &lt;span class="nt"&gt;--raw-output&lt;/span&gt; &lt;span class="s1"&gt;'.[].text'&lt;/span&gt; out.json | xclip &lt;span class="nt"&gt;-selection&lt;/span&gt; clipboard
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;E o resultado dessa última operação é o que será passado como contexto para o Chat-GPT:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;Title:"Ajustes no Docker Compose e Nginx: Modificações no Docker Compose",Content:"Atualização dos serviços para utilizar network mode host","Ajuste das portas de comunicação para evitar conflitos"
Title:"Configuração do PostgreSQL no Docker Compose: Bulk Insert e Upserts",Content:"Estratégias importantes para operações eficientes de inserção em massa de dados","Reduzem o tempo e os recursos necessários para inserir grandes volumes de dados de uma só vez","Cada banco de dados tem suas próprias peculiaridades de sintaxe para essas operações"
Title:"Tentativa de Melhoria: Alteração para Network Mode Host",Content:"Modificação no código para utilizar network mode host no Docker Compose","Ajuste da porta de comunicação para evitar conflitos","Atualização da URL de conexão com o banco de dados para localhost"
Title:"Ajustes no Docker Compose e Nginx: Configuração do Nginx",Content:"Alteração dos servidores upstream para utilizar localhost","Configuração das portas para os serviços nas portas 8080 e 8081"
Title:"Configuração do PostgreSQL no Docker Compose: Métodos de Configuração",Content:"Alterar diretamente a linha de comando do PostgreSQL no Docker Compose, adicionando o parâmetro `max_connections`","Utilizar um arquivo `postgres.conf` mapeado como volume para dentro do container PostgreSQL","Configurar o número máximo de conexões na aplicação ao conectar pela primeira vez, enviando comandos SQL"
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Como nessa demonstração estou usando como contexto os chunks gerados pelo GPT, e não o trecho original do roteiro, percebi que a qualidade das respostas melhorava ao aumentar a quantidade de chunks passados no contexto.&lt;/p&gt;

&lt;p&gt;Nessa etapa é válido experimentar diferentes abordagens para compor o contexto como, por exemplo, retornar apenas os 2 chunks mais relevantes e, além dos chunks, incluir no contexto todo o parágrafo do trecho original do roteiro referenciado pelo chunk e então comparar e analisar a qualidade das respostas.&lt;/p&gt;

&lt;p&gt;No meu caso, ao invés de rodar a query com &lt;code&gt;--topK=2&lt;/code&gt; utilizei &lt;code&gt;--topK=10&lt;/code&gt; e passo as 10 chunks retornadas como contexto para o GPT.&lt;/p&gt;

&lt;h2&gt;
  
  
  Interagindo com o Chat-GPT
&lt;/h2&gt;

&lt;p&gt;Por fim, para obter respostas acerca do vídeo do Fábio Akita, passei o seguinte prompt para o Chat-GPT:&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;Nos próximos prompts, irei fazer perguntas sobre um vídeo do Fábio Akita.&lt;br&gt;
Informações relevantes que você deverá OBRIGATORIAMENTE utilizar para compor as respostas serão informadas no começo de cada prompt, antes da pergunta em questão.&lt;/p&gt;

&lt;p&gt;Os prompts terão o seguinte formato:&lt;/p&gt;

&lt;p&gt;Title:&amp;lt;titulo da seção que categoriza o respectivo conteúdo&amp;gt;,Content:&amp;lt;uma lista de conteúdos relevantes associados a essa seção&amp;gt;&lt;br&gt;
Title:&amp;lt;titulo de outra seção que categoriza o respectivo conteúdo&amp;gt;,Content:&amp;lt;uma lista de conteúdos relevantes referentes a essa seção&amp;gt;&lt;/p&gt;

&lt;p&gt;&amp;lt;Aqui é a pergunta que deverá ser respondida utilizando o contexto passado acima.&amp;gt;&lt;/p&gt;

&lt;p&gt;Responda de maneira natural, objetiva e sucinta, utilizando como referência informações contidas nos campos "Title" e também nos campos "Content".&lt;/p&gt;

&lt;p&gt;EVITE enumerar as respostas como uma listagem de tópicos.&lt;/p&gt;

&lt;p&gt;Confirme que entendeu as instruções e, a partir do meu próximo prompt, irei enviar o conjunto de informações relevante para a resposta e a respectiva pergunta.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Este prompt está bem simplificado e com certeza poderia ser melhor elaborado mas, ainda assim, obtive respostas bem relevantes para as perguntas que fiz sobre os assuntos abordados no vídeo. Por exemplo, pode ser do seu interesse instruir o modelo de linguagem a informar que não possui informação suficiente para responder caso entenda que os dados passados no contexto não são relevantes o suficiente para responder a pergunta.&lt;/p&gt;

&lt;h3&gt;
  
  
  Exemplos
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Antes de cada pergunta, mas ainda no mesmo prompt, envio os chunks de contexto retornados pelo banco de dados vetorial referentes à pergunta em questão&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fx0nhux44re9reh8vcw16.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fx0nhux44re9reh8vcw16.png" alt="Resposta do chat-gpt sobre banco de dados" width="704" height="744"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Aqui fiz uma pergunta sobre algo que não é falado no vídeo e achei que a resposta dada foi bem assertiva, pois deixa claro que essa informação não está presente no vídeo mas complementa com informações que foram sim comentadas na fonte em questão.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;a href="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnv8cmbbi8vjik2x1puot.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media.dev.to/cdn-cgi/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnv8cmbbi8vjik2x1puot.png" alt="Resposta do chat-gpt sobre a rinha de backend" width="699" height="738"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  Conclusão
&lt;/h2&gt;

&lt;p&gt;Este foi apenas um experimento básico feito com o objetivo de testar &lt;strong&gt;RAG&lt;/strong&gt; e &lt;strong&gt;vector embeddings&lt;/strong&gt; na prática.&lt;/p&gt;

&lt;p&gt;Os passos descritos aqui não tem pretensão alguma de serem utilizados em casos práticos reais, servindo apenas como uma forma de aplicar os conceitos e testar como seriam as respostas do Chat-GPT sobre um assunto que normalmente ele não teria conhecimento (no caso, o &lt;a href="https://youtu.be/-yGHG3pnHLg?si=2_v0iPwUwiGzwwWu"&gt;vídeo do Fábio Akita&lt;/a&gt; sobre a rinha de backend)&lt;/p&gt;

&lt;p&gt;Com este teste de conceito pude perceber de forma prática o poder e o potencial do uso de RAG (Retrieval-Augmented Generation) para o refinamento das interações com LLMs como o Chat-GPT e agora me sinto melhor preparado para me aprofundar no assunto a fim de implementar soluções reais com o uso dessa abordagem.&lt;/p&gt;

&lt;p&gt;Ficou evidente para mim que para o RAG ser eficiente é totalmente fundamental que as etapas de construção da base de conhecimentos sejam muito bem pensadas e executadas. A qualidade e a assertividade das respostas dadas pela IA estão diretamente relacionadas à uma melhor seleção e categorização dos dados utilizados para a criação dos embeddings. Além disso, as respostas podem ser refinadas ainda mais utilizando técnicas mais elaboradas para a obtenção dos dados que serão passados como contexto para a formulação da resposta pela IA.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>rag</category>
      <category>vectordatabase</category>
      <category>semanticsearch</category>
    </item>
  </channel>
</rss>
