Forem: Von Grossi

Fazendo um LLM do Zero — Sessão 08: O Fim do Começo (Por que agora tudo faz sentido?) 🚀🧠

Von Grossi — Sun, 15 Feb 2026 01:42:01 +0000

Fazendo um LLM do Zero — Sessão 08: O Fim do Começo (Por que agora tudo faz sentido?) 🚀🧠
Chegando ao fim dessa jornada. Mas, paradoxalmente, este é apenas o começo da sua verdadeira jornada com Inteligência Artificial.

A Sessão 08 é diferente. Ela não está no sumário do livro de Sebastian Raschka. Ela não vai te ensinar uma nova função do PyTorch nem introduzir uma arquitetura revolucionária. Esta sessão é o que eu chamo de “O Momento Matrix”.

Sabe aquela cena icônica em que o Neo finalmente para de ver as paredes, os agentes e o cenário, e começa a enxergar apenas o código verde escorrendo em cascata? É exatamente assim que me sinto agora ao olhar para qualquer aplicação de IA moderna.

Durante meses, nós construímos cada engrenagem desse sistema. Do momento em que quebramos uma palavra em tokens até o instante em que calculamos o gradiente de erro de uma resposta complexa. Ao fazer isso, algo mudou irreversivelmente. Eu não vejo mais a “mágica”. A caixa preta foi aberta.

O que eu vejo agora são probabilidades, vetores densos e multiplicações de matrizes.

E acredite: perder a ilusão da mágica foi a melhor coisa que poderia ter acontecido para a minha carreira de engenheiro de software.

🔍 O Fim da “Caixa Preta”: Por que suas aplicações falham?

Antes dessa jornada, quando o ChatGPT inventava um fato ou quando meu sistema de busca falhava, minha reação era de frustração e confusão. “Por que ele fez isso? Não faz sentido!”. Agora, a confusão deu lugar ao diagnóstico preciso. Entender os fundamentos me deu a capacidade de olhar para o erro e identificar a causa raiz.

1. A Anatomia da Alucinação(Vibe Coding e Prompt Engineering)

Aprendemos na Sessão 05 a verdade dura: um LLM é, em sua essência, uma máquina estatística treinada para prever a próxima palavra. Ele não tem compromisso com a verdade factual; ele tem compromisso com a verossimilhança estatística.

Quando você está fazendo um “Vibe Coding” e o modelo sugere uma importação de biblioteca que não existe, você não fica mais bravo. Você entende:

“Ah, estatisticamente, essa importação fazia todo sentido nesse contexto de código, por isso ele ‘alucinou’ esse nome”. O modelo não mentiu; ele apenas seguiu a probabilidade mais alta. Saber disso muda como você escreve seus prompts. Você para de pedir “seja criativo” e começa a impor restrições de contexto, porque você sabe que sem restrições, a estatística corre solta.

2. O Poder Oculto dos Embeddings (Custo, Performance e RAG)

Na Sessão 02, desmistificamos os Embeddings. Vimos que para o computador, “significado” nada mais é do que distância geométrica em um espaço vetorial.

Isso mudou a forma como projeto sistemas de RAG (Retrieval-Augmented Generation). Hoje, eu sei que a qualidade da resposta do meu agente não depende apenas do LLM caro que estou usando na ponta final (como o GPT-4), mas depende criticamente da qualidade do meu Embedding na busca. Se meus vetores não capturarem a nuance semântica, o LLM nunca receberá a informação correta. Escolher o modelo de embedding errado não é apenas um detalhe técnico; é uma decisão que impacta diretamente o preço e a latência da sua aplicação. Um vetor mal construído torna sua busca “burra” e sua infraestrutura cara.

3. Agentes Especializados e Instruction Tuning

Na Sessão 07, sofremos para alinhar o modelo. Vimos como é difícil fazer a máquina parar de apenas “completar texto” e começar a “obedecer ordens”.

Essa experiência é valiosa quando estamos criando Agentes Autônomos. Se o seu agente sai dos trilhos e começa a agir de forma imprevisível, a culpa provavelmente não é do modelo ser “burro”, mas da falta de exemplos robustos de Instruction Tuning ou Few-Shot Prompting. Você aprendeu na prática que o modelo precisa de exemplos negativos (o que não fazer) tanto quanto de exemplos positivos. A engenharia de prompt deixou de ser “tentativa e erro” e virou*“ajuste de pesos via contexto”*.

📊 A Verdade nos Números: O que os Gráficos nos Contam

Nossa jornada não foi feita apenas de conceitos abstratos. Nossos notebooks geraram dados reais, e esses dados contam a história do aprendizado da máquina. Vale a pena revisitar três momentos visuais que definiram nossa evolução:

1. O Momento “Eureca” da Classificação (Sessão 06)

Lembra quando transformamos o GPT em um classificador de SPAM? Ver o modelo pegar uma frase como “Ganhe dinheiro rápido e fácil!!!” e cravar a categoria SPAM (99%) foi a prova definitiva.

Não foi mágica. Nós vimos os pesos da Classification Head se ajustarem para reconhecer esse padrão.

2. A Queda da Loss (Sessão 07)

Não há gráfico mais bonito para um cientista de dados ou engenheiro de ML do que uma curva de Loss descendo.

Essa linha descendente não é apenas um gráfico; é a representação visual da “inteligência” emergindo. Cada degrau que a linha desce significa que o modelo entendeu um pouco mais sobre a estrutura da linguagem humana. O momento em que a linha se estabiliza é o momento em que a máquina encontrou o padrão ótimo. É poesia matemática.

Join Medium for free to get updates from this writer.

3. A Matriz de Confusão: A Hora da Verdade

E, claro, a nossa “prova real”. Nenhuma IA é perfeita, e a Matriz de Confusão nos ensinou a humildade.

Ela nos mostrou exatamente onde o modelo tropeça. Ele confunde ironia com seriedade? Ele deixa passar falsos positivos? Aprender a ler esse gráfico é o que separa quem usa IA de quem avalia e melhora IA.

🔮 O Futuro: O que podemos fazer agora?

Nesta sessão extra, compilamos reflexões sobre os próximos passos. O campo de LLMs está explodindo e mudando a cada semana, mas os fundamentos que aprendemos aqui — Attention, Backpropagation, Embeddings, Tokenization — são a base imutável de tudo isso.

Com essa base sólida, agora podemos nos aventurar em tópicos avançados sem medo:

Quantização: Como fazer esse modelo gigante caber na memória de um celular, reduzindo a precisão dos números sem perder a inteligência?

RAG Avançado: Como conectar esse “cérebro” a um banco de dados proprietário da empresa, garantindo que ele só responda com fatos verificados?

Agentes Multimodais: E se, além de tokens de texto, adicionarmos tokens de imagem? A arquitetura Transformer permite isso!

A base que construímos nos permite navegar por essas novidades sem nos perdermos em um hype.

❤️ Gratidão: O Alicerce do Open Source

Nenhum conhecimento é construído no vácuo. Se conseguimos criar um LLM do zero usando apenas um navegador e o Google Colab, foi porque gigantes nos permitiram subir em seus ombros.

Este projeto é, acima de tudo, um reconhecimento ao ecossistema Open Source e à comunidade científica que compartilha conhecimento abertamente.

Aos mantenedores do PyTorch, que tornaram a matemática complexa acessível através de código elegante.

Ao time do Google Colab, que democratizou o acesso às GPUs, permitindo que qualquer pessoa com internet treine uma rede neural.

E, principalmente, ao autor Sebastian Raschka, cujo livro foi o farol que guiou essa jornada, transformando teoria densa em prática acessível.

Escrevi uma carta aberta de agradecimento ao autor, detalhando como sua didática impactou meu aprendizado e o de todos que acompanharam essa série. Se você também aprendeu algo, recomendo a leitura como forma de celebrar o compartilhamento de conhecimento:

📄Leia a Carta ao Autor aqui

🏁 O Código

O repositório Fazendo um LLM do Zero não é apenas meu; é nosso.

Todos os notebooks, todos os infográficos traduzidos, todos os experimentos e códigos comentados estão disponíveis e abertos para sempre.

🔗 GitHub Oficial: vongrossi/fazendo-um-llm-do-zero

Sinta-se livre para experimentar e extender, clone o repositório

Quebre o modelo. Tente treiná-lo com outras fontes de dados. Erre. Conserte. Experimente durante a jornada eu tentei varias abordagens

Acho que melhor forma de prever o futuro da Inteligência Artificial é construí-lo você mesmo.

End of transmission. 📡👋

Fazendo um LLM do Zero — Sessão 07: De Gerador de Texto a Assistente (Instruction Tuning) 💬🤝

Von Grossi — Sun, 15 Feb 2026 01:41:38 +0000

Fazendo um LLM do Zero — Sessão 07: De Gerador de Texto a Assistente (Instruction Tuning) 💬🤝
Chegamos ao último grande marco da nossa jornada.

Até aqui, construímos um modelo que sabe tudo sobre a estrutura da língua (Sessão 05) e que até aprendeu uma profissão específica (Sessão 06).

Mas ainda faltava um “tempero” essencial para que ele se parecesse com o ChatGPT que usamos no dia a dia.

Se você pedisse ao nosso modelo da Sessão 05: “Escreva uma receita de bolo”, ele poderia simplesmente responder: “…e uma lista de ingredientes para o jantar”. Ele não entendeu que você deu uma ordem; ele achou que você estava apenas começando um texto que ele deveria completar.

Na Sessão 07, resolvemos isso com o Instruction Tuning. Como Sebastian Raschka explora no Capítulo 7 de seu livro, este é o processo de

Alinhamento: ensinar o modelo a entender a intenção humana e a agir como um assistente útil.

1. O Modelo Base vs. O Assistente

A diferença entre um modelo treinado em texto bruto e um modelo alinhado é a diferença entre um estudante que leu todos os livros da biblioteca e um profissional que sabe atender um cliente.

O modelo base é um “completador de frases”. O modelo alinhado é um seguidor de instruções.

2. A Gramática das Ordens: Formato Instrução-Resposta

Para que o modelo aprenda a nos obedecer, não podemos simplesmente jogar texto aleatório nele. Precisamos de exemplos estruturados. Como

Sebastian Raschka detalha, usamos um formato específico que separa a Instrução, o Contexto (Input) e a Resposta Esperada.

É como dar um roteiro para um ator: “Sempre que alguém te pedir X, você deve responder Y”. Com exemplos suficientes, o modelo entende o padrão de interação.

3. O Truque do Mestre: Mascaramento da Loss

Aqui entra um detalhe técnico brilhante que vimos nesta sessão. Durante o treino, nós não queremos que o modelo aprenda a “prever a pergunta”. A pergunta (instrução) já está lá! Nós queremos que ele foque toda a sua energia em aprender a Resposta.

Join Medium for free to get updates from this writer.

Para isso, usamos o Mascaramento da Loss.

Nós ignoramos os erros que o modelo comete enquanto lê a pergunta e só ajustamos os neurônios dele quando ele começa a escrever a resposta. Isso força o modelo a ser um “resolvedor de problemas”, não apenas um papagaio.

4. O Pipeline de Supervised Fine-Tuning (SFT)

O processo de transformar o modelo base em assistente é chamado de SFT. É uma linha de montagem de alta precisão: pegamos os pesos pré-treinados, passamos pelo dataset de instruções e avaliamos a qualidade da conversa.

5. Como Medir a Utilidade?

Como saber se um assistente é bom? Diferente da classificação (Sessão 06), aqui não existe “certo ou errado” absoluto. Uma receita de bolo pode ser escrita de mil formas diferentes.

Por isso, a avaliação deixa de ser apenas matemática e passa a ser qualitativa. O modelo é coerente? Ele foi educado? Ele seguiu todas as restrições da instrução?

🏁 O Fim da Jornada (E o Começo da Próxima)

Com a conclusão da Sessão 07, fechamos o ciclo completo de construção de um LLM:

1. Preparamos o terreno (Sessão 00 e 01).

2. Transformamos texto em números (Sessão 02).

3. Criamos o mecanismo de atenção (Sessão 03).

4. Montamos o corpo do GPT (Sessão 04).

5. Ensinamos o modelo a falar (Sessão 05).

6. Damos a ele uma especialidade (Sessão 06).

7. E, finalmente, o ensinamos a conversar e seguir instruções (Sessão 07).

O que antes era uma caixa preta mágica agora é um sistema que você construiu, peça por peça, do zero. A inteligência artificial não é mágica; é engenharia, é matemática e, acima de tudo, é a curiosidade de entender como os fios se conectam.

🚀 Explore o Capítulo Final

No notebook da Sessão 07, implementamos o treinamento de instruções e vimos o nosso GPTMini deixar de ser um gerador aleatório para se tornar um mini-assistente conversacional.

👇 Confira o resultado final:

📓 Notebook no Google Colab:Rodar Sessão 07

📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero

Obrigado por acompanhar essa serie de posts. Agora que você sabe como um LLM é feito, o que você vai construir com esse conhecimento? 🛠️🧠

Fazendo um LLM do Zero — Sessão 05: Ensinando o Modelo a Falar (A Escola da Probabilidade) 🎓🗣️

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero — Sessão 05: Ensinando o Modelo a Falar (A Escola da Probabilidade) 🎓🗣️
Imagine que você acabou de construir um robô perfeito. Ele tem corpo, cérebro eletrônico e cordas vocais sintéticas. Mas quando você o liga, ele diz: “Asdfjkl çlxzkcvb”.

Frustrante? Não, esperado.

Na Sessão 04, nós construímos o corpo do GPT. Ele tem todas as conexões neurais necessárias, mas não tem conhecimento. Ele é como um recém-nascido: tem potencial infinito, mas ainda não viu o mundo.

Na Sessão 05, entramos na fase mais mágica e demorada de todas: o Pré-Treinamento. É hora de mandar nosso modelo para a escola. E, como Sebastian Raschka explica no Capítulo 5 de seu livro, essa escola não usa gramática ou dicionários. Ela usa estatística pura.

1. O Loop Infinito: Tentar, Errar, Ajustar

Como se ensina uma máquina que não pensa?

Simples: você a força a adivinhar milhões de vezes e corrige cada erro.

O ciclo de vida de um LLM no treinamento é uma rotina repetitiva e exaustiva, parecida com um estudante fazendo simulados sem parar:

1. O modelo recebe: “Era uma vez um…”

2. Ele chuta: “..microondas.” ❌

3. Nós dizemos: “Errado! Era ‘dragão’.”

4. O algoritmo (Backpropagation) ajusta os neurônios do modelo para que, da próxima vez, a probabilidade de “dragão” seja um pouquinho maior e a de “microondas” seja menor.

Multiplique isso por bilhões de frases e o modelo deixa de chutar “microondas” em contos de fadas.

2. A Régua do Erro: Cross Entropy

Mas como medimos o “tamanho” do erro?

Se o modelo chutar “cachorro” em vez de “gato”, o erro é pequeno (são animais parecidos). Se ele chutar “avião”, o erro é enorme.

Para medir essa distância matemática, usamos a Cross Entropy (Entropia Cruzada).

Ela é a professora rigorosa que dá uma nota para cada tentativa do modelo. O objetivo do treino é simples: fazer essa nota de erro (Loss) cair até chegar perto de zero.

3. O Ritmo da Escola: Batches e Epochs

Join Medium for free to get updates from this writer.

Não dá para o modelo ler a internet inteira de uma vez. Ele engasgaria.

Por isso, dividimos o estudo em pequenos pedaços chamados Batches (lotes). E quando ele termina de ver todos os dados uma vez, dizemos que completou uma Epoch (época).

É um processo industrial. Entra texto, sai erro, ajusta pesos. Repete. Repete. Repete. Até que a mágica da inteligência comece a emergir dos números.

4. O Dilema da Criatividade: Como o Modelo Escolhe?

Depois de treinado, o modelo não dá uma resposta. Ele dá probabilidades para todas as palavras do mundo.

Quem escolhe a palavra final? Nós, através da Estratégia de Decodificação (Decoding Strategy).

Isso define a personalidade do modelo:

Greedy (Ganancioso): Sempre escolhe a palavra mais provável. O modelo fica chato, repetitivo e robótico. 🤖

Temperature / Top-k: Nós adicionamos um pouco de caos controlado. O modelo arrisca palavras menos óbvias e se torna criativo. 🎨

5. Salvando o Cérebro: Checkpoints

Treinar um LLM é caro e demorado. Se a luz acabar no meio do processo, você perde dias de trabalho.

Por isso, aprendemos a importância vital dos Checkpoints: salvar uma “cópia de segurança” do cérebro do modelo a cada etapa importante.

🚀 Mão na Massa

Na Sessão 05, o nosso notebook deixa de ser estático. Nós implementamos o loop de treinamento real. Vemos a barra de progresso avançar e a curva de erro cair (o gráfico mais satisfatório para um cientista de dados!).

Nós pegamos o nosso GPTMini, alimentamos ele com texto e vimos ele aprender a formar suas primeiras frases coerentes.

Quer ver o momento exato em que a máquina aprende a escrever?

👇 Acesse o laboratório:

📓 Notebook no Google Colab:Treinar Modelo na Sessão 05

📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero

Agora nosso modelo sabe falar. Mas ele sabe o que fazer? Na próxima sessão, vamos ensinar uma profissão para ele com o Fine-Tuning. 🎯👨‍⚕️

Fazendo um LLM do Zero #00: Antes da Inteligência, a Oficina 🛠️🧠

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero #00: Antes da Inteligência, a Oficina 🛠️🧠 “Como isso realmente funciona por dentro?”

Essa foi a pergunta que me tirou do lugar de apenas usuário de Inteligência Artificial para o de estudante de seus fundamentos. Estamos vivendo a era dos modelos de linguagem gigantes, mas muitas vezes os usamos como caixas pretas mágicas.

Decidi mudar isso. Baseado no excelente livro Build a Large Language Model (From Scratch), de Sebastian Raschka, iniciei uma jornada para construir um GPT do zero. Mas antes de falarmos de neurônios artificiais ou atenção, precisamos alinhar o terreno.

Bem-vindo ao Passo Zero.

☁️ 1. O Laboratório na Nuvem: Google Colab

A primeira grande barreira para quem estuda IA costuma ser o hardware. “Preciso de uma GPU de milhares de dólares?”. A resposta curta é: Não.

Para esta série, escolhi o Google Colab como nossa oficina principal. Ele remove toda a fricção técnica de configuração de ambiente.

Acelerando o aprendizado sem barreiras de instalação local (Na minha maquina Funciona).

O Colab nos dá acesso a hardware potente (GPU/TPU) direto no navegador. Isso democratiza o estudo: o que importa agora é a sua lógica, não o seu computador. Os quatro pilares que sustentam nossa jornada no Colab são:

Zero Instalação: O ambiente já vem pronto.

Nuvem: Acesso de qualquer lugar.

Interatividade: Rodamos o código bloco a bloco, testando cada ideia na hora.

Análise: Gráficos e métricas integrados para entender o aprendizado do modelo.

🔥 2. PyTorch: A Nossa Oficina Matemática

Se o LLM é um cérebro, o PyTorch é o sistema biológico que o sustenta. Ele é a biblioteca de Deep Learning que escolhi para construir cada camada do nosso modelo.

Muitas vezes, a matemática da IA parece assustadora, mas o PyTorch a transforma em algo palpável.

O ecossistema que transforma matrizes em inteligência

O que realmente ligou para mim ao estudar o PyTorch foi entender sua hierarquia:

1. Tensores: São a fundação. Arrays multidimensionais que carregam nossos dados.

2. Autograd: O motor que calcula o erro e ajusta os pesos do modelo automaticamente.

3. nn.Module: As peças de LEGO (camadas lineares, funções de ativação) que vamos empilhar para criar o GPT.

Join Medium for free to get updates from this writer.

📦 3. O Ecossistema de Ferramentas

Ninguém constrói um LLM sozinho. Em Python, temos uma “caixa de ferramentas” modular que nos permite focar no que realmente importa: o conceito

🚀 Estamos prontos!

O objetivo deste Passo Zero foi garantir que você tenha tudo o que precisa para começar sem dores de cabeça com instalação ou hardware.

Construir uma IA não é mágica; é engenharia, é tentativa e erro, e é, acima de tudo, curiosidade. Com o ambiente configurado e as bibliotecas prontas, estamos prontos para a primeira pergunta real da série: O que é um LLM de verdade?

🧪 Um pouco de experimento!

O ambiente deste capítulo já está disponível para você testar. Acesse o notebook prático no Google Colab, valide seu ambiente e rode seu primeiro tensor:

👉 Abrir Passo Zero no Google Colab

Esta série é um projeto Open Source e você pode acompanhar cada atualização, sugerir melhorias ou clonar o código no repositório oficial:

🔗 GitHub: Fazendo um LLM do Zero

Se você já teve problemas tentando configurar ambientes de IA para rodar localmente?

Conte sua experiência!

Referências:

Livro: Build a Large Language Model (From Scratch) de Sebastian Raschka.

Material Inspirado no repositório: rasbt/LLMs-from-scratch https://github.com/rasbt/LLMs-from-scratch.

Fazendo um LLM do Zero #03: Atenção é Tudo o que Você Precisa? 🎯👀

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero #03: Atenção é Tudo o que Você Precisa? 🎯👀 Você já parou para pensar em como é difícil entender uma frase isolada?

Imagine que eu chego para você e digo:

“Eu estou indo para o banco.”

Você pensaria em dinheiro 💰 ou em um parque 🌳?

Sem o resto da conversa, é impossível saber. A palavra “banco” é ambígua. O que define o significado dela não são as letras B-A-N-C-O, mas sim as palavras que estão ao redor dela.

Se a frase fosse “Sentei no banco da praça”, a palavra “banco” absorve o significado de “praça”.

Se fosse “Saquei dinheiro no banco”, ela absorve o significado de “dinheiro”.

Esse “superpoder” de misturar significados baseados no contexto é algo que nós fazemos naturalmente. Mas, para computadores, isso sempre foi um pesadelo. Até 2017.

Bem-vindo ao nossa 3a jornada, onde vamos desvendar o Self-Attention (Autoatenção), o mecanismo que transformou papagaios digitais em modelos capazes de manter uma conversa coerente.

1. O Problema da Tradução “Robótica”

Antigamente, modelos de linguagem liam texto como um cavalo com antolhos: focados apenas na palavra atual ou na anterior.

O resultado? Traduções literais e frases sem nexo. Veja este exemplo clássico de tradução do Alemão para o Inglês:

Contexto importa na tradução

Para traduzir corretamente, a palavra final da frase depende de uma palavra que apareceu lá no começo. Se o modelo não tiver “memória” ou “visão periférica”, ele erra.

2. A Intuição: Todo Mundo Olhando para Todo Mundo

A grande sacada do paper “Attention Is All You Need” foi dizer: e se cada palavra pudesse “olhar” para todas as outras palavras da frase e decidir quais são importantes para ela?

Na frase “O gato que estava no telhado miou”, quando processamos a palavra “miou”, o modelo deve prestar muita atenção em “gato” (quem miou?) e pouca atenção em “telhado” (onde estava).

Isso cria uma teia de conexões semânticas. O modelo aprende quem fez o quê, onde e como, apenas ajustando o foco da atenção.

3. O Coquetel de Informações

Matematicamente, o que acontece é que a palavra “banco” deixa de ser um vetor estático. Ela se torna uma mistura ponderada de todas as palavras da frase.

Se a palavra “dinheiro” está na frase, ela “doa” um pouco do seu significado para “banco”.

O resultado final (o vetor de contexto) é uma representação muito mais rica. É a diferença entre um dicionário (significado estático) e uma conversa (significado contextual).

4. O Mecanismo: Query, Key e Value (A Busca no Spotify)

Aqui a coisa fica técnica (e genial). Como o modelo decide quanto foco dar para cada palavra?

Ele usa um sistema de busca parecido com o do YouTube ou Spotify.

Join Medium for free to get updates from this writer.

Para cada palavra, criamos três vetores:

1. Query (Q — A Pergunta): O que eu estou procurando?

2. Key (K — A Etiqueta): O que eu tenho a oferecer?

3. Value (V — O Conteúdo): Se você gostar de mim, leve esta informação.

A “Atenção” nada mais é do que o casamento (produto escalar) entre a Pergunta (Query) de uma palavra e a Etiqueta (Key) de outra. Se elas combinam, a afinidade é alta, e o modelo absorve muito do Conteúdo (Value).

Mas esses vetores Q, K e V não são fixos! Eles são aprendidos. O modelo possui matrizes de pesos treináveis que ele ajusta durante o treinamento para aprender como prestar atenção melhor.

5. Regras do Jogo: Sem Spoilers e Sem Decorar

Para criar um GPT (que gera texto), temos uma regra de ouro: você não pode ler o futuro.

Se o modelo pudesse ver a próxima palavra durante o treino, ele apenas copiaria a resposta em vez de aprender a prever.

Para impedir essa “cola”, aplicamos uma Máscara Causal. Ela zera a atenção para qualquer palavra que venha depois da atual. É como colocar uma cortina no futuro.

Além disso, para evitar que o modelo “decore” frases específicas, usamos o Dropout. Desligamos aleatoriamente algumas conexões de atenção durante o treino. Isso força o modelo a ser robusto e aprender caminhos alternativos para entender o contexto.

6. Multi-Head Attention: Vários Pontos de Vista

Linguagem é complexa. Uma frase pode ter uma estrutura gramatical difícil E um tom emocional sutil. É difícil focar nas duas coisas ao mesmo tempo.

A solução? Multi-Head Attention (Atenção com Múltiplas Cabeças).

Em vez de fazer esse processo uma vez, fazemos 4, 8 ou 12 vezes em paralelo.

Head 1 (Cabeça 1) foca na gramática (quem é o sujeito?).

Head 2 (Cabeça 2) foca na relação temporal (aconteceu antes ou depois?).

Head 3 (Cabeça 3) foca no vocabulário específico.

No final, juntamos tudo e temos uma compreensão super-humana do texto.

7. Onde isso tudo se encaixa?

A Atenção é o coração, mas precisa de um corpo. Ela é o primeiro grande bloco dentro da arquitetura do Transformer que estamos construindo.

Depois de entender o contexto com a Atenção, a informação flui para as redes neurais (Feed Forward) que processam esse significado.

🚀 Mão na Massa

A teoria é linda, mas implementar o Self-Attention do zero, multiplicando matrizes na mão, é onde você realmente entende a mágica. E é exatamente isso que fazemos no notebook deste capítulo. Nada de import attention. Nós criamos a classe MultiHeadAttention linha por linha.

Quer ver como transformar essa teoria em código Python puro?

👇 Acesse agora:

📓 Notebook no Google Colab:Rodar no colab

📂 Código no GitHub: Ver repositório:vongrossi/fazendo-um-llm-do-zero

No proximo post, vamos pegar esses blocos de atenção e finalmente construir o corpo do GPT. Prepare-se, porque o monstro vai ganhar vida.

🧟‍♂️🤖

Fazendo um LLM do Zero #02: Como Transformar Palavras em Números (Sem Perder a Alma) 🔢✨

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero #02: Como Transformar Palavras em Números (Sem Perder a Alma) 🔢✨

Se você abrir o cérebro de um computador, não vai encontrar letras, palavras ou poesias. Você vai encontrar eletricidade. Zeros e uns.

Isso cria um problema fundamental para quem quer criar Inteligência Artificial: como ensinar uma máquina a ler, se a linguagem nativa dela é matemática pura?

A abordagem ingênua seria criar uma tabela gigante: “Abacate” = 1, “Bola” = 2, “Casa” = 3.

Funciona? Sim. O computador consegue ler.

Mas ele perde o significado. Para ele, “Abacate” e “Bola” são apenas números vizinhos, sem nenhuma relação real.

Nesta sessão, resolvemos esse problema. Descobrimos a alquimia que transforma texto em vetores ricos de significado.

1. O Abismo entre Texto e Máquina

Tudo o que é “dado bruto” no mundo real (texto, áudio, vídeo) precisa ser convertido para uma representação numérica densa antes de entrar em uma rede neural.

Não queremos apenas números soltos. Queremos Embeddings.

Um Embedding não é apenas um número. É uma lista de números (um vetor) que funciona como uma coordenada de GPS.

2. O GPS das Palavras (Espaço Vetorial)

Imagine um mapa gigante.

Nesse mapa, a palavra “Rei” mora em uma coordenada. A palavra “Rainha” mora bem pertinho dela.

Já a palavra “Maçã” mora do outro lado do mapa, longe da realeza, mas vizinha de “Banana”.

Isso é o Espaço Vetorial.

Quando treinamos um LLM, ele aprende a organizar esse mapa sozinho. Ele descobre que “cachorro” e “gato” compartilham muitas características, então ele os coloca próximos geometricamente. É assim que a matemática captura a semântica.

3. Quebrando o Texto: Tokenização

Mas espere… o modelo lê palavras inteiras?

Na verdade, não.

Se o modelo tivesse que decorar todas as palavras do dicionário (mais gírias, nomes, erros de digitação), o vocabulário seria infinito.

Para resolver isso, usamos a Tokenização. Nós quebramos o texto em pedacinhos chamados Tokens.

1. Lemos o texto.

2. Identificamos os pedaços únicos.

3. Criamos um vocabulário numérico.

4. O Tradutor Universal (Encode e Decode)

Join Medium for free to get updates from this writer.

Uma vez que temos o vocabulário, criamos uma ponte de duas vias.

O Encode transforma a frase “Olá Mundo” em [245, 981].

O Decode pega [245, 981] e devolve “Olá Mundo”.

É essa interface que permite que nós (humanos) e o modelo (máquina) conversemos.

5. O Lego das Palavras (BPE — Byte Pair Encoding)

E se aparecer uma palavra que o modelo nunca viu? Tipo “Supercalifragilisticexpialidocious”?

Se usássemos palavras inteiras, o modelo travaria (o temido erro “Out of Vocabulary”).

A solução moderna é genial: Subwords (Sub-palavras).

Se o modelo não conhece a palavra inteira, ele a quebra em pedaços que ele conhece.

“Infelizmente” vira: In + feliz + mente.

Com essa técnica (chamada BPE), o modelo consegue ler e escrever qualquer palavra em qualquer língua, usando apenas um conjunto limitado de peças de Lego.

6. Ensinando com Flashcards (Janela Deslizante)

Como preparamos esses dados para o treino?

Um LLM aprende a prever o futuro olhando para o passado.

Nós pegamos um texto e criamos janelas deslizantes.

Entrada: “O gato” -> Alvo: “subiu”

Entrada: “O gato subiu” -> Alvo: “no”

É assim que criamos milhões de exemplos de treinamento a partir de um único livro.

7. O Pipeline Completo: Da Letra ao Cérebro

Juntando tudo, temos o pipeline de entrada do nosso GPT.

É uma linha de montagem de dados:

Texto Bruto ➡️ Tokenização ➡️ IDs ➡️ Embeddings de Palavra + Embeddings de Posição ➡️ Entrada no Modelo.

🚀 Mão na Massa

Neste capítulo, não ficamos só na teoria. No notebook, nós implementamos:

Um Tokenizador do zero.O algoritmo BPE (sim, escrevemos a lógica de merge de tokens!).

A camada de Embeddings no PyTorch.

Quer ver como transformar Shakespeare em tensores matemáticos?

👇 O código está pronto para rodar:

📓 Notebook no Google Colab:Acessar o notebook

📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero

Agora que transformamos texto em números, estamos prontos para a parte mais “humana” da IA. No próximo post: Atenção. 👀

Fazendo um LLM do Zero — Sessão 04: A Arquitetura da Mente (Construindo o Corpo do GPT) 🏗️🤖

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero — Sessão 04: A Arquitetura da Mente (Construindo o Corpo do GPT) 🏗️🤖 Até agora, nossa jornada foi sobre coletar os materiais básicos.

Aprendemos a transformar palavras em números.

Entendemos como a Atenção permite que esses números se conectem.

Mas ter tijolos e cimento não é o mesmo que ter uma casa. Você precisa de uma planta, de engenharia e de estrutura.

Na Sessão 04, deixamos de olhar para as peças isoladas e começamos a construir o edifício. É aqui que o GPT deixa de ser uma ideia matemática e se torna um modelo funcional. Como Sebastian Raschka detalha no Capítulo 4 de seu livro Build a Large Language Model (From Scratch), o segredo da inteligência desses modelos não está em uma única peça mágica, mas na forma como empilhamos blocos simples de forma repetitiva e organizada.

1. O Bloco Fundamental: O Módulo Transformer

Um GPT não é uma massa única de código. Ele é modular. Imagine que estamos construindo um arranha-céu onde cada andar é idêntico. Se você souber construir um andar perfeitamente, você pode construir cem.

No mundo dos LLMs, esse andar é o Bloco Transformer.

Cada um bloco desses contém os órgãos vitais do modelo: a Atenção (para olhar o contexto) e a Rede Feedforward (para processar o que viu).

2. A Esteira de Produção (O Fluxo de Dados)

Quando um token entra no modelo, ele não é processado de qualquer jeito. Existe uma ordem rigorosa. Como Sebastian Raschka descreve, a informação passa por uma espécie de esteira de produção dentro de cada bloco.

A informação entra, é refinada pela atenção, estabilizada por normalizações, processada pela rede neural e entregue para o próximo bloco. Esse fluxo garante que o modelo não se perca no meio do caminho.

3. A Refinaria de Conhecimento (Feedforward Network)

Se a Atenção é o “olhar” do modelo, a rede Feedforward é o pensar.

Enquanto a Atenção decide quais palavras são importantes entre si, a rede Feedforward processa cada palavra individualmente para extrair significados mais profundos.

É como se a Atenção trouxesse as matérias-primas e a Feedforward fosse a refinaria que transforma aquilo em conhecimento útil.

Join Medium for free to get updates from this writer.

4. Redes de Segurança: Residuais e Normalização

Aqui entra um problema real de engenharia: quando empilhamos muitos blocos (como os 12 blocos do GPT-2 ou os 96 do GPT-3), a matemática pode começar a quebrar. Os números podem ficar grandes demais ou pequenos demais, e o modelo para de aprender.

Para resolver isso, usamos dois truques essenciais que Sebastian Raschka explora em seu livro:

1. Conexões Residuais: Atalhos que permitem que a informação original pule camadas, garantindo que nada importante seja esquecido.

2. Layer Normalization: Uma técnica que mantém os números em uma escala saudável, como um regulador de voltagem que impede um curto-circuito.

5. O Pipeline Completo: Nasce um GPT

Juntando tudo — os embeddings que vimos na Sessão 02, a Atenção da Sessão 03 e os blocos que montamos agora — temos finalmente o pipeline completo de um modelo GPT.

O modelo recebe tokens, adiciona a noção de posição, passa por vários blocos de processamento e, no final, entrega uma lista de probabilidades:

Qual é a próxima palavra mais provável?

🚀 Do Papel para o Código

Nesta Sessão 04, nosso trabalho no notebook foi de Arquiteto de Sistemas. Nós implementamos:

A classe TransformerBlock unindo Atenção e Feedforward.

A lógica de LayerNorm e conexões residuais.

O modelo GPTMini, que é o nosso cérebro completo pronto para ser treinado.

É um momento marcante: pela primeira vez, temos um modelo que, embora ainda não saiba falar (ele ainda não foi treinado!), já tem toda a estrutura física para aprender qualquer linguagem do mundo.

Quer ver como essas peças se encaixam no PyTorch?

👇 Acesse o laboratório prático:

📓 Notebook no Google Colab:Rodar Sessão 04

📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero

Agora o corpo está pronto. Na próxima sessão, vamos dar um sopro de vida: O Pré-treinamento. ⚡📖

Fazendo um LLM do Zero — Sessão 06: Dando uma Profissão ao Modelo (Fine-Tuning) 🎯👨‍⚕️

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero — Sessão 06: Dando uma Profissão ao Modelo (Fine-Tuning) 🎯👨‍⚕️
Até a sessão anterior, nosso GPT era como um adolescente que leu a biblioteca inteira: ele conhece todas as palavras, sabe construir frases bonitas e entende a estrutura da língua. Mas se você perguntar a ele: “Este e-mail é um spam ou uma promoção?”, ele pode simplesmente começar a escrever um poema sobre e-mails.

Ele tem conhecimento, mas não tem foco.

Na Sessão 06, aprendemos a transformar esse “estudante geral” em um “profissional especializado”. Como Sebastian Raschka detalha no Capítulo 6 de seu livro, esse processo se chama Fine-Tuning (Ajuste Fino). É aqui que a IA deixa de ser apenas um brinquedo curioso e se torna uma ferramenta útil para resolver problemas reais.

1. Da Educação Básica à Especialização

Podemos comparar a vida de um LLM com a carreira de um médico.

O Pré-treinamento (que vimos na Sessão 05) é a escola e a faculdade de medicina: o modelo aprende tudo sobre o corpo humano e a biologia de forma geral.

O Fine-tuning é a residência médica: o modelo escolhe uma especialidade (como Cardiologia ou Dermatologia) e foca intensamente nela.

Em vez de aprender a prever qualquer palavra, o modelo agora é treinado para uma tarefa específica, como Classificação de Texto.

2. Colocando um🎩 “Chapéu de Decisão”🧢(Classification Head)

Um GPT original foi desenhado para gerar texto. Para transformá-lo em um classificador (alguém que diz “Sim/Não”, “Positivo/Negativo”), precisamos fazer uma pequena cirurgia no seu cérebro.

Nós removemos a camada que gera palavras e colocamos uma Cabeça de Classificação.

Essa nova camada olha para toda a compreensão de texto que o modelo já tem e toma uma decisão final: “Baseado em tudo o que li nesta frase, a chance de ser Spam é 98%”.

3. Inteligência Eficiente: Congelar ou não Congelar?

Treinar um modelo inteiro de novo seria um desperdício de tempo e dinheiro. Afinal, o modelo já sabe o que é um verbo ou um substantivo. Por que ensinar isso de novo?

Join Medium for free to get updates from this writer.

Sebastian Raschka nos mostra que podemos ser inteligentes: Congelamos (Freeze) a maior parte do modelo e treinamos apenas a camada final. Ou, se tivermos mais dados, podemos Descongelar (Unfreeze) as últimas camadas para um ajuste mais fino.

É como se você contratasse um mestre de obras experiente: você não precisa ensiná-lo a usar um martelo, apenas mostra onde quer que a nova parede seja construída.

4. A Nova Linha de Montagem

O treinamento agora muda de cara. Não usamos mais apenas “texto puro”. Usamos Dados Rotulados (Exemplo:“Eu amei este filme” ->Rótulo:Positivo).

O modelo processa o texto, passa pela cabeça de classificação e nós comparamos a resposta dele com o rótulo real. O erro agora não é mais “qual era a próxima palavra”, mas sim “você acertou a categoria?”.

5. O Diagnóstico Final: A Matriz de Confusão

Como saber se o nosso especialista é realmente bom? Apenas “acurácia” pode enganar.

Se 90% dos seus e-mails não são spam, e o modelo disser “não é spam” para tudo, ele terá 90% de acerto, mas será um modelo inútil para detectar spams reais.

Para isso, usamos a Matriz de Confusão. Ela nos mostra onde o modelo está “confuso”: ele está deixando passar muito spam (Falso Negativo) ou está bloqueando e-mails importantes (Falso Positivo)?

🚀 Mão na Massa

Na Sessão 06, o nosso laboratório prático foi sobre transformar o GPTMini em um detector de sentimentos. Nós pegamos os pesos que treinamos na

Sessão 05, adicionamos a camada de classificação e vimos o modelo aprender a distinguir opiniões.

É a prova de que o conhecimento geral é a base para qualquer especialidade.

Quer transformar seu modelo em um especialista?

👇 Acesse os materiais desta sessão:

📓 Notebook no Google Colab:Rodar Fine-Tuning na Sessão 06

📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero

Agora o modelo tem um emprego. Mas ele sabe conversar conosco e seguir ordens complexas? Esse é o desafio final da Sessão 07: Instruction Tuning.

Nos vemos lá! 💬🤝

Fazendo um LLM do Zero #01: A Mágica é Apenas Estatística (Bem Feita) 🎩📊

Von Grossi — Sun, 15 Feb 2026 00:00:00 +0000

Fazendo um LLM do Zero #01: A Mágica é Apenas Estatística (Bem Feita) 🎩📊

Você se lembra da primeira vez que usou o ChatGPT?

Para mim, houve um momento de estranhamento. Eu digitava uma pergunta complexa, e a resposta surgia na tela, palavra por palavra, como se houvesse um humano do outro lado digitando em tempo real. Parecia haver raciocínio, intenção, talvez até… consciência?

É fácil se deixar levar pela ilusão da “Inteligência”.

Mas, como engenheiros (ou aspirantes a), nosso trabalho não é admirar a mágica. É descobrir onde está o alçapão, os espelhos e os fios invisíveis.

Nessa parte da nossa série Fazendo um LLM do Zero, nós puxamos a cortina. E a verdade é, ao mesmo tempo, decepcionante para os sonhadores e fascinante para os construtores:

O modelo não sabe o que está dizendo. Ele está apenas chutando a próxima palavra.

Bem-vindo ao mundo da Previsão do Próximo Token.

🔮 A Bola de Cristal Probabilística

Para entender um Large Language Model (LLM), você precisa esquecer a ideia de “cérebro digital” por um minuto e olhar para o seu celular.

Abra o WhatsApp. Digite “Bom”.

O seu teclado provavelmente vai sugerir “dia”, “trabalho” ou “fim”.

O seu teclado entende o conceito de saudação matinal? Não.

Ele sabe que você está feliz ou cansado? Não.

Ele apenas calculou uma probabilidade condicional: “Dado que o usuário digitou ‘Bom’, existe 80% de chance da próxima palavra ser ‘dia’”.

Um LLM, no fundo, é um autocompletar que tomou esteroides. 💊

A diferença é a escala. Enquanto o teclado do seu celular olha para as últimas 2 ou 3 palavras, um modelo como o GPT-4 olha para milhares de palavras de contexto (livros, artigos, código, conversas) para calcular qual é o próximo pedacinho de texto (token) que faz mais sentido estatístico.

O fluxo simples de Texto -> Modelo -> Probabilidade

Quando o modelo escreve um poema ou um código em Python, ele não planejou o resultado final. Ele está navegando no escuro, acendendo uma luz (token) de cada vez, baseando-se apenas no caminho que já percorreu.

🏗️ A Revolução Transformer: Paramos de Ler como Humanos

Se a ideia é apenas “prever a próxima palavra”, por que não tínhamos IAs assim nos anos 90?

O problema era a memória.

Antigamente, as Redes Neurais Recorrentes (RNNs) liam texto como nós, humanos cansados: uma palavra de cada vez, da esquerda para a direita.

“O”… (ok, guardei)
“gato”… (ok, é um animal)
“subiu”… (ação)
…
“telhado”.

Quando a frase era longa, a rede já tinha “esquecido” o começo. Ela perdia o contexto.

Join Medium for free to get updates from this writer.

A grande virada de chave — e o motivo pelo qual estamos vivendo esse hype hoje — foi a introdução da arquitetura Transformer (apresentada pelo

Google no paper “Attention Is All You Need” em 2017).

O Transformer não lê como a gente. Ele olha para a frase inteira de uma vez só. Ele processa tudo em paralelo. É como se, em vez de ler um livro página por página, ele tirasse uma foto de todas as páginas ao mesmo tempo e entendesse as conexões entre o capítulo 1 e o capítulo 10 instantaneamente.

Isso permitiu treinar modelos com quantidades absurdas de dados. E, com dados suficientes, a estatística começou a parecer inteligência.

🧩 O GPT é um “Decoder-Only”

Existem muitos tipos de Transformers, mas nós vamos focar na arquitetura GPT (Generative Pre-trained Transformer).

O GPT é o que chamamos de modelo Decoder-Only.

Imagine um tradutor.

1. Ele ouve a frase em inglês (Encoder).

2. Ele gera a frase em português (Decoder).

O GPT ignorou a primeira parte. Ele é especialista apenas na segunda: gerar. Ele é treinado para olhar para o passado e alucinar o futuro, token por token. É por isso que ele é tão bom em criar histórias e conversar, mas às vezes falha em tarefas que exigem “ver o todo” antes de responder.

🛠️ Mão na Massa: O Que Fizemos no Código?

Chega de teoria. No notebook desta sessão, não usamos bibliotecas prontas de “caixa preta” como langchain ou openai. Nós descemos para o nível do PyTorch.

Neste Passo 01, você vai encontrar:

1. A intuição visual: Gráficos que explicam como o texto entra e sai do modelo.

2. O conceito de Contexto: Como o tamanho da “janela” que o modelo enxerga define o quão “inteligente” ele parece.

3. A estrutura do projeto: Como organizar pastas e arquivos para não se perder quando o código crescer.

🚀 Por que isso importa?

Quando você entende que o LLM é uma máquina de probabilidade e não um ser consciente, você se torna um usuário (e desenvolvedor) muito melhor.

Você para de tentar “convencer” o chat e começa a “engenheirar” o prompt. Você entende por que ele alucina (afinal, ele só quer completar o padrão, mesmo que precise inventar um fato).

A mágica desaparece, mas dá lugar a algo muito mais poderoso: o controle.

Pronto para ver como transformar texto em números e começar a calcular essas probabilidades? Esse é o tema da próxima sessão.

👇 Acesse o material completo e execute o código agora:

📓 Notebook no Google Colab:Clique aqui para rodar

📂 Repositório no GitHub:vongrossi/fazendo-um-llm-do-zero

Vamos adiante, onde vamos aprender a matemática necessaria para o nosso modelo. Até lá! 👋