<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>Forem: Keylin González</title>
    <description>The latest articles on Forem by Keylin González (@kggonzalez).</description>
    <link>https://forem.com/kggonzalez</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3336175%2F8aeb6419-e8d7-46aa-8973-2ca3b5163d22.jpg</url>
      <title>Forem: Keylin González</title>
      <link>https://forem.com/kggonzalez</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://forem.com/feed/kggonzalez"/>
    <language>en</language>
    <item>
      <title>Comparé Claude Haiku, Sonnet y Opus en AWS Bedrock: Haiku es 84% más barato</title>
      <dc:creator>Keylin González</dc:creator>
      <pubDate>Wed, 11 Mar 2026 19:32:45 +0000</pubDate>
      <link>https://forem.com/kggonzalez/compare-claude-haiku-sonnet-y-opus-en-aws-bedrock-haiku-es-84-mas-barato-g3f</link>
      <guid>https://forem.com/kggonzalez/compare-claude-haiku-sonnet-y-opus-en-aws-bedrock-haiku-es-84-mas-barato-g3f</guid>
      <description>&lt;h2&gt;
  
  
  TL;DR
&lt;/h2&gt;

&lt;p&gt;Lambda serverless que compara &lt;strong&gt;Claude Haiku 4.5 vs Sonnet 4.6 vs Opus 4.6&lt;/strong&gt; en AWS Bedrock.&lt;br&gt;
Mide latencia, tokens y costo real en USD.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Resultado:&lt;/strong&gt; Haiku es &lt;strong&gt;84.5% más barato&lt;/strong&gt; que Opus para tareas estándar.&lt;/p&gt;

&lt;p&gt;📦 &lt;a href="https://github.com/kgonzalez06/demo-bedrock-1" rel="noopener noreferrer"&gt;GitHub Repo&lt;/a&gt; | 💰 Costo por comparación: $0.044&lt;/p&gt;


&lt;h2&gt;
  
  
  Contexto
&lt;/h2&gt;

&lt;p&gt;La semana pasada escribí sobre &lt;a href="https://dev.to/kggonzalez/precios-de-bedrock-lo-que-realmente-vas-a-pagar-4npi"&gt;Precios de Bedrock: Lo que realmente vas a pagar&lt;/a&gt;.&lt;br&gt;
Hoy los pongo a prueba con código real.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Arquitectura:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;Test Event → Lambda (Python 3.14) → Bedrock Runtime
                                    ├─ Haiku 4.5
                                    ├─ Sonnet 4.6
                                    └─ Opus 4.6
                                         ↓
                              CloudWatch Logs (reporte)
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;Setup: &lt;strong&gt;100% desde AWS Console&lt;/strong&gt; (sin IaC). &lt;br&gt;
Tiempo: ~15 min.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;&lt;strong&gt;Recordatorio rápido:&lt;/strong&gt; Lambda es el servicio serverless de AWS que ejecuta código sin gestionar servidores. CloudWatch Logs es donde Lambda registra toda su actividad (errores, prints, métricas).&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;


&lt;h2&gt;
  
  
  Los resultados
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Prompt:&lt;/strong&gt; "¿Qué es AWS Lambda y cuándo usarlo?"&lt;/p&gt;
&lt;h3&gt;
  
  
  CloudWatch Logs:
&lt;/h3&gt;


&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;════════════════════════════════════════════════════════════
🔬 BEDROCK MODEL COMPARISON — RESULTADOS
════════════════════════════════════════════════════════════
📝 Prompt: ¿Qué es AWS Lambda y cuándo usarlo?
────────────────────────────────────────────────────────────

🤖 Claude Haiku 4.5 (fast)
   ⏱️  Latencia:  6,967.7 ms
   🔢 Tokens:    23 in / 791 out / 814 total
   💰 Costo:     $0.003978

🤖 Claude Sonnet 4.6 (balanced)
   ⏱️  Latencia:  22,057.6 ms
   🔢 Tokens:    23 in / 950 out / 973 total
   💰 Costo:     $0.014319

🤖 Claude Opus 4.6 (powerful)
   ⏱️  Latencia:  21,979.2 ms
   🔢 Tokens:    23 in / 1024 out / 1047 total
   💰 Costo:     $0.025715

────────────────────────────────────────────────────────────
📊 RESUMEN
────────────────────────────────────────────────────────────
   🏆 Más rápido:  Claude Haiku 4.5 (6,967.7 ms)
   💸 Más barato:  Claude Haiku 4.5 ($0.003978)
   📝 Más extenso: Claude Opus 4.6
   💰 Costo total: $0.044012
   📉 Ahorro Haiku vs Opus: 84.5%
════════════════════════════════════════════════════════════
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;

&lt;h3&gt;
  
  
  Tabla comparativa:
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modelo&lt;/th&gt;
&lt;th&gt;Latencia&lt;/th&gt;
&lt;th&gt;Tokens&lt;/th&gt;
&lt;th&gt;Costo&lt;/th&gt;
&lt;th&gt;vs Haiku&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Haiku 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;7.0s&lt;/td&gt;
&lt;td&gt;814&lt;/td&gt;
&lt;td&gt;$0.003978&lt;/td&gt;
&lt;td&gt;baseline&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Sonnet 4.6&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;22.1s&lt;/td&gt;
&lt;td&gt;973&lt;/td&gt;
&lt;td&gt;$0.014319&lt;/td&gt;
&lt;td&gt;3.6x más caro&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Opus 4.6&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;22.0s&lt;/td&gt;
&lt;td&gt;1047&lt;/td&gt;
&lt;td&gt;$0.025715&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;6.5x más caro&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;


&lt;h2&gt;
  
  
  Lo sorprendente
&lt;/h2&gt;

&lt;p&gt;✅ &lt;strong&gt;Haiku generó una respuesta completa:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Guía estructurada con Markdown&lt;/li&gt;
&lt;li&gt;Tabla de ventajas/desventajas&lt;/li&gt;
&lt;li&gt;Ejemplos de código Python&lt;/li&gt;
&lt;li&gt;Casos de uso y anti-patrones&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;❌ &lt;strong&gt;Opus NO justificó 6.5x el precio&lt;/strong&gt; para este contenido.&lt;/p&gt;

&lt;p&gt;🤔 &lt;strong&gt;Sonnet:&lt;/strong&gt; Similar latencia a Opus, pero 3.6x más caro que Haiku. ¿Vale la pena?&lt;/p&gt;


&lt;h2&gt;
  
  
  Comparación de calidad
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Extracto de Haiku:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight markdown"&gt;&lt;code&gt;&lt;span class="gh"&gt;# AWS Lambda: Guía Completa&lt;/span&gt;

&lt;span class="gu"&gt;## ¿Qué es AWS Lambda?&lt;/span&gt;

AWS Lambda es un servicio de &lt;span class="gs"&gt;**computación sin servidor (serverless)**&lt;/span&gt; que te permite ejecutar código sin provisionar ni administrar servidores. Solo pagas por el tiempo de ejecución real de tu código.

&lt;span class="gu"&gt;### Características principales:&lt;/span&gt;
&lt;span class="p"&gt;
-&lt;/span&gt; ⚡ Ejecución automática y escalable
&lt;span class="p"&gt;-&lt;/span&gt; 💰 Pago por uso (duración + memoria)
&lt;span class="p"&gt;-&lt;/span&gt; 🔄 Se ejecuta en respuesta a eventos
&lt;span class="p"&gt;-&lt;/span&gt; 📦 Soporta múltiples lenguajes (Python, Node.js, Java, Go, C#, etc.)
&lt;span class="p"&gt;-&lt;/span&gt; 🚀 Sin mantenimiento de infraestructura
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Extracto de Sonnet:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight markdown"&gt;&lt;code&gt;&lt;span class="gh"&gt;# AWS Lambda&lt;/span&gt;

&lt;span class="gu"&gt;## ¿Qué es?&lt;/span&gt;

AWS Lambda es un servicio de &lt;span class="gs"&gt;**computación sin servidor**&lt;/span&gt; (&lt;span class="ge"&gt;*serverless*&lt;/span&gt;) que ejecuta código en respuesta a eventos, sin necesidad de aprovisionar ni administrar servidores.

Tu código → Evento lo dispara → Lambda ejecuta → Pagas solo por lo que usas
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Extracto de Opus:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight markdown"&gt;&lt;code&gt;&lt;span class="gh"&gt;# AWS Lambda&lt;/span&gt;

&lt;span class="gu"&gt;## ¿Qué es?&lt;/span&gt;

&lt;span class="gs"&gt;**AWS Lambda**&lt;/span&gt; es un servicio de computación &lt;span class="gs"&gt;**serverless**&lt;/span&gt; (sin servidor) de Amazon Web Services que permite ejecutar código &lt;span class="gs"&gt;**sin aprovisionar ni administrar servidores**&lt;/span&gt;. Solo pagas por el tiempo de cómputo que consumes.
&lt;span class="p"&gt;
---
&lt;/span&gt;
&lt;span class="gu"&gt;## ¿Cómo funciona?&lt;/span&gt;

Evento (trigger) → Lambda ejecuta tu función → Devuelve resultado
&lt;span class="p"&gt;
1.&lt;/span&gt; &lt;span class="gs"&gt;**Subes tu código**&lt;/span&gt; (Python, Node.js, Java, Go, C#, Ruby, etc.)
&lt;span class="p"&gt;2.&lt;/span&gt; &lt;span class="gs"&gt;**Defines un trigger**&lt;/span&gt; (evento que dispara la función)
&lt;span class="p"&gt;3.&lt;/span&gt; &lt;span class="gs"&gt;**Lambda se encarga del resto**&lt;/span&gt;: escalado, infraestructura, disponibilidad
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Conclusión:&lt;/strong&gt; Los tres modelos explican el concepto correctamente con estructura similar. Las diferencias en formato y énfasis no justifican 6.5x el costo para este tipo de tarea.&lt;/p&gt;




&lt;h2&gt;
  
  
  ¿Cuándo usar cada modelo?
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Haiku 4.5 → &lt;strong&gt;80% de casos de uso&lt;/strong&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Chatbots&lt;/li&gt;
&lt;li&gt;Clasificación de texto&lt;/li&gt;
&lt;li&gt;Resúmenes&lt;/li&gt;
&lt;li&gt;Traducciones&lt;/li&gt;
&lt;li&gt;Generación de contenido educativo&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Sonnet 4.6 → Equilibrio
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Tareas que requieren mejor razonamiento&lt;/li&gt;
&lt;li&gt;Cuando Haiku no es suficiente pero Opus es overkill&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Opus 4.6 → Solo cuando sea crítico
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Análisis legal o médico&lt;/li&gt;
&lt;li&gt;Razonamiento complejo&lt;/li&gt;
&lt;li&gt;Código de producción crítico&lt;/li&gt;
&lt;li&gt;Prompts muy ambiguos&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  Cómo replicarlo
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Repo:&lt;/strong&gt; &lt;a href="https://github.com/kgonzalez06/demo-bedrock-1" rel="noopener noreferrer"&gt;GitHub&lt;/a&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;Clona el repo&lt;/li&gt;
&lt;li&gt;Abre &lt;code&gt;guia_setup_aws.py&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;Sigue los 5 pasos (~15 min)&lt;/li&gt;
&lt;li&gt;Prueba con tus propios prompts&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;&lt;strong&gt;Archivos:&lt;/strong&gt;&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;bedrock-comparison/
├── lambda_handler.py       # Código de la Lambda
├── guia_setup_aws.py       # Setup paso a paso
└── README.md
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;strong&gt;Configuración Lambda:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Runtime: Python 3.14&lt;/li&gt;
&lt;li&gt;Timeout: 1 min 30 seg&lt;/li&gt;
&lt;li&gt;Memory: 128 MB&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Costos:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Lambda: $0.00 (free tier)&lt;/li&gt;
&lt;li&gt;Bedrock: ~$0.04 por comparación&lt;/li&gt;
&lt;li&gt;Para gastar $1: necesitas ~33 invocaciones&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  Conclusión
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Para la mayoría de aplicaciones, Haiku 4.5 es imbatible en calidad/precio.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Solo escala a Sonnet/Opus si tests A/B demuestran que la calidad extra justifica el costo.&lt;/p&gt;




&lt;p&gt;💬 ¿Qué modelo usas tú? ¿Has notado diferencias de calidad que justifiquen el costo?&lt;/p&gt;

&lt;p&gt;📦 &lt;a href="https://github.com/kgonzalez06/demo-bedrock-1" rel="noopener noreferrer"&gt;GitHub Repo&lt;/a&gt; | 📝 &lt;a href="https://dev.to/kggonzalez/precios-de-bedrock-lo-que-realmente-vas-a-pagar-4npi"&gt;Artículo anterior: Precios de Bedrock&lt;/a&gt;&lt;/p&gt;

</description>
      <category>aws</category>
      <category>serverless</category>
      <category>ai</category>
      <category>python</category>
    </item>
    <item>
      <title>Precios de Bedrock: Lo que realmente vas a pagar</title>
      <dc:creator>Keylin González</dc:creator>
      <pubDate>Sat, 07 Mar 2026 04:06:18 +0000</pubDate>
      <link>https://forem.com/kggonzalez/precios-de-bedrock-lo-que-realmente-vas-a-pagar-4npi</link>
      <guid>https://forem.com/kggonzalez/precios-de-bedrock-lo-que-realmente-vas-a-pagar-4npi</guid>
      <description>&lt;p&gt;Una pregunta que nos hacemos cuando estamos iniciando con los servicios de Inteligencia Artificial como Bedrock es: &lt;strong&gt;¿Cuánto me va a costar esto?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Esto puede llegar a preocuparnos, especialmente si no tenemos mucha experiencia con AWS y asumimos que será costoso. &lt;/p&gt;

&lt;p&gt;&lt;strong&gt;La verdad:&lt;/strong&gt; probablemente gastes menos que en tu suscripción de Spotify.&lt;/p&gt;

&lt;p&gt;Aquí te explico todo con los modelos &lt;strong&gt;Claude 4.5&lt;/strong&gt; disponibles en Bedrock y lo más importante: &lt;strong&gt;casos reales con números concretos&lt;/strong&gt; 👇&lt;/p&gt;




&lt;h2&gt;
  
  
  1. Modelos de pricing en Bedrock
&lt;/h2&gt;

&lt;p&gt;AWS Bedrock maneja dos modelos de cobro principales:&lt;/p&gt;

&lt;h3&gt;
  
  
  On-Demand (pago por uso)
&lt;/h3&gt;

&lt;p&gt;Pagas únicamente por lo que consumes. Sin compromisos ni mínimos. &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Hiciste 100 requests → pagas 100&lt;/li&gt;
&lt;li&gt;Hiciste 10,000 requests → pagas 10,000&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Batch Inference (50% de descuento)
&lt;/h3&gt;

&lt;p&gt;Para procesos que no necesitan respuesta inmediata. Mismo resultado, mitad del precio.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Recomendación:&lt;/strong&gt; Si estás comenzando, On-Demand es tu mejor opción.&lt;/p&gt;




&lt;h2&gt;
  
  
  2. Entendiendo los tokens
&lt;/h2&gt;

&lt;p&gt;Bedrock cobra por &lt;strong&gt;"tokens"&lt;/strong&gt;, que son unidades de texto.&lt;/p&gt;

&lt;h3&gt;
  
  
  ¿Cuánto es un token en español?
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;1 token ≈ 4 caracteres&lt;/li&gt;
&lt;li&gt;1 token ≈ 0.75 palabras&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ejemplos prácticos:
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;code&gt;"Hola, ¿cómo estás?"&lt;/code&gt; → ~6 tokens&lt;/li&gt;
&lt;li&gt;Email de 200 palabras → ~270 tokens&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Punto importante:
&lt;/h3&gt;

&lt;p&gt;Se cobran &lt;strong&gt;tanto&lt;/strong&gt; los tokens de &lt;strong&gt;input&lt;/strong&gt; (lo que envías) &lt;strong&gt;como&lt;/strong&gt; los de &lt;strong&gt;output&lt;/strong&gt; (lo que recibes).&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ejemplo:&lt;/strong&gt; Si envías una pregunta de 50 tokens y recibes una respuesta de 200 tokens, pagas por los &lt;strong&gt;250 tokens en total&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  3. Precios oficiales de Claude 4.5 en AWS Bedrock
&lt;/h2&gt;

&lt;p&gt;Precios actuales en región &lt;strong&gt;us-east-1&lt;/strong&gt; (por 1,000 tokens):&lt;/p&gt;

&lt;h3&gt;
  
  
  Claude Sonnet 4.5
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Input:&lt;/strong&gt; $0.003 → $3 por millón de tokens&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Output:&lt;/strong&gt; $0.015 → $15 por millón de tokens&lt;/li&gt;
&lt;li&gt;El mejor balance calidad-precio, recomendado.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Claude Haiku 4.5
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Input:&lt;/strong&gt; $0.001 → $1 por millón de tokens&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Output:&lt;/strong&gt; $0.005 → $5 por millón de tokens&lt;/li&gt;
&lt;li&gt;80% más barato que Sonnet, excelente para alto volumen&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Claude Opus 4.5
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Input:&lt;/strong&gt; $0.005 → $5 por millón de tokens&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Output:&lt;/strong&gt; $0.025 → $25 por millón de tokens&lt;/li&gt;
&lt;li&gt;Máxima capacidad para tareas muy complejas&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Funciones especiales para ahorrar
&lt;/h3&gt;

&lt;h4&gt;
  
  
  Batch Inference (todos los modelos)
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;50% de descuento&lt;/strong&gt; en input y output&lt;/li&gt;
&lt;li&gt;Ideal para procesos nocturnos o no urgentes&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  Prompt Caching
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Cache write:&lt;/strong&gt; Precio estándar de input&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Cache read:&lt;/strong&gt; Hasta &lt;strong&gt;90% de descuento&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Perfecto para chatbots con contexto repetido&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  4. Casos de uso con costos REALES
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Caso 1: Chatbot de atención al cliente
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Escenario:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;1,000 conversaciones mensuales&lt;/li&gt;
&lt;li&gt;10 mensajes por conversación (promedio)&lt;/li&gt;
&lt;li&gt;~50 palabras por mensaje (67 tokens aprox)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Cálculo:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Input total: 670,000 tokens&lt;/li&gt;
&lt;li&gt;Output total: 670,000 tokens&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modelo&lt;/th&gt;
&lt;th&gt;Input&lt;/th&gt;
&lt;th&gt;Output&lt;/th&gt;
&lt;th&gt;Total/mes&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Claude Sonnet 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;$2.01&lt;/td&gt;
&lt;td&gt;$10.05&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$12&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Claude Haiku 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;$0.67&lt;/td&gt;
&lt;td&gt;$3.35&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$4&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Haiku + Batch&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;-&lt;/td&gt;
&lt;td&gt;-&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$2&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;💡 Menos que un café de Starbucks.&lt;/p&gt;




&lt;h3&gt;
  
  
  Caso 2: Generador de contenido para redes
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Escenario:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;100 posts al mes&lt;/li&gt;
&lt;li&gt;Prompt: 100 palabras (~135 tokens)&lt;/li&gt;
&lt;li&gt;Output: 150 palabras (~200 tokens)&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modelo&lt;/th&gt;
&lt;th&gt;Costo mensual&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Claude Sonnet 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$0.34&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Claude Haiku 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$0.11&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;💡 Prácticamente gratis para el valor que aporta.&lt;/p&gt;




&lt;h3&gt;
  
  
  Caso 3: Análisis de documentos PDF
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Escenario:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;50 PDFs al mes&lt;/li&gt;
&lt;li&gt;2,000 palabras por PDF (~2,700 tokens)&lt;/li&gt;
&lt;li&gt;Resumen: 200 palabras (~270 tokens)&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Modelo&lt;/th&gt;
&lt;th&gt;Costo mensual&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Claude Sonnet 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$0.61&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Claude Haiku 4.5&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$0.20&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Haiku + Batch&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$0.10&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;💡 Muchísimo más económico que hacerlo manualmente.&lt;/p&gt;




&lt;h3&gt;
  
  
  Caso 4: Análisis de codebase completo
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Escenario:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;1 análisis al mes&lt;/li&gt;
&lt;li&gt;Codebase: 50,000 líneas (~200,000 tokens)&lt;/li&gt;
&lt;li&gt;Documentación: 5,000 palabras (~6,700 tokens)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Con Claude Sonnet 4.5:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Primera vez: &lt;strong&gt;$0.70&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Con Prompt Caching (siguientes veces): &lt;strong&gt;~$0.15&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ahorro: 78%&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  5. ¿Qué modelo elegir?
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Claude Haiku 4.5 ($1/$5 por millón)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Ideal para:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Prototipado rápido&lt;/li&gt;
&lt;li&gt;Tareas simples&lt;/li&gt;
&lt;li&gt;Alto volumen&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ventajas:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;80% más barato que Sonnet&lt;/li&gt;
&lt;li&gt;Extremadamente rápido&lt;/li&gt;
&lt;li&gt;Rendimiento sorprendentemente bueno&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Casos de uso:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Clasificación de texto&lt;/li&gt;
&lt;li&gt;Respuestas cortas&lt;/li&gt;
&lt;li&gt;Chatbots básicos&lt;/li&gt;
&lt;li&gt;Análisis de sentimiento&lt;/li&gt;
&lt;li&gt;Extracción de datos estructurados&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Claude Sonnet 4.5 ($3/$15 por millón)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Ideal para:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;90% de los casos de uso en producción&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ventajas:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Excelente balance calidad-precio&lt;/li&gt;
&lt;li&gt;Casi al nivel de Opus en muchas tareas&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Casos de uso:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chatbots avanzados&lt;/li&gt;
&lt;li&gt;Generación de contenido&lt;/li&gt;
&lt;li&gt;Análisis de código&lt;/li&gt;
&lt;li&gt;Automatización general&lt;/li&gt;
&lt;li&gt;RAG (Retrieval Augmented Generation)&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Claude Opus 4.5 ($5/$25 por millón)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Ideal para:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Análisis extremadamente complejos&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ventajas:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Máxima capacidad y razonamiento&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Limitación:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;5x más caro que Haiku&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Casos de uso:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Análisis legal complejo&lt;/li&gt;
&lt;li&gt;Investigación científica&lt;/li&gt;
&lt;li&gt;Arquitectura de sistemas&lt;/li&gt;
&lt;li&gt;Razonamiento profundo&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Mi estrategia personal:
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Prototipo&lt;/strong&gt; con Haiku 4.5 (rápido y barato)&lt;/li&gt;
&lt;li&gt;Si no cumple expectativas → &lt;strong&gt;paso a Sonnet 4.5&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Solo uso Opus 4.5&lt;/strong&gt; cuando la calidad es absolutamente crítica&lt;/li&gt;
&lt;li&gt;Para producción → &lt;strong&gt;combino modelos&lt;/strong&gt; según la tarea&lt;/li&gt;
&lt;/ol&gt;




&lt;h2&gt;
  
  
  6. Funcionalidades que reducen costos
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Batch Inference (50% de descuento)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;¿Cuándo usarlo?&lt;/strong&gt;&lt;br&gt;
Cuando tu trabajo no necesita respuestas inmediatas.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ejemplo práctico:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Procesar 1,000 documentos durante la noche&lt;/li&gt;
&lt;li&gt;Precio normal (Sonnet 4.5): $12&lt;/li&gt;
&lt;li&gt;Con Batch Inference: &lt;strong&gt;$6&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ahorro: $6/mes (50%)&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Casos ideales:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Análisis de documentos nocturnos&lt;/li&gt;
&lt;li&gt;Generación de reportes diarios&lt;/li&gt;
&lt;li&gt;Procesamiento de datos históricos&lt;/li&gt;
&lt;li&gt;Moderación de contenido en lotes&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Prompt Caching (hasta 90% de ahorro)
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;¿Cuándo usarlo?&lt;/strong&gt;&lt;br&gt;
Cuando repites el mismo contexto frecuentemente.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ejemplo práctico:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chatbot con instrucciones de 5,000 tokens&lt;/li&gt;
&lt;li&gt;Primera llamada: $0.015&lt;/li&gt;
&lt;li&gt;Llamadas siguientes (con cache): $0.0015&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ahorro: 90%&lt;/strong&gt; en el contexto&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Casos ideales:&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chatbots con system prompts largos&lt;/li&gt;
&lt;li&gt;Análisis de documentos con plantillas fijas&lt;/li&gt;
&lt;li&gt;Aplicaciones con contexto constante&lt;/li&gt;
&lt;li&gt;RAG con documentos base que no cambian&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Context Caching Extended (ventanas de hasta 200K tokens)
&lt;/h3&gt;

&lt;p&gt;Claude Sonnet 4.5 soporta ventanas de contexto enormes:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Hasta 200K tokens:&lt;/strong&gt; Precio estándar&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Perfecto para:&lt;/strong&gt; Analizar codebases completos, libros, documentación extensa&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;💡 Esto elimina la necesidad de partir documentos grandes.&lt;/p&gt;




&lt;h2&gt;
  
  
  7. Costos de servicios complementarios
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Recuerda:&lt;/strong&gt; Bedrock es una pieza del sistema. También usarás:&lt;/p&gt;

&lt;h3&gt;
  
  
  API Gateway
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;$3.50 por millón de requests&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;1 millón gratis&lt;/strong&gt; el primer año&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Lambda
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;$0.20 por millón de requests&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;1 millón gratis&lt;/strong&gt; permanentemente&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  S3
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;$0.023 por GB/mes&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;5GB gratis&lt;/strong&gt; el primer año&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  DynamoDB
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;$1.25 por millón de escrituras&lt;/li&gt;
&lt;li&gt;$0.25 por millón de lecturas&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;25GB gratis&lt;/strong&gt; permanentemente&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  Ejemplo de arquitectura completa
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Chatbot con 10,000 consultas/mes usando Sonnet 4.5:&lt;/strong&gt;&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Servicio&lt;/th&gt;
&lt;th&gt;Costo&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Bedrock&lt;/td&gt;
&lt;td&gt;$12.00&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;API Gateway&lt;/td&gt;
&lt;td&gt;$0.00 (free tier)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Lambda&lt;/td&gt;
&lt;td&gt;$0.00 (free tier)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;DynamoDB&lt;/td&gt;
&lt;td&gt;$0.15&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;S3&lt;/td&gt;
&lt;td&gt;$0.05&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;TOTAL&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;~$12.20/mes&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;




&lt;h2&gt;
  
  
  8. Mejores prácticas para optimizar costos
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. Configura alertas de facturación
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;AWS Console → Billing → Budgets&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Ejemplo: &lt;em&gt;"Avísame si supero $10/mes"&lt;/em&gt;&lt;/p&gt;




&lt;h3&gt;
  
  
  2. Establece límites de tokens
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;boto3&lt;/span&gt;
&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;json&lt;/span&gt;

&lt;span class="n"&gt;bedrock&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;boto3&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;client&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;bedrock-runtime&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;

&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;bedrock&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;invoke_model&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;modelId&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;anthropic.claude-sonnet-4-5-20250514&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;body&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;json&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;dumps&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;anthropic_version&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;bedrock-2023-05-31&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;max_tokens&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;500&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;  &lt;span class="c1"&gt;# ← Límite de output
&lt;/span&gt;        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;messages&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[{&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;role&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;user&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
            &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;content&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Tu pregunta aquí&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;
        &lt;span class="p"&gt;}]&lt;/span&gt;
    &lt;span class="p"&gt;})&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h3&gt;
  
  
  3. Usa Batch cuando sea posible
&lt;/h3&gt;

&lt;p&gt;Para procesos no urgentes:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Análisis nocturnos&lt;/li&gt;
&lt;li&gt;Reportes diarios&lt;/li&gt;
&lt;li&gt;Procesamiento histórico&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;→ &lt;strong&gt;Ahorro automático del 50%&lt;/strong&gt;&lt;/p&gt;




&lt;h3&gt;
  
  
  4. Implementa Prompt Caching
&lt;/h3&gt;



&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight python"&gt;&lt;code&gt;&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;bedrock&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;invoke_model&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
    &lt;span class="n"&gt;modelId&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="s"&gt;anthropic.claude-sonnet-4-5-20250514&lt;/span&gt;&lt;span class="sh"&gt;'&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
    &lt;span class="n"&gt;body&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="n"&gt;json&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="nf"&gt;dumps&lt;/span&gt;&lt;span class="p"&gt;({&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;anthropic_version&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;bedrock-2023-05-31&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;max_tokens&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="mi"&gt;500&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;system&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
            &lt;span class="p"&gt;{&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;text&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;text&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;Tu contexto largo que se repite...&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
                &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;cache_control&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;type&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;ephemeral&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt;  &lt;span class="c1"&gt;# ← Cachea esto
&lt;/span&gt;            &lt;span class="p"&gt;}&lt;/span&gt;
        &lt;span class="p"&gt;],&lt;/span&gt;
        &lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="s"&gt;messages&lt;/span&gt;&lt;span class="sh"&gt;"&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[...]&lt;/span&gt;
    &lt;span class="p"&gt;})&lt;/span&gt;
&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;






&lt;h3&gt;
  
  
  5. Estrategia de modelos escalonada
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;Ejemplo en un chatbot:&lt;/strong&gt;&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Haiku&lt;/strong&gt; clasifica la intención → $0.001&lt;/li&gt;
&lt;li&gt;Si es simple → &lt;strong&gt;Haiku&lt;/strong&gt; responde → $0.005&lt;/li&gt;
&lt;li&gt;Si es complejo → &lt;strong&gt;Sonnet&lt;/strong&gt; responde → $0.015&lt;/li&gt;
&lt;/ol&gt;




&lt;h3&gt;
  
  
  6. Monitorea con CloudWatch
&lt;/h3&gt;

&lt;p&gt;Configura métricas para:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Número de invocaciones&lt;/li&gt;
&lt;li&gt;Tokens consumidos&lt;/li&gt;
&lt;li&gt;Costos por modelo&lt;/li&gt;
&lt;li&gt;Errores y throttling&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  7. Cachea respuestas comunes
&lt;/h3&gt;

&lt;p&gt;Usa DynamoDB para guardar FAQs:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ejemplo:&lt;/strong&gt; &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;em&gt;"¿Cuál es el horario?"&lt;/em&gt; → respuesta cacheada&lt;/li&gt;
&lt;li&gt;No llames a Bedrock 100 veces para lo mismo&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  9. Conclusión
&lt;/h2&gt;

&lt;p&gt;Los precios de Bedrock con Claude 4.5 son &lt;strong&gt;accesibles y predecibles&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Puntos clave:
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Claude Sonnet 4.5:&lt;/strong&gt; mejor balance calidad-precio ($3/$15 por millón)
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Claude Haiku 4.5:&lt;/strong&gt; 80% más barato, rendimiento sorprendente
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Batch Inference:&lt;/strong&gt; 50% de descuento automático
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Prompt Caching:&lt;/strong&gt; hasta 90% de ahorro en contextos repetidos
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Para la mayoría de proyectos:&lt;/strong&gt; $5-20/mes
&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;Si te resultó útil, guarda este post para referencia futura 📌&lt;/p&gt;

</description>
      <category>aws</category>
      <category>ai</category>
      <category>bedrock</category>
    </item>
  </channel>
</rss>
