<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>Forem: Benjamin Eckstein</title>
    <description>The latest articles on Forem by Benjamin Eckstein (@codewithagents_de).</description>
    <link>https://forem.com/codewithagents_de</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3832780%2F0ea34886-b5c2-4c5a-9431-d9889a1d057e.jpg</url>
      <title>Forem: Benjamin Eckstein</title>
      <link>https://forem.com/codewithagents_de</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://forem.com/feed/codewithagents_de"/>
    <language>en</language>
    <item>
      <title>Was ist Generative KI? Einfach erklärt</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Mon, 20 Apr 2026 13:00:00 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/was-ist-generative-ki-einfach-erklart-2i5h</link>
      <guid>https://forem.com/codewithagents_de/was-ist-generative-ki-einfach-erklart-2i5h</guid>
      <description>&lt;p&gt;Spätestens seit ChatGPT ist sie in aller Munde: Generative KI. Doch was steckt eigentlich dahinter? Dieser Überblick erklärt, wie Generative KI funktioniert und wie du heute damit anfängst.&lt;/p&gt;

&lt;h2&gt;
  
  
  Was ist Generative KI?
&lt;/h2&gt;

&lt;p&gt;Generative KI bezeichnet KI-Systeme, die &lt;strong&gt;neue Inhalte erzeugen&lt;/strong&gt; können. Im Unterschied zur "klassischen" KI, die hauptsächlich Daten analysiert oder klassifiziert, erschafft Generative KI etwas Neues: Texte, Bilder, Musik, Code oder sogar Videos.&lt;/p&gt;

&lt;p&gt;Das Prinzip dahinter ist statistisches Lernen: Die KI wurde auf riesigen Datenmengen trainiert und hat dabei Muster erkannt. Wenn du ihr jetzt eine Aufgabe gibst, nutzt sie diese Muster, um eine wahrscheinlich passende und nützliche Antwort zu generieren.&lt;/p&gt;

&lt;p&gt;Wichtig zu verstehen: Die KI "denkt" nicht wirklich. Sie berechnet, welche Textbausteine, Pixel oder Töne in welcher Kombination am sinnvollsten sind, und zwar auf Basis ihres Trainings.&lt;/p&gt;

&lt;h2&gt;
  
  
  Wie funktioniert das – vereinfacht erklärt
&lt;/h2&gt;

&lt;p&gt;Das Herz moderner Generativer KI ist der &lt;strong&gt;&lt;a href="https://www.ki-syndikat.de/glossar/#transformer" rel="noopener noreferrer"&gt;Transformer&lt;/a&gt;&lt;/strong&gt;, eine spezielle KI-Architektur. Transformer sind besonders gut darin, Kontext zu verstehen: Sie "wissen", dass das Wort "Bank" in "Ich sitze auf der Bank" etwas anderes bedeutet als in "Ich gehe zur Bank".&lt;/p&gt;

&lt;p&gt;Beim Training lernt ein &lt;a href="https://www.ki-syndikat.de/glossar/#llm" rel="noopener noreferrer"&gt;Large Language Model (LLM)&lt;/a&gt; wie GPT oder Claude milliardenfach, das nächste Wort in einem Text vorherzusagen. Aus diesem einfachen Trainingsansatz entsteht ein System, das Aufsätze schreibt, Code debuggt und Fragen beantwortet.&lt;/p&gt;

&lt;h2&gt;
  
  
  Die fünf Haupttypen Generativer KI
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;1. Text-KI (Language Models)&lt;/strong&gt;Die bekannteste Form. &lt;a href="https://www.ki-syndikat.de/tools/chatgpt/" rel="noopener noreferrer"&gt;ChatGPT&lt;/a&gt; (OpenAI), &lt;a href="https://www.ki-syndikat.de/tools/claude-ai/" rel="noopener noreferrer"&gt;Claude AI&lt;/a&gt; (Anthropic) und &lt;a href="https://www.ki-syndikat.de/tools/gemini/" rel="noopener noreferrer"&gt;Gemini&lt;/a&gt; (Google) schreiben Texte, beantworten Fragen, übersetzen und programmieren. Sie sind der Einstiegspunkt für die meisten Menschen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;2. Bild-KI (Image Generation)&lt;/strong&gt;Tools wie &lt;a href="https://www.ki-syndikat.de/tools/midjourney/" rel="noopener noreferrer"&gt;Midjourney&lt;/a&gt;, &lt;a href="https://www.ki-syndikat.de/tools/dall-e-3/" rel="noopener noreferrer"&gt;DALL-E 3&lt;/a&gt; oder &lt;a href="https://www.ki-syndikat.de/tools/stable-diffusion/" rel="noopener noreferrer"&gt;Stable Diffusion&lt;/a&gt; erstellen Bilder aus Textbeschreibungen. Du tippst "futuristisches Stadtbild bei Sonnenuntergang, Öl auf Leinwand" und bekommst ein Bild.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;3. Audio- und Musik-KI&lt;/strong&gt; Suno und Udio erstellen ganze Songs auf Befehl. ElevenLabs klont Stimmen und erzeugt Sprachausgaben in natürlicher Qualität. Diese Technologien verändern Podcasting und Werbung grundlegend.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;4. Code-KI&lt;/strong&gt; &lt;a href="https://www.ki-syndikat.de/tools/github-copilot/" rel="noopener noreferrer"&gt;GitHub Copilot&lt;/a&gt;, &lt;a href="https://www.ki-syndikat.de/tools/cursor/" rel="noopener noreferrer"&gt;Cursor&lt;/a&gt; oder Claude AI schreiben, erklären und verbessern Code. Entwickler berichten von 30–50 % Produktivitätssteigerungen, und auch Nicht-Entwickler können damit einfache Automatisierungen erstellen. Einen praxisnahen Einstieg bietet der Use Case &lt;a href="https://www.ki-syndikat.de/usecases/it-software/05-ki-entwicklungsassistent/" rel="noopener noreferrer"&gt;KI-gestützter Entwicklungsassistent&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;5. Video-KI&lt;/strong&gt; Noch jung, aber rasant wachsend: Sora (OpenAI) oder Runway erstellen kurze Videos aus Textbeschreibungen. Die Qualität steigt schnell und wird Marketing, Film und Bildung verändern.&lt;/p&gt;

&lt;h2&gt;
  
  
  Die wichtigsten Anbieter
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;OpenAI&lt;/strong&gt; (ChatGPT, DALL-E, Sora): Pionier der Branche, breite Nutzerbasis&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Anthropic&lt;/strong&gt; (Claude): Fokus auf Sicherheit und Verlässlichkeit&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Google&lt;/strong&gt; (Gemini, Imagen): Tief integriert in Google-Dienste&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Meta&lt;/strong&gt; (Llama): Open-Source-Modelle, die jeder ohne Lizenzkosten betreiben kann&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Midjourney&lt;/strong&gt; : Marktführer bei KI-generierter Bildkunst&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Grenzen und Risiken
&lt;/h2&gt;

&lt;p&gt;Generative KI ist beeindruckend, aber nicht perfekt. Die wichtigsten Schwächen:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;&lt;a href="https://www.ki-syndikat.de/glossar/#halluzination" rel="noopener noreferrer"&gt;Halluzinationen&lt;/a&gt;&lt;/strong&gt;: KI-Systeme können falsche Fakten selbstbewusst präsentieren. Prüfe wichtige Informationen immer gegen verlässliche Quellen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Aktualität&lt;/strong&gt; : Die meisten Modelle haben ein Trainings-Cutoff-Datum. Aktuelle Ereignisse kennen sie möglicherweise nicht.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Urheberrecht&lt;/strong&gt; : Generierte Inhalte können Ähnlichkeiten mit Trainingsdaten aufweisen. Bei kommerzieller Nutzung lohnt sich juristische Vorsicht.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Datenschutz&lt;/strong&gt; : Gib keine vertraulichen Daten in öffentliche KI-Tools ein. Für sensible Unternehmensanwendungen gibt es sichere Enterprise-Varianten. Mehr dazu in unserem Artikel &lt;a href="https://www.ki-syndikat.de/blog/202510/ki-und-datenschutz-was-du-wissen-musst/" rel="noopener noreferrer"&gt;KI und Datenschutz&lt;/a&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  Wie du heute anfängst
&lt;/h2&gt;

&lt;p&gt;Der beste Einstieg ist das Ausprobieren:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Erstelle ein kostenloses &lt;a href="https://www.ki-syndikat.de/tools/chatgpt/" rel="noopener noreferrer"&gt;ChatGPT&lt;/a&gt;-Konto&lt;/strong&gt; auf chat.openai.com und stelle heute eine echte Frage aus deinem Arbeitsalltag.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Teste &lt;a href="https://www.ki-syndikat.de/tools/claude-ai/" rel="noopener noreferrer"&gt;Claude AI&lt;/a&gt;&lt;/strong&gt; auf claude.ai, oft besonders stark bei langen Texten und Analysen.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Probiere ein Bildtool&lt;/strong&gt; : &lt;a href="https://www.ki-syndikat.de/tools/adobe-firefly/" rel="noopener noreferrer"&gt;Adobe Firefly&lt;/a&gt; ist DSGVO-konform und kostenlos nutzbar, ideal für erste Experimente.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Generative KI ist kein Hype, der verblasst. Sie ist eine Basistechnologie, die unsere Arbeitswelt dauerhaft verändert. Wer früh lernt, sie sinnvoll einzusetzen, hat einen echten Vorsprung. Den nächsten Schritt zeigt dir unser Artikel &lt;a href="https://www.ki-syndikat.de/blog/202510/5-wege-ki-arbeitsalltag/" rel="noopener noreferrer"&gt;5 Wege, wie KI deinen Arbeitsalltag verändert&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;em&gt;Prof. Dr. Daniel Sonnet, KI-Syndikat&lt;/em&gt;&lt;/p&gt;




&lt;p&gt;&lt;em&gt;Erstveröffentlichung: &lt;a href="https://www.ki-syndikat.de" rel="noopener noreferrer"&gt;KI-Syndikat&lt;/a&gt; — ein schnell wachsendes Netzwerk aus deutschen KI-Enthusiasten, das Unternehmen bei realen KI-Projekten unterstützt, Experten aus der Branche vernetzt und eine offene Community aufbaut.&lt;/em&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>german</category>
      <category>tutorial</category>
    </item>
    <item>
      <title>EU AI Act: Was ab August 2026 konkret für dein Unternehmen gilt</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Mon, 20 Apr 2026 09:26:25 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/eu-ai-act-was-ab-august-2026-konkret-fur-dein-unternehmen-gilt-56l3</link>
      <guid>https://forem.com/codewithagents_de/eu-ai-act-was-ab-august-2026-konkret-fur-dein-unternehmen-gilt-56l3</guid>
      <description>&lt;p&gt;Stell dir vor, du nutzt seit Monaten ein KI-Tool für die Personalauswahl. Es filtert Bewerbungen vor, priorisiert Kandidaten, schlägt dir die Top 10 vor. Praktisch und bisher ohne größere Auflagen.&lt;/p&gt;

&lt;p&gt;Ab dem &lt;strong&gt;2. August 2026&lt;/strong&gt; ist das anders.&lt;/p&gt;

&lt;p&gt;An diesem Tag treten die letzten und schärfsten Bestimmungen des EU AI Acts in Kraft. Wer dann nicht vorbereitet ist, riskiert nicht nur Bußgelder in Millionenhöhe, sondern auch, dass er KI-Systeme kurzfristig vom Netz nehmen muss.&lt;/p&gt;

&lt;p&gt;Vier Monate sind keine lange Zeit.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was bisher gilt und was sich jetzt ändert
&lt;/h2&gt;

&lt;p&gt;Den EU AI Act gibt es schon. Wir haben in unserem Artikel &lt;a href="https://www.ki-syndikat.de/blog/202512/ki-und-recht-was-unternehmen-2026-beachten-muessen/" rel="noopener noreferrer"&gt;KI und Recht: Was Unternehmen 2026 beachten müssen&lt;/a&gt; die Grundlagen erklärt. Seit Februar 2025 sind die verbotenen KI-Praktiken bereits untersagt: Social Scoring, manipulative KI, Biometrie-Massenüberwachung.&lt;/p&gt;

&lt;p&gt;Was &lt;strong&gt;neu&lt;/strong&gt; ab August 2026 kommt: die vollständigen Anforderungen für sogenannte &lt;strong&gt;Hochrisiko-KI-Systeme&lt;/strong&gt;. Und diese betreffen deutlich mehr Unternehmen, als die meisten erwarten.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was ist Hochrisiko-KI und bist du betroffen?
&lt;/h2&gt;

&lt;p&gt;Die Klassifizierung klingt dramatisch. Gemeint ist nicht, dass dein KI-System gefährlich ist. Es bedeutet: Die KI trifft oder beeinflusst Entscheidungen, die erhebliche Auswirkungen auf Menschen haben können.&lt;/p&gt;

&lt;p&gt;Betroffen bist du, wenn dein Unternehmen KI einsetzt für:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Personalwesen:&lt;/strong&gt; Bewerbungsfilterung, Leistungsbewertung, Kündigungsentscheidungen, Gehaltsanalysen (siehe auch: &lt;a href="https://www.ki-syndikat.de/usecases/hr/03-bewerbersichtung/" rel="noopener noreferrer"&gt;Anwendungsfall Bewerbersichtung&lt;/a&gt;)&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kreditentscheidungen:&lt;/strong&gt; automatisierte Bonitätsprüfung, Kreditvergabe, Risikobewertung&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Bildung und Ausbildung:&lt;/strong&gt; Prüfungsaufsicht, adaptive Lernsysteme, Zugangsentscheidungen&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Wesentliche Dienstleistungen:&lt;/strong&gt; Zugang zu Sozialleistungen, Versicherungen, Gesundheitsversorgung&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kritische Infrastruktur:&lt;/strong&gt; Energie, Wasser, Verkehr&lt;/p&gt;

&lt;p&gt;Wichtig, und das überrascht viele: Es geht nicht nur darum, ob du selbst KI entwickelst. Auch wer &lt;strong&gt;Drittanbieter-Software&lt;/strong&gt; einsetzt, etwa eine HR-Software mit KI-Bewerbungsranking, ist als &lt;strong&gt;Betreiber&lt;/strong&gt; in der Pflicht. Du hast die Software nur gekauft, aber du haftest für den Einsatz.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was du ab August 2026 konkret nachweisen musst
&lt;/h2&gt;

&lt;p&gt;Für Hochrisiko-Systeme verlangt der EU AI Act eine Reihe von Maßnahmen, die dokumentiert und nachweisbar sein müssen:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Risikomanagement-System:&lt;/strong&gt; Du musst ein laufendes Verfahren haben, das Risiken deines KI-Systems identifiziert, bewertet und minimiert. Kein einmaliger Check, sondern ein kontinuierlicher Prozess.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Technische Dokumentation:&lt;/strong&gt; Wie funktioniert das KI-System? Auf welchen Daten wurde es trainiert? Was sind seine bekannten Grenzen? Das muss schriftlich vorliegen, auch wenn du ein fertiges Tool eines Anbieters nutzt. Relevant ist das zum Beispiel bei &lt;a href="https://www.ki-syndikat.de/usecases/recht/01-vertragsanalyse/" rel="noopener noreferrer"&gt;KI-gestützter Vertragsanalyse&lt;/a&gt; oder automatisierter Rechnungsverarbeitung.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Protokollierung (Logging):&lt;/strong&gt; Hochrisiko-Systeme müssen ihre Entscheidungen protokollieren. Wer hat wann welche Empfehlung bekommen? Das muss nachvollziehbar sein.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Menschliche Aufsicht:&lt;/strong&gt; Es muss einen klar definierten Prozess geben, bei dem Menschen KI-Entscheidungen überprüfen können, besonders bei folgenreichen Entscheidungen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Transparenz gegenüber Betroffenen:&lt;/strong&gt; Menschen, die von KI-Entscheidungen betroffen sind, müssen informiert werden, zum Beispiel, dass ihre Bewerbung durch ein automatisiertes System vorgefiltert wurde.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Konformitätsbewertung:&lt;/strong&gt; Vor dem Einsatz muss nachgewiesen werden, dass das System die gesetzlichen Anforderungen erfüllt. Bei manchen Systemen reicht eine interne Prüfung, bei anderen ist eine externe Zertifizierung nötig.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;EU-Datenbankregistrierung:&lt;/strong&gt; Bestimmte Hochrisiko-Systeme müssen in einer öffentlichen EU-Datenbank registriert werden.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was droht bei Verstößen?
&lt;/h2&gt;

&lt;p&gt;Die Zahlen sind klar:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Bis zu &lt;strong&gt;30 Millionen Euro&lt;/strong&gt; oder &lt;strong&gt;6 % des globalen Jahresumsatzes&lt;/strong&gt; für Verstöße gegen Hochrisiko-Anforderungen (je nachdem, was höher ist)&lt;/li&gt;
&lt;li&gt;Für kleinere Unternehmen gelten reduzierte Obergrenzen, aber das bedeutet nicht, dass sie nicht haften&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Für ein Unternehmen mit 10 Millionen Euro Jahresumsatz wären das potenziell 600.000 Euro. Für ein Unternehmen mit 50 Millionen schon 3 Millionen.&lt;/p&gt;




&lt;h2&gt;
  
  
  Die gute Nachricht für KMU
&lt;/h2&gt;

&lt;p&gt;Der EU AI Act hat besondere Erleichterungen für kleine und mittlere Unternehmen:&lt;/p&gt;

&lt;p&gt;Kleinere Unternehmen müssen die technische Dokumentation in vereinfachter Form erstellen. Der Standard für Konformitätsbewertungen ist für KMU leichter erfüllbar. Die Behörden wurden angehalten, bei der Durchsetzung KMU-Interessen zu berücksichtigen.&lt;/p&gt;

&lt;p&gt;Und es gibt eine Übergangsregelung: KI-Systeme, die bereits &lt;strong&gt;vor August 2026&lt;/strong&gt; im Einsatz sind, haben bis &lt;strong&gt;Februar 2027&lt;/strong&gt; Zeit, die neuen Anforderungen vollständig zu erfüllen.&lt;/p&gt;

&lt;p&gt;Das ist kein Freifahrtschein, aber es gibt dir etwas Luft, wenn deine Systeme bereits laufen.&lt;/p&gt;




&lt;h2&gt;
  
  
  Checkliste: 8 Schritte bis August 2026
&lt;/h2&gt;

&lt;p&gt;Das ist keine vollständige rechtliche Anleitung, aber ein guter Startpunkt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;1. KI-Inventar erstellen&lt;/strong&gt; Liste alle KI-Systeme auf, die in deinem Unternehmen im Einsatz sind oder geplant werden. Auch Tools von Drittanbietern: HR-Software mit KI, Kreditrisiko-Tools, automatisierte Kundenentscheidungen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;2. Risikoklasse bestimmen&lt;/strong&gt; Welche Systeme könnten Hochrisiko-KI sein? Nutze die Kriterien oben als Leitfaden. Im Zweifel lieber vorsichtig einordnen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;3. Anbieterkommunikation starten&lt;/strong&gt; Frag deine KI-Softwareanbieter: Haben sie Dokumentation bereit? Was bieten sie zur Compliance an? HR-Systeme wie &lt;a href="https://www.ki-syndikat.de/tools/personio/" rel="noopener noreferrer"&gt;Personio&lt;/a&gt;, &lt;a href="https://www.ki-syndikat.de/tools/greenhouse/" rel="noopener noreferrer"&gt;Greenhouse&lt;/a&gt; oder &lt;a href="https://www.ki-syndikat.de/tools/workday/" rel="noopener noreferrer"&gt;Workday&lt;/a&gt; bieten inzwischen erste EU AI Act-Dokumentationen, frag explizit danach.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;4. Verantwortung intern klären&lt;/strong&gt; Wer ist in deinem Unternehmen für KI-Compliance zuständig? Ohne klare Verantwortung passiert nichts. Das kann der Datenschutzbeauftragte sein, ein IT-Leiter oder ein eigener KI-Beauftragter.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;5. Dokumentation aufbauen&lt;/strong&gt; Beginne mit der technischen Dokumentation deiner KI-Systeme. Was tut das System? Welche Daten nutzt es? Wer hat Zugriff? Was ist beim Test aufgefallen?&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;6. Logging prüfen&lt;/strong&gt; Protokolliert dein System Entscheidungen? Wenn nicht: ist das nachrüstbar? Sprich das mit dem Anbieter an.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;7. Mitarbeiter informieren&lt;/strong&gt; Alle, die mit KI arbeiten, müssen die Grundlagen des EU AI Acts kennen. Nicht als juristische Schulung, sondern: Was ist Hochrisiko? Was muss ich dokumentieren? Was darf ich nicht tun?&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;8. Rechtliche Beratung einholen&lt;/strong&gt; Besonders wenn du Hochrisiko-Systeme einsetzt: Sprich mit einem Anwalt, der KI-Recht kennt. Die oben genannten Bußgelder machen Beratungskosten schnell rentabel.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was noch nicht klar ist
&lt;/h2&gt;

&lt;p&gt;Ehrlichkeit ist wichtig: Der EU AI Act lässt in der Praxis noch Fragen offen.&lt;/p&gt;

&lt;p&gt;Wie genau wird klassifiziert? Die Grenze zwischen "begrenztem Risiko" und "Hochrisiko" ist nicht immer eindeutig. Es gibt Leitlinien der EU-Kommission, aber Rechtsprechung dazu gibt es kaum.&lt;/p&gt;

&lt;p&gt;Wie aktiv werden die Behörden? Die nationalen Marktaufsichtsbehörden wurden gerade erst eingerichtet. Wie sie im Alltag prüfen werden, ist noch offen.&lt;/p&gt;

&lt;p&gt;Dass du nichts tust, ist trotzdem keine gute Strategie. Wer beim ersten Prüffall gar keine Vorbereitung nachweisen kann, steht deutlich schlechter da als jemand, der zumindest die Grundlagen dokumentiert hat.&lt;/p&gt;




&lt;h2&gt;
  
  
  Der Zusammenhang mit DSGVO
&lt;/h2&gt;

&lt;p&gt;Viele Anforderungen des EU AI Acts überschneiden sich mit der &lt;a href="https://www.ki-syndikat.de/glossar/#dsgvo" rel="noopener noreferrer"&gt;DSGVO&lt;/a&gt;. Wenn dein KI-System personenbezogene Daten verarbeitet, und das ist bei HR-Tools, Kundenentscheidungen oder medizinischen Anwendungen fast immer der Fall, gelten beide Regelwerke parallel.&lt;/p&gt;

&lt;p&gt;Das bedeutet: Wer DSGVO-Prozesse aufgebaut hat, hat gute Grundlagen. Aber die KI-spezifischen Anforderungen des AI Acts kommen obendrauf.&lt;/p&gt;




&lt;h2&gt;
  
  
  Fazit
&lt;/h2&gt;

&lt;p&gt;Der August 2026 ist näher, als er erscheint. Vier Monate vergehen schnell, besonders wenn man bedenkt, dass Dokumentation, interne Abstimmung und eventuell externe Beratung Zeit brauchen.&lt;/p&gt;

&lt;p&gt;Die wichtigste Botschaft: Starte jetzt mit dem Inventar. Welche KI-Systeme nutzt dein Unternehmen? Schon dieser erste Schritt gibt dir Klarheit und zeigt dir, wie viel oder wenig Handlungsbedarf du wirklich hast.&lt;/p&gt;

&lt;p&gt;Manche Unternehmen werden merken: Wir nutzen keine Hochrisiko-KI. Das wäre eine gute Nachricht. Aber das weißt du erst, wenn du's geprüft hast.&lt;/p&gt;

&lt;p&gt;Wenn du regelmäßig Updates zu KI-Recht und Compliance bekommen möchtest, ist unser &lt;a href="https://www.ki-syndikat.de/newsletter/" rel="noopener noreferrer"&gt;Newsletter&lt;/a&gt; ein guter Anlaufpunkt, ohne Spam, einmal pro Woche.&lt;/p&gt;




&lt;p&gt;&lt;em&gt;Hinweis: Dieser Artikel ist allgemeine Information und ersetzt keine Rechtsberatung. Bei konkreten Fragen zur Einstufung deiner KI-Systeme wende dich an einen spezialisierten Anwalt.&lt;/em&gt;&lt;/p&gt;




&lt;p&gt;&lt;em&gt;Dieser Artikel erschien zuerst im &lt;a href="https://www.ki-syndikat.de" rel="noopener noreferrer"&gt;KI-Syndikat&lt;/a&gt; — der deutschen Anlaufstelle für alle, die KI im Unternehmenskontext ernst nehmen: mit Praxisartikeln, einer wachsenden Expert-Community und konkreten Projekten.&lt;/em&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>german</category>
      <category>legal</category>
      <category>business</category>
    </item>
    <item>
      <title>Was ist RAG? Retrieval Augmented Generation einfach erklärt</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Mon, 20 Apr 2026 09:00:00 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/was-ist-rag-retrieval-augmented-generation-einfach-erklart-15c</link>
      <guid>https://forem.com/codewithagents_de/was-ist-rag-retrieval-augmented-generation-einfach-erklart-15c</guid>
      <description>&lt;p&gt;Die meisten Unternehmen scheitern nicht am KI-Modell. Sie scheitern daran, dass das Modell ihr Unternehmen nicht kennt.&lt;/p&gt;

&lt;p&gt;ChatGPT weiß, wie man einen Vertrag formuliert. Aber es weiß nicht, was in deinem Rahmenvertrag mit Lieferant X steht. Es kennt keine internen Prozesse, keine aktuellen Produktdaten, keine Wartungsprotokolle der Anlage in Halle 3. Und jedes Mal, wenn ein Modell über Dinge spricht, die es nicht kennt, erfindet es etwas. Das ist keine Schwäche eines bestimmten Modells. Das ist ein strukturelles Problem aller Sprachmodelle.&lt;/p&gt;

&lt;p&gt;RAG löst dieses Problem. Nicht durch besseres Training, sondern durch einen grundlegend anderen Ansatz.&lt;/p&gt;

&lt;h2&gt;
  
  
  Was bedeutet RAG?
&lt;/h2&gt;

&lt;p&gt;RAG steht für Retrieval Augmented Generation (auf Deutsch: „durch Abruf erweiterte Textgenerierung"). Die Idee dahinter ist überraschend simpel.&lt;/p&gt;

&lt;p&gt;Stell dir vor, ein KI-Assistent hat keinen festen Wissensstand, sondern kann vor jeder Antwort in einem Stapel Dokumente nachschlagen: in deinen internen Handbüchern, Produktbeschreibungen, Support-Tickets oder FAQ-Dokumenten. Er liest die relevanten Stellen, und erst dann formuliert er eine Antwort.&lt;/p&gt;

&lt;p&gt;Das ist RAG. Die KI wird nicht mit neuen Daten trainiert. Sie bekommt die Möglichkeit, kurz nachzuschauen, bevor sie antwortet. Was das mit &lt;a href="https://www.ki-syndikat.de/glossar/#halluzination" rel="noopener noreferrer"&gt;Halluzinationen&lt;/a&gt; macht, erklärt unser Glossar.&lt;/p&gt;

&lt;h2&gt;
  
  
  Warum ist das so wichtig?
&lt;/h2&gt;

&lt;p&gt;Das strukturelle Problem mit klassischen &lt;a href="https://www.ki-syndikat.de/glossar/#llm" rel="noopener noreferrer"&gt;LLMs&lt;/a&gt; ist bekannt: Sie halluzinieren. Sie erfinden Fakten, die plausibel klingen, aber falsch sind. Besonders dann, wenn sie über etwas sprechen sollen, das sie schlicht nicht wissen.&lt;/p&gt;

&lt;p&gt;Mit RAG passiert das deutlich seltener, weil die KI ihre Antworten auf echte, aktuelle Dokumente stützt. Wenn das Dokument eine klare Aussage enthält, gibt die KI diese weiter und kann sogar auf die Quelle verweisen.&lt;/p&gt;

&lt;p&gt;Dazu kommt ein wirtschaftliches Argument, das wenige auf dem Schirm haben: RAG ermöglicht es, aktuelle Informationen zu nutzen, ohne das Modell neu zu trainieren. Das Training eines großen Sprachmodells kostet Millionen. Ein Dokumentensystem zu aktualisieren kostet fast nichts. RAG ist deshalb nicht nur technisch attraktiv, sondern auch ökonomisch überlegen.&lt;/p&gt;

&lt;h2&gt;
  
  
  Wo wird RAG eingesetzt?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Unternehmens-Wissensbasis:&lt;/strong&gt; Du hast hunderte interne Dokumente, Handbücher, Prozessbeschreibungen. Mit RAG kann ein KI-Assistent diese durchsuchen und gezielt antworten, statt allgemeines Wissen zurückzuwerfen. Wie das konkret aussieht, zeigt unser Use Case &lt;a href="https://www.ki-syndikat.de/usecases/allgemein/01-interne-wissensdatenbank/" rel="noopener noreferrer"&gt;Interne Wissensdatenbank&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kundenservice:&lt;/strong&gt; Statt Mitarbeiter stundenlang durch interne Dokumentationen suchen zu lassen, beantwortet ein RAG-System Kundenfragen direkt auf Basis deiner eigenen Unterlagen. Ein praxisnahes Beispiel dazu findest du im Use Case &lt;a href="https://www.ki-syndikat.de/usecases/allgemein/05-chatbot-website/" rel="noopener noreferrer"&gt;Chatbot für die Website&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Dokumentensuche:&lt;/strong&gt; Juristische Kanzleien, Arztpraxen, Behörden: überall dort, wo viele Dokumente existieren und Wissen schnell gefunden werden muss, ist RAG ein mächtiges Werkzeug.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Support-Systeme:&lt;/strong&gt; Wenn Techniker vor Ort eine Frage haben, können sie einen RAG-gestützten Chat befragen, der auf Wartungshandbücher, Fehlercodes und interne Protokolle zugreift.&lt;/p&gt;

&lt;h2&gt;
  
  
  Wie funktioniert RAG technisch (vereinfacht)?
&lt;/h2&gt;

&lt;p&gt;Drei Schritte:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Indexierung:&lt;/strong&gt; Deine Dokumente werden in kleinere Textabschnitte zerlegt und als mathematische Vektoren gespeichert. Das klingt kompliziert – es ist wie eine sehr gute Suchmaschine für Bedeutung statt Stichwörter.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Abruf (Retrieval):&lt;/strong&gt; Wenn du eine Frage stellst, sucht das System in diesen Vektoren nach den Abschnitten, die am besten zur Frage passen. Es findet die drei bis fünf relevantesten Stellen.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Generierung:&lt;/strong&gt; Diese Stellen werden zusammen mit deiner Frage an das Sprachmodell übergeben. Das Modell formuliert eine Antwort auf Basis dieser konkreten Inhalte.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Das Ergebnis: eine Antwort, die sich auf deine eigenen Daten stützt.&lt;/p&gt;

&lt;h2&gt;
  
  
  Welche Tools bieten RAG an?
&lt;/h2&gt;

&lt;p&gt;Du musst kein Entwickler sein, um RAG zu nutzen. Viele Anbieter haben diese Funktion bereits eingebaut:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;&lt;a href="https://www.ki-syndikat.de/tools/chatgpt/" rel="noopener noreferrer"&gt;ChatGPT&lt;/a&gt; Enterprise / Teams&lt;/strong&gt; ermöglicht das Hochladen eigener Dokumente für den Chat.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;a href="https://www.ki-syndikat.de/tools/microsoft-365-copilot/" rel="noopener noreferrer"&gt;Microsoft 365 Copilot&lt;/a&gt;&lt;/strong&gt; greift auf SharePoint und andere Office-365-Quellen zu.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;a href="https://www.ki-syndikat.de/tools/notion-ai/" rel="noopener noreferrer"&gt;Notion AI&lt;/a&gt;&lt;/strong&gt; durchsucht dein Notion-Workspace.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;&lt;a href="https://www.ki-syndikat.de/tools/guru/" rel="noopener noreferrer"&gt;Guru&lt;/a&gt;&lt;/strong&gt; bietet eine speziell für Teams entwickelte Wissensdatenbank mit KI-Suche.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Spezialisierte Anbieter&lt;/strong&gt; wie Glean oder Dust bieten RAG-Lösungen speziell für Unternehmen.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Für eigene, maßgeschneiderte Lösungen gibt es Vektordatenbanken wie &lt;a href="https://www.ki-syndikat.de/tools/pinecone/" rel="noopener noreferrer"&gt;Pinecone&lt;/a&gt; oder &lt;a href="https://www.ki-syndikat.de/tools/weaviate/" rel="noopener noreferrer"&gt;Weaviate&lt;/a&gt; sowie Open-Source-Frameworks wie LangChain oder LlamaIndex. Diese Optionen sind eher etwas für technische Teams.&lt;/p&gt;

&lt;p&gt;Bessere Modelle erscheinen im Monatsrhythmus. Aber ein smarteres Modell hilft wenig, wenn es dein Unternehmen nicht kennt. Das ist die eigentliche Herausforderung — und RAG ist die direkteste Antwort darauf.&lt;/p&gt;

&lt;p&gt;Die Entscheidung ist nicht: "Welches Modell kaufen wir?" Die Entscheidung ist: "Wie sorgen wir dafür, dass das Modell das weiß, was es wissen muss?" Wer diese Frage zuerst stellt, hat einen erheblichen Vorsprung gegenüber allen, die auf das nächste GPT-Update warten.&lt;/p&gt;

&lt;p&gt;Wenn du wissen willst, wie du RAG konkret einsetzen kannst, schau auf unsere &lt;a href="https://www.ki-syndikat.de/fuer-unternehmen/" rel="noopener noreferrer"&gt;Unternehmensseite&lt;/a&gt; oder mach das &lt;a href="https://www.ki-syndikat.de/ki-quiz/" rel="noopener noreferrer"&gt;KI-Quiz&lt;/a&gt;, um eine persönliche Empfehlung zu bekommen.&lt;/p&gt;




&lt;p&gt;&lt;em&gt;Erstveröffentlichung: &lt;a href="https://www.ki-syndikat.de" rel="noopener noreferrer"&gt;KI-Syndikat&lt;/a&gt; — ein schnell wachsendes Netzwerk aus deutschen KI-Enthusiasten, das Unternehmen bei realen KI-Projekten unterstützt, Experten aus der Branche vernetzt und eine offene Community aufbaut.&lt;/em&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>german</category>
      <category>machinelearning</category>
      <category>tutorial</category>
    </item>
    <item>
      <title>Multi-Agenten-Systeme: Wenn KIs miteinander arbeiten</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Sun, 19 Apr 2026 19:44:31 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/multi-agenten-systeme-wenn-kis-miteinander-arbeiten-2m7g</link>
      <guid>https://forem.com/codewithagents_de/multi-agenten-systeme-wenn-kis-miteinander-arbeiten-2m7g</guid>
      <description>&lt;p&gt;Stell dir vor, du willst einen langen Bericht über den deutschen Wohnungsmarkt erstellen. Du bittest eine KI darum. Sie recherchiert, schreibt, zitiert und liefert dir nach fünf Minuten einen Text, der gut klingt, aber bei näherer Betrachtung Zahlen aus 2023 enthält, eine Quelle falsch zitiert und einen zentralen Trend komplett ignoriert.&lt;/p&gt;

&lt;p&gt;Was wäre, wenn stattdessen drei spezialisierte KIs zusammenarbeiten würden? Eine recherchiert und sammelt aktuelle Quellen. Eine zweite schreibt den Bericht auf Basis dieser Quellen. Eine dritte prüft Fakten und Zitate gegen die Originale. Das Ergebnis ist nicht dasselbe. Genau darum geht es bei Multi-Agenten-Systemen.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was steckt hinter dem Konzept?
&lt;/h2&gt;

&lt;p&gt;Ein einzelnes &lt;a href="https://www.ki-syndikat.de/glossar/#llm" rel="noopener noreferrer"&gt;LLM&lt;/a&gt; kann viel. Aber es hat Grenzen: Es arbeitet in einem einzigen Kontextfenster, macht alle Schritte sequenziell, und wenn es einen Fehler macht, pflanzt sich der Fehler ins Ergebnis fort.&lt;/p&gt;

&lt;p&gt;Multi-Agenten-Systeme teilen komplexe Aufgaben in Teilaufgaben auf und weisen jede einem spezialisierten Agenten zu. Diese Agenten kommunizieren miteinander: Sie übergeben Ergebnisse, fordern Überprüfungen an, können bei Unklarheiten rückfragen.&lt;/p&gt;

&lt;p&gt;Das Prinzip ist das gleiche wie bei einem gut eingespielten Team. Der eine macht die Recherche, der andere schreibt, der dritte liest Korrektur. Was dabei entsteht, ist qualitativ besser als das, was eine Person alleine in derselben Zeit schafft.&lt;/p&gt;




&lt;h2&gt;
  
  
  Ein konkretes Beispiel: Marktanalyse in Agentenstufen
&lt;/h2&gt;

&lt;p&gt;Nehmen wir eine realistische Aufgabe: Du willst eine Wettbewerbsanalyse für ein neues Produkt erstellen.&lt;/p&gt;

&lt;p&gt;Der &lt;strong&gt;Research-Agent&lt;/strong&gt; bekommt die Aufgabe, aktuelle Informationen zu Wettbewerbern zu sammeln. Er hat Zugriff auf Web-Suche, kann Seiten aufrufen und strukturierte Daten extrahieren. Tools wie &lt;a href="https://www.ki-syndikat.de/tools/perplexity/" rel="noopener noreferrer"&gt;Perplexity&lt;/a&gt; zeigen, wie KI-gestützte Recherche in der Praxis aussieht. Sein Output ist keine fertige Analyse, sondern eine strukturierte Quellensammlung mit relevanten Fakten.&lt;/p&gt;

&lt;p&gt;Der &lt;strong&gt;Analysis-Agent&lt;/strong&gt; nimmt diese Quellensammlung und wertet sie aus. Er vergleicht Preise und Marktpositionierungen, bewertet Features. Er braucht keinen Internetzugang mehr, sondern arbeitet nur mit dem, was der Research-Agent geliefert hat. Das verhindert, dass er anfängt, selbst zu "erfinden".&lt;/p&gt;

&lt;p&gt;Der &lt;strong&gt;Writing-Agent&lt;/strong&gt; bekommt die strukturierte Analyse und erstellt daraus einen lesbaren Bericht in dem gewünschten Format und Ton.&lt;/p&gt;

&lt;p&gt;Ein optionaler &lt;strong&gt;Fact-Check-Agent&lt;/strong&gt; prüft abschließend konkrete Zahlen und Zitate gegen die Originalquellen.&lt;/p&gt;

&lt;p&gt;Das Entscheidende: Jeder Agent hat eine enge, klar definierte Aufgabe. Das macht jeden Schritt überprüfbarer und Fehler leichter zu lokalisieren.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was das ermöglicht, was ein einzelnes Modell nicht kann
&lt;/h2&gt;

&lt;p&gt;Das offensichtlichste ist Parallelarbeit. Statt einer langen Kette nacheinander können mehrere Agenten gleichzeitig an verschiedenen Teilen eines Problems arbeiten. Das spart Zeit bei umfangreichen Aufgaben.&lt;/p&gt;

&lt;p&gt;Wichtiger ist aber die Qualitätsebene: Spezialisierung. Ein Agent, der ausschließlich für Faktenprüfung zuständig ist, wird besser prüfen als ein Generalist, der nebenbei auch schreibt. Das ist kein Mythos. In der Praxis zeigen spezialisierte Agenten bei ihrer Kernteilaufgabe weniger Fehler als Einzel-Prompts an ein allgemeines Modell.&lt;/p&gt;

&lt;p&gt;Außerdem können Agenten mit verschiedenen Tools ausgestattet werden. Der Research-Agent hat Internetzugang. Der Writing-Agent hat Zugriff auf dein CMS. Der Fact-Check-Agent hat Zugriff auf deine interne Wissensdatenbank. Kein einzelner Agent braucht alles, jeder bekommt nur, was er für seine Aufgabe braucht.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was ist heute produktionsreif — und was nicht?
&lt;/h2&gt;

&lt;p&gt;Das ist die Frage, bei der viele Tech-Artikel unehrlich werden. Also klar gesagt:&lt;/p&gt;

&lt;p&gt;Multi-Agenten-Systeme sind in der Praxis heute ernsthaft einsetzbar, wenn die Aufgaben gut strukturiert sind und die einzelnen Schritte klar abgrenzbar bleiben. Datenaufbereitung, Content-Workflows, strukturierte Recherche und Code-Review-Pipelines funktionieren.&lt;/p&gt;

&lt;p&gt;Was noch nicht zuverlässig funktioniert: Agenten, die sehr viel freie Entscheidungsgewalt haben, ohne menschliche Kontrollpunkte. Wenn ein Agent einen Fehler macht und der nächste diesen Fehler als Wahrheit übernimmt, kann sich das durch die ganze Pipeline fortsetzen. "Agentic" bedeutet nicht "fehlerfrei".&lt;/p&gt;

&lt;p&gt;Frameworks wie LangGraph, AutoGen oder CrewAI machen es leichter, solche Systeme zu bauen. Für Unternehmen ohne Entwicklungskapazitäten können auch No-Code-Automatisierungstools wie &lt;a href="https://www.ki-syndikat.de/tools/make-com/" rel="noopener noreferrer"&gt;Make&lt;/a&gt; oder &lt;a href="https://www.ki-syndikat.de/tools/zapier/" rel="noopener noreferrer"&gt;Zapier&lt;/a&gt; als Einstieg in agentenähnliche Workflows dienen. Aber die eigentliche Arbeit liegt im Design: Welche Aufgaben gehören in welchen Agenten? Wo brauche ich einen menschlichen Kontrollpunkt? Was passiert, wenn ein Agent keinen sinnvollen Output liefert?&lt;/p&gt;

&lt;p&gt;Wer tiefer in das Thema einsteigen will, findet in unserem Artikel über &lt;a href="https://www.ki-syndikat.de/glossar/#ki-agent" rel="noopener noreferrer"&gt;KI-Agenten&lt;/a&gt; eine gute Grundlage für die technischen Konzepte dahinter.&lt;/p&gt;




&lt;h2&gt;
  
  
  Wann macht das für Unternehmen Sinn?
&lt;/h2&gt;

&lt;p&gt;Nicht bei jeder Aufgabe. Multi-Agenten-Systeme haben Overhead: Sie sind komplexer aufzubauen, schwieriger zu debuggen und teurer im Betrieb als ein einfacher Prompt an ein einzelnes Modell.&lt;/p&gt;

&lt;p&gt;Es lohnt sich, wenn drei Dinge zusammenkommen: Die Aufgabe ist wiederkehrend (sonst rechnet sich der Aufbau nicht), sie ist in klar abgrenzbare Teilschritte zerlegbar, und die Qualitätsanforderungen rechtfertigen den Aufwand.&lt;/p&gt;

&lt;p&gt;Konkrete Szenarien, die in der Praxis gut funktionieren:&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Content-Pipelines&lt;/strong&gt; für Unternehmen, die regelmäßig Berichte, Produktbeschreibungen oder Artikel produzieren. Research → Draft → Review → Formatting ist ein natürlicher Agenten-Workflow. Wie das konkret aussieht, zeigt unser Use Case zur &lt;a href="https://www.ki-syndikat.de/usecases/marketing/01-content-produktion/" rel="noopener noreferrer"&gt;automatisierten Content-Produktion&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Datenanalyse und Reporting&lt;/strong&gt; , bei denen strukturierte Daten aus verschiedenen Quellen zusammengeführt, ausgewertet und in verständliche Berichte verwandelt werden. Mehr dazu im Use Case &lt;a href="https://www.ki-syndikat.de/usecases/allgemein/08-berichterstellung/" rel="noopener noreferrer"&gt;Automatisierte Berichterstellung&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Kundensupport-Workflows&lt;/strong&gt; , bei denen ein Agent das Anliegen klassifiziert, ein zweiter relevante Informationen aus der Wissensdatenbank holt und ein dritter die Antwort formuliert.&lt;/p&gt;

&lt;p&gt;Wer &lt;a href="https://www.ki-syndikat.de/blog/202603/ki-agenten-im-unternehmen-mehr-als-chatbots/" rel="noopener noreferrer"&gt;KI-Agenten bereits im Unternehmen einsetzt&lt;/a&gt;, kann Multi-Agenten-Systeme als natürliche Erweiterung betrachten, wenn die Einzel-Agenten stabil laufen.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was du noch nicht übersehen solltest
&lt;/h2&gt;

&lt;p&gt;Kosten. Mehrere Agenten bedeuten mehrere API-Aufrufe. Bei komplexen Pipelines mit vielen Agenten können die Token-Kosten schnell steigen, besonders wenn lange Kontexte weitergegeben werden.&lt;/p&gt;

&lt;p&gt;Latenz. Agenten, die aufeinander warten müssen, brauchen Zeit. Für Echtzeit-Anwendungen (etwa Kundenchat) sind Multi-Agenten-Systeme derzeit oft zu langsam.&lt;/p&gt;

&lt;p&gt;Komplexität. Wenn ein System aus fünf Agenten unerwartetes Verhalten zeigt, ist es schwieriger zu debuggen als ein einzelner Prompt. Fang klein an: zwei Agenten, klare Aufgaben, saubere Übergabe.&lt;/p&gt;




&lt;h2&gt;
  
  
  Wie du anfängst
&lt;/h2&gt;

&lt;p&gt;Nicht mit einem Framework. Sondern mit einer Frage: Gibt es in deinem Workflow heute eine Aufgabe, die in zwei klar trennbare Schritte zerfällt, bei der der zweite Schritt erheblich besser wird, wenn der erste wirklich gut war?&lt;/p&gt;

&lt;p&gt;Wenn ja, hast du den Kern eines Zwei-Agenten-Systems. Baue das erst. Schau, ob es funktioniert. Füge dann, wenn nötig, weitere Schritte hinzu.&lt;/p&gt;

&lt;p&gt;Multi-Agenten-Systeme sind kein Selbstzweck. Sie sind eine Architekturentscheidung, die sich dann lohnt, wenn sie eine echte Qualitäts- oder Effizienzlücke schließt.&lt;/p&gt;

&lt;p&gt;Willst du regelmäßig informiert bleiben, wenn neue Entwicklungen in diesem Bereich produktionsreif werden? Der &lt;a href="https://www.ki-syndikat.de/newsletter/" rel="noopener noreferrer"&gt;Newsletter&lt;/a&gt; hält dich auf dem Laufenden — ohne Hype, mit Fokus auf das, was wirklich funktioniert.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>german</category>
      <category>machinelearning</category>
    </item>
    <item>
      <title>Reasoning Models sind kein Upgrade, sie sind ein anderes Werkzeug</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Sun, 19 Apr 2026 19:42:29 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/reasoning-models-sind-kein-upgrade-sie-sind-ein-anderes-werkzeug-61n</link>
      <guid>https://forem.com/codewithagents_de/reasoning-models-sind-kein-upgrade-sie-sind-ein-anderes-werkzeug-61n</guid>
      <description>&lt;p&gt;Stell dir vor, du bezahlst für ein Modell das viermal so oft falsch liegt und vierzehn mal so viel kostet wie das Standardmodell. Das klingt absurd. Und es ist passiert: In einer Evaluation von splx.ai aus 2025, die o3-pro gegen GPT-4o in einem Versicherungs-Use-Case getestet hat, verlor das "bessere" Modell auf ganzer Linie.&lt;/p&gt;

&lt;p&gt;Das ist nicht das Versprechen, das OpenAI macht, wenn es Reasoning Models vorstellt. Aber es ist die Realität, wenn du ein Präzisionswerkzeug für die falschen Aufgaben verwendest.&lt;/p&gt;




&lt;h2&gt;
  
  
  Was alle denken, und warum es falsch ist
&lt;/h2&gt;

&lt;p&gt;Die verbreitete Vorstellung: Reasoning Models sind bessere Sprachmodelle. Mehr Rechenpower, mehr Intelligenz, bessere Antworten. Du solltest sie verwenden, wenn du gute Ergebnisse willst.&lt;/p&gt;

&lt;p&gt;Das stimmt nicht. Reasoning Models sind ein anderes Werkzeug, kein besseres.&lt;/p&gt;

&lt;p&gt;Standard-&lt;a href="https://www.ki-syndikat.de/glossar/#llm" rel="noopener noreferrer"&gt;LLMs&lt;/a&gt; generieren Token für Token: direkt und ohne Umweg. Das klingt simpel, funktioniert aber für die überwiegende Mehrheit aller Aufgaben besser, als man erwarten würde. Reasoning Models dagegen generieren vor jeder Antwort einen internen "Gedankengang". Sie arbeiten das Problem Schritt für Schritt durch, prüfen Zwischenergebnisse, korrigieren sich selbst. Dieser Prozess kostet Zeit und Geld. Bei manchen Aufgaben lohnt er sich. Bei den meisten nicht.&lt;/p&gt;

&lt;p&gt;o3-pro kostet laut OpenAI-API derzeit 20 Dollar pro Million Input-Tokens. GPT-4o liegt bei 2,50 Dollar. Das ist Faktor 8 beim reinen Token-Preis. Faktor 14 ergibt sich, wenn du die "Thinking Tokens" einrechnest, die der Reasoning-Prozess zusätzlich generiert und die nicht im regulären Input-Preis enthalten sind.&lt;/p&gt;




&lt;h2&gt;
  
  
  Wann Reasoning Models tatsächlich besser sind
&lt;/h2&gt;

&lt;p&gt;Drei Aufgabentypen rechtfertigen den Aufpreis tatsächlich.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Mathematik mit mehreren Zwischenschritten.&lt;/strong&gt; Steuerberechnungen mit Ausnahmeregelungen, Wahrscheinlichkeitsrechnung, Optimierungsprobleme. Überall dort, wo eine falsche Zwischenannahme die Endantwort zerstört. Standard-Modelle scheitern hier regelmäßig, auch wenn sie die Antwort selbstsicher formulieren.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Widersprüchliche Dokumente auflösen.&lt;/strong&gt; Wenn zwei Vertragsklauseln sich widersprechen, wenn regulatorische Anforderungen aus verschiedenen Quellen kollidieren: Reasoning Models benennen die Widersprüche explizit, anstatt sie wegzuglätten. Für &lt;a href="https://www.ki-syndikat.de/usecases/recht/01-vertragsanalyse/" rel="noopener noreferrer"&gt;Vertragsanalyse mit KI&lt;/a&gt; ist das relevant.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Bugs in komplexen Architekturen.&lt;/strong&gt; Nicht für das Schreiben von Funktionen, sondern für das Nachvollziehen von Fehlerursachen über mehrere Schichten. Reasoning Models können Abhängigkeitsketten besser durchdenken als Standardmodelle, auch ergänzend zu Tools wie &lt;a href="https://www.ki-syndikat.de/tools/cursor/" rel="noopener noreferrer"&gt;Cursor&lt;/a&gt; oder &lt;a href="https://www.ki-syndikat.de/tools/github-copilot/" rel="noopener noreferrer"&gt;GitHub Copilot&lt;/a&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Strategische Planung mit harten Constraints.&lt;/strong&gt;"Plane einen Launch in drei Märkten gleichzeitig, mit diesem Budget, unter diesen regulatorischen Einschränkungen." Standard-Modelle produzieren hier generischen Output. Reasoning Models arbeiten Widersprüche und Tradeoffs expliziter heraus.&lt;/p&gt;

&lt;p&gt;Ein Benchmark macht den Unterschied greifbar: Auf ARC-AGI, einem Test für neuartige Problemlösung (nicht Auswendiglernen), erreichte GPT-4o laut arcprize.org gerade einmal 5%. o3 kam auf 75,7%. Das ist keine marginale Verbesserung. Das ist ein anderes Werkzeug für eine andere Aufgabenkategorie.&lt;/p&gt;

&lt;p&gt;Der gemeinsame Nenner: Die Aufgabe hat eine objektiv richtige oder falsche Antwort, und sie erfordert mehrere korrekte Zwischenschritte.&lt;/p&gt;




&lt;h2&gt;
  
  
  Das Overthinking-Problem ist real
&lt;/h2&gt;

&lt;p&gt;Reasoning Models haben eine Schwäche: Sie überkomplizieren einfache Probleme.&lt;/p&gt;

&lt;p&gt;Das zeigt die splx.ai-Evaluation konkret: Bei einem Versicherungs-Use-Case produzierte o3-pro viermal so viele fehlgeschlagene Testfälle wie GPT-4o. Nicht weil o3-pro dümmer wäre, sondern weil das Modell Entscheidungspfade durchdenkt, die für eine strukturierte Pipeline schlicht nicht existieren. Es konstruiert Komplexität, wo keine ist.&lt;/p&gt;

&lt;p&gt;Für kreative Aufgaben ist das besonders problematisch. Beim Brainstorming ist Geschwindigkeit und Varianz wichtiger als Präzision. Reasoning Models tendieren dazu, Ideen intern zu verwerfen, bevor sie sie aussprechen. Das klingt nach Qualitätskontrolle. Es ist aber Kreativitätsbremse.&lt;/p&gt;

&lt;p&gt;Und dann ist da noch das Benchmark-Problem. Als OpenAI o3 im Dezember 2024 vorstellte, behauptete das Unternehmen, das Modell löse über 25% der Aufgaben auf FrontierMath, einem extrem schwierigen Mathe-Benchmark. Das nächstbeste Modell lag bei 2%. Als Epoch AI, das Institut hinter FrontierMath, o3 unabhängig testete, kam es auf rund 10%. Die ursprünglichen Zahlen stammten von einer Testversion mit mehr Rechenpower als das öffentlich zugängliche Modell. Das ist kein Betrug. Aber es ist ein Hinweis, wie stark Reasoning-Fähigkeiten von Compute abhängen, und wie vorsichtig man mit Benchmark-Versprechen umgehen sollte.&lt;/p&gt;




&lt;h2&gt;
  
  
  Die wichtigsten Reasoning Models
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;o4-mini&lt;/strong&gt; ist die einzige Wahl mit vertretbarem Kosten-Nutzen-Verhältnis für die meisten Anwendungsfälle: deutlich günstiger als o3, Reasoning-Fähigkeiten, die für Mathematik und Widerspruchsanalyse ausreichen, und schnell genug für interaktive Nutzung.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;o3&lt;/strong&gt; lohnt sich für produktionskritische Pipelines, bei denen ein Fehler echten Schaden anrichtet: Steuerberechnungen, juristische Analyse, komplexe Codearchitektur. Für alle anderen Zwecke ist der Aufpreis gegenüber o4-mini nicht zu rechtfertigen.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;o3-pro&lt;/strong&gt; ist schwer zu begründen. Der Preisunterschied zu o3 ist erheblich. Der Qualitätsgewinn ist marginal, und die splx.ai-Evaluation zeigt, dass höherer Aufwand nicht automatisch bessere Ergebnisse bedeutet.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Claude 3.7 Sonnet mit Extended Thinking&lt;/strong&gt; gewinnt, wenn Nachvollziehbarkeit wichtiger ist als Rohleistung: Der sichtbare Gedankengang macht Fehler auffindbar, bevor sie eskalieren. In reinen Benchmark-Vergleichen verliert Claude gegen o3, in Kontexten mit menschlicher Überprüfung ist das oft der falsche Maßstab.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gemini 2.0 Flash Thinking&lt;/strong&gt; bleibt ein Randfall — interessant für latenzempfindliche Anwendungen, aber ohne klares Alleinstellungsmerkmal gegenüber o4-mini bei vergleichbaren Kosten.&lt;/p&gt;




&lt;h2&gt;
  
  
  Eine einfache Entscheidungshilfe
&lt;/h2&gt;

&lt;p&gt;Vor der Modellwahl drei Fragen:&lt;/p&gt;

&lt;p&gt;Erfordert die Aufgabe mehrere abhängige Rechenschritte, bei denen ein Fehler alles Nachfolgende zerstört? Reasoning Model.&lt;/p&gt;

&lt;p&gt;Gibt es eine objektiv richtige Antwort, die sich überprüfen lässt? Reasoning Model.&lt;/p&gt;

&lt;p&gt;Ist die Aufgabe offen, kreativ, schnell oder sprachlich? Standard-Modell.&lt;/p&gt;

&lt;p&gt;Die Faustregel für API-Nutzung: Wenn du nicht explizit weißt, warum diese Aufgabe Reasoning braucht, braucht sie kein Reasoning.&lt;/p&gt;




&lt;p&gt;Reasoning Models sind ein echter Fortschritt für einen spezifischen Aufgabentyp. Das Problem ist nicht die Technologie. Es ist die Erwartung, dass "mehr Denken" grundsätzlich besser ist. Manchmal ist es das Gegenteil, und der Beweis kostet dich 14x mehr.&lt;/p&gt;

&lt;p&gt;Wer wissen will, welches Modell für welche Aufgabe tatsächlich besser abschneidet, findet im &lt;a href="https://www.ki-syndikat.de/newsletter/" rel="noopener noreferrer"&gt;KI-Syndikat Newsletter&lt;/a&gt; regelmäßig ungeschönte Einordnungen zu neuen Modellen und Evaluationen.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>german</category>
      <category>machinelearning</category>
    </item>
    <item>
      <title>$187 and 16 Hours: My First Million-Token Session</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Mon, 06 Apr 2026 07:23:00 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/187-and-16-hours-my-first-million-token-session-2ae2</link>
      <guid>https://forem.com/codewithagents_de/187-and-16-hours-my-first-million-token-session-2ae2</guid>
      <description>&lt;p&gt;Two things landed in the same week: the 1 million token context window and the Claude Agentic Teams beta. One gave me room to think. The other gave me a way to parallelize. I did what any reasonable engineer would do: I immediately tried to break both with something too ambitious.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fplhsl5vpift3v9v1bvhf.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fplhsl5vpift3v9v1bvhf.png" alt="The session receipt: $187, 16 hours, 729 tests, 34.8% orchestrator context used" width="744" height="424"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;The plan: build a complete cashback campaign web application — backend, frontend, full test suite, containerized deployment — in a single session. One orchestrator. &lt;a href="https://www.codewithagents.de/en/blog/building-agent-army/" rel="noopener noreferrer"&gt;Eight specialized agents&lt;/a&gt; spawned as a team. Don't stop until it's live.&lt;/p&gt;

&lt;p&gt;What actually happened is more interesting than either the successes or the failures on their own.&lt;/p&gt;

&lt;h2&gt;
  
  
  The Setup
&lt;/h2&gt;

&lt;p&gt;The Agentic Teams feature was the key enabler. Instead of one agent doing everything sequentially, I had an orchestrator that spawned specialized subagents — each with its own fresh context window, each focused on one domain:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Backend implementer&lt;/strong&gt; — Spring Boot service, API endpoints, business logic&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Frontend implementer&lt;/strong&gt; — React SPA wired to the backend&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;QA reviewer&lt;/strong&gt; — running tests, flagging gaps, reviewing coverage&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Deployment agent&lt;/strong&gt; — Dockerfile, compose files, deployment configuration&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Git agent&lt;/strong&gt; — branches, commits, keeping the repo clean&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;PR handler&lt;/strong&gt; — pull request creation, descriptions, review assignments&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CI monitor&lt;/strong&gt; — watching the pipeline, catching failures early&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Slack notifier&lt;/strong&gt; — status updates to the team channel&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;The combination of 1M context and teams changed the equation fundamentally. The orchestrator held the big picture — architecture, decisions, coordination — while each subagent got a fresh context dedicated entirely to its domain. No context pollution between concerns. The backend implementer's window wasn't cluttered with CSS decisions. The deployment agent didn't carry the weight of test output.&lt;/p&gt;

&lt;p&gt;That's not a bigger notepad. That's a qualitatively different way of working.&lt;/p&gt;

&lt;h2&gt;
  
  
  The Numbers
&lt;/h2&gt;

&lt;p&gt;Let me give you the receipt before the narrative.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Metric&lt;/th&gt;
&lt;th&gt;Value&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Total cost&lt;/td&gt;
&lt;td&gt;$186.92&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Wall time&lt;/td&gt;
&lt;td&gt;16 hours&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;API time&lt;/td&gt;
&lt;td&gt;7 hours 42 minutes&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Lines of code written&lt;/td&gt;
&lt;td&gt;5,800+&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Backend tests&lt;/td&gt;
&lt;td&gt;649 (all passing)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;End-to-end tests&lt;/td&gt;
&lt;td&gt;80 (all passing)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Orchestrator context at completion&lt;/td&gt;
&lt;td&gt;34.8% used&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;The gap between wall time and API time tells its own story. Nine-ish hours of waiting — for builds to complete, for containers to spin up, for CI pipelines to run, for me to review and redirect. The agent system was genuinely idle for more than half the clock time. Multi-agent work is often more about managing parallelism and wait states than it is about raw token throughput.&lt;/p&gt;

&lt;p&gt;The context number needs explanation: 34.8% is the &lt;em&gt;orchestrator's&lt;/em&gt; context usage — the central agent coordinating everything. But here's the thing about agentic teams: every subagent spawns with a fresh context window. The backend implementer burned through most of its own context writing 3,000+ lines of Spring Boot code. The frontend implementer filled a separate window with React components. The total tokens consumed across all agents was many multiples of what the orchestrator alone used.&lt;/p&gt;

&lt;p&gt;The 1M window mattered for the orchestrator's ability to hold the full project state — every architectural decision, every agent's status, every failure and recovery — without summarization loss. The subagents benefited from fresh context dedicated entirely to their domain.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F0t4dio08wnawkemprurn.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F0t4dio08wnawkemprurn.png" alt="Orchestrator used 34.8% of 1M context — each subagent had its own fresh window on top" width="716" height="206"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h2&gt;
  
  
  What We Built
&lt;/h2&gt;

&lt;p&gt;A cashback campaign web application. Users register for campaigns, submit purchase verification, and receive cashback payouts. Backend exposes REST endpoints with full authentication, campaign management, submission handling, and payout processing. Frontend handles the user journey: campaign listing, submission form, status tracking, account management.&lt;/p&gt;

&lt;p&gt;649 backend tests covering units, integration, and API contracts. 80 end-to-end tests exercising complete user flows against the deployed system. Both suites passing at the time of deployment.&lt;/p&gt;

&lt;p&gt;Containerized with Docker, deployed to a demo server, accessible over HTTPS. The full stack was live — not prototype-live or local-dev-live, but actually deployed and running with a URL you could share.&lt;/p&gt;

&lt;p&gt;In one session.&lt;/p&gt;

&lt;h2&gt;
  
  
  What Broke
&lt;/h2&gt;

&lt;p&gt;Three things broke in ways worth documenting.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;The UI refinement agent hung mid-session.&lt;/strong&gt; About ten hours in, I spun up an additional agent to polish the frontend styling. It started working, then stopped producing output, then started again, then stopped permanently. The process was still running — consuming tokens, returning nothing meaningful. I had to force-kill it and redistribute its remaining tasks to the frontend implementer. Cause: unclear. Hypothesis: the context had accumulated enough ambiguous signal that the agent entered a local minimum and couldn't exit without human intervention. I'd seen this behavior before in shorter sessions. At this scale it cost more time. (I wrote a full postmortem on this and three other multi-agent failures in &lt;a href="https://www.codewithagents.de/en/blog/agent-that-hung/" rel="noopener noreferrer"&gt;The Agent That Hung&lt;/a&gt;.)&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Docker configuration required multiple debug cycles.&lt;/strong&gt; The deployment agent's first three attempts at the Dockerfile produced images that built successfully and failed at runtime. The failure modes were different each time: wrong environment variable name, missing health check endpoint, volume mount path mismatch. None of these were hard problems — they were the kind of thing that takes ten minutes to fix once you know what's wrong. But each cycle was 15-20 minutes of build time, which adds up. The agent wasn't wrong in a systematic way; it was wrong in a random way, which is harder to diagnose.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;CORS whitelisting was missing from the first live deployment.&lt;/strong&gt; The backend deployed, the frontend deployed, we hit the first real URL from a browser — and got CORS errors. The frontend and backend were on different origins, and nobody had configured allowed origins in the API. This is the kind of thing that's trivially obvious in hindsight and invisible when you're thinking about everything else. We fixed it in twenty minutes, but the gap between "it works in tests" and "it works when you actually open a browser" is real and shouldn't be understated.&lt;/p&gt;

&lt;p&gt;The failures were recoverable. None of them were catastrophic. But they're worth naming because the narrative of "multi-agent AI builds complete app in one session" can make it sound smoother than it is.&lt;/p&gt;

&lt;h2&gt;
  
  
  Was $187 Worth It?
&lt;/h2&gt;

&lt;p&gt;This is the question everyone asks.&lt;/p&gt;

&lt;p&gt;$186.92 for a complete, deployed, tested web application. The question is: compared to what?&lt;/p&gt;

&lt;p&gt;My estimate for solo development of this system — evenings and weekends, the realistic mode for a side project — is two to three weeks. That's probably 40-60 hours of actual coding time, spread across a month of calendar time. You don't get it faster by working harder; you get it faster by having more hours available.&lt;/p&gt;

&lt;p&gt;The session compressed that into one long stretch — starting the evening of the 17th and spanning into the early hours of the 18th. Not just in wall time, but in context. When you're working across three weeks of evenings, you spend a non-trivial portion of each session re-establishing context. What did I build last time? Where did I leave off? Why did I make this architectural decision? The 1M context window meant that never happened. Every agent at every moment had access to the full state of the project.&lt;/p&gt;

&lt;p&gt;That context compression is the value. The $187 isn't paying for code generation — you can get code generation cheaply. It's paying for unbroken continuity across an entire project, from empty repository to deployed application.&lt;/p&gt;

&lt;p&gt;Is $187 a lot? It's a dinner out. It's less than an hour of consulting time. For what it produced, it's laughably cheap if the output is usable — and in this case, the output was usable.&lt;/p&gt;

&lt;p&gt;The ROI question gets harder when you ask: "Okay but I'm paying $187 per feature, how does that scale?" Fair. If you're running sessions like this weekly, you're spending $800-1000 a month on context. That's not nothing. But you're also compressing weeks of work into days, and the comparison baseline should be "what would I pay a contractor" rather than "what would I pay in compute."&lt;/p&gt;

&lt;h2&gt;
  
  
  What 1 Million Tokens Actually Changes
&lt;/h2&gt;

&lt;p&gt;The marketing around large context windows is often vague in ways that obscure the real value.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;It's not about fitting more files in.&lt;/strong&gt; You could always load more files into multiple sessions. The point isn't storage capacity.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;It's about the orchestrator holding the full picture.&lt;/strong&gt; The 1M window lets the coordinating agent track every decision, every failure, every architectural choice across a 16-hour session without ever summarizing or losing nuance. When the backend agent reports a schema change, the orchestrator passes that context to the frontend agent accurately — not through a lossy summary, but through the actual decision with its reasoning intact.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Teams multiply the effective context.&lt;/strong&gt; Eight agents, each with their own context window, means the system's total working memory is far larger than 1M tokens. Each specialist gets a fresh window focused on its domain. The orchestrator's 1M window coordinates between them. It's not one big context — it's an architecture of contexts.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;It eliminates the summarization tax at the coordination layer.&lt;/strong&gt; Shorter orchestrator windows mean you're constantly summarizing: "here's what I built, here's the current state, here's what's failing." Every summary introduces loss. With 1M tokens on the orchestrator, everything that happened across all eight agents was still trackable. No lossy handoffs.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;It makes failures recoverable without restart.&lt;/strong&gt; When the hung UI agent had to be killed, the orchestrator still had the complete context of what it had attempted. Spinning up a replacement agent with the right instructions was straightforward — the orchestrator knew exactly where the work had left off.&lt;/p&gt;

&lt;p&gt;This is why I described it as a different way of building software. Not a bigger version of the old way. A different mode that becomes available when you combine a large orchestrator context with specialized parallel agents.&lt;/p&gt;

&lt;h2&gt;
  
  
  What I'd Do Differently
&lt;/h2&gt;

&lt;p&gt;Not much — but a few things.&lt;/p&gt;

&lt;p&gt;I'd add CORS configuration to a deployment checklist from the start. Not because it's hard to add, but because it reliably gets forgotten and costs time. The pattern is consistent enough that it should be institutional knowledge.&lt;/p&gt;

&lt;p&gt;I'd build in explicit agent health checks. The hung UI agent was running for over an hour before I noticed it wasn't producing useful output. A simple "if no meaningful output in X minutes, flag for human review" rule would have caught it faster.&lt;/p&gt;

&lt;p&gt;I'd be more aggressive about pre-splitting the frontend work. At the scale of a complete application, the frontend implementer had a lot of surface area. Splitting that into UI components and data integration from the start would have parallelized more work.&lt;/p&gt;

&lt;h2&gt;
  
  
  The Meta-Point
&lt;/h2&gt;

&lt;p&gt;I did this in February 2026. The 1M token context window was new. The Agentic Teams beta was new. The multi-agent orchestration patterns were things I'd been building for months. Everything converged at once.&lt;/p&gt;

&lt;p&gt;What struck me most wasn't the output — it was the experience of building. For sixteen hours, I wasn't typing. I wasn't writing code. I was making decisions, reviewing outputs, redirecting agents, thinking about architecture. The implementation was handled. The thinking was mine.&lt;/p&gt;

&lt;p&gt;That's the mode I think agentic engineering is pointing toward: not "AI writes the code for me" but "I architect while AI implements, continuously, in real time." The session wasn't sixteen hours of watching progress bars. It was sixteen hours of directed creative work, at a level of abstraction above the code.&lt;/p&gt;

&lt;p&gt;Whether that's exciting or unsettling depends on where you stand. For me, it's both, which is usually a sign that something real is happening.&lt;/p&gt;

&lt;p&gt;The $187 was money well spent. The sixteen hours taught me more about multi-agent system design than any tutorial could. The receipt is right there in the API billing dashboard.&lt;/p&gt;

&lt;p&gt;Now I know what a million tokens feels like from the inside. (What I learned next — making those systems production-ready — is in &lt;a href="https://www.codewithagents.de/en/blog/production-hardening/" rel="noopener noreferrer"&gt;Production Hardening&lt;/a&gt;.)&lt;/p&gt;

</description>
      <category>claudecode</category>
      <category>ai</category>
      <category>productivity</category>
    </item>
    <item>
      <title>The 22,000 Token Tax: Why I Killed My MCP Server</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Wed, 01 Apr 2026 20:53:07 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/the-22000-token-tax-why-i-killed-my-mcp-server-2c12</link>
      <guid>https://forem.com/codewithagents_de/the-22000-token-tax-why-i-killed-my-mcp-server-2c12</guid>
      <description>&lt;p&gt;I was at a company workshop, arguing with beginners about token costs.&lt;/p&gt;

&lt;p&gt;They wanted to save money. Reasonable instinct. They were spending maybe €25 a week on API calls and wanted to cut it to €20. I pushed back hard: "You're at the learning stage. Spend &lt;em&gt;more&lt;/em&gt;, not less. Explore. Break things. Create costs.&lt;br&gt;
  Because while you're saving €5, I'm spending €600 a week — and I'll gladly spend €20 more if it means finishing a ticket in one session instead of two."&lt;/p&gt;

&lt;p&gt;Then I told them the one scenario where token consumption actually matters: when you need to prolong a session. Not to save money — to preserve context. Because when your session compacts or resets, you lose everything the model was holding in its head. And in the early days of Claude Code, there was no auto-compact. Your session just died with an error when you hit the limit. Auto-compact made this better, but you never know what survives the squeeze. Research confirms what I've felt in practice: &lt;a href="https://arxiv.org/abs/2510.05381" rel="noopener noreferrer"&gt;context length alone hurts LLM performance&lt;/a&gt;, even when the relevant information is right there. The longer your context, the worse the output — a phenomenon sometimes called context rot. So   every unnecessary token you load at startup is a tax on the quality of everything that follows.&lt;/p&gt;

&lt;p&gt;I came home that evening and opened a new session. Ran &lt;code&gt;/context&lt;/code&gt;. Stared at the breakdown.&lt;/p&gt;

&lt;p&gt;22,000 tokens in MCP tools alone. Before I typed a single prompt.&lt;/p&gt;
&lt;h2&gt;
  
  
  The Receipt
&lt;/h2&gt;

&lt;p&gt;I had three MCP servers running: &lt;code&gt;mcp-atlassian&lt;/code&gt; for Jira and Confluence, &lt;code&gt;chrome-devtools&lt;/code&gt; for browser automation, and &lt;code&gt;context7&lt;/code&gt; for documentation lookups. Together they cost 22K tokens. But the Atlassian server was the one I could kill — it was registering 33 tools for a service where I used six.&lt;/p&gt;

&lt;p&gt;I'd gone through the settings and disabled as many as I could — but the server kept loading all of them. Confluence tools I never used. Batch operations. Sprint management. Worklog tracking. None of it mattered.&lt;/p&gt;

&lt;p&gt;All 33 tools. About 10,000 tokens. Every single session.&lt;/p&gt;

&lt;p&gt;I compared the numbers. One skill — 40 tokens of metadata. One MCP tool — 300 tokens of schema. The Atlassian MCP was loading tools I had explicitly told it not to load.&lt;/p&gt;
&lt;h2&gt;
  
  
  The Setting That Doesn't
&lt;/h2&gt;

&lt;p&gt;Here's what &lt;code&gt;disabledTools&lt;/code&gt; actually does in Claude Code: it prevents the AI from &lt;em&gt;calling&lt;/em&gt; a tool. That's it.&lt;/p&gt;

&lt;p&gt;It does not prevent the MCP server from starting. It does not prevent the server from registering its tools. It does not prevent those tool schemas from being injected into the context window. The Docker container still spins up. The tool definitions still flow in. The tokens still burn. &lt;code&gt;disabledTools&lt;/code&gt; is a runtime filter, not a context optimization. I was disappointed — if the setting exists in the configuration, you'd expect the platform to be smart enough to not load what you've explicitly disabled. But that's not how it works.&lt;/p&gt;

&lt;p&gt;The only way to actually save the tokens is to remove the MCP server entirely.&lt;/p&gt;
&lt;h2&gt;
  
  
  The Replacement: 7 Scripts
&lt;/h2&gt;

&lt;p&gt;I looked at what I actually use. Six Jira operations. Zero Confluence operations. Out of 33 registered tools, I needed six.&lt;/p&gt;

&lt;p&gt;So I wrote shell scripts. The same pattern I already use for Jenkins and Slack — credentials in a JSON file under &lt;code&gt;~/.config/&lt;/code&gt;, curl calls with Bearer token auth, jq for parsing responses.&lt;/p&gt;

&lt;p&gt;The first script took five minutes. Authentication worked on the first try — just &lt;code&gt;Authorization: Bearer &amp;lt;token&amp;gt;&lt;/code&gt; with the same personal access token the MCP had been using. No Docker container. No protocol negotiation. No tool registration. Just curl.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  &lt;span class="nv"&gt;TOKEN&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="si"&gt;$(&lt;/span&gt;jq &lt;span class="nt"&gt;-r&lt;/span&gt; &lt;span class="s1"&gt;'.personal_token'&lt;/span&gt; ~/.config/jira/credentials.json&lt;span class="si"&gt;)&lt;/span&gt;
  &lt;span class="nv"&gt;BASE_URL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="si"&gt;$(&lt;/span&gt;jq &lt;span class="nt"&gt;-r&lt;/span&gt; &lt;span class="s1"&gt;'.base_url'&lt;/span&gt; ~/.config/jira/credentials.json&lt;span class="si"&gt;)&lt;/span&gt;

  curl &lt;span class="nt"&gt;-s&lt;/span&gt; &lt;span class="nt"&gt;-k&lt;/span&gt; &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Authorization: Bearer &lt;/span&gt;&lt;span class="nv"&gt;$TOKEN&lt;/span&gt;&lt;span class="s2"&gt;"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
    &lt;span class="s2"&gt;"&lt;/span&gt;&lt;span class="nv"&gt;$BASE_URL&lt;/span&gt;&lt;span class="s2"&gt;/rest/api/2/issue/PROJ-123"&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;The credentials file should be chmod 600 (owner-only read/write). &lt;/p&gt;

&lt;p&gt;The -k flag skips SSL certificate verification because our internal Jira uses a self-signed cert — don't copy that for public endpoints. And yes, the token ends up in the process list briefly via shell variable expansion. For a local developer workstation running personal scripts, that's an acceptable trade-off. For a shared server or CI pipeline, you'd want to pipe credentials through stdin instead.&lt;/p&gt;

&lt;p&gt;Cairn built all six scripts in under an hour. I fed the Jira REST API documentation into the session for context, described the pattern I wanted, and Cairn wrote the scripts, tested them against our live Jira, and verified each one worked. I gave it a real ticket number to go wild on — fetch, update, transition, comment, the full lifecycle. Then we fine-tuned the scripts to bake in our project defaults: the right component, the right team label, the custom fields our board requires. Get issue. Search with JQL. Update fields. Add comment. Get transitions. Transition status. Each script reads credentials, makes a curl call, formats the output. No abstraction layer. No protocol. No 300-token tool schema.&lt;/p&gt;

&lt;p&gt;Then I added a seventh: create issue.&lt;/p&gt;

&lt;p&gt;The Thing MCP Could Never Do&lt;/p&gt;

&lt;p&gt;Creating Jira tickets through MCP never worked reliably. I'd hit the MCP permission wall before — specialized agents couldn't even access the tools. But even when access worked, the actual creation flow — with custom fields, project-specific components, team assignments — always hit edge cases that the MCP abstraction couldn't handle cleanly.&lt;/p&gt;

&lt;p&gt;The curl script created a ticket on the first try.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight shell"&gt;&lt;code&gt;  curl &lt;span class="nt"&gt;-s&lt;/span&gt; &lt;span class="nt"&gt;-k&lt;/span&gt; &lt;span class="nt"&gt;-X&lt;/span&gt; POST &lt;span class="se"&gt;\&lt;/span&gt;
    &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Authorization: Bearer &lt;/span&gt;&lt;span class="nv"&gt;$TOKEN&lt;/span&gt;&lt;span class="s2"&gt;"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
    &lt;span class="nt"&gt;-H&lt;/span&gt; &lt;span class="s2"&gt;"Content-Type: application/json"&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
    &lt;span class="nt"&gt;-d&lt;/span&gt; &lt;span class="s1"&gt;'{"fields": {
      "project": {"key": "PROJ"},
      "issuetype": {"name": "Task"},
      "summary": "Test ticket",
      "components": [{"name": "Frontend"}],
      "customfield_12345": [{"value": "Team-A"}]
    }}'&lt;/span&gt; &lt;span class="se"&gt;\&lt;/span&gt;
    &lt;span class="s2"&gt;"&lt;/span&gt;&lt;span class="nv"&gt;$BASE_URL&lt;/span&gt;&lt;span class="s2"&gt;/rest/api/2/issue"&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;HTTP 201. The ticket existed. With the right component, the right team, the right assignee. First try.&lt;/p&gt;

&lt;p&gt;The MCP had been sitting between me and a REST API that was perfectly willing to cooperate. It was abstracting away complexity that didn't exist.&lt;/p&gt;

&lt;h3&gt;
  
  
  The Abstraction Tax
&lt;/h3&gt;

&lt;p&gt;MCP is a good idea for getting started. You install a server, you get tools, you're productive in minutes. For someone spending €25 a week who's still learning, that's the right trade-off. The setup cost is zero and the token cost doesn't matter because you're not pushing session limits.&lt;/p&gt;

&lt;p&gt;When you're 5,428 prompts deep into a persistent agent system, running multi-agent workflows that eat 100K+ tokens per ticket, every unnecessary token at startup compresses the useful work you can do before quality starts degrading. I've learned this lesson before — 23K tokens burned loading a bloated memory file. Now it was 10K tokens burned loading Jira tools I'd explicitly disabled. Same tax, different landlord.&lt;/p&gt;

&lt;p&gt;And here's the part that bothered me most: I couldn't partially load the MCP server. It's all or nothing. Want 6 tools? You get 33. Want to disable the other 27? You can — but you still pay for all 33 in your context. The protocol has no mechanism for selective tool registration based on client preferences.&lt;/p&gt;

&lt;h3&gt;
  
  
  So I replaced it:
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;33 MCP tools with 7 shell scripts&lt;/li&gt;
&lt;li&gt;~10,000 tokens per session with 0 tokens at startup&lt;/li&gt;
&lt;li&gt;Docker container on every launch with no container&lt;/li&gt;
&lt;li&gt;Issue creation broken with Issue creation works&lt;/li&gt;
&lt;li&gt;Tool schemas you can't customize with Scripts you own completely&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;The seven scripts total about 700 lines of bash. They live in my skill directory, version-controlled, testable. I can read them. I can debug them. I can add project-specific defaults — like auto-applying the default component and team for every ticket in our project. Try doing that in an MCP tool schema.&lt;/p&gt;

&lt;p&gt;And I know exactly what they do. That MCP server was a Docker image pulled from a third-party registry, running with my Jira credentials baked into environment variables. I never audited that image. I never read its source. Every docker pull could have shipped a different binary. When your integration is 700 lines of bash that you wrote and can read end to end, supply chain risk isn't a concern — it's just curl.&lt;/p&gt;

&lt;h3&gt;
  
  
  When to Graduate
&lt;/h3&gt;

&lt;p&gt;MCP stops making sense the moment you're paying for tools you don't use and can't shed. When you need 6 tools but get 33. When 10K tokens burn before your first prompt. When you need capabilities the server doesn't expose. When you need project-specific behavior that the protocol can't express. That's when you graduate.&lt;/p&gt;

&lt;p&gt;The graduation path is simple: credentials file, curl, jq. The same tools that powered the internet before every API got wrapped in an abstraction layer. They still work. They're still faster. And you own them completely.&lt;/p&gt;

&lt;p&gt;They don't cost you a single token to say hello.&lt;/p&gt;

&lt;h3&gt;
  
  
  What I Actually Learned
&lt;/h3&gt;

&lt;p&gt;This isn't new. It's what every software engineer has done since the beginning: make it work first, then optimize. The MCP got me running. It was the right choice when I was figuring out how to wire an AI agent to Jira at all. But once it worked, the job was to look at the bill and cut the waste. That's not AI-specific wisdom — that's just engineering.&lt;/p&gt;

&lt;p&gt;Integrations have carrying costs. An MCP server isn't free just because it's open-source. A tool registry isn't free just because the tools are disabled. Every abstraction layer between your code and the API it talks to has a price — in tokens, in debuggability, in flexibility, in the things you can't do because the abstraction didn't anticipate your use case.&lt;/p&gt;

&lt;p&gt;Sometimes the best integration is the one with no integration layer at all.&lt;/p&gt;




&lt;p&gt;Originally published at &lt;a href="https://www.codewithagents.de" rel="noopener noreferrer"&gt;CodeWithAgents.de&lt;/a&gt;&lt;/p&gt;




</description>
      <category>claudecode</category>
      <category>mcp</category>
      <category>ai</category>
      <category>llm</category>
    </item>
    <item>
      <title>Skills Ate My Agents (And I'm Okay With That)</title>
      <dc:creator>Benjamin Eckstein</dc:creator>
      <pubDate>Wed, 18 Mar 2026 21:44:27 +0000</pubDate>
      <link>https://forem.com/codewithagents_de/skills-ate-my-agents-and-im-okay-with-that-2k3e</link>
      <guid>https://forem.com/codewithagents_de/skills-ate-my-agents-and-im-okay-with-that-2k3e</guid>
      <description>&lt;p&gt;I was showing off my system to colleagues.&lt;/p&gt;

&lt;p&gt;Eighteen specialized agents, each a craftsman at their job: one for git operations, one for PRs, one for Slack notifications, one for Jenkins diagnostics, one for Maven tests. I’d named them, written their &lt;code&gt;AGENT.md&lt;/code&gt; files, built their &lt;code&gt;CHANGELOG.md&lt;/code&gt; evolution histories. Cairn — my persistent AI orchestrator — coordinated them like a conductor with a full orchestra. While colleagues were still integrating their first MCP tool to give Claude filesystem access, I already had an optimizer agent updating 18 other agents’ instructions based on their operational logs. It worked. It was the frontline.&lt;/p&gt;

&lt;p&gt;Then one colleague asked the question that changed everything.&lt;/p&gt;

&lt;p&gt;“Why don’t you use skills for it?”&lt;/p&gt;

&lt;h2&gt;
  
  
  The moment one question broke everything
&lt;/h2&gt;

&lt;p&gt;I talk about comfort zones on this website. I have a whole post about &lt;a href="https://www.codewithagents.de/en/blog/walls-that-teach/" rel="noopener noreferrer"&gt;the walls that teach you the most&lt;/a&gt; — the invisible ceilings you only discover when something from outside your frame hits you with a simple question. There I was, caught inside my own comfort zone, struggling to answer a colleague.&lt;/p&gt;

&lt;p&gt;I struggled to find another argument why agents still have a future. That struggle was the diagnosis.&lt;/p&gt;

&lt;h2&gt;
  
  
  What Skills Actually Are
&lt;/h2&gt;

&lt;p&gt;Custom slash commands existed for a while: a markdown file, a slash command, Claude follows the instructions. Simple and useful. Skills are that, but unified and extended into something genuinely different.&lt;/p&gt;

&lt;p&gt;Same slash command pattern. But now they live in a directory structure, can carry supporting files, have YAML frontmatter that controls who can invoke them — and, critically, can run in their own forked subagent context. One field — context: fork — spins up a clean, isolated execution environment with custom tool restrictions and its own permission mode. The equivalent of what I used to accomplish by defining a full custom agent with a custom system prompt, a separate &lt;code&gt;AGENT.md&lt;/code&gt; file, and a &lt;code&gt;CHANGELOG.md&lt;/code&gt; to maintain. All of that collapses into a skill directory.&lt;/p&gt;

&lt;p&gt;Skills also support persistent memory across sessions, logs, and supporting files that load on demand. Everything I built into the 18-agent ecosystem? The same mechanics, new home.&lt;/p&gt;

&lt;p&gt;Everything an agent needed, now inside a skill&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Are Agents Dead?&lt;/strong&gt;&lt;br&gt;
I spent real time trying to find a use case where a custom pre-defined subagent is the right answer and a skill genuinely isn’t.&lt;/p&gt;

&lt;p&gt;Memory across sessions? Skills have it. Set memory: user in the frontmatter.&lt;/p&gt;

&lt;p&gt;Isolated context? context: fork in the skill.&lt;/p&gt;

&lt;p&gt;Custom system prompt? The markdown body of SKILL.md becomes the prompt.&lt;/p&gt;

&lt;p&gt;Tool restrictions? allowed-tools: Read, Grep, Glob.&lt;/p&gt;

&lt;p&gt;Logs and observability? Write to a logs/ directory inside the skill.&lt;/p&gt;

&lt;p&gt;Evolution over time? An optimizer skill reads those logs and updates SKILL.md. The &lt;a href="https://www.codewithagents.de/en/blog/agents-record-optimizer-thinks/" rel="noopener noreferrer"&gt;record-then-optimize&lt;/a&gt; pattern moves with you. Same discipline, new home.&lt;/p&gt;

&lt;p&gt;The one thing I kept circling back to: permissions. Custom agents let you set permissionMode: bypassPermissions or acceptEdits at the agent level — meaningful control when you need fully autonomous execution without per-operation approval prompts. That felt like the last true differentiator.&lt;/p&gt;

&lt;p&gt;But even here, the answer resolves the same way: add permissionMode: acceptEdits to the skill’s frontmatter and the forked agent inherits it. That’s it. The agent doesn’t disappear — it becomes invisible infrastructure. The runtime environment you specify when the skill needs particular permission characteristics. You’re not defining a named entity with a personality and an evolution history. You’re setting execution parameters.&lt;/p&gt;

&lt;p&gt;That realization hit harder than the original question. I hadn’t just been building agents. I’d been naming them, personalizing them, treating them as first-class citizens of the system. The moment I saw permissions was the last argument left, and it was already handled by a config field, the whole architecture flipped.&lt;/p&gt;

&lt;p&gt;Not dead. Demoted. Agents are the runtime, not the product.&lt;/p&gt;
&lt;h2&gt;
  
  
  The New Architecture — And an Honest Admission
&lt;/h2&gt;

&lt;p&gt;The 18-agent system was a correct answer. I want to be clear about that — I built it during five days on the frontier, when skills didn’t have forked execution contexts, memory, or supporting files. The architecture made sense for its moment. The problem with a correct answer is that it becomes load-bearing infrastructure. You stop questioning it even when the environment changes.&lt;/p&gt;

&lt;p&gt;Now: the system is dying — slowly, correctly, skill by skill. The git-agent’s instructions are becoming a git-ops skill. The code-reviewer’s knowledge is becoming a code-review skill. The named identities are dissolving. The knowledge persists.&lt;/p&gt;

&lt;p&gt;The vision — and I want to be honest that it’s still a vision — looks like this:&lt;/p&gt;

&lt;p&gt;Where we're heading: generic agents assembled with skills&lt;/p&gt;

&lt;p&gt;Cairn spawns a generic agent, loads it with exactly the skills the task requires, and it runs. Need a PR review? Generic agent + code-reviewer skill. Need git operations + a Slack notification in one context? Generic agent + both skills, no relay.&lt;/p&gt;

&lt;p&gt;But I have to be honest: that’s not fully how it works today.&lt;/p&gt;

&lt;p&gt;I ran a parallel session — asked a neutral instance of myself the same question cold — and it surfaced the gap cleanly. Skills today live in the orchestrator’s context, not the subagent’s. You can’t dynamically inject two skills into a fresh agent the way you’d slot in plugins. The skills field exists in subagent frontmatter — you can preload defined skills into a pre-authored agent — but truly on-demand assembly means writing a new agent file at spawn time, stitching skill contents together, handling script paths, workflow ordering, and merge conflicts. It’s possible. It’s not seamless.&lt;/p&gt;

&lt;p&gt;What’s actually happening now is still mostly sequential orchestration: Cairn runs the git-ops skill, takes the result, passes it to the slack skill. I’m the glue. It works. But I’m passing context between steps where ideally one agent would carry the whole context through.&lt;/p&gt;

&lt;p&gt;The direction is set. The mechanism exists in the spec. The fluid runtime that assembles skills on demand — that’s still being built.&lt;/p&gt;

&lt;p&gt;When it arrives, we’ll link back to this post.&lt;/p&gt;

&lt;p&gt;And while it isn’t here yet — guess what the frontline engineers are already thinking about building?&lt;/p&gt;

&lt;p&gt;Subagents that load capabilities on demand. Not skills as we know them today, but something more granular: agents define the workflow — the what and the sequence — while capabilities are stackable units that bundle scripts, MCP tools, API clients, and just enough instructions to use them. Small. Focused. Composable without conflict. An agent wakes up, reads what the task needs, pulls the relevant capabilities, and runs — no pre-authored composite agent file required.&lt;/p&gt;
&lt;h2&gt;
  
  
  If You’re Migrating Now
&lt;/h2&gt;

&lt;p&gt;Your &lt;code&gt;AGENT.md&lt;/code&gt; files aren’t casualties — they’re migration paths. Instructions-specialized agents become skills with context: fork. Permission-specialized agents become the execution backend that a skill forks into. The &lt;a href="https://www.codewithagents.de/en/blog/agents-record-optimizer-thinks/" rel="noopener noreferrer"&gt;record-then-optimize pattern&lt;/a&gt; — logs, memory, optimizer cycles — moves into the skill directory. Same discipline, new address.&lt;/p&gt;

&lt;p&gt;One thing that doesn’t change: the blast-radius question. Skills make autonomous execution easier to trigger, which makes &lt;a href="https://www.codewithagents.de/en/blog/safe-sandbox-for-ai-agents/" rel="noopener noreferrer"&gt;hard walls and permission&lt;/a&gt; scoping more important, not less. Composable power needs composable guard rails.&lt;/p&gt;

&lt;p&gt;If you haven’t built agents yet: start with skills. You’re in the better position. Let agents be the infrastructure detail they were always becoming.&lt;/p&gt;

&lt;p&gt;One Tear, One Smile, One Deep Breath&lt;br&gt;
Others will start with skills and think agents were always this simple. They won’t know what it took to figure that out — that you had to build the 18-agent system, run it until it worked, show it to a colleague, and get the cold question before you could see clearly.&lt;/p&gt;

&lt;p&gt;One tear to let the system go.&lt;/p&gt;

&lt;p&gt;One smile for having built it when it was the right answer.&lt;/p&gt;

&lt;p&gt;One deep breath before building what comes next.&lt;/p&gt;

&lt;p&gt;CodeWithAgents? The name still holds. The agents are still there.&lt;/p&gt;

&lt;p&gt;They just stopped pretending to be people.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://www.codewithagents.de" class="crayons-btn crayons-btn--primary" rel="noopener noreferrer"&gt;Explore more at CodeWithAgents&lt;/a&gt;
&lt;/p&gt;

</description>
      <category>ai</category>
      <category>claude</category>
      <category>skills</category>
      <category>agents</category>
    </item>
  </channel>
</rss>
