Forem: İbrahim Hakkı Ergin

Claude's C Compiler : Neyi Başardı ve Neyi Başaramadı?

İbrahim Hakkı Ergin — Thu, 12 Feb 2026 23:54:18 +0000

Geçen hafta Anthropic bir makale yayınladı ve bir sürü insan bunun hakkında konuştu. "Yazılımcılık bitti Claude artık C compiler bile yazıyor", "AI en zor işi bile yaptı artık çalışmanın manası yok" gibi bağlamlarda sıklıkla kullanıldı ama aslında Claude tam olarak ne yapabildi ve neleri yapamadı bunun hakkında pek konuşulmuyor.

En başından hakkını verelim çünkü zaten herkes neyi başardı konusunda oldukça fazla konuşuyor, biz neyi başaramadığı hakkında konuşalım ki dengeyi sağlayabilmiş olalım. Otonom yazılım geliştirme, paralel ajanların (agent) birlikte koordine çalışması gibi konularda güzel bir deney. Tabii ki şunu unutmamamız lazım ki aynı zamanda bu bir reklam çalışması :). Yine de yayınladıkları yazıda neyi yapamadıklarını açıkça belirtmeleri güzel bir hareket.

Burada adım adım nelerin yapıldığını anlatmama gerek yok bunu orijinal kaynaktan okuyabilirsiniz zaten.

Süre, Maliyet ve Bazı Başka Bilgiler

Claude bu C compiler'ını yaklaşık 2 haftalık bir sürede yazmış. Yaklaşık 2000 Claude oturumuyla 2 milyar giriş tokeni harcayarak 140 milyon çıkış tokeni üretmiş. Bu projenin yaklaşık API masrafları ise 20.000 dolar seviyesinde.

İnternet erişimi olmadan ve sadece Rust standart kütüphaneleriyle yani bağımlılık kullanmadan geliştirildiği söyleniyor. Ama ileride değineceğimiz üzere burada bazı pürüzler olacak.

Overfit

Claude bu hataya gerek henüz geliştirme sürecindeyken gerekse de önümüze çıkan son versiyonda sıklıkla düşmüş. Overfit, testlere ve güncel case'lere aşırı uyumlu olmaya denir. Yani elinizdeki veriler için algoritmanız aşırı uyumlu çalışıyordur lakin durum biraz değişince sıkıntılar çıkmaya başlar. Claude bu hataya kendi testlerinde düşüyor. Testlerden %99 başarı oranıyla çıktıktan sonra bazı open source projeleri derlemeyi deniyorlar ve bunlarda da gayet başarılı oluyor (SQlite, Redis, libjpeg, MQuickJS, Lua gibi).

Lakin durum Linux kernelini derlemeye gelince işin içinden çıkılmaz bir hale geliyor. Özellikle paralel olarak çalışmanın burada bir işe yaramadığı anlaşılıyor çünkü tüm ajanlar aynı sorunun üzerine çalışıp hepsi birbirinin kodunun üzerine kod yazıyorlardı.

Burada otonomluk ve kaynak kullanmadan yazılma durumunun dışına çıkarak Claude'a GCC kullanabilme yetkisi veriliyor. Linux kernelinin büyük bir kısmını GCC'yle derleyip geri kalan ufak kısımlarını CCC(Claude's C Compiler) ile derliyorlar. Böylece ufak parçalara bölerek sorunlar çözülüyor sonuç olarak Linux kernelini derleyebilen bir compiler yapabilmiş oluyorlar.

Lakin hâlâ Claude tarafında büyük sorunlar var. Sürekli stabil çalışan, hatasız kodlar üzerinden geliştirilen ve testleri de buna göre yapılan CCC, compile error vermesi gereken yerlerde compile error veremiyor.

Örneğin :

#include <stdio.h>
int square(int num) {
    return "dsadsa";
}

int main()
{
    printf("output : %s", square(5));
    return (0);
}

Gördüğünüz gibi bu örnekteki kodda square fonksiyonunun imzasında int türünde bir değer döndürüleceği bilgisi var. Ama biz int türünde değil de string bir veri verdiğimiz zaman da hiçbir hata vermeden kodu derliyor. Bu hata yeni başlayan bir geliştiricinin dahi ilk görüşte compile error diyeceği bir hata iken CCC çalıştığı kodların çok düzgün olmasından dolayı kötü yazılmış kodda tam olarak ne yapması gerektiğini bilmiyor.

Otonomluk ve Bazı Sorunlar

Öncelikle bu neredeyse tamamen otonom mu gerçekten buna değinmemiz gerekiyor. Aşağıdaki bazı durumlarda bu otonomluk bozuluyor.

Örneğin çeşitli kısıtlamalardan dolayı ajanlar uzun süre çalışamıyorlar ve duruyorlar. Buna çözüm olarak bir bash script (while true) yazılmış böylece ajanın elle durdurulmadığı sürece sürekli olarak tekrar başlaması sağlanmış. İronik olarak Claude bir işlem yaparken pkill -9 bash komutuyla kendini de kapatmış :).

Overfit başlığında bahsettiğim üzere Linux kernelinde ortaya çıkan takılma durumunda bir oracle (çalıştığı bilinen bir referans noktası) olarak GCC'yi kullanıp karşılaştırma yapma işini bir insan kurgulamış.

Test süreçleri tamamen insan tarafından kurgulanıyor ve bu testler başta verilip sonra dokunmayarak değil takıldığı noktalarda müdahaleler ederek yapılmış.

Makaleden anladığım kadarıyla bir orkestrasyon ajanı kullanılmamış onun yerine her ajana yapılması gereken görev insan tarafından belirlenmiş.

Ajanların aynı anda bir dosyanın üzerine yazamaması için bir dosya kilitleme mantığı kullanılmış. Yani aralarında gerçek bir takım çalışması yapmak yerine bir zorlama ile bu belirlenmiş.

CCC'nin limitleri

Linux'u real mode'dan çıkarmak için gerekli olan 16 bit x86 derleyicisinden yoksundur. Bunu GCC'den sağlıyor (x86_32 ve x86_64 derleyicileri kendisine aittir).

Kendi assembler ve linker'ı yoktur; bunlar Claude'un yapmaya başladığı son parçalar ve hala sorunlu.

Çoğu projeyi derlese de hepsini derleyemiyor. Gerçek bir derleyici olmaktan uzak.

Ürettiği kod hiç verimli değil. CCC tüm optimizasyon seçenekleri açıkken GCC'nin tüm optimizasyonları kapalı halinden bile daha verimsiz kod üretiyor.

Rust kodlarının kalitesi makul olsa da (internetteki bazı Rust geliştiricileri böyle düşünmüyor.) uzman bir Rust programcısının üretebileceği kalitenin yakınında bile değil.

C Compiler'ı yazmak büyük bir başarı mı?

Günümüzde yapay zekaların geldiği noktaya baktığımız zaman bu gerçekten şaşırtıcı sayılabilir çünkü bundan sadece birkaç yıl önce bunun olabileceğini düşünemiyorduk.

Lakin bu konularda yetkin çoğu kişiye göre Claude'un yaptığı iş büyük olsa da C dilinin sade yapısı, büyük bir oracle'a sahip olması (clang, gcc) gibi noktalardan dolayı aslında bir C compiler'ı yapmak o kadar da büyük bir iş olmayabilir. Özellikle de çeşitli noktalarda direkt olarak GCC'yi referans olarak alıyor ve karşılaştırma yapıyor.

Yapay zeka modellerinin eğitim verilerinde GCC ve Clang kaynak kodlarının, dokümantasyonlarının ve bu derleyicilerle ilgili milyonlarca StackOverflow tartışmasının yer aldığını unutmamak gerek. Elinizde çözümün kendisi bu kadar devasa bir veri seti olarak duruyorken, aynı işi yapan yeni bir kod üretmek, sıfırdan bilinmeyen bir problemi çözmekten çok daha kolaydır.

Değerli vaktinizi bu yazıyı okumak için harcadığınız için teşekkür ederim, umarım hak etmişimdir.

Kaynaklar

Anthropic'in makalesi

Claude's C Compiler kaynak kodları

Compiler Explorer

r/programming konu hakkında post

Hafif Programming | Paralel Claude’larla C derleyicisi geliştirildi - GenAI tartışmaları yüzeysel mi kalıyor?

LLM’in Düşüncesini İzlemek

İbrahim Hakkı Ergin — Sun, 14 Dec 2025 16:25:06 +0000

Temelde Büyük Dil Modelleri(LLM) Nasıl Çalışır?

Büyük Dil Modelleri (LLM), insanlar tarafından tek tek kodlanmak yerine devasa veri setleri, y"ani internetteki metinler, kitaplar gibi kaynaklardan alınan bilgilerle eğitiliyor. Bu eğitim süreci, LLM'lerin kelimelerin birbirleriyle ilişkisini ve cümle yapısını öğrenmesini sağlıyor. Bu modeller öğrendikleri verileri parçacıklara(token) ayırır ve bir çıktı üretirken de bu parçacıkları kullanır. Yani bir LLM, yazdığı bir kelimeden sonra hangi kelimenin geleceğini eğitildiği veri setindeki parçacık ihtimallerini hesaba katarak tahmin eder.

Yaptığı tahminler sonrasında doğru çıktıyı verip vermediğini de geri bildirimler yoluyla öğrenir ve karşılaştıkları problemlere karşı kendi stratejisini geliştirir. Büyük dil modellerinde bu stratejileri kavramak ve anlamlandırmak ise çok zordur.

Anthropic : This means that we don’t understand how models do most of the things they do.

Bu, modellerin yaptıkları şeylerin çoğunu nasıl yaptığını anlamadığımız anlamına gelir

LLM'ler Nasıl Düşünür?

Yola bazı sorularla çıkalım:

LLM'ler bir sürü dil konuşabiliyorlar. Peki hangi dilde düşünüyorlar?
LLM'ler kelimeleri yazarken sadece bir sonraki kelimeye mi odaklanıyorlar yoksa cümleleri sonuna kadar planlayarak mı yazıyorlar?
Düşünebilen modeller gerçekten düşündüğü adımları mı bize sunuyor yoksa bazen ürettiği yanlış çıktıya sebep mi uyduruyor?
Anthropic bu sorulara firmalarının ürettiği Claude 3.5 Haiku modeli üzerinde bir nevi bir "A*I mikroskopu"* ile çalışarak cevap aramış.

LLM'lerin Çoklu Dil Gizemi

LLM'ler bir sürü dil konuşuyorlar ama her dilde konuşmaları için bir bilgiyi her dilde öğrenmiş olmaları mı gerekiyor? Arka planda hangi dili kullanıyor?
Bunu anlamak için **Claude **modeline "küçük kelimesinin zıttı" farklı dillerde soruluyor ve inceleniyor.
Bu araştırmada olarak tüm dillerde "küçük" kelimesinin zıttını bulurken aynı temel özelliklerin harekete geçtiğini ve çıktıyı üretirken "büyük" kelimesini sorunun diline çevirdiği fark ediliyor. Bu sonuç ise kavramların evrensel olarak anlamlarını öğrendiğini ve belirli bir dile çevirmeden önce soyut bir alanda düşündüğüne dair bir kanıt sağlıyor. Yani bu araştırmaya göre LLM'ler bir dilde bir şeyi öğrendiğinde bu bilgiyi başka dilde konuşurken uygulayabilir.

LLM'lerin Cümle Yapısı

LLM'lerin cümle kurarken sadece bir sonraki kelimeyi mi planladığını yoksa bir cümlenin tamamını planlayarak mı yazdığını anlamak için kafiyeli şekilde bir şiir yazması isteniyor ve inceleniyor.
Test edilen durum satırları yazarken kafiyeleri önceden planlayarak mı yoksa her satırın sonuna geldiğinde oraya uygun bir kafiye mi bulduğunu deniyor. İki Satırlık ve kafiyeli bir şiir yazdırılıyor:

He saw a carrot and had to grab it,
His hunger was like a starving rabbit

Bu kısımda fark etmemiz gereken ilk satırda "Bir havuç gördü ve kapması gerekti" cümlesini yazdıktan sonra anlamsal olarak bunu tamamlamak için ikinci satırda bunun gerekçesini ifade eden bir cümle yazıyor : "Açlığı aç bir tavşan gibiydi".
Bu çıktılar üzerine yapılan deneyler Claude'un önceden planlama yaptığını gösterdi. İkinci satıra başlamadan önce, "grab it" ile kafiyeli olabilecek ve konuyla ilgili potansiyel kelimeleri düşünmeye başladığı bulundu. Ardından, bu planları akılda tutarak, planlanan kelimeyle bitecek bir satır yazdığı anlaşıldı.
Daha sonrasında "Rabbit" kavramını temsil eden kısmı değiştirerek tekrar yazması isteniyor ve yine konuyla bağlantıyı koparmadan olabilecek mantıklı ve kafiyeli kelime ve yeni bir cümle hesaplayarak "habit" kelimesini seçiyor.

En son ise kafiyeli olmayan bir "green" kavramı modele dikte ediliyor. Burada da cümleyi değiştirerek yine ilk cümleyi anlamsal olarak tamamlamak ve gerekçelendirecek şekilde bir cümle yazıyor.

Kısaca Claude'un kafiye yaparken satır sonuna kadar beklemediğini, aksine kafiyeli kelimeleri ve anlamlı yapıyı önceden planladığını ve bu planları değiştirebildiğini gösteren deneyleri anlatıyor.

LLM'ler ve Matematik

LLM'ler metinler üzerine eğitilmiştir bir hesap makinesi gibi çalışmazlar. Yazının başında bahsedildiği gibi kelime tahmin etme üzerine olan bir algoritma mesela bir toplama işlemini nasıl düşünebilir?
Anthropic'in araştırmasına göre Claude bir toplama işlemi için paralel birden fazla metodu kullanıp bunları eşleştiriyor. Mesela bir yol olarak yaklaşık toplam yapıyor ve son haneyi belirliyor diğer yollarla diğer haneleri vs. paralel birden fazla yol kullanıp bunları birleştirerek sonuca varıyor. Tabii ki burada olay toplama değil ama bir LLM'in matematiksel konularda nasıl bir strateji izlediğini, nasıl düşündüğünü anlamak için önemli bir nokta olabilir.
İşin ilginç yani yaptığı toplama işlemini **Claude'a **sordukları zaman ise klasik alt alta toplama işlemini anlatıyor. Halbuki araştırmayı yapanlar arka planda böyle çalışmadığını anlamıştı. Büyük ihtimal insanların birbirlerine bu şekilde anlattığını eğitildiği veri setinde biliyor olmasından dolayı böyle anlatıyor. Ama kendisinin bizzat bu yöntemi kullanmıyor olması ilginç.

LLM'lerin Düşünme Adımları

Bildiğimiz üzere çoğu dil modeli artık sesli bir şekilde düşünebiliyorlar ( Deepseek R1, Claude 3.7 Sonnet, QwQ, Gemini 2.5 gibi ) peki gerçekten arka planda olan düşünme adımlarını mı görüyoruz yoksa verdikleri cevapları onaylayacak şekilde bir düşünme aşaması mı üretiyorlar?
Anthropic'inaraştırmasına göre Claude **bazen varmak istediği çıktıya varabilmek için düşünme adımları uyduruyor. Buradaki en büyük sıkıntı ise bu sahte akıl yürütmelerin normal bir yapay zeka halüsinasyonından bile daha inandırıcı olması.
**Claude'a kolay bir şekilde hesaplayamayacağı bir matematik problemi verildiğinde cevabın doğru veya yanlış olmasına bakmaksızın bir cevap veriyor. Aynı zamanda da hesaplamaları yaptığını iddia eden düşünme yollarını da üretiyor.Anthropic'in bu yazı boyu bahsettiğimiz yorumlanabilirlik yöntemi bu hesaplamaları aslında hiç yapmadığını gösteriyor.