Çinli DeepSeek AI, R1 modeline insan örnekleri kullanmadan, yalnızca takviyeli öğrenme ile adım adım akıl yürütmeyi öğretti; model matematik, kodlama ve fen testlerinde önceki nesil sistemleri geride bıraktı ve AIME 2024’te yüzde 86,7 doğruluk elde etti.
YAKLAŞIMIN ÖZÜ
Geleneksel insan-etiketli öğretim yerine eğitimin tek geri bildirimi sonucun doğru olup olmadığı oldu; doğru sonuçlar ödüllendirildi, yanlış stratejiler zamanla elendi. Bu çerçeve modelin kendi çözüm stratejilerini keşfetmesine, hesaplamasını denetleme, alternatif yollar deneme ve “bekle” benzeri kontrol işaretleri üretme gibi üst-düzey davranışlar geliştirmesine izin verdi.
EĞİTİM SÜRECİ VE İNCE AYAR
R1’e zorlu matematik, kodlama ve fen problemleri takviyeli öğrenme ile sunuldu; yalnızca nihai doğruluk sinyali kullanıldı ve süreçin ileri safhalarında sınırlı insan müdahalesi yalnızca ince ayar için devreye girdi. Bu yöntem etkin stratejileri pekiştirirken modelin insan rehberliğine olan bağımlılığını azalttı.
PERFORMANS VE BULGULAR
R1, insan örnekleriyle eğitilmiş muadillerine kıyasla çeşitli kıyas testlerinde üstün performans sergiledi; en çarpıcı gösterge AIME 2024’teki yüzde 86,7 doğruluktu, bu da modelin adım adım akıl yürütmede gerçek dünya benzeri zorluklarla başa çıktığını gösteriyor.
HATALAR VE SINIRLAMALAR
Araştırmacılar dil karışmaları ve bazı basit problemlerde gereksiz karmaşıklık üretme gibi sınırlamalar tespit etti; bu sorunlar azaltıldığında otonom akıl yürütme yeteneğinin daha yetkin ve daha az insan güdümlü modellerin önünü açacağı öngörülüyor.
NE DEĞİŞİYOR?
Modele her adımı öğretmek yerine yalnızca sonuca göre ödüllendirmek, insan kaynaklı önyargıların aktarımını sınırlayabiliyor; DeepSeek’in sonuçları, akıl yürütme becerisinin geniş ölçekli insan-etiketli veri bağımlılığından kurtulabileceğine işaret ediyor ve bilimsel hesaplamadan yazılım geliştirmeye kadar daha genellenebilir yapay zeka uygulamalarının yolunu açabilir.