Google, yapay zekâ alanındaki en son yeniliğini duyurdu; Gemini 3 Flash’ın Agentic Vision yeteneği. Bu özellik, görsel anlamayı klasik “tek bakışta yorumlama” yaklaşımından çıkararak, adım adım ilerleyen ve kod yürütme ile desteklenen dinamik bir sürece dönüştürüyor.
STATİK GÖRMEDEN AJANSAL SÜRECE GEÇİŞ
Geleneksel modeller, bir görüntüyü tek seferde işleyip yorumlarken, küçük ayrıntıları kaçırabiliyor. Örneğin bir mikroçip üzerindeki seri numarası ya da uzaktaki bir sokak levhası gözden kaçtığında, model tahmin yapmak zorunda kalıyordu. Agentic Vision ise bu eksikliği kapatıyor: Görüntüleri parçalara ayırıyor, yakınlaştırıyor, analiz ediyor ve Python kodu çalıştırarak görseli yeniden işliyor. Böylece yanıtlarını doğrudan görsel kanıtlara dayandırıyor.
“DÜŞÜN – HAREKETE GEÇ– GÖZLEMLE” DÖNGÜSÜ
Agentic Vision’ın çalışma prensibi üç aşamalı bir döngüye dayanıyor:
- Düşün: Model, kullanıcı sorgusunu ve görüntüyü analiz ederek çok adımlı bir plan oluşturuyor.
- Harekete Geç: Python kodu üreterek görüntüyü işliyor, çizimler yapıyor veya verileri ayrıştırıyor.
- Gözlemle: İşlenmiş görseli bağlam penceresine ekleyerek nihai yanıtı daha doğru bir şekilde oluşturuyor.
Bu süreç sayesinde Gemini 3 Flash, görsel görevlerde %5 ila %10 arasında kalite artışı sağlıyor.
YENİ NESİL GÖRSEL YETKİNLİKLER
Agentic Vision’ın öne çıkan özellikleri:
- Görsellere zoom yapabilme
- Bir elin parmaklarını sayabilme
- Karmaşık tabloları ayrıştırıp Python ile görselleştirme
- Görsel üzerinde doğrudan çizim yaparak mantığını açıklama
- Aritmetik hesaplamaları görsel bağlamda gerçekleştirme
GELİŞTİRİCİLERE AÇILAN KAPI
Bu yetenek, Google AI Studio ve Vertex AI üzerinden geliştiricilere sunuluyor. Böylece uygulama geliştiriciler, Gemini API aracılığıyla Agentic Vision’ı kendi projelerine entegre edebilecek.
Özetle; Gemini 3 Flash’ın Agentic Vision özelliği, yapay zekâya görsel muhakeme konusunda yepyeni bir boyut kazandırıyor. Artık modeller sadece “görmekle” kalmıyor, gördüklerini işliyor, analiz ediyor ve mantığını kodla destekleyerek açıklayabiliyor. Bu da yapay zekâ destekli görsel görevlerde daha güvenilir ve kanıta dayalı sonuçlar anlamına geliyor.