YAPAY ZEKA

Gemini 3 Flash Görseli “Adım Adım” Okuyor: Peki Nasıl?

Techlosure 29 Ocak 2026

Gemini 3 Flash Görseli “Adım Adım” Okuyor: Peki Nasıl?

Google, yapay zekâ alanındaki en son yeniliğini duyurdu; Gemini 3 Flash’ın Agentic Vision yeteneği. Bu özellik, görsel anlamayı klasik “tek bakışta yorumlama” yaklaşımından çıkararak, adım adım ilerleyen ve kod yürütme ile desteklenen dinamik bir sürece dönüştürüyor.

STATİK GÖRMEDEN AJANSAL SÜRECE GEÇİŞ

Geleneksel modeller, bir görüntüyü tek seferde işleyip yorumlarken, küçük ayrıntıları kaçırabiliyor. Örneğin bir mikroçip üzerindeki seri numarası ya da uzaktaki bir sokak levhası gözden kaçtığında, model tahmin yapmak zorunda kalıyordu. Agentic Vision ise bu eksikliği kapatıyor: Görüntüleri parçalara ayırıyor, yakınlaştırıyor, analiz ediyor ve Python kodu çalıştırarak görseli yeniden işliyor. Böylece yanıtlarını doğrudan görsel kanıtlara dayandırıyor.

“DÜŞÜN – HAREKETE GEÇ– GÖZLEMLE” DÖNGÜSÜ

Agentic Vision’ın çalışma prensibi üç aşamalı bir döngüye dayanıyor:

Düşün: Model, kullanıcı sorgusunu ve görüntüyü analiz ederek çok adımlı bir plan oluşturuyor.
Harekete Geç: Python kodu üreterek görüntüyü işliyor, çizimler yapıyor veya verileri ayrıştırıyor.
Gözlemle: İşlenmiş görseli bağlam penceresine ekleyerek nihai yanıtı daha doğru bir şekilde oluşturuyor.

Bu süreç sayesinde Gemini 3 Flash, görsel görevlerde %5 ila %10 arasında kalite artışı sağlıyor.

YENİ NESİL GÖRSEL YETKİNLİKLER

Agentic Vision’ın öne çıkan özellikleri:

Görsellere zoom yapabilme
Bir elin parmaklarını sayabilme
Karmaşık tabloları ayrıştırıp Python ile görselleştirme
Görsel üzerinde doğrudan çizim yaparak mantığını açıklama
Aritmetik hesaplamaları görsel bağlamda gerçekleştirme

GELİŞTİRİCİLERE AÇILAN KAPI

Bu yetenek, Google AI Studio ve Vertex AI üzerinden geliştiricilere sunuluyor. Böylece uygulama geliştiriciler, Gemini API aracılığıyla Agentic Vision’ı kendi projelerine entegre edebilecek.

Özetle; Gemini 3 Flash’ın Agentic Vision özelliği, yapay zekâya görsel muhakeme konusunda yepyeni bir boyut kazandırıyor. Artık modeller sadece “görmekle” kalmıyor, gördüklerini işliyor, analiz ediyor ve mantığını kodla destekleyerek açıklayabiliyor. Bu da yapay zekâ destekli görsel görevlerde daha güvenilir ve kanıta dayalı sonuçlar anlamına geliyor.