Google Gemma 4 3 Kat Hızlandı

BEĞENDİM

ABONE OL

News

Google, bu bahar aylarında kullanıma sunduğu Gemma 4 açık kaynaklı modelleri için performans odaklı yeni bir adım attı. Şirket, mahallî yapay zeka süreçlerini hızlandırmayı hedefleyen Multi-Token Prediction (MTP) drafter modellerini geliştiricilerin kullanımına açtı.

Bu deneysel modeller, kestirim yürütme metodu olan spekülatif kod çözme teknolojisinden yararlanıyor. Bu sayede modeller, kendi başlarına ürettikleri standart süreçlere kıyasla metin oluşturma suratlarını kıymetli ölçüde artırabiliyor.

Yerel Donanımlarda Yüksek Performans Hedefi

Gemma 4 modelleri, Google’ın gelişmiş Gemini yapay zeka teknolojisinin temelini oluşturan altyapı ile emsal bir mimariyi paylaşıyor. Gemini modelleri, Google’ın devasa bilgi merkezlerinde bulunan özel TPU çiplerinde çalışacak halde optimize edilmiş durumda.

https://ares.shiftdelete.net/2026/05/google-gemma-4-3-kat-hizlandi-2.mp4

Gemma ise kullanıcıların bu teknolojiyi kendi lokal donanımlarında, bilgilerini bulut sistemlerine aktarmadan çalıştırmalarına imkan tanıyor.

Google, Gemma 4 ile birlikte lisans siyasetinde da değişikliğe giderek Apache 2.0 lisansına geçiş yaptı. Bu yeni lisans yapısı, evvelki sürümlerde kullanılan özel lisanslara nazaran çok daha geniş bir kullanım alanı ve esneklik sunuyor.

Ancak mahallî sistemlerde çalışan modeller, kurumsal donanımların sunduğu yüksek bant genişlikli bellek (HBM) avantajına sahip değil. Bu durum, işlemcilerin parametreleri VRAM’den hesaplama ünitelerine taşırken vakit kaybetmesine ve süreç döngülerinin verimsiz kullanılmasına yol açıyor.

MTP Teknolojisi Nasıl Çalışıyor?

Geleneksel büyük lisan modelleri, token ismi verilen üniteleri otoregresif bir yapıda, yani her seferinde bir tane olacak formda üretiyor. Her bir token, içerik ne olursa olsun birebir ölçüde hesaplama gücü gerektiriyor.

MTP teknolojisi, bu noktada devreye girerek ağır modelin yükünü hafifletiyor ve daha hafif bir drafter modeli aracılığıyla spekülatif tokenlar oluşturuyor.

Gemma 4 E2B üzere yalnızca 74 milyon parametreye sahip olan bu küçük modeller, spekülatif token üretimini hızlandırmak için özel olarak optimize edildi. Drafter modelleri, ana modelin halihazırda üzerinde çalıştığı bağlamı yine hesaplamamak için ana modelle tıpkı anahtar-değer önbelleğini paylaşıyor.

Ayrıca E2B ve E4B drafter modelleri, mümkün token kümelerini daraltmak emeliyle seyrek kod çözme tekniğini kullanıyor. Bu teknikler sayesinde, NVIDIA RTX PRO 6000 üzere donanımlarda yapılan testlerde, çıktı kalitesinden ödün vermeden bekleme mühletinin yarıya indirildiği gözlemleniyor.

Sizce mahallî donanımlarda bu çeşit sürat artışları, yapay zeka kullanım alışkanlıklarımızı nasıl değiştirecek?