Google, bu bahar aylarında kullanıma sunduğu Gemma 4 açık kaynaklı modelleri için performans odaklı yeni bir adım attı. Şirket, mahallî yapay zeka süreçlerini hızlandırmayı hedefleyen Multi-Token Prediction (MTP) drafter modellerini geliştiricilerin kullanımına açtı.
Bu deneysel modeller, kestirim yürütme metodu olan spekülatif kod çözme teknolojisinden yararlanıyor. Bu sayede modeller, kendi başlarına ürettikleri standart süreçlere kıyasla metin oluşturma suratlarını kıymetli ölçüde artırabiliyor.
Yerel Donanımlarda Yüksek Performans Hedefi
Gemma 4 modelleri, Google’ın gelişmiş Gemini yapay zeka teknolojisinin temelini oluşturan altyapı ile emsal bir mimariyi paylaşıyor. Gemini modelleri, Google’ın devasa bilgi merkezlerinde bulunan özel TPU çiplerinde çalışacak halde optimize edilmiş durumda.
Gemma ise kullanıcıların bu teknolojiyi kendi lokal donanımlarında, bilgilerini bulut sistemlerine aktarmadan çalıştırmalarına imkan tanıyor.
Google, Gemma 4 ile birlikte lisans siyasetinde da değişikliğe giderek Apache 2.0 lisansına geçiş yaptı. Bu yeni lisans yapısı, evvelki sürümlerde kullanılan özel lisanslara nazaran çok daha geniş bir kullanım alanı ve esneklik sunuyor.
Ancak mahallî sistemlerde çalışan modeller, kurumsal donanımların sunduğu yüksek bant genişlikli bellek (HBM) avantajına sahip değil. Bu durum, işlemcilerin parametreleri VRAM’den hesaplama ünitelerine taşırken vakit kaybetmesine ve süreç döngülerinin verimsiz kullanılmasına yol açıyor.
MTP Teknolojisi Nasıl Çalışıyor?
Geleneksel büyük lisan modelleri, token ismi verilen üniteleri otoregresif bir yapıda, yani her seferinde bir tane olacak formda üretiyor. Her bir token, içerik ne olursa olsun birebir ölçüde hesaplama gücü gerektiriyor.
MTP teknolojisi, bu noktada devreye girerek ağır modelin yükünü hafifletiyor ve daha hafif bir drafter modeli aracılığıyla spekülatif tokenlar oluşturuyor.
Gemma 4 E2B üzere yalnızca 74 milyon parametreye sahip olan bu küçük modeller, spekülatif token üretimini hızlandırmak için özel olarak optimize edildi. Drafter modelleri, ana modelin halihazırda üzerinde çalıştığı bağlamı yine hesaplamamak için ana modelle tıpkı anahtar-değer önbelleğini paylaşıyor.
Ayrıca E2B ve E4B drafter modelleri, mümkün token kümelerini daraltmak emeliyle seyrek kod çözme tekniğini kullanıyor. Bu teknikler sayesinde, NVIDIA RTX PRO 6000 üzere donanımlarda yapılan testlerde, çıktı kalitesinden ödün vermeden bekleme mühletinin yarıya indirildiği gözlemleniyor.
Sizce mahallî donanımlarda bu çeşit sürat artışları, yapay zeka kullanım alışkanlıklarımızı nasıl değiştirecek?
Mehmet Şimşek: Google ve Microsoft Türkiye’ye Gelsin
2
Youtube İzlenme Satın Al Ucuz
22919 kez okundu
3
Fujifilm X-M5 Vlogger kit kutu açılımı!
20993 kez okundu
4
TÜP BEBEK TEDAVİSİNDE YAŞANAN SON GELİŞMELER
16928 kez okundu
5
NVIDIA Studio’da yaratıcılığı destekleyen yeni uygulamalar çıkış yaptı!
12031 kez okundu
Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.