Microsoft, yapay zeka ile görsel üretim tarafında bu kere kendi modelini öne çıkarıyor. MAI-Image-2 ismi verilen yeni metinden görsele model, Arena.ai sıralamasında kısa müddette üst sıralara yerleşirken bilhassa fotogerçekçilik ve görsel içi metin üretimiyle dikkat çekiyor.
İşin dikkat çeken yanı sırf manzara kalitesi değil. Microsoft’un daha evvel Copilot ve Bing Image Creator tarafında dış ortakların modellerinden yararlanması, bu hamleyi eser stratejisi açısından da değerli hale getiriyor. Yeniden de birinci tablo kusursuz değil. Sıkı içerik filtreleri, kullanım sonları ve eksik düzenleme araçları modelin önüne şimdiden kimi sonlar koyuyor.
10 Saniyede Özet
MAI-Image-2, Microsoft’un kendi geliştirdiği yeni metinden görsele üretim modeli olarak kullanıma açıldı.
Model, gerçekçilik ve görsel içi metin üretiminde güçlü sonuçlar veriyor.
1:1 çıktı mecburiliği, üretim kotası ve düzenleme araçlarının eksikliği kullanım alanını daraltıyor.
MAI-Image-2 şu anda MAI Playground üzerinden erişilebiliyor. Copilot ve Bing Image Creator tarafında kademeli dağıtım sürerken, API erişimi de şimdilik seçili kurumsal müşterilerle hudutlu tutuluyor. Daha geniş erişimin ilerleyen periyotta Microsoft Foundry üzerinden açılması planlanıyor.

Modelin geliştirme tarafında öne çıkarılan üç temel maksat var: daha güçlü fotogerçekçilik, görsel içindeki metinleri daha dengeli üretebilme ve daha detaylı sahneler kurabilme. Zati metinden görsele sistemlerde yarış da büyük ölçüde bu başlıklarda dönüyor. Sırf hoş görünen bir sonuç üretmek yetmiyor, komutu ne kadar hakikat anladığı, metni ne kadar pak yazdığı ve görsel tertibi ne kadar sağlam kurduğu da artık en az kalite kadar değerli.
Fotogerçekçilik ve metin üretimi öne çıkıyor
İlk izlenim tarafında modelin en güçlü olduğu alan fotogerçekçilik. Doğal ışık kullanımı, yüzey dokuları ve objeler ortasındaki mekansal alaka üzere noktalarda güçlü bir performans sergilediği aktarılıyor. Karmaşık ve mantık sonlarını zorlayan sahnelerde bile vücut oranları, uzuv pozisyonları, derinlik hissi ve sahne yerleşimi üzere ayrıntıları dengeli biçimde koruyabildiği belirtiliyor.



Bir başka güçlü taraf ise görsel içi metin üretimi. Posterler, tabelalar ve büyük metin blokları içeren dizaynlarda, misal araçlarda sık görülen bozulmaların burada daha sonlu kaldığı söz ediliyor. Çok lisanlı denemelerde kimi Çince hanzi karakterlerinin de üretilebildiği, fakat doğruluğun kusursuz olmadığı belirtiliyor. Buna karşın, tipografi tarafındaki bu düzey bile modeli birçok kullanım senaryosunda daha dikkat cazip hale getiriyor.
Stil geçişlerinde de benzeri bir tablo var. Fotogerçekçi karelerden grafik tasarım estetiğine, oradan illüstratif şekle geçerken komutları dikkatle takip edebildiği ve farklı görsel lisanlar ortasında daha az sürtünmeyle hareket ettiği söyleniyor. Bilhassa tek modelle farklı üretim stillerini denemek isteyen kullanıcılar için bu esneklik kıymetli.
Kullanım tarafında tablo o kadar parlak değil
Teknik güç tarafı dikkat çekse de eser tecrübesi şimdilik daha hudutlu görünüyor. Model hayli sıkı filtrelerle çalışıyor. Verilen örneklerden birinde bir örümceğin bir bayanı kovaladığı çizgi fotoğraf isteğinin bile reddedildiği aktarılıyor. Bu da sadece şiddet yahut açık içerik üzere bariz alanlarda değil, daha gri kabul edilen yaratıcı taleplerde de sistemin erken fren yapabildiğini gösteriyor.

Kullanım sonları da misal ölçüde katı. Her üretimden sonra 30 saniyelik bekleme müddeti var. 15 görselin akabinde ise 24 saatlik erişim kilidi devreye giriyor. Kısa denemeler için bu yapı tolere edilebilir görünse de nizamlı üretim yapan, çok sayıda varyasyon deneyen ya da iş akışını sürat üzerine kuran kullanıcılar için önemli bir fren manasına geliyor.
1:1 oran ve eksik düzenleme araçları dikkat çekiyor
Şimdilik sadece 1:1 oranında çıktı alınabilmesi, modelin en bariz eksiklerinden biri. Yatay ya da dikey format sunulmaması, bilhassa toplumsal medya, kapak görselleri ve farklı yayın formatları için üretim yapan kullanıcıları direkt etkiliyor. Yeni üretken görsel araçlarında artık kalite kadar oran seçenekleri de temel beklenti haline gelmiş durumda.
Bunun yanında sistem sırf text-to-image olarak çalışıyor. Image-to-image dayanağı yok. Inpainting, outpainting ve referans görsel takviyesi de bulunmuyor. Bu da aracı fikir üretimi ve birinci görsel oluşturma için kullanışlı kılsa da düzenleme, revizyon ve yaratıcı denetim tarafında rakiplerinin sunduğu daha geniş araç setinin gerisinde bırakıyor.
Bir diğer kıymetli nokta da modelin Copilot içinde şimdi tam olarak yer almıyor olması. Dağıtım süreci başlamış olsa da, kullanıcıların bu teknolojiyi en görünür halde karşısında görmeyi beklediği eserlerde tecrübe şimdi tam oturmuş değil. Bu nedenle MAI-Image-2 şu evrede güçlü bir teknik temel sunuyor, lakin günlük kullanım kıymeti tarafında birebir ölçüde ikna edici bir tablo çizmiyor.
Microsoft’un burada verdiği asıl bildiri, görsel üretimde artık sadece dış ortakların teknolojisine yaslanmak istememesi. MAI-Image-2’nin güçlü istikametleri bunu teknik olarak destekliyor. Ama bu alanda artık sadece model kalitesi değil, kullanım özgürlüğü ve iş akışına ahenk da en az sonuç kalitesi kadar belirleyici hale gelmiş durumda.
Ubisoft, Bir Stüdyonun Daha Fişini Çekiyor
2
Youtube İzlenme Satın Al Ucuz
22894 kez okundu
3
Fujifilm X-M5 Vlogger kit kutu açılımı!
20984 kez okundu
4
TÜP BEBEK TEDAVİSİNDE YAŞANAN SON GELİŞMELER
16914 kez okundu
5
NVIDIA Studio’da yaratıcılığı destekleyen yeni uygulamalar çıkış yaptı!
12022 kez okundu
Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.