Google'ın yapay zeka departmanı olan DeepMind, yeni sesli iletişim modeli Gemini 3.1 Flash TTS'i duyurdu. Bu yenilikçi teknoloji, kullanıcıların metin tabanlı komutlar yardımıyla sohbet robotunun yanıtlarının ses tonu, sunumu ve hızını özelleştirebilmesine olanak tanıyor.
Özelleştirilebilir Ses Deneyimi
Gemini 3.1'in sunduğu gelişmiş seçenekler sayesinde kullanıcılar, istediği vurguyu ve sesi ayarlayarak daha kişisel bir deneyim elde edebiliyor. Hevesli veya bilgilendirici tonlar gibi farklı ses stilleri arasından seçim yapma imkanı bulunuyor. Ayrıca, bu modelle kullanıcılar çok çeşitli dillerdeki bölgesel aksanları da tercih edebiliyor.
Bunların yanı sıra, kullanıcıların seçim yapabileceği format şablonları mevcut; bu formatlar arasında podcastler, sesli kitap anlatımları ve dil öğretmeni gibi roller bulunuyor. Kullanıcılar ortamı tanımlayarak istediği sahneyi oluşturabilirken, bu ayarları uygulama programlama arayüzü üzerinden dışa aktarma imkanı da sunuluyor.
Daha Doğal Sesli Konuşma
Gemini 3.1 Flash TTS ile daha doğal bir ses deneyimi hedefleniyor. Şirketin açıklamasına göre bu model, Japonca’dan Almanca’ya kadar 70’in üzerinde dilde etkileyici bir performans sergileyebiliyor. Ayrıca tüm çıktılarında SynthID filigranı barındırdığı için bu modelle üretilen içerikler kolayca tanımlanabiliyor.
Sonuç olarak, Gemini 3.1 Flash TTS, metinden sese dönüştürme alanında yeni bir dönemi başlatmakta ve işletmeler ile geliştiricilere geniş bir yelpaze sunmaktadır. Kullanıcılar şu anda Google AI Studio ve Gemini API aracılığıyla bu etkileyici modelin imkanlarından yararlanabilir.