OpenAI, sesli yapay zekada devrim Yaratan gpt-realtime modelini tanıttı

OpenAI, sesli yapay zeka alanında yeni bir dönemi başlatacak gpt-realtime modelini tanıttı.

OpenAI, sesli yapay zeka alanında yeni bir dönemi başlatacak gpt-realtime modelini tanıttı. Şirketin perşembe günü düzenlediği canlı yayında duyurduğu bu model, konuşmadan konuşmaya yapay zekada ulaşılan en ileri seviye olarak değerlendiriliyor.

Yeni model, insan sesine oldukça yakın tonda konuşabilmesi, duyguları yansıtabilmesi ve doğal hızda iletişim kurabilmesiyle dikkat çekiyor. Kullanıcılara çok daha gerçekçi ve insana yakın bir deneyim sunmayı hedefliyor.

gpt-realtime’ın öne çıkan özellikleri arasında karmaşık talimatları daha isabetli yerine getirmesi, çağrı merkezi senaryolarında metinleri birebir okuyabilmesi, araç çağırma gibi işlevleri daha doğru uygulaması ve konuşma sırasında farklı diller arasında akıcı geçişler yapabilmesi yer alıyor.

Bununla birlikte, yalnızca Realtime API üzerinden kullanılabilecek Cedar ve Marin isimli iki yeni ses seçeneği de geliştiricilerin erişimine açıldı. İlk olarak Ekim 2024’te beta sürümüyle tanıtılan Realtime API, yeni versiyonunda düşük gecikme, yüksek güvenilirlik ve daha kaliteli ses deneyimi vaat ediyor.

Klasik yapay zeka çözümlerinde konuşma deneyimi, ayrı ayrı çalışan speech-to-text (konuşmadan metne) ve text-to-speech (metinden konuşmaya) sistemlerinin birbirine bağlanmasıyla sağlanıyordu. Realtime API ise tüm süreci tek bir model ve tek bir API üzerinden yöneterek önemli bir fark yaratıyor.

Bu yaklaşım, hem gecikmeyi büyük ölçüde azaltıyor hem de sesin doğal tonlama ve nüanslarını koruyarak daha akıcı, insansı bir iletişim sunuyor. Ayrıca sistem; uzaktan MCP sunucusu bağlantısı, görüntü tabanlı giriş desteği ve SIP (Session Initiation Protocol) üzerinden telefon entegrasyonu gibi yeniliklerle geliyor.