Columbia Engineering’den araştırmacılar, bir robot yüzünün dudak hareketlerini ayna karşısında kendini izleyerek ve insan konuşma/ses videolarını inceleyerek öğrenmesini sağladı. Robot, 26 ayrı yüz motorunu keşfederek hangi hareketlerin hangi yüz şekillerini ürettiğini öğrendi, sonra YouTube videolarındaki ağız hareketleriyle sesi eşleştirmeyi öğrendi. Bilimsel makale Science Robotics’de yayımlandı; ekip sistemin birden fazla dilde konuşma ve şarkı söyleme sırasında dudakları zamanlamaya çalıştığını, ama bazı zor ünsüzlerde hâlâ sorunlar olduğunu belirtiyor. Araştırmacılar bu yaklaşımın insansı robotların insanlarla daha doğal iletişim kurmasında önemli bir adım olabileceğini söylüyor.
Columbia Engineering ekibi, insansı robotlarda dudak hareketlerinin doğallığını artırmaya yönelik önemli bir adım attı. Araştırmacılar, fiziksel olarak esnek bir yüz ve 26 ayrı küçük motor kullanarak robotun kendi yüzünü ayna karşısında keşfetmesine izin verdi. Bu keşif aşaması robotun hangi motor kombinasyonlarının belirli yüz şekillerini oluşturduğunu öğrenmesini sağladı; yöntem Science Robotics dergisinde yayımlanan çalışmada ayrıntılandırıldı.
Robotun öğrenme süreci iki aşamalıydı: önce kendi yüzünü rastgele ifadeler üreterek deneyimledi ve hangi hareketlerin hangi görünümleri verdiğini öğrendi; sonra saatlerce insan konuşma ve şarkı videoları izleyerek, işittiği seslere karşılık gelen ağız şekillerini eşleştirdi. Araştırmacılar bu yaklaşımı “vision-to-action language model (VLA)” olarak tanımlıyor; kısa ifadeyle, görsel girdiyi eyleme çeviren bir model olarak çalışıyor. Donanımda sessiz ve eşzamanlı çalışabilen çok sayıda motor ile yumuşak yüz gereksinimi öne çıktı.
Denemelerde robot, birden fazla dilde kelime oluştururken dudak hareketlerini sesle büyük ölçüde senkronize edebildi; hatta grup, robotun AI tarafından üretilen debut albümü “hello world_”dan bir şarkıyı sahneleyebildiğini not ediyor. Araştırmacılar bazı zorluklara da işaret ediyor: “B” gibi sert ünsüzlerde ve dudak büzülmesini gerektiren “W” seslerinde hâlâ sıkıntılar yaşanıyor, ancak bu yeteneklerin pratikle gelişeceği öngörülüyor. Yuhang Hu ve Hod Lipson, sistemin düz yazılı kurallar yerine gözlem yoluyla öğrenmesinin önemini vurguluyor.
Ekip, dudak senkronizasyonunun tek başına yeterli olmadığını, fakat insansı yüz ifadelerinin robot-insan etkileşimlerinde eksik kalan büyük bir kanal olduğunu belirtiyor. Araştırmanın olası uygulamaları arasında eğlence, eğitim, sağlık ve yaşlı bakımı sayılıyor; aynı zamanda ekip etik ve kötüye kullanım risklerine dikkat çekiyor ve bu teknolojinin dikkatle, sorumlu biçimde gelişmesi gerektiğini vurguluyor. İlgili materyaller ve video için kaynaklara bakabilirsiniz.

Bir Cevap Bırakın