Dalam persekitaran yang kompleks, manusia boleh memahami maksud pertuturan lebih baik daripada AI, kerana kita bukan sahaja menggunakan telinga tetapi juga mata.
Sebagai contoh, kita melihat mulut seseorang bergerak dan mungkin secara intuitif mengetahui bahawa bunyi yang kita dengar mesti datang daripada orang itu.
Meta AI sedang mengusahakan sistem dialog AI baharu, iaitu untuk mengajar AI untuk turut belajar mengenali korelasi halus antara perkara yang dilihat dan didengari dalam perbualan.
VisualVoice belajar dengan cara yang sama seperti cara manusia belajar menguasai kemahiran baharu, membolehkan pemisahan pertuturan audio-visual dengan mempelajari isyarat visual dan pendengaran daripada video tidak berlabel.
Untuk mesin, ini mewujudkan persepsi yang lebih baik, manakala persepsi manusia bertambah baik.
Bayangkan anda boleh mengambil bahagian dalam mesyuarat kumpulan dalam metaverse dengan rakan sekerja dari seluruh dunia, menyertai mesyuarat kumpulan yang lebih kecil semasa mereka bergerak melalui ruang maya, di mana reverb dan timbres bunyi dalam adegan melakukan mengikut persekitaran Laraskan sewajarnya.
Iaitu, ia boleh mendapatkan maklumat audio, video dan teks pada masa yang sama, dan mempunyai model pemahaman alam sekitar yang lebih kaya, membolehkan pengguna mempunyai pengalaman bunyi yang "sangat wow".
Masa siaran: Jul-20-2022