
Dalam persekitaran yang kompleks, manusia dapat memahami makna ucapan lebih baik daripada AI, kerana kita tidak hanya menggunakan telinga kita tetapi mata kita juga.
Sebagai contoh, kita melihat mulut seseorang bergerak dan secara intuitif tahu bahawa bunyi yang kita dengar mesti datang dari orang itu.
Meta AI sedang mengusahakan sistem dialog AI yang baru, yang mengajar AI juga belajar mengenali korelasi yang halus antara apa yang dilihat dan didengar dalam perbualan.
VisualVoice belajar dengan cara yang sama dengan bagaimana manusia belajar menguasai kemahiran baru, membolehkan pemisahan ucapan audio-visual dengan mempelajari isyarat visual dan pendengaran dari video yang tidak berlabel.
Untuk mesin, ini mewujudkan persepsi yang lebih baik, sementara persepsi manusia bertambah baik.
Bayangkan dapat mengambil bahagian dalam mesyuarat kumpulan di Metaverse dengan rakan -rakan dari seluruh dunia, menyertai mesyuarat kumpulan yang lebih kecil ketika mereka bergerak melalui ruang maya, di mana bunyi reverbs dan timbres di tempat kejadian mengikut alam sekitar menyesuaikan dengan sewajarnya.
Iaitu, ia boleh mendapatkan maklumat audio, video dan teks pada masa yang sama, dan mempunyai model pemahaman alam sekitar yang lebih kaya, yang membolehkan pengguna mempunyai pengalaman "sangat wow".
Masa Post: Jul-20-2022