En ambientes complexos, os humanos poden comprender o significado da fala mellor que a IA, porque usamos non só os nosos oídos, senón tamén os nosos ollos.
Por exemplo, vemos a boca de alguén movendo e podemos saber intuitivamente que o son que escoitamos debe vir desa persoa.
Meta AI está a traballar nun novo sistema de diálogo de IA, que consiste en ensinar a IA a aprender tamén a recoñecer correlacións sutís entre o que ve e escoita nunha conversa.
VisualVoice aprende dun xeito similar a como os humanos aprenden a dominar novas habilidades, permitindo a separación da fala audiovisuais mediante a aprendizaxe de sinais visuais e auditivas de vídeos sen etiquetas.
Para as máquinas, isto crea unha mellor percepción, mentres que a percepción humana mellora.
Imaxina poder participar en reunións de grupo no metaverso con colegas de todo o mundo, uníndose a reunións de grupos máis pequenos mentres se moven polo espazo virtual, durante as cales as reverberacións e os timbres sonoros da escena fanse segundo o ambiente Axuste en consecuencia.
É dicir, pode obter información de audio, vídeo e texto ao mesmo tempo, e ten un modelo de comprensión ambiental máis rico, o que permite aos usuarios ter unha experiencia sonora "moi impresionante".
Hora de publicación: 20-Xul-2022