
En ambientes complexos, os humanos podemos comprender o significado do discurso mellor que a IA, porque usamos non só as nosas orellas, senón tamén os nosos ollos.
Por exemplo, vemos a boca de alguén en movemento e pode saber intuitivamente que o son que escoitamos debe vir desa persoa.
Meta AI está a traballar nun novo sistema de diálogo AI, que é ensinar a AI a aprender a recoñecer correlacións sutís entre o que ve e oe nunha conversa.
VisualVoice aprende dun xeito similar a como os humanos aprenden a dominar novas habilidades, permitindo a separación de discursos audiovisuais aprendendo pistas visuais e auditivas de vídeos non etiquetados.
Para as máquinas, isto crea unha mellor percepción, mentres que a percepción humana mellora.
Imaxina poder participar en reunións en grupo en Metaverse con compañeiros de todo o mundo, uníndose a reunións de grupos máis pequenas a medida que se moven polo espazo virtual, durante a cal os reverbios sonoros e os timbres na escena se axustan segundo o medio ambiente.
É dicir, pode obter información de audio, vídeo e texto ao mesmo tempo e ten un modelo de comprensión ambiental máis rico, permitindo aos usuarios ter unha experiencia de son "moi wow".
Tempo de publicación: xul-20-2022