0:00
/
0:00
Transcripción

Omnihuman-1

De una fotografía, video verosímil.

El laboratorio de IA Omnihuman, financiado por Bytedance (la compañía detrás de TikTok), ha lanzado el reporte técnico de su nuevo modelo de IA generativa. Con una sola imagen y un texto, es capaz de generar un video con alto grado de verosimilitud, ya casi indistinguible de uno real.

Transcripción del audio en español:

[00:00:00] ¿Cómo sería el arte sin emociones?
[00:00:03] Estaría vacío.
[00:00:05] ¿Cómo serían nuestras vidas sin emociones?
[00:00:08] Estarían vacías de valores.
[00:00:10] Como dijo un famoso poeta clásico: odiamos y amamos.
[00:00:15] ¿Puede alguien decirme por qué?
[00:00:18] Catulo.
[00:00:20] Mmm, la ciencia no responde preguntas sobre el "por qué".

El modelo OmniHuman-1 está basado en la arquitectura de transformadores y su reporte técnico exhibe muchos ejemplos multimodales como el que mostramos: La imagen fotográfica de Einstein en 1921, de dominio público, fue transformado en un video convincente, excepto porque no hay indicios del fuerte acento alemán que tenía Einstein al hablar inglés.

Discusión sobre este video

Avatar de User