Omnihuman-1

Velocidad de reproducción

Compartir post

Compartir post en el momento actual

Compartir desde0:00

0:00

Transcripción

Omnihuman-1

De una fotografía, video verosímil.

feb 05, 2025

Transcripción

El laboratorio de IA Omnihuman, financiado por Bytedance (la compañía detrás de TikTok), ha lanzado el reporte técnico de su nuevo modelo de IA generativa. Con una sola imagen y un texto, es capaz de generar un video con alto grado de verosimilitud, ya casi indistinguible de uno real.

Transcripción del audio en español:

[00:00:00] ¿Cómo sería el arte sin emociones?
[00:00:03] Estaría vacío.
[00:00:05] ¿Cómo serían nuestras vidas sin emociones?
[00:00:08] Estarían vacías de valores.
[00:00:10] Como dijo un famoso poeta clásico: odiamos y amamos.
[00:00:15] ¿Puede alguien decirme por qué?
[00:00:18] Catulo.
[00:00:20] Mmm, la ciencia no responde preguntas sobre el "por qué".

El modelo OmniHuman-1 está basado en la arquitectura de transformadores y su reporte técnico exhibe muchos ejemplos multimodales como el que mostramos: La imagen fotográfica de Einstein en 1921, de dominio público, fue transformado en un video convincente, excepto porque no hay indicios del fuerte acento alemán que tenía Einstein al hablar inglés.

Omnihuman-1

Discusión sobre este video