VOID — La IA de Netflix que Elimina Objetos de Vídeos Respetando la Física

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en una estrella para puntuarlo!

Promedio de puntuación 0 / 5. Recuento de votos: 0

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

VOID es la IA open source de Netflix para eliminar objetos de vídeos con conciencia física real. Gratis, licencia Apache 2.0, supera a Runway en el 64,8%..

Comparte este recurso:

La edición de vídeo profesional siempre ha tenido un problema incómodo: cuando eliminas un objeto de una escena, el resultado suele parecer artificial. Las herramientas tradicionales rellenan el hueco con píxeles generados, pero ignoran completamente cómo ese objeto interactuaba físicamente con su entorno. Una guitarra sigue flotando aunque hayas borrado a quien la sujetaba. Los efectos de una colisión persisten aunque hayas eliminado uno de los vehículos.

Netflix, conocida por invertir millones en sus capacidades de producción, ha decidido hacer algo distinto: publicar como código abierto su propia solución a este problema. Se llama VOID —Video Object and Interaction Deletion— y fue desarrollada junto con investigadores de la Universidad INSAIT de Sofía. Su lanzamiento en abril de 2026 representa el primer modelo de IA open source que Netflix publica, y está cambiando cómo la industria aborda la edición de vídeo con IA.

En un ecosistema donde herramientas como Runway o MiniMax Remover dominan el mercado de la eliminación de objetos en vídeo, VOID irrumpe con un enfoque completamente diferente: en lugar de limitarse a «rellenar» el espacio vacío, razona sobre qué efectos físicos produciría la desaparición del objeto y los elimina también. El resultado es sorprendente.

🔍 ¿Qué es VOID y qué problema resuelve?

VOID son las siglas de Video Object and Interaction Deletion. Es un framework de IA desarrollado por el equipo de investigación de Netflix junto con la Universidad INSAIT de Sofía, publicado como modelo open source en abril de 2026. Disponible en GitHub y HuggingFace bajo licencia Apache 2.0, VOID resuelve uno de los mayores retos de la edición de vídeo asistida por IA: la eliminación de objetos con conciencia física.

El problema que VOID resuelve no es solo técnico, es conceptual. Hasta ahora, los modelos de inpainting de vídeo —técnica que consiste en reconstruir regiones eliminadas de un fotograma, como explica Wikipedia sobre las Aplicaciones de la Inteligencia Artificial— eran «ciegos» a la física. VOID introduce un pipeline de razonamiento basado en un modelo de lenguaje visual (VLM, específicamente Google Gemini 3 Pro) que analiza la escena y predice qué áreas quedarán afectadas por la eliminación del objeto.

El resultado práctico: si eliminas a una persona que sostiene una guitarra, VOID genera fotogramas donde la guitarra cae al suelo de forma natural. Si borras uno de los coches en un accidente, reconstruye la escena como si el choque nunca hubiera ocurrido. Esta es una capacidad que ninguna otra herramienta pública ofrece de forma gratuita y open source. También puede interesarte nuestra guía sobre Lyria 3 Pro — El Modelo de Música con IA de Google que Crea Canciones Completas de 3 Minutos.

⚙️ Características principales

VOID está construido sobre CogVideoX-Fun-V1.5-5b-InP, un modelo base de video inpainting, y añade una serie de innovaciones técnicas que lo hacen único. Su funcionamiento se puede resumir en cuatro características clave que lo distinguen de cualquier otra solución disponible actualmente.

La primera es el Quadmask conditioning: VOID utiliza una máscara de cuatro valores que codifica la región del objeto a eliminar, las zonas de solapamiento, las áreas afectadas (objetos que caen, elementos desplazados) y el fondo que debe mantenerse. Esta máscara, combinada con el razonamiento del VLM, permite al modelo saber exactamente qué cambiar y qué preservar.

La segunda es el Pipeline de razonamiento VLM: antes de procesar el vídeo, Google Gemini 3 Pro analiza la escena y genera predicciones sobre qué efectos físicos causará la eliminación del objeto. Luego Meta SAM2 realiza la segmentación precisa de las regiones identificadas. Este enfoque de dos fases separa el razonamiento causal de la síntesis visual.

La tercera es el sistema de refinamiento en dos pasadas: Pass 1 genera la inpainting básica con conciencia física. Pass 2 (opcional) añade inicialización con latentes warped por flujo óptico, mejorando la consistencia temporal en vídeos largos y evitando el «morphing» de objetos entre fotogramas.

La cuarta es el dataset de entrenamiento sintético especializado: VOID fue entrenado con datos de Kubric y HUMOTO, datasets de simulación física que incluyen escenarios de colisiones, caídas y trayectorias. Esto le permite generalizar a situaciones reales que nunca vio durante el entrenamiento.

En cuanto a rendimiento, en un estudio de evaluación humana con 25 participantes, los resultados de VOID fueron preferidos en el 64,8% de los casos, frente al 18,4% de Runway (segundo clasificado). Superó a ProPainter, DiffuEraser, MiniMax Remover, ROSE y Gen Omnimatte en todos los escenarios evaluados.

💰 Precio y planes

VOID es completamente gratuito y open source bajo licencia Apache 2.0, lo que lo hace utilizable en proyectos comerciales sin restricciones de licencia. El modelo está disponible en HuggingFace (netflix/void-model) y en GitHub.

El mayor condicionante no es económico, sino técnico: VOID requiere una GPU con al menos 40 GB de VRAM para ejecutar la inferencia de forma fluida. Esto lo limita a GPUs de gama alta como NVIDIA A100 o H100, lo que significa que para la mayoría de usuarios domésticos el acceso práctico es a través del espacio demo en HuggingFace Spaces, que es gratuito pero puede tener cola de espera.

Para estudios de producción y empresas con acceso a infraestructura cloud (Google Cloud, AWS, Azure), el coste real es el de la computación en la nube, no el modelo en sí.

✅ Análisis: Pros y Contras

✅ Ventajas	❌ Desventajas
Primera herramienta open source con conciencia física real en eliminación de objetos de vídeo	Requiere GPU con mínimo 40 GB de VRAM, inaccesible para la mayoría de usuarios domésticos
Licencia Apache 2.0: completamente gratuito para uso comercial	No hay interfaz gráfica oficial ni SaaS: requiere conocimientos técnicos para instalarlo
Preferido por humanos en el 64,8% de los casos frente a herramientas de pago como Runway	La Pass 2 (refinamiento temporal) añade tiempo de procesamiento significativo
Pipeline modular: integra Gemini 3 Pro + SAM2 + CogVideoX para diferentes etapas	Dependencia de servicios externos (Gemini API) para el razonamiento causal
Demo gratuita disponible en HuggingFace Spaces sin instalación	Todavía en fase de investigación; no hay soporte oficial ni actualizaciones garantizadas

⭐ Puntuación oledir.com: 4/5

Puntuación: 4/5 — VOID es una innovación genuina en edición de vídeo con IA: el primer modelo open source que entiende la física del mundo real al eliminar objetos. Su rendimiento supera a herramientas de pago consolidadas, y la licencia Apache 2.0 lo hace ideal para producción profesional. Le resta un punto la barrera de acceso técnica (40 GB VRAM) y la ausencia de interfaz de usuario.

🎯 Facilidad de uso: 2/5 — Requiere configuración técnica y GPU potente
💡 Funcionalidades: 5/5 — Innovación sin igual en eliminación física de objetos
💰 Relación calidad-precio: 5/5 — Completamente gratuito, licencia commercial-friendly
🔧 Integraciones: 3/5 — Pipeline modular pero sin conectores listos para producción
📞 Soporte: 3/5 — Repositorio activo en GitHub, sin soporte comercial

🚀 ¿Para quién es ideal VOID?

VOID está diseñado principalmente para profesionales de postproducción audiovisual y estudios de cine y televisión que necesitan eliminar elementos de escenas con alta fidelidad física. Es especialmente útil en casos como la eliminación de errores de continuidad, la eliminación de product placements tras cambios de licencia, la limpieza de elementos no deseados en tomas de acción, o la creación de versiones alternativas de escenas.

Los investigadores y desarrolladores de IA en el ámbito del procesamiento de vídeo también encontrarán en VOID una base excelente para experimentación y desarrollo de nuevas capacidades. El código abierto facilita la adaptación del modelo a casos de uso específicos.

Para creadores de contenido independientes con acceso a infraestructura cloud, VOID abre posibilidades de edición de vídeo profesional a un coste muy reducido comparado con soluciones SaaS. Es cuestión de tiempo que aparezcan wrappers y servicios cloud que democraticen el acceso.

🔗 Explora VOID en GitHub

👉 Visita VOID — Repositorio oficial en GitHub

🎬 Prueba VOID — Demo gratuita en HuggingFace

¿Quieres destacar o promocionar un Recurso?

Contacta con nosotros y te mandaremos información sobre todas las posibilidades que ofrecemos.

Deja una respuesta Cancelar la respuesta

Lo siento, debes estar conectado para publicar un comentario.

Directorio de Recursos de Inteligencia Artificial