Equipe de IA da Netflix Acaba de Lançar com Código Aberto o VOID: um Modelo de IA Que Apaga Objetos de Vídeos — e Toda a Sua Física
A edição de vídeo sempre teve um segredo sujo: remover um objeto da filmagem é fácil; fazer a cena parecer que ele nunca esteve lá é incrivelmente difícil. Remova uma pessoa segurando um violão, e você fica com um instrumento flutuante que desafia a gravidade. As equipes de VFX de Hollywood passam semanas corrigindo exatamente esse tipo de problema. [...] A postagem da Equipe de IA da Netflix Acaba de Lançar com Código Aberto o VOID: um Modelo de IA Que
A edição de vídeo sempre teve um segredo sujo: remover um objeto da filmagem é fácil; fazer a cena parecer que ele nunca esteve lá é incrivelmente difícil. Remova uma pessoa segurando um violão, e você fica com um instrumento flutuante que desafia a gravidade. As equipes de VFX de Hollywood passam semanas corrigindo exatamente esse tipo de problema. Uma equipe de pesquisadores da Netflix e da INSAIT, Sofia University 'St. Kliment Ohridski', lançou o modelo VOID ( Video Object and Interaction Deletion ) que pode fazer isso automaticamente. O VOID remove objetos de vídeos juntamente com todas as interações que eles induzem na cena — não apenas efeitos secundários como sombras e reflexos, mas interações físicas, como objetos caindo quando uma pessoa é removida. Que Problema o VOID Está Realmente Resolvendo? Modelos padrão de inpainting de vídeo — o tipo usado na maioria dos fluxos de trabalho de edição hoje — são treinados para preencher a região de pixels onde um objeto estava. Eles são essencialmente pintores de fundo muito sofisticados. O que eles não fazem é raciocinar sobre causalidade: se eu remover um ator que está segurando um adereço, o que deveria acontecer com esse adereço? Os métodos existentes de remoção de objetos de vídeo se destacam na inpainting de conteúdo 'por trás' do objeto e na correção de artefatos de nível de aparência, como sombras e reflexos. No entanto, quando o objeto removido tem interações mais significativas, como colisões com outros objetos, os modelos atuais falham em corrigi-los e produzem resultados implausíveis. O VOID é construído sobre o CogVideoX e ajustado para inpainting de vídeo com condicionamento de máscara sensível à interação. A inovação chave está em como o modelo entende a cena — não apenas 'quais pixels devo preencher?', mas 'o que é fisicamente plausível depois que este objeto desaparece?'. O exemplo canônico do artigo de pesquisa: se uma pessoa segurando um violão é removida, o VOID também remove o efeito da pessoa no violão — fazendo-o cair naturalmente. Isso não é trivial. O modelo precisa entender que o violão estava sendo sustentado pela pessoa, e que remover a pessoa significa que a gravidade assume o controle. E, diferente de trabalhos anteriores, o VOID foi avaliado em confronto direto com concorrentes reais. Experimentos em dados sintéticos e reais mostram que a abordagem preserva melhor a dinâmica consistente da cena após a remoção do objeto em comparação com métodos anteriores de remoção de objetos de vídeo, incluindo ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE e Gen-Omnimatte. https://arxiv.org/pdf/2604.02296 A Arquitetura: Co
