Esta IA distorce vídeos ao vivo em tempo real

Dean Leitersdorf se apresenta pelo Zoom e digita uma frase que me faz sentir como se eu tivesse acabado de tomar cogumelos psicodélicos: "velho oeste, cósmico, Império Romano, dourado, subaquático". Ele insere as palavras em um modelo de inteligência artificial desenvolvido por sua startup, Decart, que manipula vídeos ao vivo em tempo real.
"Não tenho ideia do que vai acontecer", diz Leitersdorf com uma risada, pouco antes de se transformar em uma versão bizarra, dourada e subaquática de Júlio César, usando uma capa de chuva.
Leitersdorf já parece um pouco selvagem — cabelos longos caindo pelas costas, uma caneta fazendo acrobacias em seus dedos. Enquanto conversamos, sua imagem na tela oscila de forma surreal, enquanto o modelo tenta prever como cada novo quadro deve ficar. Leitersdorf coloca as mãos sobre o rosto e se transforma com traços mais femininos. Sua caneta alterna entre diferentes cores e formas. Ele adiciona mais dicas que nos transportam para novos reinos psicodélicos.
O modelo de vídeo para vídeo da Decart, Mirage , é um feito impressionante de engenharia e um sinal de como a IA pode em breve revolucionar a indústria de streaming ao vivo. Ferramentas como o Sora , da OpenAI, podem criar vídeos cada vez mais realistas com um prompt de texto. O Mirage agora permite a manipulação de vídeos em tempo real.
Na quinta-feira, a Decart lançará um site e um aplicativo que permitirão aos usuários criar seus próprios vídeos e modificar clipes do YouTube. O site oferece vários temas padrão, incluindo "anime", "skyline de Dubai", "cyberpunk" e "Palácio de Versalhes". Durante nossa entrevista, Leitersdorf publica um clipe de alguém jogando Fortnite e a cena se transforma do mundo familiar do Battle Royale em uma versão subaquática.
A tecnologia da Decart tem grande potencial para jogos. Em novembro de 2024, a empresa demonstrou um jogo chamado Oasis , que utilizava uma abordagem semelhante à do Mirage para gerar um mundo jogável semelhante ao Minecraft em tempo real. Os usuários podiam se aproximar de uma textura e, em seguida, diminuir o zoom novamente para produzir novas cenas jogáveis dentro do jogo.
Manipular cenas ao vivo em tempo real é ainda mais trabalhoso em termos computacionais. A Decart escreveu código de baixo nível para extrair cálculos de alta velocidade dos chips da Nvidia e alcançar esse feito. O Mirage gera 20 quadros por segundo com resolução de 768 × 432 e latência de 100 milissegundos por quadro — o suficiente para um clipe de TikTok de qualidade razoável.
Criar vídeos em tempo real também é um desafio, pois um modelo pode facilmente se desviar da realidade de maneiras extremas. A Decart desenvolveu um esquema personalizado para treinar e executar um modelo a fim de obter maior coerência. A empresa também criou uma maneira de seu modelo corrigir erros rapidamente.
A Decart afirma estar trabalhando para produzir vídeos em Full HD e 4K e encontrando novas maneiras para os usuários controlarem seus vídeos. "Temos vários outros lançamentos em breve que permitirão edições mais específicas", diz Leitersdorf.
Posso imaginar a ferramenta se tornando popular em plataformas como TikTok ou Instagram — certamente me diverti tentando criar cenas estranhas com amigos, gerando uma ampla gama de personagens cyberpunk de aparência misteriosa, alguns com um número improvável de dedos. Mas sua imprevisibilidade pode ser controversa. Às vezes, o modelo parece inexplicavelmente determinado a mudar a raça do usuário.
Leitersdorf afirma que, fora de sua própria empresa, apenas os maiores laboratórios de IA — OpenAI, Anthropic, xAI, Google e Meta — têm capacidade técnica para construir algo como o Mirage. Mas ele não tem intenção de ser adquirido. "Temos cinco anos para tentar construir um quilo-unicórnio", diz ele, girando a caneta. "Isso equivale a 1 trilhão de dólares, ou um trilhão de usuários."
wired