Digital Academy
- 19 de fev.
- 7 min para ler

Sora: Descubra como funciona o modelo de IA que transforma texto em vídeo

Sora da OpenAI chegou para revolucionar a produção de vídeo

Foi explorado o treinamento de modelos generativos em grande escala utilizando dados de vídeo. Especificamente, modelos de difusão condicional de texto foram treinados conjuntamente em vídeos e imagens com variadas durações, resoluções e proporções. Utilizou-se uma arquitetura de transformador que opera em fragmentos de códigos latentes de vídeo e imagem no contexto espaço-tempo.

O maior modelo desenvolvido, denominado Sora, demonstrou capacidade de gerar vídeos de um minuto com alta fidelidade. Os resultados indicam que escalar modelos de geração de vídeo representa um caminho promissor para o desenvolvimento de simuladores do mundo físico de uso geral.

Este relatório técnico aborda

Método de Transformação de Dados Visuais: A equipe desenvolveu um método para converter dados visuais de variados tipos em uma representação unificada. Essa abordagem permite o treinamento em larga escala de modelos generativos.

Avaliação de Sora: Foi realizada uma avaliação qualitativa das capacidades e limitações do modelo Sora. Os detalhes específicos do modelo e da implementação não são abordados neste relatório.

Contexto de Pesquisa

Estudos Precedentes: A modelagem generativa de dados de vídeo foi estudada amplamente, utilizando métodos diversos como redes recorrentes, redes adversárias generativas, transformadores autorregressivos e modelos de difusão. Essas pesquisas tendem a focar em categorias específicas de dados visuais, como vídeos de curta duração ou de tamanho fixo.

Inovação com Sora: Diferentemente dos trabalhos anteriores, Sora é apresentado como um modelo generalista para dados visuais. Ele é capaz de gerar vídeos e imagens que variam em duração, proporção e resolução, alcançando até um minuto de vídeo em alta definição.

Transformação de Dados Visuais em Patches

Uma ilustração do processo de codificação visual onde múltiplas camadas de uma imagem subaquática contendo um peixe colorido são convertidas em uma representação de bloco 3D por um codificador visual, demonstrando a complexidade da modelagem de dados visuais em 3D.

Inspiração nos Grandes Modelos de Linguagem (LLMs): A abordagem é inspirada pelo sucesso dos LLMs, que adquiriram capacidades generalistas ao serem treinados com vastas quantidades de dados da internet. O sucesso desses modelos deve-se, em parte, ao uso de tokens que unificam elegantemente diversas modalidades de texto, incluindo código, matemática e várias línguas naturais.

Adaptação para Dados Visuais: Este estudo explora como modelos generativos de dados visuais podem se beneficiar de um conceito similar. Enquanto os LLMs utilizam tokens de texto, o modelo Sora emprega patches visuais como sua unidade básica de representação.

Eficiência dos Patches Visuais: Foi constatado que os patches visuais são uma representação altamente eficaz e escalável para treinamento de modelos generativos em uma ampla gama de tipos de vídeos e imagens. A eficácia dos patches como representação para modelos de dados visuais já foi demonstrada em pesquisas anteriores.

Contribuição: Através da adoção de patches visuais, o estudo presente busca herdar os benefícios generalistas dos LLMs para o domínio visual, abrindo caminho para modelos generativos capazes de compreender e criar conteúdo visual em uma diversidade de formatos e contextos.

Rede de Compressão de Vídeo e Geração de Patches Latentes

A imagem exibe três estágios de processamento de vídeo em camadas, partindo de um estado altamente pixelizado para uma imagem nítida de uma pequena cidade, ilustrando a capacidade de uma IA de aprimorar a qualidade de vídeos.

Compressão de Dados Visuais: Foi treinada uma rede dedicada à redução da dimensionalidade dos dados visuais. Esta rede processa vídeos brutos, transformando-os em uma representação latente que é comprimida tanto em aspectos temporais quanto espaciais. O modelo Sora é então treinado para gerar vídeos dentro desse espaço latente compactado, acompanhado por um modelo de decodificador que reverte as latentes geradas para o espaço original de pixels.

Patches Latentes de Espaço-Tempo: A partir de vídeos compactados, extrai-se uma sequência de patches de espaço-tempo, que funcionam como tokens para o transformador. Esta abordagem é aplicável tanto a vídeos quanto a imagens, considerando que imagens são interpretadas como vídeos de um único quadro. Utilizando patches, Sora é capaz de ser treinado com vídeos e imagens de diversas resoluções, durações e proporções. Durante a inferência, o tamanho dos vídeos gerados é controlado pela organização de patches inicializados aleatoriamente em grades de tamanhos específicos.

Escala e Transformadores para Geração de Vídeo: Sora incorpora uma estratégia de difusão, sendo treinado para aprimorar patches ruidosos de entrada (com base em condições como prompts de texto) em direção aos seus equivalentes "limpos" originais. Notavelmente, Sora é categorizado como um transformador de difusão, alavancando a escalabilidade dos transformadores observada em diversas áreas como modelagem de linguagem, visão computacional e geração de imagens. Essa propriedade de escalabilidade dos transformadores é fundamental para o avanço da geração de vídeo, promovendo Sora como um modelo inovador no campo.

Benefícios do Treinamento com Durações, Resoluções e Proporções Variáveis

A evolução na geração de imagens e vídeos por meio de modelos como Sora trouxe à tona práticas inovadoras que se distanciam dos métodos convencionais de manipulação de conteúdo visual. Tradicionalmente, a geração de imagens e vídeos envolvia a adaptação dos dados a um formato padrão, como o redimensionamento ou corte para dimensões fixas, frequentemente resultando em vídeos de curta duração com resoluções específicas, como 256x256 pixels. No entanto, a abordagem adotada por Sora revelou uma série de vantagens significativas ao manter os dados em seus tamanhos nativos.

Flexibilidade de Amostragem

Sora exibe uma notável capacidade de trabalhar com uma ampla gama de formatos de vídeo, desde widescreen (1920x1080 pixels) até formatos verticais (1080x1920 pixels), abrangendo assim uma diversidade de proporções e resoluções. Esta flexibilidade permite que Sora produza conteúdo especificamente adaptado para diferentes dispositivos e formatos de exibição, respeitando suas proporções nativas. Essa abordagem não apenas facilita a criação de conteúdo mais diversificado e personalizado mas também possibilita a rápida prototipagem de conteúdos em resoluções menores, que podem ser escalados para resoluções completas posteriormente, tudo isso mantendo-se dentro do mesmo modelo.

Enquadramento e Composição Aprimorados

A escolha de treinar Sora com vídeos em suas proporções nativas revelou melhorias significativas na composição e no enquadramento dos vídeos gerados. Através de comparações empíricas, observou-se que modelos treinados com vídeos ajustados para se encaixar em formatos quadrados frequentemente produzem resultados onde o assunto principal fica parcialmente visível ou inadequadamente enquadrado.

Em contraste, os vídeos gerados por Sora, que respeitam as proporções originais dos dados de treinamento, demonstram uma melhoria notável no enquadramento e na composição visual. Esta constatação sublinha a importância de preservar as características nativas dos dados visuais durante o processo de treinamento para alcançar resultados de maior qualidade e relevância visual.

A integração dessas práticas no desenvolvimento de Sora não apenas desafia os métodos tradicionais de geração de conteúdo visual mas também estabelece um novo padrão para a criação de vídeos e imagens generativas, destacando o potencial de modelos que respeitam e aproveitam a diversidade natural dos dados visuais.

Solicitando imagens e vídeos

Sora não se limita a criar vídeos a partir de textos; também pode trabalhar com imagens ou vídeos pré-existentes, oferecendo uma diversidade de edições como loops perfeitos, animação de imagens estáticas e extensão de vídeos no tempo. Adicionalmente, Sora pode animar imagens provenientes do DALL·E, transformando-as em vídeos com base em prompts específicos.

Sora demonstra capacidades avançadas de edição e manipulação de vídeo, oferecendo:

Extensão de Vídeos no Tempo: Sora pode criar variações de um vídeo, estendendo-os para frente ou para trás no tempo. Isso resulta em vídeos que começam de maneiras diferentes, mas convergem para o mesmo final, mostrando uma manipulação temporal sofisticada.

Edição de Vídeo para Vídeo: Utilizando técnicas de difusão como o SDEdit, Sora pode editar vídeos a partir de prompts de texto, alterando estilos e ambientes dos vídeos de entrada instantaneamente, sem a necessidade de edições manuais.

Conexão de Vídeos: Sora pode criar transições suaves entre dois vídeos distintos, interpolar gradualmente entre eles para gerar uma sequência contínua que mescla elementos de ambos. Isso permite a fusão de vídeos com temas e composições diferentes em uma única narrativa visual coesa.

Capacidades de Geração de Imagens

Geração de Imagens: Sora organiza manchas de ruído gaussiano em uma grade espacial para gerar imagens estáticas, alcançando resoluções de até 2048x2048. Isso permite a criação de imagens de alta qualidade em tamanhos variáveis.

Esta imagem captura um close-up de uma mulher com olhos expressivos e sardas, exibindo um sorriso caloroso. Ela está vestida para o outono, com um gorro de lã colorido, destacando a moda da estação.

Capacidades de Simulação Emergentes

Consistência 3D: Sora pode produzir vídeos que exibem movimentos dinâmicos de câmera, onde pessoas e elementos da cena se movem de maneira consistente no espaço tridimensional, conforme a câmera muda e gira.

Coerência de Longo Alcance e Permanência do Objeto: Um avanço significativo é a habilidade de Sora em manter a consistência temporal em vídeos longos, modelando eficazmente dependências de curto e longo prazo. O modelo consegue persistir a presença de pessoas, animais e objetos mesmo quando estes estão ocultos ou saem do enquadramento, além de manter a aparência consistente de personagens ao longo do vídeo.

Interagindo com o Mundo: Sora pode simular ações que alteram o estado do mundo de formas simples, como um pintor adicionando traços a uma tela que persistem com o tempo ou um homem comendo um hambúrguer e deixando marcas de mordida.

Simulando Mundos Digitais: De forma impressionante, Sora também consegue simular ambientes artificiais, como videogames. Um exemplo notável é a capacidade de controlar um jogador no Minecraft e reproduzir o mundo do jogo e sua dinâmica com alta fidelidade, utilizando apenas prompts de texto relacionados ao jogo.

Discussão

Embora Sora represente um avanço significativo na simulação de aspectos do mundo físico e digital através de modelos de vídeo, o sistema ainda enfrenta várias limitações como simulador. Estas incluem:

Modelagem Inexata de Física: Sora não consegue modelar com precisão a física de interações básicas, exemplificado pela quebra inadequada de vidro.

Reprodução Incorreta de Ações: Atividades como comer nem sempre resultam em mudanças corretas no estado do objeto, indicando limitações na simulação de interações físicas cotidianas.

Modos de Falha Comuns: O modelo apresenta incoerências em amostras de longa duração e ocorrências espontâneas de objetos, entre outros problemas destacados na página de destino.

Apesar desses desafios, a equipe por trás de Sora mantém uma visão otimista, acreditando firmemente que o aprimoramento contínuo e o dimensionamento de modelos de vídeo como Sora são fundamentais para avançar no desenvolvimento de simuladores avançados do mundo físico e digital. A capacidade atual de Sora de simular com relativa eficácia certos aspectos da realidade sugere um futuro promissor, onde tais limitações poderão ser superadas, possibilitando simuladores cada vez mais precisos e capazes de replicar a complexidade dos ambientes físicos e digitais, incluindo a dinâmica de objetos, animais e seres humanos.

Conclusão

Modelagem Inexata de Física: Sora não consegue modelar com precisão a física de interações básicas, exemplificado pela quebra inadequada de vidro.

Reprodução Incorreta de Ações: Atividades como comer nem sempre resultam em mudanças corretas no estado do objeto, indicando limitações na simulação de interações físicas cotidianas.

Modos de Falha Comuns: O modelo apresenta incoerências em amostras de longa duração e ocorrências espontâneas de objetos, entre outros problemas destacados na página de destino.