Conceito moderno de geração de vídeo de difusão estável

Criação de vídeos criativos por difusão Geração de vídeo

video repair

Introdução

Nestes dias, pode observar imagens criadas por algoritmos como o Stable Diffusion. Mas a criação de vídeos com IA é um processo muito mais difícil. Dado que trabalho numa empresa de produção de meios de comunicação social, posso afirmar com segurança que a criatividade gerada pela IA ainda não atingiu o nível de qualidade necessário para a utilização generalizada da geração de vídeos de difusão.

A diferença entre os vídeos gerados por IA e os padrões da indústria é muito grande. Com a ajuda de determinadas ferramentas e extensões, a difusão estável não se limita apenas à produção de imagens estáticas; tem o potencial de criar vídeos com IA visualmente impressionantes. Apresentamos aqui um guia fácil para criar molduras para um GIF animado ou um vídeo com a Difusão estável.

Deforum página de difusão estável
Ver neste artigo
  1. Pode-se gerar vídeo a partir da difusão estável?
  2. Será a difusão estável boa?
    1. Sair para o espaço latente
    2. Diminuição da difusão
    3. Ambiente
    4. Seleção de amostras e formação
  3. Criar um vídeo com difusão estável
  4. Exemplos de como escrever sobre difusão estável
  5. Ajustes técnicos adicionais para a geração de prompts

Pode a Difusão Estável Gerar Vídeo?

De facto, é possível criar vídeos ou GIFs com o Stable Diffusion. A última funcionalidade img2img permite criar pequenos vídeos ou GIFs que se assemelham a vídeos. Alem disso, a tecnologia de IA pode fornecer rapidamente quadros animados para o vídeo.

Estão ainda disponíveis ferramentas especializadas para a criação de vídeos utilizando a plataforma Stable Diffusion. Estas ferramentas podem ser utilizadas para gerar vídeos MP4 com a ajuda da IU da Web.

Será a difusão estável boa?

Um estável geração de vídeo por difusãoé uma ferramenta excecional para produzir imagens deslumbrantes e realistas. Não obstante a sua utilização poder estar associada a inconvenientes, as vantagens excedem quaisquer impactos negativos. Em virtude da sua conveniência, versatilidade e resultados surpreendentes, a difusão estável é essencial para quem gosta de visuais atractivos.

A Stable Diffusion é um excelente recurso para quem procura alargar as suas capacidades artísticas. Isto pode ajudá-lo a encontrar inspiração para novos projectos ou a explorar diferentes estilos e técnicas visuais.

Com a sua interface de fácil utilização, pode personalizar as imagens que cria de acordo com as suas especificações.

Não precisa de ser um artista experiente para tirar partido das suas capacidades - é fácil de utilizar, independentemente do seu nível de habilidade. Através do Stable Diffusion, pode usar a sua criatividade para produzir imagens e desenhos deslumbrantes que irá exibir com orgulho.

Qual o funcionamento da difusão estável?

Os conceitos centrais da geração de imagens através de modelos de difusão baseiam-se no facto de os modelos avançados de visão por computador poderem ser treinados com dados suficientes. Difusão estável oferece uma abordagem poderosa para este problema, utilizando um algoritmo para gerar uma imagem com base em parâmetros específicos.

Assim, o algoritmo de difusão estável gera um vídeo que inicia o processo com uma imagem de ruído aleatório continuamente refinada através de uma técnica de difusão especial. Por fim, o resultado é uma criação visualmente apelativa e de alta resolução que parece ter sido feita por um artista habilidoso. Segue-se o processo:

1. A saída para o espaço latente:

Para tal, começa-se por treinar um autoencoder para codificar as imagens em representações latentes de dimensão inferior. A partir daí, pode utilizar o codificador treinado, E, para converter as imagens originais em versões mais pequenas e comprimidas. A partir dos dados latentes, o descodificador treinado, D, pode reconstruir a imagem original.

2. Transmissão latente:

O processo de difusão direta consiste em adicionar ruído aos dados latentes codificados, enquanto o processo de difusão inversa consiste em eliminar esse ruído dos mesmos dados. Desta forma, garante-se que as imagens podem ser transformadas de volta à sua forma original.

sistema de difusão latente

3. Condicionamento:

Os modelos de geração de vídeo de difusão estável tiram partido da capacidade de gerar imagens a partir de instruções textuais, aumentando a rede U de redução de ruído com um mecanismo de atenção cruzada.

Tal é efectuado fornecendo ao modelo interno entradas condicionantes, tais como texto incorporado gerado por um modelo linguístico como o BERT ou o CLIP, e outras entradas espaciais como imagens ou mapas. Se o tipo de entrada de condicionamento for diferente, pode ser mapeado na rede U através da camada de atenção ou adicionado através de concatenação.

Processo breve de condicionamento

4. Seleção e amostragem:

O objetivo do treino é semelhante ao do modelo de difusão básico, com algumas alterações: tendo em conta os dados latentes zₜ em vez da imagem xₜ,, a U-Net inclui também uma entrada de condicionamento 𝜏θ(y). A eliminação de ruído será muito mais rápida porque os dados latentes são muito mais pequenos do que a fotografia inicial.

formulação do algoritmo de formação e amostragem

Guia para a criação de um vídeo com difusão estável

Uma versão especializada do Deforum Stable Diffusion para criar clips de vídeo e transições com imagens geradas pelo Stable Diffusion. Todas as pessoas, independentemente do seu nível de competências ou especialização, podem utilizar esta ferramenta de software de código aberto e orientada para a comunidade.

Quem desenvolve o projeto está sempre disposto a aceitar novas contribuições se estiver interessado em participar no projeto. O Deforum geração de vídeos de difusão estávelpermite-lhe efetuar simulações completas sem utilizar a sua GPU.

- Gerar um vídeo usando Deforum

Para copiar o Deforum difusão estável gerar vídeo v0.5 para o seu Google Drive, clique no botão "Copiar para o Drive". Depois disso, ser-lhe-á enviada uma nova cópia do bloco de notas do Colab no seu próprio Google Drive e poderá fechar o original, uma vez que já não precisa dele.

Geração de vídeos deforum

Passo 1: Verificar a extensão Deforum

O Google Colab pode ser aproveitado ao máximo e ligado a uma GPU externa. Não se esqueça de que lhe são atribuídos alguns créditos gratuitos para o Google Colab; no entanto, se os esgotar, terá de comprar mais ou esperar alguns dias para que sejam repostos.

painel de controlo da instalação de vídeo

Passo 2: Desenhe as suas ideias

Usar modelos de geração de vídeo de difusão estável (ou qualquer outro LLM) para a engenharia ou o desenvolvimento das nossas técnicas de comunicação é cada vez mais importante atualmente.

A fim de obter os efeitos desejados, recomenda-se que sejam dadas indicações pormenorizadas e específicas aquando da criação de imagens. Também é importante fornecer uma pré-visualização de quaisquer definições ou efeitos de animação desejados, tais como iluminação, hora do dia e estilo artístico ou referências culturais.

Manter os títulos das obras ou omitir os nomes dos artistas é importante, mas, em alguns projectos, pode produzir resultados interessantes. Aquando da criação de uma animação, forneça sempre a primeira solicitação e quaisquer solicitações adicionais antes de começar.

Tente primeiro testar os prompts e depois utilize os que funcionarem melhor na animação final. Recorrendo às técnicas adequadas, os criadores podem obter os efeitos desejados para uma animação de sucesso.

Geração de mensagens de vídeo

Passo 3: Ajustar as definições do Deforum

É sugerida a utilização da opção de sobreposição_with_file na difusão estável gerar vídeo, para que as suas definições sejam sempre guardadas e possam ser reutilizadas, partilhadas ou revertidas. Quanto às imagens 9:16, experimente 448 x 706; para imagens verticais, 706 x 448; para imagens quadradas, 512 x 512.

No menu de definições de amostragem, introduza um número na linha de semente se preferir uma determinada imagem ou -1 para aleatório. O valor do passo é sugerido entre 50 e 60. A escala de valores pode ser definida entre 7 e 12.

páginas de personalização do deforum

Passo 4: Criação do seu vídeo

Após a geração dos vídeos, o passo final é descarregar as imagens e introduzi-las num programa de edição de vídeo adequado antes de renderizar o vídeo. Este é um software gratuito, o DaVinci Resolve 18, que oferece uma série de funcionalidades que lhe permitem ter mais controlo sobre o produto final.

Também pode ser utilizado o código "create video from frames" (criar vídeo a partir de fotogramas), mas este pode nem sempre produzir o resultado desejado.

painel de controlo de geração de vídeo

Questões sobre difusão estável

Se já utilizou alguma ferramenta de geração de imagens de IA, como o Stable Diffusion, o DALL-E ou o MidJourney, compreenderá como é essencial a redação correcta quando se apresenta um pedido. Se uma frase precisa e minuciosa pode transformar qualquer ideia numa imagem deslumbrante, uma frase vaga pode resultar numa imagem bizarra e perturbadora. A seguir, algumas dicas:

1. Seja específico: a difusão estável da geração de vídeos prospera quando é fornecida com instruções concretas, em comparação com a MidJourney, que é mais aberta. O utilizador deve ser pormenorizado nas suas instruções para gerar paisagens com a difusão estável, utilizando palavras que descrevam com precisão a imagem que procura.

Utilize frases diferentes e veja que tipo de resultados obtém. Interessa observar como uma mudança de algumas palavras-chave pode alterar drasticamente a imagem e incorporá-las no prompt para alcançar o resultado desejado.

2. Certificar-se do estilo artístico e da criatividade: Para além de indicar o conteúdo da imagem desejada, deve também especificar o estilo que pretende. No caso de uma aparência semelhante à de uma pintura acrílica, por exemplo, o prompt deve ser algo como "nome, pintura acrílica" ou "nome, estilo acrílico".

É esta a fórmula que oferece as melhores hipóteses de se aproximar do estilo que procura. É possível obter vários visuais e estilos de difusão estável - desenhos a lápis, modelos em barro e até renderizações em 3D com o Unreal Engine.

3. Adicionar o nome do artista para maior clareza: Diffusion estável é uma óptima opção se pretender evocar o estilo de um artista específico numa obra. Este é um instrumento poderoso que pode captar verdadeiramente a essência de um determinado artista, se lhe dermos o estímulo certo.

Pode até mesmo combinar artistas diferentes, produzindo uma fusão única dos estilos dos dois artistas. As experimentações artísticas podem produzir resultados excitantes e inesperados, por isso não tenha medo de experimentar a geração de vídeos de difusão

4. Analisar as suas palavras-chave: Se precisar de dar mais ênfase a uma determinada palavra-chave no prompt, o Stable Diffusion fornece opções de ponderação. Com esta função, pode atribuir maior importância a algumas palavras do que a outras para obter resultados mais precisos. Isso é especialmente útil quando o resultado está quase correto, mas poderia beneficiar de uma atenção mais focada num termo específico.

5. Outras referências: Atualmente, tem havido um grande aumento na quantidade de arte de IA disponível online. Muita gente está a produzir este tipo de peças, e muitas destas criações incluem as palavras-chave ou fórmulas utilizadas para as gerar. Este indica múltiplas imagens geradas pelos utilizadores em toda a Web, que podem facilmente ascender a milhões.

Opções técnicas adicionais para a geração de prompts:

Conceber um aviso eficaz é a parte mais difícil da utilização da difusão estável; no entanto, o ajuste de outras definições pode afetar consideravelmente o resultado.

  • CFG: Trata-se de um parâmetro que define o nível de confiança que a IA de difusão estável tem na geração de uma resposta que reflicta com exatidão o seu pedido. Quanto maior for o valor, mais a IA gerará avisos mais fiéis, enquanto que quanto menor for o valor, maior será a margem de manobra da IA para exercer autonomia no texto gerado. Ponha à prova diferentes valores para ver a gama de resultados que obtém.
  • Métodos de amostragem: A joia é limpa das interferências e transformada em padrões identificáveis utilizando uma variedade de algoritmos, como Euler_a, k_LMS e PLMS, que são amplamente utilizados para a geração de vídeos de difusão estável.
  • Fases de amostragem: O sistema pode variar o número de iterações para chegar à versão final de uma imagem. Habitualmente, um menor número de etapas produz resultados satisfatórios, ao passo que um número mais elevado pode não conduzir a qualquer melhoria adicional. Em geral, recomenda-se que se comece com um número relativamente baixo de passos, aumentando gradualmente se necessário. Um número superior a 150 iterações normalmente não resulta em qualquer melhoria adicional.

Conclusão

Construir um vídeo em tempo real com geração de vídeo de difusão estável pode ser bastante trabalhoso e demorado. À medida que a tecnologia avança, no entanto, espera-se que acabe por se tornar mais simples criar vídeos com difusão estável do que é atualmente gerar fotografias. Mas, até esse avanço ser alcançado, os utilizadores têm de recorrer a várias sub-ferramentas e comandos que podem não ser compreensíveis para todos os utilizadores.

PERGUNTAS FREQUENTES

  • Você pode animar com Stable Diffusion?
    As animações podem ser criadas de várias formas. A IA de estabilidade permite aos utilizadores utilizar os seus modelos de difusão estável, como o Stable Diffusion 2.0 e o Stable Diffusion XL, para a criação de animações. Acresce que os utilizadores podem utilizar o ponto de extremidade de animação para aceder a modelos pré-fabricados, o que lhes permite criar animações rapidamente e em grandes quantidades.
  • De que pode resultar a Difusão Estável?
    A Difusão Estável é um gerador de imagens de IA que pode ser personalizado ao seu gosto. A plataforma de código aberto permite-lhe criar os seus conjuntos de dados e ajustar as imagens geradas. O utilizador pode ainda treinar os seus modelos para criar imagens que correspondam às suas preferências.
  • Será a Difusão Estável apenas para imagens?
    Diffusion estável é um método que permite a criação de imagens a partir de descrições de texto. É a escolha ideal em comparação com o mid-journey e o DALLE-2, uma vez que consegue traduzir com precisão o texto em imagens. Essa conversão é conseguida através de algoritmos sofisticados e de uma rede neural convolucional, que converte o conteúdo escrito numa imagem correspondente.
Luís Santos
Luís Santos 12/11/2024
Compartilhe:
Luís Santos
Escrito por Luís Santos 28/07/2023
Compartilhe:
Artigos relacionados
repairit repairit

A melhor ferramenta de reparo para vídeos, arquivos, fotos e áudios corrompidos ou danificados.

Download Gratuito e Seguro