China News Weekly Reporter/Hu Yong
Envie 2024.3.11 Total No. 1131 Revista "China News Weekly"
Recentemente, nasceu a Sora desenvolvida pela empresa de pesquisa de inteligência artificial americana Openai, causando atenção generalizada em todo o mundo.Enquanto as pessoas ficam surpresas por ter um texto poderoso -para função do Video, se o limite entre real e falso se tornará mais difícil de distinguir.O que é Sora, é uma "caneta mágica" Ma liang ou um super monstro?
As realizações e limitações técnicas de Sora
A SORA é um modelo avançado de conversão de texto desenvolvido pelo OpenAI.Esse modelo não se limita à geração de vídeos por alguns segundos, mas também pode fazer um vídeo único, que está reaparecendo fielmente as instruções do usuário, mantendo a alta qualidade visual.Para os usuários, parece transformar sonhos em realidade.
Atualmente, Sora está no estágio de teste exclusivo. Use essênciaEssa medida estratégica pode garantir que a tecnologia não apenas atenda e exceda os mais altos padrões de criatividade e segurança antes da extensa liberação.Uma vez que a Sora puder ser tornada pública e usada por mais pessoas, o momento terá um impacto mais significativo em todo o mundo.
A força técnica de Sora prova o grande progresso no campo da inteligência artificial.O SORA representa um salto da geração de imagens estáticas para a criação dinâmica de vídeo.Esse progresso marca uma enorme mudança na capacidade da inteligência artificial na interpretação e visualização da narrativa do tempo, tornando a Sora não apenas uma ferramenta para criar efeitos visuais, mas também como se fosse uma pessoa de contar histórias.
A onda de choque trazida por esse avanço deve atravessar a criação de vídeos, mas também é provável que se desenvolva de vídeo para modelagem tridimensional.A julgar pela manifestação atual, Sora pode entender como os elementos descritos no prompt existem e são executados no mundo físico.Isso permite que o modelo apresente com precisão a ação e o comportamento da intenção do usuário no vídeo.Por exemplo, pode realizar o movimento da cena ou fenômeno natural.Além disso, ele pode apresentar com precisão os detalhes de vários caracteres, o tipo de ação e o sutil do tema e o plano de fundo.
Enquanto publica Sora, o OpenAI anunciou um documento técnico correspondente chamado "Modelo de geração de vídeos como o simulador mundial".Este artigo técnico diz: "Descobrimos que, após um treinamento em grande escala, mostraremos muitas capacidades de emergência interessantes. Esses recursos permitem que Sora simule algumas pessoas, animais e ambientes no mundo físico". Fan fez um palpite mais profundo sobre como Sora estabeleceu um modelo mundial dentro."Se você acha que Sora é um brinquedo criativo como Dall-e ... então pense errado. Sora é um motor físico orientado a dados".
Em outras palavras, embora Sora seja atualmente considerada um modelo de geração de vídeo, cientistas da computação como o cientista sênior da NVIDIA, Jim Fan, acreditam que Sora é essencialmente um simulador de aprendizado ou modelo mundial.Isso mostra que a inteligência artificial pode entender as leis e fenômenos de um grande número de vídeos do mundo real e os vídeos que consideram o comportamento físico (como o mecanismo de mecanismo de jogo, o mecanismo, embora o OpenAI não mencione isso claramente).
bet365 app apk
Nesse caso, a possibilidade de texto para 3D em um futuro próximo é muito alto.Naquela época, não apenas um vídeo multi -anlan, mas mesmo os efeitos visuais no espaço virtual (como o universo Yuan) podem ser facilmente gerados pela inteligência artificial.
A julgar pelo vídeo atualmente lançado pelo OpenAI, a qualidade da produção é bastante alta.Muitos vídeos são de nível de filme;A lente fotográfica se moverá e zoom.
Para alcançar um realismo mais alto, a SORA combina dois métodos diferentes de inteligência artificial.O primeiro é o modelo de difusão, semelhante ao tipo usado em geradores de imagem como Dall-E.Esse tipo de modelo converte gradualmente pixels de imagem aleatória em imagens coerentes, aprendendo.O segundo é a arquitetura do transformador para análise de contexto e costura de dados contínuos.Por exemplo, um grande modelo de idioma combina palavras em frases geralmente compreensíveis, mesmo que uma arquitetura de conversor seja combinada.No processo de geração de vídeo, o OpenAI decompõe fragmentos de vídeo em "patches do espaço -tempo" visual e a arquitetura de conversor da Sora pode ser processada.
bet365 app apk
No entanto, como qualquer tecnologia inovadora, a Sora também tem suas próprias limitações.Embora o modelo tenha funções avançadas, ainda é difícil simular com precisão as características físicas de cenas mais complexas.Isso pode causar o efeito visual para impressionar as pessoas, mas ocasionalmente viola a lei da lei física ou apresentar com precisão o cenário causal.Por exemplo, a maneira como o personagem no vídeo e o objeto pode ser fisicamente viável, e eles não podem ser consistentes com o movimento do tempo.
Portanto, embora Sora afirme estar aprendendo física, não é possível estabelecer com precisão um modelo físico.O blog oficial da OpenAI apontou que encontrou dificuldades em simular a física, entender a causalidade e outros detalhes simples.Por exemplo, foi necessário um vídeo de biscoitos, mas ele descobriu que nenhuma marca de mordida era deixada nos biscoitos;Também pode estar confuso sobre os detalhes do prompt, como seguir uma trajetória de câmera específica.
Sora é um pouco cerco em vários campos de batalha
Embora não seja perfeito, ainda é difícil para as pessoas ficarem chocadas com a qualidade dos primeiros exemplos de Sora e sua reescrita de vídeos, filmes, jogos e outros setores.
Em termos de vídeo, outras empresas além do OpenAI lançaram projetos de inteligência artificial, de texto em vídeo de gigantes como o Google e a pista.Mas o Openai disse que a singularidade de Sora está em sua incrível autenticidade e pode gerar clipes mais longos que pode gerar um clipe mais longo do que outros modelos.
Por exemplo, um videoclipe lançado pelo OpenAI, solicitando fazer "a cena da animação de um monstro curto e peludo ajoelhado ao lado da vela vermelha" e algumas instruções detalhadas do palco ("abra seus olhos e abra sua boca") e direita) Descrição) da atmosfera.Como resultado, Sora criou uma criatura do estilo da Pixar, que parecia ter um DNA da Monsters em Monsters, Inc.).Quando a "Monster Electric Power Company" foi lançada em 2001, a Pixar promoveu o quão difícil era fazer com que a textura super complicada de pêlo monstro, porque essas texturas mudariam quando o movimento biológico.O "Wizard" da Pixar passou vários meses antes de fazê -lo certo.E a nova máquina de vídeo de transferência de texto do OpenAI parece ter feito isso facilmente.Não há códigos nisso.
Embora a cena seja realmente impressionante, a habilidade mais chocante em Sora é a capacidade que ainda não foi treinada.Como mencionado anteriormente, o SORA é impulsionado pelo gerador de imagens Dall-E 3 do gerador de imagens Dall-E 3 do Openai e pela unidade de motor baseada em GPT-4. talentos de contar histórias.
Por exemplo, outro vídeo é criado com base no mundo de papel de coral colorido, cheio de peixes coloridos e vida marinha ".Os pesquisadores descobriram que Sora criou uma palestra narrativa através do arranjo de ângulo e tempo da lente."De fato, existem várias alterações nas lentes -essas alterações não são suturadas juntas, mas são geradas pelo modelo ao mesmo tempo".
Uma função da equipe do OpenAI não exibiu e não pode ser publicada há muito tempo.Isso melhorará a capacidade de contar histórias: você pode desenhar seus pensamentos com precisão e depois transformá -lo em realidade.Do ponto de vista da narrativa, Sora pode mostrar a compreensão da edição e do ritmo, e parece ter a capacidade do diretor preliminar.
No entanto, levará muito tempo para ameaçar a produção real de transferência de texto, e isso nunca ocorrerá.Você não pode fazer um filme coerente, costurando a edição de uma minuto de uma minuto, porque o modelo não responderá ao prompt da mesma maneira -a continuidade é impossível.No entanto, para SORA e programas similares, o prazo não é um obstáculo, eles podem ser usados para transformar o Tiktok, rolos e outras plataformas sociais.No passado, para fazer um filme profissional, você precisa ser um equipamento muito caro, e esse tipo de modelo fará com que as pessoas comuns façam vídeos nas mídias sociais para criar conteúdo de qualidade muito alta.
Considerando a velocidade do progresso, imagine que o modelo de inteligência artificial pode criar uma multi -cenas com cinco a dez minutos, e os vídeos complexos de múltiplos caráutos não são loucos.No entanto, desde a edição isolada até fazer um meio funcionando na forma de uma história, o público não será separado dela ao assistir, e há um longo caminho a percorrer.A menos que a SORA se torne um aplicativo de código aberto que forneça completo personalizado e controlado pelos criadores, ele não subverterá a indústria cinematográfica.Mas, obviamente, essa tecnologia pode acelerar a velocidade de trabalho dos cineastas experientes e, ao mesmo tempo, substituir a falta de artistas digitais experientes.
Outra indústria que é frequentemente mencionada e também pode ser subvertida é a videogame.Conforme descrito no artigo do Openai, "Sora pode controlar os jogadores no Minecraft (um videogame) com estratégias básicas e tornar o mundo e sua dinâmica com alta fidelidade".Obviamente, este é apenas o começo de seu potencial de jogo.No futuro, os consoles de videogame podem usar a tecnologia de difusão em transações em tempo real, fluxos de vídeo interativos, em vez de renderizar manualmente bilhões de polígonos por artistas.
Algumas pessoas especulam que Sora recebeu treinamento em mecanismos de videogame, especialmente o motor irreal 5 de jogos épicos.Embora Sora quase certamente não use o mecanismo de videogame para criar uma sensação fascinante, o mundo dos videogames pode ser usado para ajudar a treinar o modelo subjacente de Sora.Algumas demonstrações de Sora parecem ser muito semelhantes ao mundo dos videogames existente.Em 2023, os desenvolvedores de jogos foram atingidos por demissões, e Sora pode trazer para eles mais desastres.Obviamente, também pode reduzir significativamente o limite de entrada.
De um modo geral, o núcleo de Sora é um sistema de inteligência artificial multifacetado que pode entender e implementar tarefas em diferentes campos.Ao contrário dos modelos que foram usados anteriormente para tarefas específicas, como geração de texto, reconhecimento de imagem ou jogo de estratégia, a Sora pretende submergir essas funções para fornecer métodos mais abrangentes.Isso é alcançado através das tecnologias de corte de Machine Learning, incluindo aprendizado profundo, fortalecimento da aprendizagem e aprendizado de migração.
Um dos aspectos mais notáveis da SORA é sua adaptabilidade.O OpenAI enfatiza a importância de criar um sistema de inteligência artificial que possa aprender com a menor entrada e se adaptar facilmente a novos desafios.Sora reflete esse princípio, mostrando a capacidade de entender o contexto, gerar resposta relacionada e até aprender com a interação.Essa adaptabilidade não apenas aprimora o desempenho do SORA em várias tarefas, mas também reduz as necessidades de um grande número de treinamento, tornando -o uma solução mais eficiente e econômica para aplicações de inteligência artificial.
2024: Não é mais possível distinguir a inteligência e realidade artificiais
No entanto, não importa o quão mágica Sora seja, quase ninguém tentou fora da empresa -isso é sempre um sinal de alerta.
Em certo sentido, o OpenAI pode ser renomeado para CloseAi.A parte externa da empresa não tem a oportunidade de estudar ou testar Sora para entender como ela se constrói, e é impossível comparar com os produtos anteriores.Sabemos apenas que quanto mais forte o poder de computação do OpenAI injetado Sora no modelo de grande linguagem, maior a qualidade da saída.
Mas de onde vem seus dados de treinamento?A empresa é vaga.O porta -voz disse apenas que o modelo foi treinado com base no conteúdo "permitido e adquirido publicamente";Tudo isso, assim como o advento do ChatGPT, fez as pessoas estarem extremamente familiarizadas com fraudes profundas, violação de direitos autorais, meios de subsistência do artista, preconceito oculto, etc., mas eles estão bastante preocupados.
bet365 app apk
"Nós nos inspiramos em um grande modelo de linguagem e obtemos recursos universais através do treinamento através de dados de escala da Internet".A "inspiração de desenho" de So So é a única evitação de fontes de dados de treinamento de Sora.No artigo, o OpenAI apontou ainda que "o texto do treinamento para o sistema de geração de vídeos requer muitos vídeos e descrições de texto correspondentes".A única fonte de uma grande quantidade de dados visuais pode ser encontrada na Internet, o que também implica a fonte de SORA.
Anteriormente, o Openai enfrentou processos judiciais para o treinamento do GPT-2 e o GPT-3 no artigo do New York Times.Até agora, de toda a interconexãoO motivo da busca de dados de treinamento on -line é que esses dados são públicos.No entanto, a "aquisição pública" nem sempre é equivalente a "domínio público".Existem obras de artistas, fotógrafos, artistas e cineastas usados para treinar Sora?Eles permitem que seus trabalhos criativos sejam usados dessa maneira?
Parece que o novo Sora está fazendo a mesma coisa que o antigo GPT, mas desta vez é especificamente para vídeos.Como no passado, os dados baseados no modelo de treinamento do OpenAI são como tabus.
Sora com véu misterioso pode se tornar um mecanismo de imaginação, uma revolução do filme ou uma máquina de vídeo.Mas é melhor vê -lo como uma ofensiva provocativa ou onda de publicidade.Em grande parte, o OpenAI não está publicando produtos, mas fazendo mitos.Todo o público vendo o animado é semelhante a um paparazzi.
Portanto, embora eu estivesse muito impressionado com Sora, não acreditava completamente nesse tipo de hype.É necessário esperar até que as pessoas comuns possam usar essa ferramenta, porque a visão do público sobre Sora é cuidadosamente planejada.O CEO da Openai, Sam Altman, e a empresa compartilharam os vídeos mais emocionantes do comunicado de imprensa.Eles fornecem acesso a um pequeno grupo de usuários.Talvez eles possam ser considerados uma "demonstração de produtos de grandes empresas de tecnologia", e não sabemos se temos essa ferramenta, se o vídeo gera é tão bom.
Nesse caso, não podemos deixar de nos preocupar com as considerações éticas e de segurança na construção de Sora.Um problema de lastão longa é uma informação falsa, como falsificação profunda.Como outras tecnologias na geração de inteligência artificial, não há razão para acreditar que o texto em vídeo não continuará melhorando rapidamente, o que nos aproxima da época em que é difícil distinguir entre autenticidade.Imagine que, se essa tecnologia for combinada com sons acionados por inteligência artificial, ela abrirá um novo caminho na falsificação em que as pessoas nunca fizeram?
Os vídeos de Sora ainda têm algumas falhas estranhas ao descrever um grande número de cenas complexas, o que mostra que esses vídeos de falsificação profunda ainda podem ser detectados.No entanto, a longo prazo, haverá uma situação de contas mistas e peixadas.Como o vídeo de Sora gerado pela inteligência artificial em 2024, o mundo quase não é mais possível para distinguir a inteligência e a realidade artificiais, a era da informação terminou e a era das informações falsas começa oficialmente.
Até 2030, a maioria das pessoas saberá que o uso de ferramentas gratuitas de inteligência artificial pode forjar qualquer vídeo, som ou declaração.Eles geram contagens difíceis com a Internet todos os dias, e o número só aumentará em mais anos no futuro.
Vivemos nessa época, e a soma do conhecimento humano pode quase ser obtida dos pequenos dispositivos em nossos bolsos, mas a inteligência artificial pode envenenar isso bem.Isso não é uma coisa nova -Sora não é a primeira ameaça para a Internet, nem é a última, mas é provável que seja a mais destrutiva até agora.
Do ponto de vista da alfabetização da mídia, isso tornará a verificação do conteúdo gerado por qualquer usuário é extremamente complicado, porque agora os usuários podem gerar qualquer conteúdo que desejarem.Como o mundo inteiro em que vivemos agora é a verdade, muitas pessoas estão comprometidas em fabricar falsas narrativas na história.As imagens são mais difíceis que o texto, porque você deve ter o conhecimento do aplicativo do Photoshop ou software semelhante e tem um obstáculo à entrada.O vídeo é um nível mais alto de dificuldade.Leva muito tempo, conhecimento profissional e dinheiro para fazer vídeos falsos.Mas com Sora e aplicativos semelhantes, você só precisa inserir prompts e obter.
Como isso mudará o jornalismo?Acredito que a SORA permitiu que as configurações da agenda gerassem muito mais conteúdo do que no passado.O crescimento explosivo de profissionais de marketing e influenciadores gerados pela inteligência artificial pode efetivamente espremer notícias e mídias legais.
É suspiro que as pessoas não apenas desconhecem um futuro tão terrível, mas também animam a chegada de cada onda de nova tecnologia de inteligência artificial.Novas tecnologias são sempre naturais atraentes, e a perseguição de tráfego de várias mídias não é fresca.No entanto, no fluxo atual, poucas pessoas analisam a estrutura dos relatórios de inteligência artificial.Alguém esclarece seriamente os princípios de trabalho dessas tecnologias?Existe uma forte resposta a algum hype realmente ultrajante?
Qual é o resultado?O público obtém a história de inteligência artificial da versão de ficção científica, que é finalmente excluída de discussões importantes sobre ética, uso e trabalho futuro.Tudo isso está intensificando Hollywood para obter inteligência artificial.
(O autor é professor da Escola de Jornalismo e Comunicação da Universidade de Pequim)
"China News Weekly", nº 9, 2024
Isenção de responsabilidade: O Journal usa o manuscrito de "China News Weekly" por escrito
Fale conosco. Envie dúvidas, críticas ou sugestões para a nossa equipe através dos contatos abaixo:
Telefone: 0086-10-8805-0795
Email: portuguese@9099.com