DALL-E
Uma imagem gerada pelo DALL-E 2 de uma mão robótica desenhando | |
Desenvolvedor | OpenAI |
Lançamento | 5 de janeiro de 2021 (3 anos) |
Página oficial | openai |
DALL-E (estilizado DALL·E) é um programa de inteligência artificial que cria imagens a partir de descrições textuais.
Ele usa uma versão de 12 bilhões de parâmetros[1] do modelo GPT-3 Transformer para interpretar entradas de linguagem natural (como "uma bolsa de couro verde em forma de pentágono" ou "uma visão isométrica de uma capivara triste") e gerar imagens.[2] Ele pode criar imagens de objetos realistas ("um vitral com a imagem de um morango azul"), bem como objetos que não existem na realidade ("um cubo com a textura de um porco-espinho").[3][4][5] Seu nome é uma junção de WALL-E e Salvador Dalí.[2][1]
Muitas redes neurais dos anos 2000 em diante foram capazes de gerar imagens realistas.[2] O DALL-E, no entanto, é capaz de gerá-las a partir de instruções de linguagem natural, que "entende [...] e raramente falha de forma séria".[2]
De acordo com a MIT Technology Review, um dos objetivos do OpenAI era "dar aos modelos de linguagem uma melhor compreensão dos conceitos cotidianos que os humanos usam para dar sentido às coisas".[6]
O DALL-E 3 foi lançado nativamente no ChatGPT para clientes ChatGPT Plus e ChatGPT Enterprise em outubro de 2023, com disponibilidade via API da OpenAI e plataforma "Labs" esperada para o final do ano. A Microsoft implementou o modelo na ferramenta Image Creator do Bing e planeja implementá-lo em seu aplicativo Designer.[7]
História
[editar | editar código-fonte]O DALL-E foi revelado pela OpenAI em 5 de janeiro de 2021.[6]
Em abril de 2022, a OpenAI anunciou o DALL-E 2, alegando que pode produzir imagens fotorrealistas a partir de descrições textuais, juntamente com um editor que permite modificações simples na saída. A partir do anúncio, o software foi declarado ainda em fase de pesquisa, com acesso limitado a usuários beta pré-selecionados. O modelo ainda pode cometer erros graves, incluindo erros que nenhum humano cometeria.[8] DALL-E 2 foi descrito como um modelo que "pode criar imagens e arte originais e realistas a partir de uma descrição de texto. Ele pode combinar conceitos, atributos e estilos."[9]
Arquitetura
[editar | editar código-fonte]O modelo Generative Pre-trained Transformer (GPT) foi desenvolvido inicialmente pela OpenAI em 2018,[10] usando a arquitetura Transformer. A primeira iteração, GPT, foi ampliada para produzir GPT-2 em 2019;[11] em 2020 o modelo foi ampliado novamente para produzir GPT-3, com 175 bilhões de parâmetros.[12][1][13]
O modelo de DALL-E é uma implementação multimodal do GPT-3[14] com 12 bilhões de parâmetros[1] que "troca texto por pixels", treinado em pares texto-imagem da Internet.[6] Ele usa aprendizado de zero-shot para gerar saída de uma descrição e sugestão sem treinamento adicional.[15]
Desempenho
[editar | editar código-fonte]O DALL-E é capaz de gerar imagens em vários estilos, desde imagens fotorrealistas[1] até pinturas e emojis. Ele também pode "manipular e reorganizar" objetos em suas imagens.[1] Uma habilidade observada por seus criadores foi a colocação correta de elementos de design em novas composições sem instruções explícitas: "Por exemplo, quando solicitado a desenhar um rabanete daikon assoando o nariz, tomando um café com leite ou andando de monociclo, o DALL-E geralmente desenha o lenço, mãos e pés em locais plausíveis."[16]
Enquanto o DALL-E exibiu uma ampla gama de habilidades, no lançamento de sua demonstração pública, a maior parte da cobertura se concentrou em um pequeno subconjunto de imagens de saída "surreais"[6] ou "peculiares".[17] Especificamente, a saída de DALL-E para "uma ilustração de um rabanete daikon bebê em um tutu passeando com um cachorro" foi mencionada em peças da Input,[18] NBC,[19] Nature,[20] e outras publicações.[1][21][22] Sua saída para "uma poltrona em forma de abacate" também foi notada.[6][23] Em contraste, foi observado o desenvolvimento não intencional de DALL-E de habilidades de raciocínio visual suficientes para resolver as Matrizes de Raven (testes visuais frequentemente administrados a humanos para medir a inteligência).[24]
Implicações
[editar | editar código-fonte]O DALL-E anuncia "o alvorecer de um novo paradigma de IA conhecido como IA multimodal", na qual os sistemas seriam capazes de combinar e traduzir dados entre vários tipos de informações. Além disso, o DALL-E foi citado como um exemplo de software que exibe criatividade.[25]
Referências
- ↑ a b c d e f g Johnson, Khari (5 de janeiro de 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Consultado em 5 de janeiro de 2021. Arquivado do original em 5 de janeiro de 2021
- ↑ a b c d Coldewey, Devin (5 de janeiro de 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Consultado em 5 de janeiro de 2021. Arquivado do original em 6 de janeiro de 2021
- ↑ Grossman, Gary (16 de janeiro de 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Consultado em 2 de março de 2021. Arquivado do original em 26 de fevereiro de 2021
- ↑ Andrei, Mihai (8 de janeiro de 2021). «This AI module can create stunning images out of any text input». ZME Science. Consultado em 2 de março de 2021. Arquivado do original em 29 de janeiro de 2021
- ↑ Walsh, Bryan (5 de janeiro de 2021). «A new AI model draws images from text». Axios. Consultado em 2 de março de 2021
- ↑ a b c d e Heaven, Will Douglas (5 de janeiro de 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado em 5 de janeiro de 2021
- ↑ Mehdi, Yusuf (21 de setembro de 2023). «Announcing Microsoft Copilot, your everyday AI companion». The Official Microsoft Blog (em inglês). Consultado em 19 de outubro de 2023
- ↑ KAHN, JEREMY (6 de abril de 2022). «Move over Photoshop: OpenAI has just revolutionized digital image making». Fortune (em inglês). Consultado em 10 de abril de 2022
- ↑ «DALL·E 2». OpenAI (em inglês). Consultado em 6 de abril de 2022
- ↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junho de 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). OpenAI. 12 páginas. Consultado em 23 de janeiro de 2021. Cópia arquivada (PDF) em 26 de janeiro de 2021
- ↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de fevereiro de 2019). «Language models are unsupervised multitask learners» (PDF). 1 (8). Consultado em 19 de dezembro de 2020. Cópia arquivada (PDF) em 6 de fevereiro de 2021
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs.CL]
- ↑ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092 [cs.LG]
- ↑ Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503 [cs.CL]
- ↑ Dent, Steve (6 de janeiro de 2021). «OpenAI's DALL-E app generates images from just a description». Engadget. Consultado em 2 de março de 2021. Cópia arquivada em 27 de janeiro de 2021
- ↑ Dunn, Thom (10 de fevereiro de 2021). «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing. Consultado em 2 de março de 2021. Cópia arquivada em 22 de fevereiro de 2021
- ↑ Shead, Sam (8 de janeiro de 2021). «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC. Consultado em 2 de março de 2021
- ↑ Kasana, Mehreen (7 de janeiro de 2021). «This AI turns text into surreal, suggestion-driven art». Input. Consultado em 2 de março de 2021. Cópia arquivada em 29 de janeiro de 2021
- ↑ Ehrenkranz, Melanie (27 de janeiro de 2021). «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News. Consultado em 2 de março de 2021. Cópia arquivada em 20 de fevereiro de 2021
- ↑ Stove, Emma (5 de fevereiro de 2021). «Tardigrade circus and a tree of life — January's best science images». Nature. Consultado em 2 de março de 2021. Cópia arquivada em 8 de março de 2021
- ↑ Knight, Will (26 de janeiro de 2021). «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired. Consultado em 2 de março de 2021. Cópia arquivada em 21 de fevereiro de 2021
- ↑ Metz, Rachel (2 de fevereiro de 2021). «A radish in a tutu walking a dog? This AI can draw it really well». CNN. Consultado em 2 de março de 2021
- ↑ Wakefield, Jane (6 de janeiro de 2021). «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation. Consultado em 3 de março de 2021. Cópia arquivada em 2 de março de 2021
- ↑ Markowitz, Dale (10 de janeiro de 2021). «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb. Consultado em 2 de março de 2021. Cópia arquivada em 23 de fevereiro de 2021
- ↑ Toews, Rob (18 de janeiro de 2021). «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes. Consultado em 2 de março de 2021. Cópia arquivada em 12 de fevereiro de 2021