Modelo de texto a imaxe

Un modelo de texto a imaxe (text-to-image model en inglés) é un modelo de aprendizaxe automática que toma como entrada unha descrición en linguaxe natural e produce unha imaxe que coincida con esa descrición. Estes modelos comezaron a desenvolverse a mediados da década de 2010, como resultado dos avances nas redes neuronais profundas. En 2022, a produción de modelos de texto a imaxe de última xeración, como DALL-E 2 de OpenAI, Imagen de Google Brain e Stable Diffusion de StabilityAI comezou a achegarse á calidade das fotografías reais e da arte debuxada por humanos.

Un exemplo de texto a imaxe de DALL-E 2 creado usando o promt (indicador) "a medieval painting of a man sitting at a computer editing a Wikipedia article" ("unha pintura medieval dun home sentado ante un ordenador editando un artigo da Wikipedia").

Os modelos texto a imaxe xeralmente combinan un modelo de linguaxe, que transforma o texto de entrada nunha representación latente, e un modelo de imaxe xerativa (generative model) que produce unha imaxe condicionada a esa representación. Os modelos máis eficaces foron xeralmente adestrados en cantidades enormes de datos de imaxe e texto extraídos da web.[1]

Unha imaxe condicionada á indicación "un astronauta montando a cabalo, de Hiroshige ", xerada por Stable Diffusion, un modelo de texto a imaxe a grande escala lanzado en 2022.

Historia

editar

Antes do auxe da aprendizaxe profunda, houbo algúns intentos limitados de construír modelos de texto a imaxe, pero limitáronse a crear colaxes de forma eficaz organizando imaxes de compoñentes existentes, como a partir dunha base de datos de clip art.[2]

O problema inverso máis manexable, o subtítulado automático de imaxes (image captioning), viu unha serie de enfoques exitosos de aprendizaxe profunda antes dos primeiros modelos de texto a imaxe.[3]

O primeiro modelo moderno de texto a imaxe, alignDRAW foi introducido en 2015 por investigadores da Universidade de Toronto. AlignDRAW estendeu a arquitectura DRAW introducida anteriormente (que utilizaba un autocodificador variacional recorrente cun mecanismo de atención ) para condicionarse a secuencias de texto. As imaxes xeradas por alignDRAW eran borrosas e non eran fotorrealistas, pero o modelo puido xeneralizarse a obxectos non representados nos datos de adestramento (como un autobús escolar vermello) e manexou adecuadamente novas indicacións como "un sinal de parada está voando en ceos azuis", mostrando que non se trataba simplemente de "memorizar" datos do conxunto de adestramento.[4]

En 2016, Reed, Akata, Yan et al. convertéronse nos primeiros en utilizar redes xerativas adversarias (adversarial networks) para a tarefa de texto a imaxe. Con modelos adestrados en conxuntos de datos estreitos e específicos de dominio, foron capaces de xerar imaxes "visualmente plausibles" de aves e flores a partir de lendas de texto como "un paxaro totalmente negro cun pico espeso e redondeado". Un modelo adestrado no conxunto de datos COCO máis diverso produciu imaxes que eran "desde a distancia... alentadoras", pero que carecían de coherencia nos seus detalles.[2]

Un dos primeiros modelos de texto a imaxe en captar a atención do público xeneralizada foi o DALL-E de OpenAI, anunciado en xaneiro de 2021. Un sucesor capaz de xerar imaxes máis complexas e realistas, DALL-E 2, foi presentado en abril de 2022.[5][6]

Arquitectura e formación

editar

Os modelos de texto a imaxe foron construídos utilizando unha variedade de arquitecturas. O paso de codificación de texto pódese realizar cunha rede neuronal recorrente como unha rede de memoria longa a curto prazo (LSTM), aínda que desde entón os modelos de transformadores convertéronse nunha opción máis popular. Para o paso de xeración de imaxes, utilizáronse habitualmente redes adversarias xerativas (generative adversarial networks) condicionais, e os modelos de difusión tamén se están a converter nunha opción moi divulgada nos últimos anos. En lugar de adestrar directamente un modelo para que saia unha imaxe de alta resolución condicionada á incrustación de texto, unha técnica é adestrar un modelo para xerar imaxes de baixa resolución e utilizar un ou máis modelos auxiliares de aprendizaxe profunda para amplialo, enchendo detalles máis finos.

Os modelos de texto a imaxe adestran en grandes conxuntos de datos de pares (texto, imaxe), moitas veces extraídos da web. Co seu modelo Imagen de 2022, Google Brain informou de resultados positivos do uso dun gran modelo de linguaxe adestrado por separado nun corpus de só texto (coa súa ponderación posteriormente conxelada), unha diferenza do enfoque estándar até agora.[7]

Conxuntos de datos

editar
 
Exemplos de imaxes e subtítulos de tres conxuntos de datos públicos que se usan habitualmente para adestrar modelos de texto a imaxe.

O adestramento dun modelo de texto a imaxe require un conxunto de datos de imaxes combinadas con subtítulos de texto. Un conxunto de datos que se usa habitualmente para este fin é COCO (Common Objects in Context). Lanzado por Microsoft en 2014, COCO consta de preto de 123.000 imaxes que representan unha diversidade de obxectos, con cinco subtítulos por imaxe, xerados por anotadores humanos. Oxford-120 Flowers e CUB-200 Birds son conxuntos de datos máis pequenos dunhas 10.000 imaxes cada un, restrinxidos a flores e aves, respectivamente. Considérase menos difícil adestrar un modelo de texto a imaxe de alta calidade con estes conxuntos de datos, debido á súa estreita gama de temas.[8]

  1. Vincent, James (2022-05-24). "All these images were generated by Google’s latest text-to-image AI". The Verge (en inglés). Consultado o 2022-09-11. 
  2. 2,0 2,1 "A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis" (PDF). arxiv.org; Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan. Consultado o 1 de novembro de 2019. 
  3. Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (2016-02-29). "Generating Images from Captions with Attention". arXiv:1511.02793 [cs]. 
  4. "Reed16" (PDF). proceedings.mlr.press (en inglés). 
  5. "Como funciona o DALL-E, site que gera imagens a partir de textos". Super (en portugués). Consultado o 2022-09-11. 
  6. "DALL·E 2". OpenAI (en inglés). Consultado o 2022-09-11. 
  7. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs]. 
  8. Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (2021-12-01). "Adversarial text-to-image synthesis: A review". Neural Networks (en inglés) 144: 187–209. ISSN 0893-6080. doi:10.1016/j.neunet.2021.07.019. 

Véxase tamén

editar