高端系列成果报道之二十七
Xin Zhang, Wentao Jiao, Bing Wang∗(通信作者), Xuedong Tian. CT-GAN: A conditional Generative Adversarial Network of transformer architecture for text-to-image. Signal Processing: Image Communication 115 (2023) 116959, Accepted 21 February 2023, Available online 17 March 2023. (2022年中科院期刊分区表升级版2区 )
文本到图像生成(Text-to-Image,T2I)作为一项新兴的人工智能技术,可以有效地把文字翻译成图像,能够帮助人们更为简单直观地了解和掌握信息,并且更为方便的收集图像信息,进而降低我们的知识获取的成本。
本文提出直接利用Transformer的自注意力机制构建条件生成对抗网络实现文本与图像之间的交互,这种交互能够作用到全局特征,增强文本与图像之间的关联性,保证图像语义一致性。为了提升图像的生成质量,模型使用了滤波技术及滑动窗口注意力机制。为了提高模型训练稳定性及加速模型收敛,提出基于对称性的生成器和鉴别器,建立局部判别和全局判别两种模式,从而平衡生成器和判别器的性能。实验结果验证了CT-GAN模型在生成图像的多样性和语义一致性性能上的优秀表现。
可以通过网址获得本文训练好的模型: https://github.com/Jwtcode/CT-GAN.
A conditional Generative Adversarial Network of transformer architecture for text-to-image.