高端系列成果报道之二十七

Xin Zhang, Wentao Jiao, Bing Wang∗（通信作者）, Xuedong Tian. CT-GAN: A conditional Generative Adversarial Network of transformer architecture for text-to-image. Signal Processing: Image Communication 115 (2023) 116959, Accepted 21 February 2023, Available online 17 March 2023. (2022年中科院期刊分区表升级版2区 )

文本到图像生成（Text-to-Image，T2I）作为一项新兴的人工智能技术，可以有效地把文字翻译成图像，能够帮助人们更为简单直观地了解和掌握信息，并且更为方便的收集图像信息，进而降低我们的知识获取的成本。

本文提出直接利用Transformer的自注意力机制构建条件生成对抗网络实现文本与图像之间的交互，这种交互能够作用到全局特征，增强文本与图像之间的关联性，保证图像语义一致性。为了提升图像的生成质量，模型使用了滤波技术及滑动窗口注意力机制。为了提高模型训练稳定性及加速模型收敛，提出基于对称性的生成器和鉴别器，建立局部判别和全局判别两种模式，从而平衡生成器和判别器的性能。实验结果验证了CT-GAN模型在生成图像的多样性和语义一致性性能上的优秀表现。

可以通过网址获得本文训练好的模型: https://github.com/Jwtcode/CT-GAN.

A conditional Generative Adversarial Network of transformer architecture for text-to-image.