主题 | Data Intelligence Group

# 主题

PixArt-基于Diffusion Transformer从头高效训练文生图扩散模型

# 主讲人

谢恩泽研究员华为诺亚方舟实验室（香港）

# 报告摘要

最先进的文本到图像(T2D)模型需要大量的训练成本(例如数百万个GPU小时)严重阻碍了AIGC社区的根本创新，同时增加了二氧化碳排放。本文先介绍了PIXART-α，一种基于Transformer的T2I扩散模型，其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL甚至Midiourney)竞争，达到接近商业应用的标准。此外，还将介绍最新提出的PIXART-,该模型基于PIXART-α增量训练，实现了更高效的计算和语义对齐能力，以及进一步支持了4K超高分辨率的图像合成能力。我们希望 PIXART系列工作能为 AIGC 社区和初创公司提供新的见解，以加速从头开始构建完全属于自己的高质量且有竞争力的图像生成模型。

# 嘉宾简介

谢恩泽,现华为诺亚方舟实验室(香港)AI Theory Lab的研究员，他于2022年毕业于香港大学MMLab，导师为罗平教授和王文平教授。谢恩泽发表过30+篇顶级会议/期刊论文，如TPAMI, CVPR, ICCV,ICML, ICLR, NeurIPS,ACL等。其中8篇第一作者。他的谷歌学术引用超过10000次，其中2篇论文单篇引用超过3000次有4篇论文入选CVPR2020，ICCV2021，NeurIPS2021，ECCV2022的十大最具影响力论文。曾获2022年英伟达奖学金Finalist Award(全球15人)，世界人工智能大会WAIC2023优秀论文奖(全球10篇)。

[Slides & Video]