国际计算机视觉顶级会议CVPR的接收结果已经出炉。中山大学与腾讯微信视觉团队关于扩散模型的最新研究论文,“Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models”,成功入选。
这篇论文由入选2023犀牛鸟精英人才计划的张鹏泽同学在学界导师谢晓华副教授和微信高级研究员Hubery的联合培养下完成,这也是鹏泽在精英计划中,继NeurIPS2023中稿之后的又一篇顶会成果。
扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的应用前景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样时间端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。
为了解决这一难题,微信视觉团队与中山大学合作,联手探究了扩散模型中的奇点问题,并提出了一个即插即用的方法,有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在 CVPR 2024 会议上发表。
扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。然而,这一假设并没有得到充分证明。特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。
此外,奇点问题也会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。
为了解决扩散模型在时间端点处的奇点问题,微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。
通过大量的实验验证表明,仅需训练一次,SingDiffusion 模块即可无缝应用到现有的扩散模型中,显著地解决了平均灰度值的问题。在不使用无分类器指引技术的情况下,SingDiffusion 能够显著提升当前方法的生成质量,特别是在应用于 Stable Diffusion1.5(SD-1.5)后,其生成的图像质量更是提升了 33%
逆过程的高斯特性
由此,可以通过贝叶斯公式计算逆过程的条件分布:
然而,得到的分布是混合高斯分布,难以用网络进行拟合。因此,主流的扩散模型通常假设这一分布可以由单个高斯分布拟合:
奇点时刻的采样
即插即用的 SingDiffusion 模块
SingDiffuion 的算法如下图所示:
实验
可以看出,该研究所提出的方法仅需进行一次训练,即可轻松地应用到已有的扩散模型中,解决平均灰度问题。
从结果中可以看出,该方法能有效解决 ControlNet 的平均灰度问题。
微信视觉团队专注于多媒体内容理解,2D/3D视觉,智能内容创作和多媒体高性能推理计算,团队自主研发了超过100种计算机视觉和多模态能力,广泛支持了微信基础功能、视频号、小程序、搜一搜、听一听等微信核心业务场景,能力日使用量超过100亿次,同时还服务了秒剪、企业微信、微信读书、QQ邮箱、QQ、腾讯云等腾讯业务。AI技术发展日新月异,微信视觉团队坚持以专业精神、专注态度打磨技术和业务,努力为用户提供更加智能的多媒体服务。