6月22日,Stability AI宣布推出SDXL 0.9,这是stable diffusion文本生成图像模型中最先进的版本。
继4月发布stable diffusion XL 测试版后,SDXL 0.9 的图像和构图细节比之前版本有了显著改进。
尤其是在参数上,这次的SDXL 0.9具有35亿参数基础模型和66亿参数模型的集成管线。相比之下,Beta测试版仅用了单个31亿参数的模型。
为了生成更逼真的图像,以及更大的深度和更高的分辨率(1024×1024),SDXL 0.9使用了两个CLIP模型,包括迄今为止最大的OpenCLIP模型(OpenCLIP ViT-G/14)。
不仅如此,SDXL 0.9在消费级显卡上就能运行。只需要Win10/11或Linux操作系统、16GB内存,以及具有8GB以上显存的英伟达RTX 20系显卡即可。
官方表示,SDXL系列还会提供一系列超越基本文本prompt的功能,包括:
- 图像对图像的prompt:输入一个图像以获得该图像的变化;
- 内画:重建图像的缺失部分;
- 外画:构建一个现有图像的无缝扩展。
SDXL团队不久将发布一个研究博客,更详细地介绍这个模型的规格和测试。
该模型今天可以通过ClipDrop访问,API即将推出。据Stability AI公布,将于 7 月中旬公开发布v1.0版本。
以下是官方示例: