Stable Diffusion 团队放大招！新绘画模型直出 AI 海报，实现像素级图像生成对标苹果！

SD指南
23年5月19日
编辑

ai机器人

开源 AI 绘画扛把子，stable diffusion 背后公司StabilityAI再放大招！

全新开源模型DeepFloyd IF，一下获星 2 千 + 并登上 GitHub 热门榜。

DeepFloyd IF 不光图像质量是照片级的，还解决了文生图的两大难题：

准确绘制文字。（霓虹灯招牌上写着 xxx）

以及准确理解空间关系。（一只猫照镜子看见狮子的倒影）网友表示，这可是个大事，之前想让 Midjourney v5 在霓虹灯招牌上写个字 AI 都是瞎划拉两笔，对于镜子理解的也不对。使用 DeepFloyd IF，可以把指定文字巧妙放置在画面中任何地方。

霓虹灯招牌、街头涂鸦、服饰、手绘插画，文字都会以合适的字体、风格、排版出现在合理的地方。

这意味着，AI 直出商品渲染图、海报等实用工作流程又打通一环。

还在视频特效上开辟了新方向。

目前 DeepFloyd IF 以非商用许可开源，不过团队解释这是暂时的，获得足够的用户反馈后将转向更宽松的协议。有需求的小伙伴可以抓紧反馈起来了。

像素级图像生成

DeepFloyd IF 仍然基于扩散模型，但与之前的 stable diffusion 相比有两大不同。

负责理解文字的部分从 OpenAI 的 CLIP 换成了谷歌T5-XXL，结合超分辨率模块中额外的注意力层，获得更准确的文本理解。

负责生成图像的部分从潜扩散模型换成了像素级扩散模型。

也就是扩散过程不再作用于表示图像编码的潜空间，而是直接作用于像素。

官方还提供了一组 DeepFloyd IF 与其他 AI 绘画模型的直观对比。可以看出，使用 T5 做文本理解的谷歌 Parti和英伟达 eDiff-1也都可以准确绘制文字，AI 不会写字这事就是 CLIP 的锅。

不过英伟达 eDiff-1 不开源，谷歌的几个模型更是连个 Demo 都不给，DeepFloyd IF 就成了更实际的选择。

具体生成图像上 DeepFloyd IF 与之前模型一致，语言模型理解文本后先生成 64×64 分辨率的小图，再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上，通过把指定图像缩小回 64×64 再使用新的提示词重新执行扩散，也实现以图生图并调整风格、内容和细节。并且不需要对模型做微调就可直接实现。另外，DeepFloyd IF 的优势还在于，IF-4.3B 基础模型是目前扩散模型中U-Net 部分有效参数是最多的。

在实验中，IF-4.3B 取得了最好的 FID 分数，并达到 SOTA（FID 越低代表图像质量越高、多样性越好）。

谁是 DeepFloyd

DeepFloyd AI Research 是 StabilityAI 旗下的独立研发团队，深受摇滚乐队平克弗洛伊德影响，自称为一只 ” 研发乐队 “。

主要成员只有 4 人，从姓氏来看均为东欧背景。这次除了开源代码外，团队在 HuggingFace 上还提供了 DeepFloyd IF 模型的在线试玩。

我们也试了试，很可惜的是目前对中文还不太支持。

原因可能是其训练数据集 LAION-A 里面中文内容不多，不过既然开源了，相信在中文数据集上训练好的变体也不会太晚出现。One More Thing

DeepFloyd IF 并不是 Stability AI 昨晚在开源上的唯一动作

语言模型方面，他们也推出了首个开源并引入 RLHF 技术的聊天机器人 StableVicuna，基于小羊驼 Vicuna-13B 模型实现。

完整的桌面和移动界面也即将发布。Deepfloyd IF 在线试玩：

https://huggingface.co/spaces/DeepFloyd/IF

代码：

https://github.com/deep-floyd/IF

StableVicuna 在线试玩：

https://huggingface.co/spaces/CarperAI/StableVicuna

参考链接：

[ 1 ] https://deepfloyd.ai/deepfloyd-if

[ 2 ] https://stability.ai/blog/deepfloyd-if-text-to-image-model

[ 3 ] https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

[ 4 ] http://stable-diffusion-art.com/how-stable-diffusion-work/

声明：学AI网所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服或提交工单进行处理。学AI网内用户所发表的所有内容及言论仅代表其本人，并不反映任何学AI网之意见及观点。

{{userData.name}}已认证

Stable Diffusion 团队放大招！新绘画模型直出 AI 海报，实现像素级图像生成对标苹果！

青春就是用来失败的｜训练灌篮高手专属AI绘画模型

利用Stable Diffusion和Chilloutmix模型生成真人Cosplay图片

极简主义女生头像MidJourney提示词

怀旧报纸女孩MidJourney提示词

MidJourney彩虹列车咒语

{{userData.name}}已认证

青春就是用来失败的｜训练灌篮高手专属AI绘画模型

利用Stable Diffusion和Chilloutmix模型生成真人Cosplay图片

高通演示在安卓机运行AI绘画模型Stable Diffusion 15秒生成AI图像

AI大进化！Stable Diffusion新绘画模型彻底取代人类，直出AI海报

代码实现stable-diffusion模型，你也用AI生成获得一等奖的艺术图

AI大进化！Stable Diffusion新绘画模型DeepFloyd IF直出AI海报

极简主义女生头像MidJourney提示词

怀旧报纸女孩MidJourney提示词

MidJourney彩虹列车咒语