技术分享

Stable Diffusion 入门科普:从潜空间到图像生成

随着生成式 AI 的兴起,不仅大语言模型在公众领域大放异彩,文本生成图像(Text-to-Image)技术也在艺术创作、设计灵感和娱乐等领域备受关注。Stable Diffusion 作为其中的明星,在开源社区和应用层面都拥有极高的人气和影响力。然而,很多新入坑者在尝试使用 Stable Diffusion WebUI,或者 ComfyUI 进行创作时,可能会遇到许多理解瓶颈,导致无法快速上手。同时,网上也经常会出现一些对此类生成式AI的质疑,诸如”拼凑尸块“的诋毁层出不穷,其本质是对其背后的基本原理并不理解。

可以预见到,AIGC在未来相当一段长的时间内将会是很强大的工具。无论是生产力需求,还是休闲娱乐,想要用好这个电子纺纱机,都有必要对其有一定的了解。作为 ChatGPT 的第一批用户,也是见证了 Nai 模型泄露的开天辟地时刻的 SD 玩家,我打算写一系列简单小文,浅入浅出地带大家了解一下应用层面接触 Stable Diffusion 的大致思路,后期还会写一篇 SDWebUI 与 ComfyUI 的快速上手教程,权当分享经验,留待后人摸着石头过河。

本文将从原理的角度出发,为你科普 Stable Diffusion 如何通过“潜空间”和“扩散”过程来完成文本到图像的生成,无论你是希望上手系列工具的技术爱好者,还是渴望涩图的压抑班友,甚至是生成式AI的坚决反对者,我都建议你浏览一下本文。我并非相关专业人士,作为业余爱好者分享自己的学习和理解,难免错误之处还请批评指正。

一、Stable Diffusion 的核心思路

1. 诞生背景

想象你有一张清晰的照片,然后你不断地在上面涂抹颜料、撒沙子,最终这张照片会变得完全模糊,看不出原来的内容。这就是扩散模型的“正向过程”,这些沙子则被称为“噪声”。

扩散模型的核心任务是学会如何一步步去掉这些颜料沙子,把一堆随机噪点还原回一张有意义的图像——这就是“逆向过程”,也被称为“去噪”。而训练的过程,就是让 AI 学习这种从模糊到清晰的转换能力。

在深度学习图像生成领域,扩散模型(Diffusion Model)引领了新一轮技术突破。它们的创新点在于其利用正向注入噪声逆向去噪的训练机制,学会如何把随机噪声一步步还原成有语义的图像。并且借由文本编码器(如 CLIP Text Encoder)的语义指导,实现文字到图像的自动生成。

2. 潜空间(Latent Space)与 VAE

我们上面提到的扩散模型,就是在图片上撒沙子、去沙子。然而,直接在像素空间操作,对于大分辨率图像而言,这个过程非常耗费算力。Stable Diffusion 创造性地引入了VAE(变分自编码器)来先对图像进行“压缩”——将原始图像映射到一个更低维的潜向量空间:

Encoder:把原始图像“编码”成潜向量(相当于提取更抽象、紧凑的特征表示)。

Decoder:在最后一步,把潜向量“解码”回像素空间,得到可观看的图像。

因此,Stable Diffusion 在推理时并不是对海量像素进行去噪,而是在潜空间中进行扩散和逆扩散。计算量更小,速度更快,也更能生成细腻清晰的结果,但其根本思路都是类似的。

3. 扩散模型的工作流程

(1)前向扩散(训练时的噪声注入)

在模型训练阶段,系统会在潜向量上不断注入噪声,让其逐渐变得混乱,直到与纯随机噪声几乎无异。这个过程帮助模型学会:如果一张图原本是清晰的潜向量,那么在被加上不同程度的噪声后,应该如何一步步“反向修复”(去噪)它。

(2)逆向扩散(推理时的去噪生成)

在推理阶段,也就是我们常用的图像生成阶段,Stable Diffusion 则做“逆向”的过程:从一个接近纯随机的潜向量出发,使用训练得到的U-Net 去噪网络,在每一步迭代中都预测“下一步要去除多少噪声”,从而逐渐生成目标图像。
由于有文本向量的引导(由文本编码器生成),模型会把噪声去除的方向朝着提示词的语义去靠拢。多次迭代后,得到的是一个与文本含义相符合的潜向量,最后再由 VAE Decoder 解码为实际图像。

二、文本是如何影响图像生成的?

大多数 Stable Diffusion 模型集成了一个文本编码器(通常是 CLIP 的 Text Encoder)。用户输入的 Prompt(提示词)被转换成文本向量,作为指导信息输送到 U-Net 中。

在去噪的每一步,U-Net 都会结合文本向量来预测“正确去除的噪声部分”,使图像潜向量逐渐走向与提示语义相吻合的方向。

这就是为什么我们可以在 Prompt 中细化描述,如“风格”“色彩”“高分辨率”“真实感”等,模型能在一定程度上遵循这些文本指令,从而生成相应风格的图像。这一环节实现了让模型“听懂”人话。

三、Stable Diffusion 与争议

1. 不是检索或拼贴,而是从随机噪声中“采样”

在使用 Stable Diffusion 生成图像时,模型每一次都从随机潜向量(噪声)出发,进行连续迭代去噪。如果它只是“拼凑”或“拷贝”训练集中某些图像,那它根本无需如此繁琐的去噪过程,也无需庞大的 U-Net 网络结构参数——直接检索/拼贴就能结束。

实际上,Stable Diffusion 通过学习到了对图像分布的深层规律,能够从无限多的潜在生成空间中去“采样”。在所有情况下,输出的图像都是训练集中并不存在的全新组合,输出训练集的可能性等同于猴子打出《哈姆雷特》,属于热力学极大自然逆熵的可忽略概率。

类似地,人类学习绘画的过程,也是学习参考前人的创作,提炼总结前人的经验,来领悟到这些深层的规律。

2. 模型存储的是分布特征,而非完整图像

Stable Diffusion 的神经网络并不直接保存训练集中每张图的像素信息,它所储存的,是在海量的图像-文本数据上训练后形成的网络权重

试想:给一个从未见过橘子的人看100(甚至更多)张橘子的照片,照片的下方标明“橘子”二字。此时,假若给他一个真正的橘子,他就也能辨认出来。同理,如果他有一定的绘画水平,给他橘子二字,他也能画出来一颗橘子——哪怕他根本没见过实物。

3. 为什么会生成画风相近的作品?

过拟合

如果某些训练样本极度“独特”或重复率特别高,模型可能出现过拟合,让部分生成结果与训练图像非常相似。就好比100张橘子的照片都是同一品种,看照片的人画出来的橘子也大概率更像这一品种。这种少数现象往往出现在训练集单一、训练方法不佳的情况下。

提示词过于专一

当提示词高度集中于某个极其独特的艺术风格,也可能得到与该艺术家的作品极其相近的结果。这个本质上是对“独特风格”的强力学习和重现,类似于人类对特定艺术风格的学习复现。

4. 数据集与相关法律争论

世界各国确实有法律和法规限制在人工智能训练过程中使用公共互联网内容作为数据集。这些限制主要涉及版权法、数据保护法以及特定行业法规。但是由于人工智能的进步远高于其相关伦理道德的发展,这些相关法律仍极不完善。

欧盟的数字化单一市场版权指令,给了非营利组织较宽松的豁免权;中国的管理办法侧重于内容审查;美国更是没有针对AI训练公共数据的明确法律限制,而是选择在产生法律纠纷时应用版权法。而日本对 AI 数据挖掘的行为,更是采取了相对宽松的立场,只要不会不合理地损害权利人利益,就可以进行数据挖掘。

许多国家正在审查 AI 相关的版权和数据保护法律。随着国际上多起AI相关的法律诉讼的产生,以及越来越多的人工智能模型的诞生,这方面的法律法规在未来会更为完善。然而就目前来看,创作者禁止AI训练的标注,更是一种道德层面的约束。只要公开发布在互联网上,并没有现行的法律法规明确禁止人工智能训练纳入数据集,更无论非盈利的开源模型进行学习。

如果你明确反对任何未经创作者允许的训练行为,在拒绝 Stable Diffusion XL、DeepSeek 这类开源模型外,你更应该抵制包含 ChatGPT 在内的一切闭源商业大语言模型,有些公开表示收集了互联网数据,有些完全闭源无法验证。

结语

从随机噪声到清晰图像,Stable Diffusion 展示了生成式 AI 的强大潜力,也映射出当代技术与社会伦理之间的复杂交织。我想说的是,一个强大新事物的到来必定伴随着社会的阵痛。无论你是技术的拥护者,还是AI的反对者,都不妨以更理性、更深入的视角看待它。未来,生成式 AI 还会不断演进,想必法律与道德规范也会紧随其后、不断完善。我们能做的,是在理解其原理与适用边界的前提下,善加利用它,为我们的创作与生活带来更多可能。

Leave a Reply

Your email address will not be published.Required fields are marked *