Skip to content
 
📑标签
🏷AIGC 🏷method

🗒初墨

🍊Hello,各位好,我是面包!

当AI将随机噪点转化为惊艳画作时,它正在执行一场精密的「去噪炼金术」。本文以咖啡渍扩散现象为引,层层拆解扩散模型「破坏即创造」的核心悖论,揭示其如何通过马尔可夫链构建概率迷宫,并运用变分推断破解视觉炼金密码。

扩散过程:对原始图片进行噪声变换的过程,分为前向扩散和反向生成,前向扩散是图片不断添加高斯噪声的过程,后向生成是添加噪声之后的图片不断减去噪声的过程。

VAE:一种将图像数据进行压缩方式所依赖的模型,包括解码和编码。

CLIP有两种模态,分别呈现为文本编码器和视觉编码器,它们分别将文本和图像转化为嵌入向量对采样器进行特征修饰,使生成的图片不断趋近于期望的图片。

模型

让机器通过500字的中心思想和梗概去扩写出一篇1万字的文章出来,和原文章肯定不是每字每句都相同的,但看过的人一对比发现和原文章竟然大体上雷同。这个过程便是人工智能的训练学习的过程。我们经常说的大模型训练就是这个意思,学习训练出来的规律总和,就叫“模型”。 知乎

一、咖啡杯里的启示:扩散现象的双向魔法 2015年杜克大学实验室里,研究者观察咖啡渍扩散时获得关键洞见:图像生成可以视为「逆扩散过程」。就像逆向播放咖啡渍在纸面晕染的录像,AI学习将随机噪点「收缩」为有序图案,这奠定了扩散模型的哲学根基——破坏即创造。

二、马尔可夫链:构建概率迷宫的三板斧 前向扩散:对图像施加T次高斯噪声扰动,如同用毛玻璃层层模糊画作 逆向工程:训练神经网络预测每步添加的噪声,建立「去噪路线图」 随机游走:通过重参数化技巧在概率迷宫中稳定导航 Python

简化的训练伪代码

for x0 in 数据集: t = 随机采样时间步 # 选择破坏力度 ε = 随机噪声 # 破坏者 ε_θ = 神经网络(x_t, t) # 重建侦探 loss = ||ε - ε_θ||² # 捉迷藏游戏 三、变分推断:视觉炼金术的能量方程 扩散模型本质上在优化证据下界(ELBO):

L = E[log p(x₀|X₁)] - D_KL(q(x_T|x₀) || p(x_T)) - Σ D_KL(q(x_{t-1}|x_t,x₀) || p_θ(x_{t-1}|x_t)) 这个看似晦涩的公式,实则在平衡三个炼金要素:

保真度(首项):重建原始图像的能力 收敛性(末项):确保逆向过程稳定可控 创造性(隐式):潜在空间的探索能力 四、工程实践中的「魔改」配方 Classifier-Free Guidance:用条件嵌入引导创作方向 Latent Diffusion:在潜在空间操作降低计算消耗 PLMS采样器:通过动态调整步长加速收敛 扩散模型工作流程图

五、超越像素:扩散模型的哲学启示 当Stable Diffusion把提示词转化为视觉奇迹时,我们看到的不仅是技术突破,更是人类认知范式的转变——创造的本质可能正是对破坏过程的精准逆推。这种在混沌中建立秩序的范式,正在重塑艺术创作、药物设计等领域的创新路径。

"我们不是在创造,而是在重新发现宇宙中本就存在的可能性。" —— 扩散模型开发者手记

💡延展思考:

扩散过程的时间离散化如何影响生成质量? 去噪预测误差与图像畸变的因果关系 相比GAN,扩散模型在表征学习方面的独特优势 通过这场「破坏与重建」的思维实验,我们得以窥见AI生成艺术的底层密码。当技术洞见与哲学思考产生共振时,或许就是下一次范式革命的前奏。