Skip to content
 
📑标签
🏷AIGC 🏷model 🏷知识库 🏷diffusion

🗒初墨

🍊Hello,各位好,我是面包!

想让AI把你的脑洞变成高清大图?Stable Diffusion(SD)的文生图就像让AI画师在“数字厨房”里炒菜——提示词是菜谱,U-Net是主厨,VAE是高压锅!下面带你拆解这道“AI满汉全席”的制作流程~

WebSite

SD GUI

Stable Diffusion 这是一个强大的文生图模型,可以通过文本提示生成图像。你需要提供准确的文本描述来生成包含标志物的场景图片。例如,描述一个交通标志在城市街道上的情景。稳定扩散允许你生成高分辨率的图像,这对于后续的YOLO训练非常有利。

1. webui-窗口式

webui 提供了一个简洁、可视化的界面,将 Stable Diffusion 的工作流程展示在网页端。

2. comfyui-节点式

comfyui 这是一个基于节点的界面,可以更灵活地定制生成过程,便于调整参数以生成你需要的特定场景。可以通过ComfyUI设置不同的节点来控制图像的生成过程,比如调整模型的Checkpoint、VAE、Clip等。

高级节点最好链接高级节点,比如controlnet应用高级最好连接controlnet模型加载器(高级)

文生图流程

1. 加载大模型——选对“魔法调料包”

  • Checkpoint模型:相当于AI画师的“绘画风格库”,比如写实风、二次元、赛博朋克。
    • 操作:在WebUI左上角选模型,切换如revAnimated_v122(全能型)或3DguochaoXL(国潮3D)
    • 黑科技:SD3最新版用MMDiT架构(和Sora师出同门),文字渲染比Midjourney还强[3]

2. 写提示词——给AI画师“下订单”

  • 正向Prompt:精确描述画面要素,格式主体+细节+风格+质量
    # 案例:生成青花瓷  
    Porcelain, blue and white porcelain, 3d render, cg, ue5, high details, masterpiece
  • 反向Prompt:屏蔽不想要的元素,比如low quality, blurry, extra fingers(防AI画手抽风)
  • 权重控制:用( )加强词,[ ]减弱词,比如(intricate details:1.3)让细节更炸裂

3. 参数设置——调整“火候与厨具”

参数作用说明推荐值避坑指南
采样方法决定“炒菜手法”DPM++ 2M Karras / UniPCEuler a适合快速出图,DDIM需80+步数
采样步数迭代优化次数20-30步步数太低→糊,太高→显存爆炸
CFG Scale提示词服从度7-12>15会过度锐化像PS液化
分辨率出图尺寸512x512或768x768大尺寸需开Hires Fix防畸变
种子码(Seed)控制随机性-1(随机)固定种子可复现同风格

4. 核心魔法——U-Net的“PS大法”

  1. 文本编码:CLIP模型把提示词变成768维向量(相当于把中文菜谱翻译成AI的“厨房暗号”)
  2. 噪声生成:
    • 文生图:用高斯噪声初始化潜空间(像给画布泼墨)
    • 图生图:用VAE编码原图得到潜特征(像给照片打马赛克)
  3. 去噪迭代:U-Net化身“PS大师”,50-100次逐步去除噪声,同时注入文本语义
    • Schedule算法:动态调整噪声强度,控制优化节奏(类似调节炒锅火力)
    • Cross Attention:让图像区域和提示词对齐(比如确保“青花瓷”出现在正确位置)

5. 高清解码——VAE的“高压锅解压”

  • 潜空间→像素图:VAE解码器把优化后的潜特征还原为高清图,分辨率提升4-8倍
  • 细节微调:切换不同VAE模型可改变色彩风格(比如vae-ft-mse让金色更饱满)

🛠️ 实操技巧:炼丹师的“作弊码”

  1. ControlNet精准控图:
    • 用Canny硬边缘控制构图,权重1.2让AI听话不跑偏
    • 案例:生成梨形建筑时,Canny锁定轮廓+LoRA加载建筑风格
  2. LoRA风格插件:
    • 像“滤镜APP”,0.8权重叠加国潮/暗黑等风格
  3. 高清修复:
    • 分辨率x2 + 降噪0.3,让发丝细节更精致

LoRA物品训练避坑指南

想让AI把你的定制奖杯、限量手办变成数字世界的百变星君?LoRA训练就是你的“魔法杖”——但若操作不当,轻则“过拟合到妈不认”,重则“细节丢失到怀疑人生”!下面这些血泪经验,助你避开99%的坑👇

一、标签心法:让AI“秒懂”你的物品

1. 触发词玄学

  • 正确示范:
    小金人(触发词), 奖杯, 静物, nohuman, 纯色背景, 俯视角
  • 错误示范:
    一个金色小人雕像,高度30cm,底座刻有2024年纪念字样
  • 核心逻辑:
    • 触发词是AI认知物品的“接头暗号”,避免对物品本身描述,但可以描述物品分类和构图(如golden_boy
    • 分类标签定义物品属性(是“奖杯”不是“水杯”)
    • 构图标签锁定拍摄范式(静物/无人物/纯色背景)
    • 添加视角描述,并提供一些手捧奖杯的图片帮助 AI 识别物品(如俯视角)

2. 背景光影的“舞台设计”

  • 三组黄金搭配:
    背景类型标签示例适用场景
    纯白pure white background电商产品图
    渐变灰gradient gray工业质感渲染
    暗红dark red studio奢侈品氛围营造
  • 必杀技:在PS里拖个渐变,保存为.png+透明通道,训练时AI自动学习背景分离!

二、数据集的“三重宇宙”

要想LoRA模型既能精准复刻又能灵活适配,请准备三组“教科书级”数据:

  1. 多角度光影组(20张)

    • 拍摄要求:
      • 环形灯+柔光箱,模拟8种打光角度
      • 每张图标注视角标签(如low_angle, top_view
    • 效果:让AI理解“奖杯在逆光下会有金属反光”
  2. 抠图纯色组(20张)

    • 制作流程:
      1. Photoshop抠出物品
      2. 填充#FFFFFF背景
      3. 添加10%阴影(drop shadow标签)
    • 作用:剥离环境干扰,专注学习物品本体特征
  3. 杂物干扰组(20张)

    • 心机操作:
      • 用树叶/布料半遮挡物品(标签加occlusion
      • 故意过曝或欠曝(标签加overexposure
    • 目的:训练AI在复杂场景中“火眼金睛”

三、标签策略:少即是多的“平衡艺术”

1. 多标签派 vs 少标签派

派别优点缺点适用场景
多标签细节保留好(如纹身)提示词依赖度高高精度复刻需求
少标签出图自然易融合细节易丢失创意发散型设计

2. 调和心法

  • 20%关键标签:必须标注材质、关键结构(如metal_texture, spiral_base
  • 80%泛化放权:信任AI的想象力,用high_resolution, ultra_detail等泛化标签引导

四、LoRA混合使用的“羁绊法则”

  1. 单LoRA王者

    • 适合:需要高度特异性(如[奖杯专属LoRA] + [赛博朋克风格LoRA]
    • 口诀:一个LoRA管一个事,别让它们“打架”
  2. 多LoRA混搭

    • 危险操作:[服装LoRA] + [材质LoRA] + [光影LoRA] → 容易导致手指畸形+材质错乱
    • 保命技巧:
      • 权重分配:主LoRA(0.8-1.0),辅助LoRA(0.3-0.5)
      • 提示词隔离:用( )[ ]划分作用域,如(golden_boy:1.2)[metal texture]

五、C站大佬的“作弊码”分享

1. 触发词设计秘诀

  • 高人气案例:
    • [Kirin奖杯]:仅需一个词,出图稳定如开挂
    • [CyberTrophy_v2]:需搭配future, neon_light等3-5个词
  • 设计心法:
    • 触发词≈物品DNA:简短、独特、易联想
    • 测试工具:用[Stable Diffusion WebUI]的X/Y/Z Plot脚本,批量测试词效

2. 微调黑盒破解

虽然lora.sh的参数像天书,但记住这三个黄金比例:

bash
--network_dim 128  # 细节保留型(奖杯雕刻纹理)  
--network_alpha 64 # 泛化增强型(多场景适配)  
--training_steps 2500 # 甜区步数(太多会过拟合)

六、血泪忠告:电商级训练慎用LoRA!

如果你需要:

  • 纹理100%复刻(如奢侈品logo浮雕)
  • 跨模特/场景一致性(如戒指戴在不同人手上)
  • 生产级精度(99.99%相似度)

ComfyUI节点报错终极指南:从"爆红"到"丝滑出图"的避坑手册

面对ComfyUI满屏的红色节点和天书般的报错信息,你是否感到头皮发麻?别慌!这份指南结合全网硬核玩家经验,帮你快速定位问题,让工作流重新起飞!

报错归纳

  1. 尝试更新节点
  2. 未下载模型
  3. 图片尺寸不符
  4. 模型不匹配
  5. git没配置环境变量
  6. 模型下载网址 Hugging Face 被墙,无法访问。

小纸条

  1. 科学上网|登录国内镜像网站hr-mirror下载->手动下载再将模型和配置文件放进指定目录里面
  2. comfyui的模型安装路径去插件的github界面去找->models目录下新建与插件名字相同的文件夹,然后把.config和.bin文件放进去

一、节点报错三大元凶

元凶类型常见症状参考案例
节点缺失"XXX node not found"缺少Advanced ControlNet节点
依赖冲突"No module named XXX"InstantID插件缺少insightface库
模型不匹配"mat1 and mat2 shapes cannot..."SD1.5模型误用于SDXL工作流

二、通用排错六步法

  1. 看红框:定位报错节点,检查输入是否完整(模型/图片/参数)
  2. 读日志:在控制台按Ctrl+F搜索Error关键词
  3. 装依赖:
    bash
    # 进入插件目录执行  
    git clone https://镜像地址/github.com/作者/插件名  
    python -m pip install -r requirements.txt  # 虚拟环境更佳
  4. 换版本:用秋叶启动器回滚节点/内核版本
  5. 查模型:确认大模型/LoRA/ControlNet版本统一(1.5 vs SDXL)
  6. 问GPT:复制报错信息到《ComfyUI Assistant》获取AI解决方案

三、高频报错速查表

1. 节点失踪类

python
# 症状:When loading the graph, the following node types were not found  
✅ 解决方案:  
   - 管理器 → 安装缺失节点(需科学上网)  
   - 手动安装:git clone + 镜像地址(如https://mirror.ghproxy.com/

2. 内存爆炸类

python
# 症状:CUDA out of memory / RuntimeError: mat1 and mat2 shape mismatch  
✅ 解决方案:  
   - 降分辨率(512x768384x576
   - 启用--lowvram模式启动ComfyUI  
   - 检查模型版本一致性(SD1.5与SDXL不可混用)

3. 模型丢失类

python
# 症状:FileNotFoundError: [Errno 2] No such file or directory  
✅ 解决方案:  
   - 检查路径中的中文/特殊符号(建议全英文路径)  
   - 下载模型放到指定目录:  
     ControlNet模型 → models/controlnet  
     CLIP视觉模型 → models/clip_vision

4. 玄学报错类

python
# 症状:'NoneType' object has no attribute 'shape'  
✅ 解决方案:  
   - 更新插件(如FreeU与新版内核冲突需卸载)  
   - 重装节点:删除custom_nodes/插件文件夹后重新git clone

四、防爆红预防措施

  1. 版本管理:用秋叶启动器锁定稳定版本(推荐ComfyUI v1.3+)
  2. 环境隔离:为每个插件创建虚拟环境(python -m venv myenv)
  3. 模型仓库:建立标准化目录结构:
    ComfyUI/  
    ├── models/  
    │   ├── checkpoints/    # 大模型  
    │   ├── loras/          # LoRA模型  
    │   └── controlnet/     # ControlNet模型
  4. 网络加速:
Playlist
Total 4
  • 星茶会
    灰澈
  • song1
    author1
  • soewrewfg1
    author1
  • PIKASONIC - Blossom
    author1