国内外 NSFW 生成模型一览:图像、视频与文本模型怎么选
如果只看 2026 年上半年的可用度,NSFW 模型的主场仍然是:
1 | Stable Diffusion 生态。 |
原因很简单。
NSFW 不是单个模型名,而是一整套生态:
- 底模
- Checkpoint
- LoRA
- Embedding
- ControlNet
- Inpaint
- ADetailer
- ComfyUI / Forge / A1111 工作流
在这个生态里,图片模型最成熟,图生图和局部重绘最实用,视频模型还在快速发展,文本模型则主要服务于角色扮演、小说续写和对话。
本文按三个方向整理:
- NSFW 图像模型:当前选择最多,也最稳定
- NSFW 视频模型:可用,但多数不是专门为 NSFW 训练
- NSFW 文本模型:偏角色扮演、长文续写和开放式对话
资料核对时间:2026-06-08。模型更新很快,具体版本以模型页为准。
一、先给结论:现在该怎么选
如果你只想快速选模型,可以先按下面这张表看。
| 场景 | 首选模型/系列 | 适合硬件 | 主要特点 |
|---|---|---|---|
| 写实 NSFW 图片 | Juggernaut XL、CyberRealistic Pony、Realistic Vision、majicMIX、iNiverse Mix | 8GB 到 12GB 起步 | 写实、人像、摄影感更强 |
| 二次元 NSFW 图片 | Pony Diffusion V6 XL、Illustrious XL、NoobAI XL、YesMix、CitrineDreamMix | 8GB 到 12GB 起步 | 标签体系成熟,LoRA 多 |
| 国风/亚洲写实 | iNiverse Mix、majicMIX Realistic、XXMix_9realistic、ChilloutMix/HotChillyMix | 6GB 到 12GB 起步 | 亚洲脸、国风、写真感更容易出效果 |
| 大厂文生图/首帧 | Z-Image、Z-Image-Turbo | 16GB 起步 | 支持 NSFW 文生图,写实、中文文字、指令理解更强 |
| 低显存本地图片 | SD 1.5 系模型 | 4GB 到 8GB | 速度快,模型小,老机器也能跑 |
| 画质优先图片 | SDXL / Pony / Illustrious / NoobAI 系模型 | 8GB 到 16GB | 1024 分辨率起步,细节更好 |
| 图生图/局部重绘 | SDXL、Pony、majicMIX、Realistic Vision、Juggernaut XL | 8GB 到 16GB | 配合 Inpaint、ControlNet、ADetailer 更实用 |
| NSFW 视频 | Wan2.2、HunyuanVideo-1.5、LTX-Video、CogVideoX I2V、Stable Video Diffusion | 16GB 到 24GB 起步 | 多数用图片模型出首帧,再做图生视频 |
| NSFW 文本/角色扮演 | Dolphin、Euryale、Magnum、MythoMax、Noromaid、Lumimaid、Qwen Abliterated 系 | 8GB 到 24GB 或 CPU 量化 | 适合聊天、设定、剧情续写 |
一句话总结:
1 | 图片选 SDXL/Pony/Illustrious/NoobAI,写实再看 Juggernaut、CyberRealistic、majicMIX、iNiverse。 |
二、NSFW 模型大致分三类
很多人搜索“NSFW 模型”时,会把几类模型混在一起。
实际使用时,最好分清楚:
| 类型 | 含义 | 代表 |
|---|---|---|
| NSFW 原生/强相关模型 | 训练数据、标签体系、示例图都围绕 NSFW 做过优化 | Pony Diffusion、NoobAI、CitrineDreamMix、Big Lust |
| 可生成 NSFW 的通用模型 | 本身是通用图像模型,但能通过提示词和 LoRA 覆盖 NSFW 场景 | Juggernaut XL、Realistic Vision、majicMIX、iNiverse |
| 低过滤文本模型 | 文本回复更开放,常用于角色扮演、剧情和小说 | Dolphin、Euryale、Magnum、MythoMax |
图片模型里,最重要的不是“底模叫什么”,而是生态是否完整。
一个好用的 NSFW 图片工作流,通常需要:
- 一个稳定的 Checkpoint
- 一套匹配的 LoRA
- 一个好用的 VAE
- 一个能修脸、修手、局部重绘的流程
- 一套适合该模型的提示词格式
这也是为什么 Stable Diffusion 生态到现在仍然强。
三、国外 NSFW 图像模型
1. Pony Diffusion V6 XL
Pony Diffusion V6 XL 是当前 NSFW 图片生态里绕不开的模型。
它基于 SDXL,但使用自己的标签体系和数据风格。它不只是一个 Checkpoint,更像一个小生态。大量 LoRA、角色模型、风格模型都会标注“Pony”或“Pony XL”。
| 维度 | 说明 |
|---|---|
| 类型 | SDXL 系 Checkpoint |
| 强项 | 二次元、半写实、角色、标签提示词、LoRA 生态 |
| 弱点 | 提示词格式和普通 SDXL 不完全一样,新手需要适应 |
| 硬件 | 8GB 能跑,12GB 更舒服,16GB 可以做更复杂工作流 |
| 适合人群 | 想做二次元、角色向、标签体系 NSFW 的用户 |
Pony 的核心特点是:
- rating 标签体系清晰
- score 标签常用
- 角色和风格 LoRA 非常多
- 二次元和半写实覆盖面广
- 同一套提示词在不同 Pony 派生模型上迁移成本较低
它的短板也明显:
- 写实摄影感不是它最强项
- 提示词不按 Pony 习惯写,效果会掉
- 有些派生模型风格很重,泛化不如通用 SDXL
如果只选一个二次元 NSFW 底座,Pony 仍然是第一梯队。
2. Illustrious XL
Illustrious XL 是另一个很重要的 SDXL 插画系底座。
它的定位不是“万能写实模型”,而是更偏插画、动漫、角色、风格化创作。它和 Pony 的关系有点像两条路线:
- Pony 更像成熟的 NSFW 标签生态
- Illustrious 更像插画预训练底座
| 维度 | 说明 |
|---|---|
| 类型 | SDXL 插画底座 |
| 强项 | 插画、角色、风格泛化、二次元 LoRA |
| 弱点 | 原始底座不一定是最终成品,常需要用派生模型 |
| 硬件 | 8GB 起步,12GB 以上体验更好 |
| 适合人群 | 想训练 LoRA、做插画风格、追求二次元细节的用户 |
Illustrious 的使用方式通常不是直接跑早期底座,而是选择基于它训练出来的派生模型。
如果你经常看 Civitai,会发现很多新二次元模型已经从 Pony 分流到 Illustrious、NoobAI 等路线。
3. NoobAI XL
NoobAI XL 是 2024 到 2026 年二次元模型里很活跃的一支。
它常被拿来和 Pony、Illustrious 比较。它的优势在于二次元画风、角色还原、标签理解和社区派生模型。
| 维度 | 说明 |
|---|---|
| 类型 | SDXL 系二次元模型 |
| 强项 | 动漫风格、角色、标签体系、派生模型 |
| 弱点 | 写实方向不如专门写实模型 |
| 硬件 | 8GB 起步,12GB 以上更稳 |
| 适合人群 | 偏动漫、角色、插画、标签提示词用户 |
NoobAI 的特点是“二次元味道”更强。
如果你的目标是:
- 动漫角色
- 插画构图
- 标签提示词
- LoRA 组合
NoobAI 可以和 Pony、Illustrious 一起放进候选列表。
4. Juggernaut XL
Juggernaut XL 是通用 SDXL 写实模型里非常常见的一支。
它不是只服务 NSFW,但很多人会用它做写实人物、写真、电影感画面,再配合 LoRA 和局部重绘处理细节。
| 维度 | 说明 |
|---|---|
| 类型 | SDXL 写实/通用 Checkpoint |
| 强项 | 摄影感、人物、电影感、通用场景 |
| 弱点 | NSFW 专项细节不如专门模型 |
| 硬件 | 8GB 到 12GB 起步 |
| 适合人群 | 想兼顾 SFW 和 NSFW 写实图的人 |
Juggernaut 的优势是稳定。
它适合做:
- 真人感图像
- 写真风格
- 电影感人像
- 产品图和人物结合
- 普通图像和 NSFW 图像混合工作流
如果你不想陷入太多专用标签,Juggernaut XL 比 Pony 更容易上手。
5. CyberRealistic Pony
CyberRealistic Pony 是 Pony 路线和写实路线的结合。
它保留 Pony 生态的标签和 LoRA 优势,同时增强写实感。
| 维度 | 说明 |
|---|---|
| 类型 | Pony 系写实 Checkpoint |
| 强项 | Pony 标签、写实人物、半写实风格 |
| 弱点 | 对 Pony 提示词习惯有依赖 |
| 硬件 | 8GB 到 12GB 起步 |
| 适合人群 | 想用 Pony LoRA 做写实或半写实图的人 |
如果你已经有很多 Pony LoRA,又想要更写实的脸和光影,CyberRealistic Pony 很值得试。
6. Realistic Vision
Realistic Vision 是 SD 1.5 时代的老牌写实模型。
现在它不是画质天花板,但仍然有两个优点:
- 低显存友好
- 生态成熟
| 维度 | 说明 |
|---|---|
| 类型 | SD 1.5 写实 Checkpoint |
| 强项 | 低显存、写实人像、速度快 |
| 弱点 | 原生分辨率和细节不如 SDXL |
| 硬件 | 4GB 到 6GB 就能开始 |
| 适合人群 | 老显卡、笔记本、低成本本地部署 |
如果你只有 4GB 到 6GB 显存,别急着追 SDXL。
Realistic Vision、majicMIX、ChilloutMix 这类 SD 1.5 模型依然很实用。
7. Big Lust、CitrineDreamMix、DucHaiten-Pony-Real
这几类模型更偏 NSFW 专项或 NSFW 强相关。
| 模型 | 基础 | 风格 | 适合场景 |
|---|---|---|---|
| Big Lust | SDXL | 写实/半写实 | 想要更直接的 NSFW SDXL 模型 |
| CitrineDreamMix | SD 1.5 | 二次元到半写实 | 低显存、booru 标签、老生态 |
| DucHaiten-Pony-Real | Pony | 写实 | Pony 标签加写实方向 |
这类模型的共同特点是:
- 不一定最通用
- 但在特定方向上很省事
- 配合 LoRA 和局部重绘更容易出片
适合已经熟悉 SD 工作流的人。
四、国内和中文社区常见 NSFW 图像模型
国内模型里,Z-Image/Z-Image-Turbo 要单独列出来。
它是阿里通义 MAI 的文生图模型,可以作为支持 NSFW 的大厂图像底模使用。
除此之外,中文社区常见的 NSFW 使用,主要来自 Stable Diffusion / SDXL / Pony 派生模型。
1. iNiverse Mix / GuoFeng 系列
iNiverse Mix 是中文社区里很常见的国风、亚洲写实、写真方向模型。
它的版本很多,包括 GuoFeng、Pony GuoFeng、Flux 方向版本等。不同版本的底座和风格差异比较大,下载前要看清楚版本说明。
| 维度 | 说明 |
|---|---|
| 类型 | SDXL / Pony / Flux 派生系列 |
| 强项 | 国风、汉服、亚洲人物、写实写真 |
| 弱点 | 版本多,新手容易下错 |
| 硬件 | SDXL/Pony 版本建议 8GB 到 12GB;Flux 版本要求更高 |
| 适合人群 | 想做国风、东方审美、亚洲写实图的人 |
这个系列适合做:
- 汉服
- 国风写真
- 亚洲人像
- 电影感人物
- 半写实角色
如果你想找“国内社区味道”的模型,iNiverse / GuoFeng 系列是很典型的选择。
2. Z-Image / Z-Image-Turbo
Z-Image 是阿里通义 MAI 推出的文生图模型族,中文名也叫“造相”。
它支持 NSFW 文生图,可以作为写实图、中文文字图、角色首帧和视频首帧的通用底座。
| 维度 | 说明 |
|---|---|
| 类型 | 6B 文生图模型族 |
| 强项 | NSFW 文生图、写实、中文/英文文字渲染、指令理解、快速出图 |
| 弱点 | LoRA、Checkpoint、Inpaint 生态不如 SDXL/Pony 成熟 |
| 硬件 | Z-Image-Turbo 以 16GB 显存为主;完整 Z-Image 更适合 24GB 以上 |
| 适合人群 | 想要大厂文生图底模、NSFW 写实、中文文字、图生视频首帧的人 |
Z-Image 系列里最容易上手的是 Z-Image-Turbo。
它是少步数蒸馏版本,官方模型卡里强调 8 次前向左右就能生成图像,并且可以放进 16GB 显存的消费级设备。
它适合做:
- NSFW 文生图
- 写实人像底图
- 中文文字海报
- 国风和现代摄影风格
- 图生视频首帧
- 需要中文提示词理解的场景
它和 Pony、NoobAI、Illustrious 的定位不同。
Pony 这类模型更像 NSFW 社区底座,LoRA、角色、标签和修图流程更密集。
Z-Image 更像大厂文生图底模,优势在写实、文字、速度和提示词理解。
如果你的目标是二次元 NSFW,优先看 Pony、Illustrious、NoobAI。
如果你的目标是 NSFW 写实文生图、中文文字、国风人物、短视频开场图,Z-Image-Turbo 很值得放进候选列表。
3. majicMIX Realistic
majicMIX Realistic 是 SD 1.5 时代非常有代表性的写实模型。
它的特点是亚洲人像、摄影感、脸部审美和低显存友好。
| 维度 | 说明 |
|---|---|
| 类型 | SD 1.5 写实 Checkpoint |
| 强项 | 亚洲人像、写真感、低显存、速度快 |
| 弱点 | 细节和大图能力不如 SDXL |
| 硬件 | 4GB 到 8GB |
| 适合人群 | 低显存写实人像用户 |
majicMIX 很适合做本地入门。
如果你的显卡比较老,它比 SDXL 更友好,也更容易把工作流跑通。
4. ChilloutMix / HotChillyMix
ChilloutMix 是早期写实人像模型里的经典名字。
后来的 HotChillyMix 可以理解成围绕 ChilloutMix 风格做的延续和修正版本,其中也有 NSFW 版本。
| 维度 | 说明 |
|---|---|
| 类型 | SD 1.5 写实 Checkpoint |
| 强项 | 写实人像、亚洲脸、低显存 |
| 弱点 | 年代较早,手部、身体细节需要后处理 |
| 硬件 | 4GB 到 8GB |
| 适合人群 | 想在低配机器上做写实人像的人 |
这类模型现在不是最新,但胜在:
- 模型小
- 跑得快
- 插件支持广
- 教程和旧工作流多
老模型不一定过时,尤其是在低显存机器上。
5. XXMix_9realistic
XXMix_9realistic 也是中文社区用户经常提到的 SD 1.5 写实模型。
它偏写实、人物、CG 和摄影风格。
| 维度 | 说明 |
|---|---|
| 类型 | SD 1.5 写实 Checkpoint |
| 强项 | 写实人物、低显存、老生态 |
| 弱点 | 原生分辨率低,细节需要修图流程 |
| 硬件 | 4GB 到 8GB |
| 适合人群 | SD 1.5 写实模型收集和低显存用户 |
XXMix 的定位和 majicMIX、ChilloutMix 接近。
如果你的目标是本地轻量跑图,SD 1.5 写实模型依然值得保留。
6. YesMix
YesMix 是偏动漫、半写实和 NSFW 方向的 SD 1.5 模型。
它适合喜欢老 SD 1.5 工作流、booru 标签、动漫和半写实混合风格的人。
| 维度 | 说明 |
|---|---|
| 类型 | SD 1.5 动漫/半写实模型 |
| 强项 | 动漫、半写实、标签提示词、低显存 |
| 弱点 | 画质上限不如 SDXL 新模型 |
| 硬件 | 4GB 到 8GB |
| 适合人群 | 低显存二次元 NSFW 用户 |
如果你有很多 SD 1.5 LoRA,YesMix 这类模型仍然很方便。
五、NSFW 视频模型:现在还不是图片那样成熟
视频模型要单独讲。
当前真正成熟的 NSFW 视频底座很少。
大多数人的做法是:
1 | 先用 NSFW 图片模型生成关键帧,再用图生视频模型让画面动起来。 |
这意味着,视频的核心不只是视频模型本身,还包括:
- 首帧质量
- 角色一致性
- 姿态控制
- 分镜长度
- 镜头运动
- 后期补帧和放大
1. Wan2.2
Wan2.2 是当前本地视频生成里非常重要的模型系列。
它支持文生视频、图生视频和文图生视频方向。对于 NSFW 工作流来说,更常用的是图生视频:先用图片模型出首帧,再交给 Wan2.2 做动态。
| 维度 | 说明 |
|---|---|
| 类型 | 文生视频 / 图生视频 |
| 强项 | 画质、运动、中文生态关注度高 |
| 弱点 | 大版本显存要求高 |
| 硬件 | 24GB 可尝试轻量版本;高规格版本更吃显存 |
| 适合人群 | RTX 4090、专业卡、多卡用户 |
如果你主要做 NSFW 视频,Wan2.2 更适合作为 I2V 组件,而不是直接从文本一步生成最终片段。
2. HunyuanVideo-1.5
HunyuanVideo-1.5 是腾讯混元视频模型的新一代路线。
它支持文生视频和图生视频,官方定位比早期 13B 版本更偏消费级显卡。
| 维度 | 说明 |
|---|---|
| 类型 | 文生视频 / 图生视频 |
| 强项 | 画质、运动、一体化视频生成 |
| 弱点 | 工作流复杂,参数多 |
| 硬件 | 14GB 以上可尝试,24GB 体验更好 |
| 适合人群 | 想在本地做图生视频和短片的人 |
HunyuanVideo-1.5 的优势是硬件门槛比早期大视频模型低。
它适合和 SDXL/Pony/Flux 图片模型组合:
1 | 图片模型负责人物和构图,视频模型负责动态。 |
3. LTX-Video / LTX-2.3
LTX 系列的特点是速度和桌面工作流。
它支持图生视频、文生视频、视频编辑等方向,LTX-2.3 还强调音视频一体能力。
| 维度 | 说明 |
|---|---|
| 类型 | 文生视频 / 图生视频 / 视频编辑 |
| 强项 | 速度、工作流、桌面应用 |
| 弱点 | 画面质感和长视频稳定性要看版本 |
| 硬件 | 16GB 起步,24GB 更舒服 |
| 适合人群 | 想做快速视频实验和本地桌面流程的人 |
如果你更在意速度、可交互工作流和短视频实验,LTX 比大模型更顺手。
4. CogVideoX I2V 和 Stable Video Diffusion
CogVideoX I2V 和 Stable Video Diffusion 更像成熟工作流中的补充组件。
| 模型 | 强项 | 弱点 | 硬件 |
|---|---|---|---|
| CogVideoX I2V | 图生视频、开源生态、资料多 | 新模型冲击下画质不算顶尖 | 12GB 到 24GB |
| Stable Video Diffusion | 老牌图生视频、简单 | 短片段、可控性有限 | 8GB 到 12GB |
如果你刚开始做本地视频,SVD 适合入门理解 I2V。
如果你已经有 ComfyUI 工作流,可以把 CogVideoX、Wan、Hunyuan、LTX 都试一轮,看哪一个更适合自己的显卡。
六、NSFW 文本模型:聊天、角色扮演和小说续写
NSFW 文本模型主要看三个关键词:
1 | uncensored、roleplay、abliterated |
它们常用于:
- 角色扮演
- 剧情续写
- 长对话
- 小说草稿
- 世界观设定
1. Dolphin 系列
Dolphin 是 uncensored LLM 里最有代表性的系列之一。
比较常见的版本包括:
- Dolphin 2.x
- Dolphin 2.9.x
- Dolphin Mistral Nemo 12B
- Dolphin Mixtral
| 维度 | 说明 |
|---|---|
| 类型 | 文本生成模型 |
| 强项 | 指令跟随、聊天、代码、开放式回复 |
| 弱点 | 角色扮演味道不如专门 RP 模型 |
| 硬件 | 7B/8B 量化可 8GB 左右;12B 建议 12GB 到 16GB;70B 需要更高配置 |
| 适合人群 | 想要通用聊天和开放式文本模型的人 |
Dolphin 更像通用型开放模型,不只是 NSFW。
如果你既要写作、聊天,又要少一点回复限制,Dolphin 是常见选择。
2. Euryale
Euryale 是角色扮演圈里常见的模型系列。
它更偏叙事、人物对话、长段落和角色沉浸。
| 维度 | 说明 |
|---|---|
| 类型 | Roleplay / Story 模型 |
| 强项 | 角色扮演、情绪、对话、长文 |
| 弱点 | 工具调用和严肃任务不如通用模型 |
| 硬件 | 8B 到 70B 版本跨度大,按量化版本选择 |
| 适合人群 | SillyTavern、KoboldCPP、文本 RP 用户 |
如果你主要用 SillyTavern,Euryale 这类模型比普通指令模型更对味。
3. Magnum
Magnum 也是 NSFW RP 圈常见的模型系列。
它经常基于 Qwen、Llama 等底座做角色扮演微调。
| 维度 | 说明 |
|---|---|
| 类型 | Roleplay / Story 模型 |
| 强项 | 剧情推进、角色风格、长文本 |
| 弱点 | 不适合做严肃问答主力 |
| 硬件 | 12B/14B 可中端显卡量化;70B 需要高显存或多卡 |
| 适合人群 | 重度 RP、小说续写、长角色卡用户 |
Magnum 的优点是风格更明显。
如果你觉得 Dolphin 太像助手,Magnum 这类 RP 模型会更像“故事模型”。
4. MythoMax、Noromaid、Lumimaid
这几个名字在本地 RP 用户里也很常见。
| 模型 | 风格 | 适合场景 |
|---|---|---|
| MythoMax | 老牌 RP,轻量 | 低成本本地角色扮演 |
| Noromaid | RP/对话 | SillyTavern、长对话 |
| Lumimaid | RP/小说 | 角色设定和剧情续写 |
它们的优势是:
- 量化版本多
- 跑起来容易
- 社区预设多
- 适合 CPU/GPU 混合部署
如果你的机器不强,7B、8B、13B 的 GGUF 版本反而更实用。
5. Qwen / Gemma / Llama Abliterated 系
近两年 Hugging Face 上有很多 abliterated / uncensored 命名的模型。
常见底座包括:
- Qwen
- Gemma
- Llama
- Mistral
- Mixtral
这类模型的特点是:
- 版本非常多
- 命名很长
- 量化版本更新快
- 质量差异很大
选择时不要只看名字里有没有 uncensored。
更应该看:
- 参数量
- 量化格式
- 上下文长度
- 是否适合 SillyTavern
- 是否有 GGUF / EXL2 / AWQ
- 评论区反馈
中文用户可以重点看 Qwen 底座的 abliterated / uncensored 版本。
它们通常中文理解更好,但角色扮演味道要看具体微调数据。
七、按显存选模型
4GB 到 6GB 显存
这个档位不要硬追 SDXL。
更适合:
- SD 1.5
- Realistic Vision
- majicMIX
- ChilloutMix / HotChillyMix
- XXMix_9realistic
- YesMix
建议方向:
1 | 512 或 768 出图,Hires Fix 放大,ADetailer 修脸。 |
这个档位可以做图片,视频就不要要求太高。
8GB 显存
8GB 是本地 NSFW 图片的入门甜点。
可以跑:
- SDXL
- Pony Diffusion V6 XL
- Illustrious XL
- NoobAI XL
- Juggernaut XL
- CyberRealistic Pony
建议方向:
1 | 1024 出图,少量 LoRA,必要时开显存优化。 |
如果你用 ComfyUI,8GB 也能跑不少 SDXL 工作流,只是不能堆太多 ControlNet 和高清修复。
12GB 到 16GB 显存
这是比较舒服的本地图片档位。
适合:
- SDXL 多 LoRA
- Pony 多 LoRA
- ControlNet
- Inpaint
- ADetailer
- Z-Image-Turbo
- 图生图
- 简单图生视频
12GB 到 16GB 的优势是可以把工作流做完整。
比如:
1 | Checkpoint + LoRA + ControlNet + ADetailer + Upscale |
这个档位也能开始玩 LTX、SVD、部分 CogVideoX 或轻量视频工作流。
24GB 显存
24GB 是本地生成的黄金档。
RTX 4090 这类卡可以覆盖:
- SDXL 高分辨率
- Pony / Illustrious / NoobAI 复杂工作流
- Z-Image / Z-Image-Turbo
- Flux 部分模型
- Wan2.2 轻量视频工作流
- HunyuanVideo-1.5
- LTX-Video / LTX-2.3
- 文本 30B 左右量化模型
如果你希望图片和视频都能玩,24GB 是最合适的单卡档位。
48GB 以上
48GB 以上的机器更适合视频和大文本模型。
可以考虑:
- 更长视频
- 更高分辨率视频
- 70B 文本模型量化
- 多 ControlNet 图片工作流
- 批量出图
- 训练 LoRA
如果只是生成图片,48GB 不是刚需。
如果要做视频和训练,显存越大越省时间。
八、按用途选模型
1. 我要写实人像
优先看:
- Juggernaut XL
- CyberRealistic Pony
- Realistic Vision
- majicMIX Realistic
- iNiverse Mix
- Z-Image / Z-Image-Turbo
- ChilloutMix / HotChillyMix
建议:
1 | 低显存选 SD 1.5,高画质选 SDXL/Pony 写实派生;需要中文文字和写实首帧时,把 Z-Image-Turbo 加进候选。 |
2. 我要二次元 NSFW
优先看:
- Pony Diffusion V6 XL
- Illustrious XL 派生模型
- NoobAI XL
- YesMix
- CitrineDreamMix
建议:
1 | 先学会该模型的标签体系,再堆 LoRA。 |
二次元模型对提示词体系更敏感。
同一句自然语言,在 Pony、Illustrious、NoobAI 上效果可能差很多。
3. 我要国风、汉服、亚洲审美
优先看:
- iNiverse Mix / GuoFeng
- Z-Image / Z-Image-Turbo
- majicMIX Realistic
- XXMix_9realistic
- ChilloutMix / HotChillyMix
- Pony GuoFeng 派生版本
建议:
1 | 国风靠模型底色,人物一致性靠 LoRA 和局部重绘。 |
如果模型本身没有国风审美,单靠提示词很难稳定。
4. 我要图生图和局部重绘
优先看:
- SDXL
- Pony
- Juggernaut XL
- Realistic Vision
- majicMIX
- NoobAI XL
工具重点:
- Inpaint
- ControlNet
- IP-Adapter
- ADetailer
- Upscaler
图生图比文生图更适合精修。
如果目标是稳定出片,不要只靠一次文生图。
5. 我要 NSFW 视频
优先组合:
- 图片:Pony / Juggernaut / iNiverse / majicMIX
- 首帧:Z-Image-Turbo / Juggernaut XL / iNiverse
- 视频:Wan2.2 / HunyuanVideo-1.5 / LTX / CogVideoX I2V / SVD
建议流程:
1 | 先做高质量首帧,再做图生视频。 |
直接文生视频更容易出现角色漂移、画面变形和细节丢失。
6. 我要 NSFW 聊天和小说
优先看:
- Dolphin
- Euryale
- Magnum
- MythoMax
- Noromaid
- Lumimaid
- Qwen Abliterated 派生模型
工具:
- SillyTavern
- KoboldCPP
- LM Studio
- Ollama
- text-generation-webui
建议:
1 | 8B 到 13B 适合本地轻量,30B 到 70B 更适合高显存或云端。 |
九、图片模型和文本模型的硬件差异
很多人把图片模型和文本模型的硬件要求混在一起。
其实两者很不一样。
| 类型 | 最吃什么 | 低配方案 | 舒服配置 |
|---|---|---|---|
| SD 1.5 图片 | 显存 | 4GB 到 6GB | 8GB |
| SDXL/Pony 图片 | 显存 | 8GB | 12GB 到 16GB |
| Flux 图片 | 显存和内存 | 16GB 起 | 24GB 以上 |
| 图生视频 | 显存、内存、硬盘 | 12GB 到 16GB | 24GB 以上 |
| 7B/8B 文本 | 显存或内存 | CPU 量化也能跑 | 8GB 显存 |
| 12B/14B 文本 | 显存或内存 | 16GB 内存量化 | 12GB 到 16GB 显存 |
| 30B 文本 | 显存或内存 | 高内存 CPU 量化 | 24GB 显存 |
| 70B 文本 | 显存和内存 | 多卡或大内存 | 48GB 以上 |
图片模型更依赖显卡。
文本模型可以用 CPU 量化慢慢跑,但体验会差很多。
视频模型最吃配置,尤其是:
- 分辨率
- 帧数
- 步数
- 是否开高清修复
- 是否多段生成
十、下载和运行工具
1. Civitai
Civitai 是图片模型、LoRA、Embedding、工作流最集中的地方。
适合找:
- Checkpoint
- LoRA
- 图生图工作流
- ComfyUI 工作流
- 示例参数
注意看版本号。
很多模型同一个页面有十几个版本,底座可能完全不同。
2. Hugging Face
Hugging Face 更适合找:
- 底模
- 官方权重
- Diffusers 版本
- 文本模型
- GGUF / EXL2 / AWQ 量化
如果你使用脚本、Diffusers、ComfyUI 自定义节点,Hugging Face 会更方便。
3. ComfyUI
ComfyUI 是现在本地图片和视频生成最值得学的工具。
适合:
- 复杂工作流
- 图生图
- ControlNet
- IP-Adapter
- 局部重绘
- 视频模型
- 批量节点流程
如果你要做 NSFW 图片加视频,ComfyUI 基本绕不开。
4. Forge / A1111
Forge 和 A1111 更适合图片入门。
优点:
- 上手快
- 插件多
- SD 1.5/SDXL 跑图方便
- LoRA 管理简单
如果你主要做图片,不想一开始就搭节点,Forge 会更省心。
5. SillyTavern
SillyTavern 是本地文本 RP 用户常用前端。
它本身不负责模型推理,而是连接:
- KoboldCPP
- text-generation-webui
- LM Studio
- Ollama
- OpenRouter
- 本地或远程 API
如果你主要玩 NSFW 文本、角色卡、世界书、长对话,SillyTavern 是核心工具。
十一、推荐组合
组合 1:低显存写实图片
适合 4GB 到 6GB 显存。
1 | majicMIX / Realistic Vision / HotChillyMix |
优点:
- 省显存
- 出图快
- 老教程多
缺点:
- 原生画质不如 SDXL
- 手部和身体细节更依赖后处理
组合 2:主流 SDXL 写实
适合 8GB 到 16GB 显存。
1 | Juggernaut XL / CyberRealistic Pony / iNiverse Mix |
优点:
- 画质更好
- 1024 分辨率起步
- 写实感更强
缺点:
- 显存占用更高
- 复杂工作流会变慢
组合 3:二次元 NSFW
适合 8GB 到 16GB 显存。
1 | Pony Diffusion / Illustrious / NoobAI |
优点:
- LoRA 多
- 标签体系成熟
- 角色和画风容易控制
缺点:
- 不同底座提示词习惯差异大
- 写实方向需要换模型
组合 4:NSFW 图生视频
适合 16GB 到 24GB 以上显存。
1 | Pony / Juggernaut / iNiverse 出首帧 |
优点:
- 人物和构图更可控
- 比直接文生视频稳定
- 方便分镜
缺点:
- 流程更长
- 显存和时间成本更高
- 角色一致性仍然要反复调
组合 5:NSFW 文本 RP
适合 8GB 到 24GB 显存,或者大内存 CPU。
1 | SillyTavern |
优点:
- 角色卡生态成熟
- 本地可控
- 模型选择多
缺点:
- 质量高度依赖模型和提示词模板
- 小模型容易重复
- 长上下文会明显吃资源
十二、最终推荐清单
如果你想少走弯路,可以按这份清单开始。
图片优先
| 方向 | 推荐 |
|---|---|
| 低显存写实 | Realistic Vision、majicMIX、HotChillyMix、XXMix_9realistic |
| 主流写实 | Juggernaut XL、CyberRealistic Pony、iNiverse Mix、Z-Image-Turbo |
| 二次元 | Pony Diffusion V6 XL、Illustrious XL、NoobAI XL |
| 国风/亚洲 | iNiverse / GuoFeng、Z-Image-Turbo、majicMIX、ChilloutMix |
| 中文文字/首帧 | Z-Image、Z-Image-Turbo |
| 老机器 | SD 1.5 系模型 |
| 画质优先 | SDXL / Pony / Illustrious / NoobAI / Z-Image |
视频优先
| 方向 | 推荐 |
|---|---|
| 入门 I2V | Stable Video Diffusion、CogVideoX I2V |
| 当前主力 | Wan2.2、HunyuanVideo-1.5 |
| 快速实验 | LTX-Video / LTX-2.3 |
| 高配置 | Wan2.2 大版本、HunyuanVideo 高规格流程 |
文本优先
| 方向 | 推荐 |
|---|---|
| 通用开放聊天 | Dolphin |
| 角色扮演 | Euryale、Magnum |
| 轻量 RP | MythoMax、Noromaid、Lumimaid |
| 中文理解 | Qwen 底座的 abliterated / uncensored 派生模型 |
十三、我的实际选择建议
如果只看实用,我会这样选:
1 | 8GB 显卡: |
NSFW 图片模型已经很成熟。
真正决定效果的,不是模型名本身,而是:
- 模型版本
- LoRA 搭配
- 提示词格式
- 修图节点
- 显存余量
- 是否会局部重绘
视频还没有图片那么省心。
现在最稳的路线仍然是:
1 | 图片模型负责画面,视频模型负责运动。 |
文本模型则看你更想要“助手感”还是“角色感”。
Dolphin 更像通用开放助手,Euryale、Magnum、MythoMax 这类更像角色和故事模型。
参考资料
- Pony Diffusion V6 XL - Hugging Face
- Z-Image-Turbo - Hugging Face
- Z-Image - Hugging Face
- Illustrious XL - Hugging Face
- NoobAI XL - Hugging Face
- Dolphin 2.9.3 Mistral Nemo 12B - Hugging Face
- SillyTavern - GitHub
- iNiverse Mix / GuoFeng - Civitai 镜像页
- HotChillyMix - Civitai 镜像页
- Juggernaut XL - Civitai 镜像页
- CyberRealistic Pony - Civitai 镜像页
- DucHaiten Pony Real - Civitai 镜像页
- majicMIX Realistic - Hugging Face
- XXMix_9realistic - CivArchive
- CitrineDreamMix - Civitai 镜像页