国内外 NSFW 生成模型一览：图像、视频与文本模型怎么选

wxk1991 Lv5

2026-06-08 15:30:00 2026-06-25 16:04:23

AI

国内外 NSFW 生成模型一览：图像、视频与文本模型怎么选

如果只看 2026 年上半年的可用度，NSFW 模型的主场仍然是：

1	Stable Diffusion 生态。

原因很简单。

NSFW 不是单个模型名，而是一整套生态：

底模
Checkpoint
LoRA
Embedding
ControlNet
Inpaint
ADetailer
ComfyUI / Forge / A1111 工作流

在这个生态里，图片模型最成熟，图生图和局部重绘最实用，视频模型还在快速发展，文本模型则主要服务于角色扮演、小说续写和对话。

本文按三个方向整理：

NSFW 图像模型：当前选择最多，也最稳定
NSFW 视频模型：可用，但多数不是专门为 NSFW 训练
NSFW 文本模型：偏角色扮演、长文续写和开放式对话

资料核对时间：2026-06-08。模型更新很快，具体版本以模型页为准。

一、先给结论：现在该怎么选

如果你只想快速选模型，可以先按下面这张表看。

场景	首选模型/系列	适合硬件	主要特点
写实 NSFW 图片	Juggernaut XL、CyberRealistic Pony、Realistic Vision、majicMIX、iNiverse Mix	8GB 到 12GB 起步	写实、人像、摄影感更强
二次元 NSFW 图片	Pony Diffusion V6 XL、Illustrious XL、NoobAI XL、YesMix、CitrineDreamMix	8GB 到 12GB 起步	标签体系成熟，LoRA 多
国风/亚洲写实	iNiverse Mix、majicMIX Realistic、XXMix_9realistic、ChilloutMix/HotChillyMix	6GB 到 12GB 起步	亚洲脸、国风、写真感更容易出效果
大厂文生图/首帧	Z-Image、Z-Image-Turbo	16GB 起步	支持 NSFW 文生图，写实、中文文字、指令理解更强
低显存本地图片	SD 1.5 系模型	4GB 到 8GB	速度快，模型小，老机器也能跑
画质优先图片	SDXL / Pony / Illustrious / NoobAI 系模型	8GB 到 16GB	1024 分辨率起步，细节更好
图生图/局部重绘	SDXL、Pony、majicMIX、Realistic Vision、Juggernaut XL	8GB 到 16GB	配合 Inpaint、ControlNet、ADetailer 更实用
NSFW 视频	Wan2.2、HunyuanVideo-1.5、LTX-Video、CogVideoX I2V、Stable Video Diffusion	16GB 到 24GB 起步	多数用图片模型出首帧，再做图生视频
NSFW 文本/角色扮演	Dolphin、Euryale、Magnum、MythoMax、Noromaid、Lumimaid、Qwen Abliterated 系	8GB 到 24GB 或 CPU 量化	适合聊天、设定、剧情续写

一句话总结：

图片选 SDXL/Pony/Illustrious/NoobAI，写实再看 Juggernaut、CyberRealistic、majicMIX、iNiverse。
大厂文生图模型看 Z-Image/Z-Image-Turbo，支持 NSFW 出图，适合写实首帧、中文文字和高质量底图。
视频先别追求一步到位，先用图片模型把首帧做好，再接 I2V。
文本就看 Dolphin、Euryale、Magnum 这类 uncensored / roleplay 模型。

二、NSFW 模型大致分三类

很多人搜索“NSFW 模型”时，会把几类模型混在一起。

实际使用时，最好分清楚：

类型	含义	代表
NSFW 原生/强相关模型	训练数据、标签体系、示例图都围绕 NSFW 做过优化	Pony Diffusion、NoobAI、CitrineDreamMix、Big Lust
可生成 NSFW 的通用模型	本身是通用图像模型，但能通过提示词和 LoRA 覆盖 NSFW 场景	Juggernaut XL、Realistic Vision、majicMIX、iNiverse
低过滤文本模型	文本回复更开放，常用于角色扮演、剧情和小说	Dolphin、Euryale、Magnum、MythoMax

图片模型里，最重要的不是“底模叫什么”，而是生态是否完整。

一个好用的 NSFW 图片工作流，通常需要：

一个稳定的 Checkpoint
一套匹配的 LoRA
一个好用的 VAE
一个能修脸、修手、局部重绘的流程
一套适合该模型的提示词格式

这也是为什么 Stable Diffusion 生态到现在仍然强。

三、国外 NSFW 图像模型

1. Pony Diffusion V6 XL

Pony Diffusion V6 XL 是当前 NSFW 图片生态里绕不开的模型。

它基于 SDXL，但使用自己的标签体系和数据风格。它不只是一个 Checkpoint，更像一个小生态。大量 LoRA、角色模型、风格模型都会标注“Pony”或“Pony XL”。

维度	说明
类型	SDXL 系 Checkpoint
强项	二次元、半写实、角色、标签提示词、LoRA 生态
弱点	提示词格式和普通 SDXL 不完全一样，新手需要适应
硬件	8GB 能跑，12GB 更舒服，16GB 可以做更复杂工作流
适合人群	想做二次元、角色向、标签体系 NSFW 的用户

Pony 的核心特点是：

rating 标签体系清晰
score 标签常用
角色和风格 LoRA 非常多
二次元和半写实覆盖面广
同一套提示词在不同 Pony 派生模型上迁移成本较低

它的短板也明显：

写实摄影感不是它最强项
提示词不按 Pony 习惯写，效果会掉
有些派生模型风格很重，泛化不如通用 SDXL

如果只选一个二次元 NSFW 底座，Pony 仍然是第一梯队。

2. Illustrious XL

Illustrious XL 是另一个很重要的 SDXL 插画系底座。

它的定位不是“万能写实模型”，而是更偏插画、动漫、角色、风格化创作。它和 Pony 的关系有点像两条路线：

Pony 更像成熟的 NSFW 标签生态
Illustrious 更像插画预训练底座

维度	说明
类型	SDXL 插画底座
强项	插画、角色、风格泛化、二次元 LoRA
弱点	原始底座不一定是最终成品，常需要用派生模型
硬件	8GB 起步，12GB 以上体验更好
适合人群	想训练 LoRA、做插画风格、追求二次元细节的用户

Illustrious 的使用方式通常不是直接跑早期底座，而是选择基于它训练出来的派生模型。

如果你经常看 Civitai，会发现很多新二次元模型已经从 Pony 分流到 Illustrious、NoobAI 等路线。

3. NoobAI XL

NoobAI XL 是 2024 到 2026 年二次元模型里很活跃的一支。

它常被拿来和 Pony、Illustrious 比较。它的优势在于二次元画风、角色还原、标签理解和社区派生模型。

维度	说明
类型	SDXL 系二次元模型
强项	动漫风格、角色、标签体系、派生模型
弱点	写实方向不如专门写实模型
硬件	8GB 起步，12GB 以上更稳
适合人群	偏动漫、角色、插画、标签提示词用户

NoobAI 的特点是“二次元味道”更强。

如果你的目标是：

动漫角色
插画构图
标签提示词
LoRA 组合

NoobAI 可以和 Pony、Illustrious 一起放进候选列表。

4. Juggernaut XL

Juggernaut XL 是通用 SDXL 写实模型里非常常见的一支。

它不是只服务 NSFW，但很多人会用它做写实人物、写真、电影感画面，再配合 LoRA 和局部重绘处理细节。

维度	说明
类型	SDXL 写实/通用 Checkpoint
强项	摄影感、人物、电影感、通用场景
弱点	NSFW 专项细节不如专门模型
硬件	8GB 到 12GB 起步
适合人群	想兼顾 SFW 和 NSFW 写实图的人

Juggernaut 的优势是稳定。

它适合做：

真人感图像
写真风格
电影感人像
产品图和人物结合
普通图像和 NSFW 图像混合工作流

如果你不想陷入太多专用标签，Juggernaut XL 比 Pony 更容易上手。

5. CyberRealistic Pony

CyberRealistic Pony 是 Pony 路线和写实路线的结合。

它保留 Pony 生态的标签和 LoRA 优势，同时增强写实感。

维度	说明
类型	Pony 系写实 Checkpoint
强项	Pony 标签、写实人物、半写实风格
弱点	对 Pony 提示词习惯有依赖
硬件	8GB 到 12GB 起步
适合人群	想用 Pony LoRA 做写实或半写实图的人

如果你已经有很多 Pony LoRA，又想要更写实的脸和光影，CyberRealistic Pony 很值得试。

6. Realistic Vision

Realistic Vision 是 SD 1.5 时代的老牌写实模型。

现在它不是画质天花板，但仍然有两个优点：

低显存友好
生态成熟

维度	说明
类型	SD 1.5 写实 Checkpoint
强项	低显存、写实人像、速度快
弱点	原生分辨率和细节不如 SDXL
硬件	4GB 到 6GB 就能开始
适合人群	老显卡、笔记本、低成本本地部署

如果你只有 4GB 到 6GB 显存，别急着追 SDXL。

Realistic Vision、majicMIX、ChilloutMix 这类 SD 1.5 模型依然很实用。

7. Big Lust、CitrineDreamMix、DucHaiten-Pony-Real

这几类模型更偏 NSFW 专项或 NSFW 强相关。

模型	基础	风格	适合场景
Big Lust	SDXL	写实/半写实	想要更直接的 NSFW SDXL 模型
CitrineDreamMix	SD 1.5	二次元到半写实	低显存、booru 标签、老生态
DucHaiten-Pony-Real	Pony	写实	Pony 标签加写实方向

这类模型的共同特点是：

不一定最通用
但在特定方向上很省事
配合 LoRA 和局部重绘更容易出片

适合已经熟悉 SD 工作流的人。

四、国内和中文社区常见 NSFW 图像模型

国内模型里，Z-Image/Z-Image-Turbo 要单独列出来。

它是阿里通义 MAI 的文生图模型，可以作为支持 NSFW 的大厂图像底模使用。

除此之外，中文社区常见的 NSFW 使用，主要来自 Stable Diffusion / SDXL / Pony 派生模型。

1. iNiverse Mix / GuoFeng 系列

iNiverse Mix 是中文社区里很常见的国风、亚洲写实、写真方向模型。

它的版本很多，包括 GuoFeng、Pony GuoFeng、Flux 方向版本等。不同版本的底座和风格差异比较大，下载前要看清楚版本说明。

维度	说明
类型	SDXL / Pony / Flux 派生系列
强项	国风、汉服、亚洲人物、写实写真
弱点	版本多，新手容易下错
硬件	SDXL/Pony 版本建议 8GB 到 12GB；Flux 版本要求更高
适合人群	想做国风、东方审美、亚洲写实图的人

这个系列适合做：

汉服
国风写真
亚洲人像
电影感人物
半写实角色

如果你想找“国内社区味道”的模型，iNiverse / GuoFeng 系列是很典型的选择。

2. Z-Image / Z-Image-Turbo

Z-Image 是阿里通义 MAI 推出的文生图模型族，中文名也叫“造相”。

它支持 NSFW 文生图，可以作为写实图、中文文字图、角色首帧和视频首帧的通用底座。

维度	说明
类型	6B 文生图模型族
强项	NSFW 文生图、写实、中文/英文文字渲染、指令理解、快速出图
弱点	LoRA、Checkpoint、Inpaint 生态不如 SDXL/Pony 成熟
硬件	Z-Image-Turbo 以 16GB 显存为主；完整 Z-Image 更适合 24GB 以上
适合人群	想要大厂文生图底模、NSFW 写实、中文文字、图生视频首帧的人

Z-Image 系列里最容易上手的是 Z-Image-Turbo。

它是少步数蒸馏版本，官方模型卡里强调 8 次前向左右就能生成图像，并且可以放进 16GB 显存的消费级设备。

它适合做：

NSFW 文生图
写实人像底图
中文文字海报
国风和现代摄影风格
图生视频首帧
需要中文提示词理解的场景

它和 Pony、NoobAI、Illustrious 的定位不同。

Pony 这类模型更像 NSFW 社区底座，LoRA、角色、标签和修图流程更密集。

Z-Image 更像大厂文生图底模，优势在写实、文字、速度和提示词理解。

如果你的目标是二次元 NSFW，优先看 Pony、Illustrious、NoobAI。

如果你的目标是 NSFW 写实文生图、中文文字、国风人物、短视频开场图，Z-Image-Turbo 很值得放进候选列表。

3. majicMIX Realistic

majicMIX Realistic 是 SD 1.5 时代非常有代表性的写实模型。

它的特点是亚洲人像、摄影感、脸部审美和低显存友好。

维度	说明
类型	SD 1.5 写实 Checkpoint
强项	亚洲人像、写真感、低显存、速度快
弱点	细节和大图能力不如 SDXL
硬件	4GB 到 8GB
适合人群	低显存写实人像用户

majicMIX 很适合做本地入门。

如果你的显卡比较老，它比 SDXL 更友好，也更容易把工作流跑通。

4. ChilloutMix / HotChillyMix

ChilloutMix 是早期写实人像模型里的经典名字。

后来的 HotChillyMix 可以理解成围绕 ChilloutMix 风格做的延续和修正版本，其中也有 NSFW 版本。

维度	说明
类型	SD 1.5 写实 Checkpoint
强项	写实人像、亚洲脸、低显存
弱点	年代较早，手部、身体细节需要后处理
硬件	4GB 到 8GB
适合人群	想在低配机器上做写实人像的人

这类模型现在不是最新，但胜在：

模型小
跑得快
插件支持广
教程和旧工作流多

老模型不一定过时，尤其是在低显存机器上。

5. XXMix_9realistic

XXMix_9realistic 也是中文社区用户经常提到的 SD 1.5 写实模型。

它偏写实、人物、CG 和摄影风格。

维度	说明
类型	SD 1.5 写实 Checkpoint
强项	写实人物、低显存、老生态
弱点	原生分辨率低，细节需要修图流程
硬件	4GB 到 8GB
适合人群	SD 1.5 写实模型收集和低显存用户

XXMix 的定位和 majicMIX、ChilloutMix 接近。

如果你的目标是本地轻量跑图，SD 1.5 写实模型依然值得保留。

6. YesMix

YesMix 是偏动漫、半写实和 NSFW 方向的 SD 1.5 模型。

它适合喜欢老 SD 1.5 工作流、booru 标签、动漫和半写实混合风格的人。

维度	说明
类型	SD 1.5 动漫/半写实模型
强项	动漫、半写实、标签提示词、低显存
弱点	画质上限不如 SDXL 新模型
硬件	4GB 到 8GB
适合人群	低显存二次元 NSFW 用户

如果你有很多 SD 1.5 LoRA，YesMix 这类模型仍然很方便。

五、NSFW 视频模型：现在还不是图片那样成熟

视频模型要单独讲。

当前真正成熟的 NSFW 视频底座很少。

大多数人的做法是：

1	先用 NSFW 图片模型生成关键帧，再用图生视频模型让画面动起来。

这意味着，视频的核心不只是视频模型本身，还包括：

首帧质量
角色一致性
姿态控制
分镜长度
镜头运动
后期补帧和放大

1. Wan2.2

Wan2.2 是当前本地视频生成里非常重要的模型系列。

它支持文生视频、图生视频和文图生视频方向。对于 NSFW 工作流来说，更常用的是图生视频：先用图片模型出首帧，再交给 Wan2.2 做动态。

维度	说明
类型	文生视频 / 图生视频
强项	画质、运动、中文生态关注度高
弱点	大版本显存要求高
硬件	24GB 可尝试轻量版本；高规格版本更吃显存
适合人群	RTX 4090、专业卡、多卡用户

如果你主要做 NSFW 视频，Wan2.2 更适合作为 I2V 组件，而不是直接从文本一步生成最终片段。

2. HunyuanVideo-1.5

HunyuanVideo-1.5 是腾讯混元视频模型的新一代路线。

它支持文生视频和图生视频，官方定位比早期 13B 版本更偏消费级显卡。

维度	说明
类型	文生视频 / 图生视频
强项	画质、运动、一体化视频生成
弱点	工作流复杂，参数多
硬件	14GB 以上可尝试，24GB 体验更好
适合人群	想在本地做图生视频和短片的人

HunyuanVideo-1.5 的优势是硬件门槛比早期大视频模型低。

它适合和 SDXL/Pony/Flux 图片模型组合：

1	图片模型负责人物和构图，视频模型负责动态。

3. LTX-Video / LTX-2.3

LTX 系列的特点是速度和桌面工作流。

它支持图生视频、文生视频、视频编辑等方向，LTX-2.3 还强调音视频一体能力。

维度	说明
类型	文生视频 / 图生视频 / 视频编辑
强项	速度、工作流、桌面应用
弱点	画面质感和长视频稳定性要看版本
硬件	16GB 起步，24GB 更舒服
适合人群	想做快速视频实验和本地桌面流程的人

如果你更在意速度、可交互工作流和短视频实验，LTX 比大模型更顺手。

4. CogVideoX I2V 和 Stable Video Diffusion

CogVideoX I2V 和 Stable Video Diffusion 更像成熟工作流中的补充组件。

模型	强项	弱点	硬件
CogVideoX I2V	图生视频、开源生态、资料多	新模型冲击下画质不算顶尖	12GB 到 24GB
Stable Video Diffusion	老牌图生视频、简单	短片段、可控性有限	8GB 到 12GB

如果你刚开始做本地视频，SVD 适合入门理解 I2V。

如果你已经有 ComfyUI 工作流，可以把 CogVideoX、Wan、Hunyuan、LTX 都试一轮，看哪一个更适合自己的显卡。

六、NSFW 文本模型：聊天、角色扮演和小说续写

NSFW 文本模型主要看三个关键词：

1	uncensored、roleplay、abliterated

它们常用于：

角色扮演
剧情续写
长对话
小说草稿
世界观设定

1. Dolphin 系列

Dolphin 是 uncensored LLM 里最有代表性的系列之一。

比较常见的版本包括：

Dolphin 2.x
Dolphin 2.9.x
Dolphin Mistral Nemo 12B
Dolphin Mixtral

维度	说明
类型	文本生成模型
强项	指令跟随、聊天、代码、开放式回复
弱点	角色扮演味道不如专门 RP 模型
硬件	7B/8B 量化可 8GB 左右；12B 建议 12GB 到 16GB；70B 需要更高配置
适合人群	想要通用聊天和开放式文本模型的人

Dolphin 更像通用型开放模型，不只是 NSFW。

如果你既要写作、聊天，又要少一点回复限制，Dolphin 是常见选择。

2. Euryale

Euryale 是角色扮演圈里常见的模型系列。

它更偏叙事、人物对话、长段落和角色沉浸。

维度	说明
类型	Roleplay / Story 模型
强项	角色扮演、情绪、对话、长文
弱点	工具调用和严肃任务不如通用模型
硬件	8B 到 70B 版本跨度大，按量化版本选择
适合人群	SillyTavern、KoboldCPP、文本 RP 用户

如果你主要用 SillyTavern，Euryale 这类模型比普通指令模型更对味。

3. Magnum

Magnum 也是 NSFW RP 圈常见的模型系列。

它经常基于 Qwen、Llama 等底座做角色扮演微调。

维度	说明
类型	Roleplay / Story 模型
强项	剧情推进、角色风格、长文本
弱点	不适合做严肃问答主力
硬件	12B/14B 可中端显卡量化；70B 需要高显存或多卡
适合人群	重度 RP、小说续写、长角色卡用户

Magnum 的优点是风格更明显。

如果你觉得 Dolphin 太像助手，Magnum 这类 RP 模型会更像“故事模型”。

4. MythoMax、Noromaid、Lumimaid

这几个名字在本地 RP 用户里也很常见。

模型	风格	适合场景
MythoMax	老牌 RP，轻量	低成本本地角色扮演
Noromaid	RP/对话	SillyTavern、长对话
Lumimaid	RP/小说	角色设定和剧情续写

它们的优势是：

量化版本多
跑起来容易
社区预设多
适合 CPU/GPU 混合部署

如果你的机器不强，7B、8B、13B 的 GGUF 版本反而更实用。

5. Qwen / Gemma / Llama Abliterated 系

近两年 Hugging Face 上有很多 abliterated / uncensored 命名的模型。

常见底座包括：

Qwen
Gemma
Llama
Mistral
Mixtral

这类模型的特点是：

版本非常多
命名很长
量化版本更新快
质量差异很大

选择时不要只看名字里有没有 uncensored。

更应该看：

参数量
量化格式
上下文长度
是否适合 SillyTavern
是否有 GGUF / EXL2 / AWQ
评论区反馈

中文用户可以重点看 Qwen 底座的 abliterated / uncensored 版本。

它们通常中文理解更好，但角色扮演味道要看具体微调数据。

七、按显存选模型

4GB 到 6GB 显存

这个档位不要硬追 SDXL。

更适合：

SD 1.5
Realistic Vision
majicMIX
ChilloutMix / HotChillyMix
XXMix_9realistic
YesMix

建议方向：

1	512 或 768 出图，Hires Fix 放大，ADetailer 修脸。

这个档位可以做图片，视频就不要要求太高。

8GB 显存

8GB 是本地 NSFW 图片的入门甜点。

可以跑：

SDXL
Pony Diffusion V6 XL
Illustrious XL
NoobAI XL
Juggernaut XL
CyberRealistic Pony

建议方向：

1	1024 出图，少量 LoRA，必要时开显存优化。

如果你用 ComfyUI，8GB 也能跑不少 SDXL 工作流，只是不能堆太多 ControlNet 和高清修复。

12GB 到 16GB 显存

这是比较舒服的本地图片档位。

适合：

SDXL 多 LoRA
Pony 多 LoRA
ControlNet
Inpaint
ADetailer
Z-Image-Turbo
图生图
简单图生视频

12GB 到 16GB 的优势是可以把工作流做完整。

比如：

1	Checkpoint + LoRA + ControlNet + ADetailer + Upscale

这个档位也能开始玩 LTX、SVD、部分 CogVideoX 或轻量视频工作流。

24GB 显存

24GB 是本地生成的黄金档。

RTX 4090 这类卡可以覆盖：

SDXL 高分辨率
Pony / Illustrious / NoobAI 复杂工作流
Z-Image / Z-Image-Turbo
Flux 部分模型
Wan2.2 轻量视频工作流
HunyuanVideo-1.5
LTX-Video / LTX-2.3
文本 30B 左右量化模型

如果你希望图片和视频都能玩，24GB 是最合适的单卡档位。

48GB 以上

48GB 以上的机器更适合视频和大文本模型。

可以考虑：

更长视频
更高分辨率视频
70B 文本模型量化
多 ControlNet 图片工作流
批量出图
训练 LoRA

如果只是生成图片，48GB 不是刚需。

如果要做视频和训练，显存越大越省时间。

八、按用途选模型

1. 我要写实人像

优先看：

Juggernaut XL
CyberRealistic Pony
Realistic Vision
majicMIX Realistic
iNiverse Mix
Z-Image / Z-Image-Turbo
ChilloutMix / HotChillyMix

建议：

1	低显存选 SD 1.5，高画质选 SDXL/Pony 写实派生；需要中文文字和写实首帧时，把 Z-Image-Turbo 加进候选。

2. 我要二次元 NSFW

优先看：

Pony Diffusion V6 XL
Illustrious XL 派生模型
NoobAI XL
YesMix
CitrineDreamMix

建议：

1	先学会该模型的标签体系，再堆 LoRA。

二次元模型对提示词体系更敏感。

同一句自然语言，在 Pony、Illustrious、NoobAI 上效果可能差很多。

3. 我要国风、汉服、亚洲审美

优先看：

iNiverse Mix / GuoFeng
Z-Image / Z-Image-Turbo
majicMIX Realistic
XXMix_9realistic
ChilloutMix / HotChillyMix
Pony GuoFeng 派生版本

建议：

1	国风靠模型底色，人物一致性靠 LoRA 和局部重绘。

如果模型本身没有国风审美，单靠提示词很难稳定。

4. 我要图生图和局部重绘

优先看：

SDXL
Pony
Juggernaut XL
Realistic Vision
majicMIX
NoobAI XL

工具重点：

Inpaint
ControlNet
IP-Adapter
ADetailer
Upscaler

图生图比文生图更适合精修。

如果目标是稳定出片，不要只靠一次文生图。

5. 我要 NSFW 视频

优先组合：

图片：Pony / Juggernaut / iNiverse / majicMIX
首帧：Z-Image-Turbo / Juggernaut XL / iNiverse
视频：Wan2.2 / HunyuanVideo-1.5 / LTX / CogVideoX I2V / SVD

建议流程：

1	先做高质量首帧，再做图生视频。

直接文生视频更容易出现角色漂移、画面变形和细节丢失。

6. 我要 NSFW 聊天和小说

优先看：

Dolphin
Euryale
Magnum
MythoMax
Noromaid
Lumimaid
Qwen Abliterated 派生模型

工具：

SillyTavern
KoboldCPP
LM Studio
Ollama
text-generation-webui

建议：

1	8B 到 13B 适合本地轻量，30B 到 70B 更适合高显存或云端。

九、图片模型和文本模型的硬件差异

很多人把图片模型和文本模型的硬件要求混在一起。

其实两者很不一样。

类型	最吃什么	低配方案	舒服配置
SD 1.5 图片	显存	4GB 到 6GB	8GB
SDXL/Pony 图片	显存	8GB	12GB 到 16GB
Flux 图片	显存和内存	16GB 起	24GB 以上
图生视频	显存、内存、硬盘	12GB 到 16GB	24GB 以上
7B/8B 文本	显存或内存	CPU 量化也能跑	8GB 显存
12B/14B 文本	显存或内存	16GB 内存量化	12GB 到 16GB 显存
30B 文本	显存或内存	高内存 CPU 量化	24GB 显存
70B 文本	显存和内存	多卡或大内存	48GB 以上

图片模型更依赖显卡。

文本模型可以用 CPU 量化慢慢跑，但体验会差很多。

视频模型最吃配置，尤其是：

分辨率
帧数
步数
是否开高清修复
是否多段生成

十、下载和运行工具

1. Civitai

Civitai 是图片模型、LoRA、Embedding、工作流最集中的地方。

适合找：

Checkpoint
LoRA
图生图工作流
ComfyUI 工作流
示例参数

注意看版本号。

很多模型同一个页面有十几个版本，底座可能完全不同。

2. Hugging Face

Hugging Face 更适合找：

底模
官方权重
Diffusers 版本
文本模型
GGUF / EXL2 / AWQ 量化

如果你使用脚本、Diffusers、ComfyUI 自定义节点，Hugging Face 会更方便。

3. ComfyUI

ComfyUI 是现在本地图片和视频生成最值得学的工具。

适合：

复杂工作流
图生图
ControlNet
IP-Adapter
局部重绘
视频模型
批量节点流程

如果你要做 NSFW 图片加视频，ComfyUI 基本绕不开。

4. Forge / A1111

Forge 和 A1111 更适合图片入门。

优点：

上手快
插件多
SD 1.5/SDXL 跑图方便
LoRA 管理简单

如果你主要做图片，不想一开始就搭节点，Forge 会更省心。

5. SillyTavern

SillyTavern 是本地文本 RP 用户常用前端。

它本身不负责模型推理，而是连接：

KoboldCPP
text-generation-webui
LM Studio
Ollama
OpenRouter
本地或远程 API

如果你主要玩 NSFW 文本、角色卡、世界书、长对话，SillyTavern 是核心工具。

十一、推荐组合

组合 1：低显存写实图片

适合 4GB 到 6GB 显存。

majicMIX / Realistic Vision / HotChillyMix
+ ADetailer
+ Hires Fix
+ 常用写实 LoRA

优点：

省显存
出图快
老教程多

缺点：

原生画质不如 SDXL
手部和身体细节更依赖后处理

组合 2：主流 SDXL 写实

适合 8GB 到 16GB 显存。

Juggernaut XL / CyberRealistic Pony / iNiverse Mix
+ LoRA
+ ControlNet
+ Inpaint
+ Upscale

优点：

画质更好
1024 分辨率起步
写实感更强

缺点：

显存占用更高
复杂工作流会变慢

组合 3：二次元 NSFW

适合 8GB 到 16GB 显存。

Pony Diffusion / Illustrious / NoobAI
+ 角色 LoRA
+ 风格 LoRA
+ ADetailer

优点：

LoRA 多
标签体系成熟
角色和画风容易控制

缺点：

不同底座提示词习惯差异大
写实方向需要换模型

组合 4：NSFW 图生视频

适合 16GB 到 24GB 以上显存。

1
2
3

Pony / Juggernaut / iNiverse 出首帧
+ Wan2.2 / HunyuanVideo-1.5 / LTX 做 I2V
+ 后期补帧和放大

优点：

人物和构图更可控
比直接文生视频稳定
方便分镜

缺点：

流程更长
显存和时间成本更高
角色一致性仍然要反复调

组合 5：NSFW 文本 RP

适合 8GB 到 24GB 显存，或者大内存 CPU。

1
2
3

SillyTavern
+ Dolphin / Euryale / Magnum / MythoMax
+ KoboldCPP / LM Studio / text-generation-webui

优点：

角色卡生态成熟
本地可控
模型选择多

缺点：

质量高度依赖模型和提示词模板
小模型容易重复
长上下文会明显吃资源

十二、最终推荐清单

如果你想少走弯路，可以按这份清单开始。

图片优先

方向	推荐
低显存写实	Realistic Vision、majicMIX、HotChillyMix、XXMix_9realistic
主流写实	Juggernaut XL、CyberRealistic Pony、iNiverse Mix、Z-Image-Turbo
二次元	Pony Diffusion V6 XL、Illustrious XL、NoobAI XL
国风/亚洲	iNiverse / GuoFeng、Z-Image-Turbo、majicMIX、ChilloutMix
中文文字/首帧	Z-Image、Z-Image-Turbo
老机器	SD 1.5 系模型
画质优先	SDXL / Pony / Illustrious / NoobAI / Z-Image

视频优先

方向	推荐
入门 I2V	Stable Video Diffusion、CogVideoX I2V
当前主力	Wan2.2、HunyuanVideo-1.5
快速实验	LTX-Video / LTX-2.3
高配置	Wan2.2 大版本、HunyuanVideo 高规格流程

文本优先

方向	推荐
通用开放聊天	Dolphin
角色扮演	Euryale、Magnum
轻量 RP	MythoMax、Noromaid、Lumimaid
中文理解	Qwen 底座的 abliterated / uncensored 派生模型

十三、我的实际选择建议

如果只看实用，我会这样选：

8GB 显卡：
SD 1.5 写实模型 + Pony/SDXL 轻量工作流。

12GB 到 16GB 显卡：
Pony + Juggernaut XL + iNiverse + Z-Image-Turbo，再加一套 ComfyUI 图生图流程。

24GB 显卡：
SDXL/Pony/Illustrious/Z-Image 图片全覆盖，再尝试 Wan2.2、HunyuanVideo-1.5、LTX。

文本 RP：
本地 8B/12B 起步，重度用户再上 30B/70B。

NSFW 图片模型已经很成熟。

真正决定效果的，不是模型名本身，而是：

模型版本
LoRA 搭配
提示词格式
修图节点
显存余量
是否会局部重绘

视频还没有图片那么省心。

现在最稳的路线仍然是：

1	图片模型负责画面，视频模型负责运动。

文本模型则看你更想要“助手感”还是“角色感”。

Dolphin 更像通用开放助手，Euryale、Magnum、MythoMax 这类更像角色和故事模型。

参考资料

国内外 NSFW 生成模型一览：图像、视频与文本模型怎么选

国内外 NSFW 生成模型一览：图像、视频与文本模型怎么选