QWEN 3.6 35B 越狱版本地部署教程：6G显存就能跑的无审查最强开源模型

这可能是目前最强的开源越狱版模型。

完全无审查、无限制(DDDD)， 6G 显存即可运行，而且智商不打折。

今天这篇文章，从零开始教你如何下载模型、本地部署、对接 AI Agent ，真正做到 Token 自由。

一、模型介绍

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive（简称 Qwen3.6-35B 越狱版）， HF 下载量已突破 211 万，是目前热度最高的开源无审查模型。

核心数据一览：

📊 HF 下载量： 211 万+
❤️ 社区点赞： 1022
📜 开源协议： Apache 2.0
🧠 基础模型： Qwen/Qwen3.6-35B-A3B

官方版 vs 越狱版对比：

同样是 Qwen 3.6 ，官方版会拒绝敏感请求、强制过滤某些话题。而越狱版 Aggressive 版本直接移除了所有安全护栏，什么都敢说什么都肯干，关键是——智商完全不打折。

能力亮点：

✅ 完全无审查、无限制、没有思想钢印
✅ 6GB 显存即可运行
✅ 支持 N 卡、 A 卡、 Intel 显卡
✅ 支持多模态视觉（图片识别、 OCR 、截图分析）
✅ 在 40B 以下开源模型中，中文理解、代码、多模态、推理能力全线霸榜
✅ 纯 CPU 也可运行

二、显存与量化版本选择

不同显存选择不同的量化版本，选错了要么跑不起来，要么浪费性能。

速查表：

🔹 6-8GB 显存 → IQ2_M 版本（最低配，建议 8G ）
🔹 8-12GB 显存 → IQ3_M 版本（性价比之选）
🔹 12-16GB 显存 → IQ4_NL 版本（高压缩高质量）
🔹 16-24GB 显存 → Q4_K_M 版本（稳定版，推荐）
🔹 24GB 显存 → Q4_K_P 版本（ 4090 首选，体验最好）
🔹 32GB+ 显存 → Q6_K_P / Q8_K_P （接近无损质量）

建议：显存允许的情况下，优先选 Q4_K_M 或 Q4_K_P ，量化越高质量越好。

显卡与 llama.cpp 版本对照：

🔹 NVIDIA 10 系/20 系 → CUDA 11.4
🔹 NVIDIA 30 系/40 系/50 系 → CUDA 13.1
🔹 AMD A 卡 → Vulkan 版本
🔹 Intel 显卡 → SYCL 或 HIP 版本
🔹 macOS Apple Silicon → brew install 原生版

三、部署步骤（ Windows ）

Step 1 ：下载越狱版模型

前往 HF模型页面：

https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

需要下载两个文件：主模型（选一个）+ 视觉模型（必下）。

📥 主模型下载（根据显存选一个）：

QWEN 3.6 35B 越狱版本地部署教程：6G显存就能跑的无审查最强开源模型第2张

版本	大小	适合显存	下载链接
IQ2_M	10.9 GB	6-8 GB	下载
Q2_K_P	14.0 GB	8-12 GB	下载
IQ3_M	14.4 GB	8-12 GB	下载
IQ4_XS	17.4 GB	12-16 GB	下载
Q3_K_P	17.7 GB	12-16 GB	下载
IQ4_NL	18.4 GB	16 GB	下载
Q4_K_M	19.7 GB	16-24 GB	下载（稳定版推荐）
Q4_K_P	21.8 GB	24 GB	下载（ 4090 推荐）
Q5_K_P	26.1 GB	24-32 GB	下载
Q6_K_P	28.5 GB	32 GB+	下载
Q8_K_P	40.6 GB	32 GB+	下载

📥 视觉模型（必下）：

文件	大小	用途	下载链接
mmproj-f16.gguf	858 MB	多模态识图功能必需	下载

Step 2 ：下载 llama.cpp

链接：https://pan.quark.cn/s/453fd60f0a33?pwd=S65b提取码：S65b

版本选择：
🔹 10/20 系显卡选 CUDA 11.4
🔹 30/40/50 系显卡选 CUDA 13.1
🔹 A 卡选 Vulkan 版本

其他系统安装方式：
🔹 macOS ：brew install llama.cpp
🔹 Windows ：winget install llama.cpp
🔹 Linux ：apt install llama.cpp

下载完成后解压到常用目录。

Step 3 ：创建模型文件夹

进入 llama.cpp 根目录，新建一个 models 文件夹，把下载好的模型文件全部放进去。

Step 4 ：制作一键启动脚本

在 llama.cpp 根目录新建一个 .bat 文件，粘贴以下内容：

@echo off

chcp 65001 >nul

title Qwen3.6-35B-A3B 本地启动器

cd /d "%~dp0"

set "SERVER=llama-server.exe"

set "MMPROJ=models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf"

set "HOST=127.0.0.1"

set "PORT=8080"

if not exist "%SERVER%" (

echo 找不到 %SERVER%

echo 请确认本 bat 文件和 llama-server.exe 在同一目录。

pause

exit /b 1

)

:menu

cls

echo ==========================================

echo Qwen3.6-35B-A3B 启动器

echo ==========================================

echo.

echo 1. Q4_K_P 4090 / 24GB 显存，建议 32K 上下文

echo 2. Q4_K_M 24GB 显存稳定版，建议 32K 上下文

echo 3. IQ4_NL 16GB/24GB，建议 16K-32K 上下文

echo 4. IQ2_M 低显存混合模式，建议 8K 上下文

echo.

echo ==========================================

set "choice="

set /p choice=请输入数字：

if "%choice%"=="1" (

set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf"

set "CTX=65536"

set "NGL=all"

set "NPREDICT=8192"

goto run

)

if "%choice%"=="2" (

set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf"

set "CTX=65536"

set "NGL=all"

set "NPREDICT=8192"

goto run

)

if "%choice%"=="3" (

set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf"

set "CTX=65536"

set "NGL=auto"

set "NPREDICT=8192"

goto run

)

if "%choice%"=="4" (

set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf"

set "CTX=8192"

set "NGL=auto"

set "NPREDICT=4096"

goto run

)

echo.

echo 输入无效，请重新输入 1-4 之间的数字！

pause

goto menu

:run

if not exist "%MODEL%" (

echo 找不到模型文件：

echo %MODEL%

pause

goto menu

)

if not exist "%MMPROJ%" (

echo 找不到多模态 mmproj 文件：

echo %MMPROJ%

echo.

echo 如果只想文字聊天，可以删除启动命令里的 --mmproj 参数。

pause

goto menu

)

echo.

echo 正在启动：

echo 模型: %MODEL%

echo 上下文: %CTX%

echo GPU层数: %NGL%

echo 地址: http://%HOST%:%PORT%

echo.

"%SERVER%" ^

--model "%MODEL%" ^

--mmproj "%MMPROJ%" ^

--gpu-layers %NGL% ^

--ctx-size %CTX% ^

--n-predict %NPREDICT% ^

--host %HOST% ^

--port %PORT% ^

--alias qwen3.6-35b-a3b ^

--jinja ^

--flash-attn on ^

--fit on

echo.

echo llama-server 已退出，错误码：%errorlevel%

pause

goto menu

保存时注意编码选择 UTF-8 ，保存类型选所有文件，文件名后缀 .bat。

Step 5 ：启动模型

双击运行 .bat 文件，输入对应数字选择模型版本。

看到 server listening on 127.0.0.1:8080 表示启动成功。

打开浏览器访问 http://127.0.0.1:8080 即可使用。

四、启动参数详解

参数	含义	推荐值
`-m`	主模型文件路径	必填
`--mmproj`	视觉模型路径（多模态必需）	必填，不加则图片上传按钮变灰
`-ngl 999`	将所有层加载到 GPU	999 （全部上 GPU ）
`-c 131072`	上下文长度（ token 数）	131072 （ 128K ），低显存用 8192
`-n 8192`	最大输出 token 数	8192
`--host 127.0.0.1`	监听地址	仅本机访问
`--port 8080`	监听端口	8080
`--jinja`	启用 Jinja 模板引擎	⚠️ 必加！ Qwen 模型专用

关于 --jinja 参数：

这是 Qwen 模型非常关键的参数。不加可能出现回复异常、格式错乱、无限重复输出、中文异常等问题。务必加上！

五、 API 调用

llama-server 启动后，同时暴露了一个 OpenAI 兼容 API，可以直接用代码调用。

API 地址： http://127.0.0.1:8080/v1/chat/completions

Python 调用示例：

fromopenaiimportOpenAIclient=OpenAI(base_url="http://127.0.0.1:8080/v1",api_key="not-needed")response=client.chat.completions.create(model="qwen3.6-35b-uncensored",messages=[{"role":"user","content":"你好"}])print(response.choices[0].message.content)

任何支持 OpenAI API 格式的工具都可以对接，包括 Cursor

六、对接 AI Agent

部署完成后，可以将本地模型对接到各种 AI Agent 工具。

对接 Hermes Agent 的步骤：

1.选择服务提供者：自定义（ Custom ）

2.API 地址填写：http://127.0.0.1:8080/v1

3.API 密钥：随便填写或留空

4.API 模式：选择 OpenAI 兼容模式

5.模型名称：qwen3.6-35b-a3b

6.上下文长度：131072（不过不建议开1m，容易卡死，脚本设置的64k）

同样支持对接 OpenClaw 、 Hermes、 codex 等任何支持 OpenAI 格式的工具。

七、为什么选 llama.cpp 而不是 Ollama ？

很多人本地跑模型第一反应是 Ollama ，但它其实是 llama.cpp 比ollama响应更快，延迟更低。

三层架构的代价：

🔹 启动延迟：冷启动比 llama.cpp 慢 3-5 秒
🔹 推理损耗：多层转发损失 5-15% 速度
🔹 内存浪费：守护进程常驻占 200-500MB
🔹 参数黑箱：--jinja、-ngl 等参数难以透传

什么时候用 Ollama ？

完全不想碰命令行，不在意速度损失

什么时候用 llama.cpp ？

追求极致速度、需要自定义 GGUF 文件（如越狱版）、需要多模态视觉、需要精细控制参数

💡 结论： Ollama 适合"一键体验"， llama.cpp 适合"真正用起来"。

八、常见问题

Q1 ：图片上传按钮是灰的？

视觉模型文件（ mmproj ）未下载或路径不对，确认 --mmproj 参数正确。

Q2 ：回复无限重复/格式错乱？

缺少 --jinja 参数， Qwen 模型必须加此参数。

Q3 ：输出速度很慢？

量化版本超出显存，换用更小的版本，或降低 -c 上下文长度值。

Q4 ： CUDA 报错？

确认 llama.cpp 版本与显卡匹配。 10/20 系用 CUDA 11.4 ， 30/40/50 系用 CUDA 13.1 。

Q5 ：显存爆了？

降低 -c 值，或换用更小的量化版本。低显存用户建议 -c 8192。

Q6 ：纯 CPU 能跑吗？

可以，但很慢。建议至少 32GB 内存，使用 IQ2_M 最小版本。

九、总结

这是目前开源社区中，智商最高、限制最少、门槛最低的本地 AI 模型之一。

🔹 智商： 40B 以下开源模型第一梯队
🔹 越狱程度： Aggressive 版本，目前最激进
🔹 门槛： 6G 显存即可运行
🔹 多模态：支持图片识别、 OCR 、截图分析
🔹 生态：可对接各类 AI Agent 工具

无论你是想体验无审查 AI ，还是搭建本地 AI 工作流，都值得试试。

MiniMax M3 要来了：为什么这次值得认真看

QWEN 3.6 35B 越狱版本地部署教程：6G显存就能跑的无审查最强开源模型

CC 之父 Boris 最新对话：我现在只负责写提示词

一、模型介绍

二、显存与量化版本选择

三、部署步骤（ Windows ）

Step 1 ：下载越狱版模型

Step 3 ：创建模型文件夹

Step 4 ：制作一键启动脚本

Step 5 ：启动模型

四、启动参数详解

五、 API 调用

六、对接 AI Agent

七、为什么选 llama.cpp 而不是 Ollama ？

八、常见问题

九、总结

相关文章：