
这可能是目前最强的开源越狱版模型。
完全无审查、无限制(DDDD), 6G 显存即可运行,而且智商不打折。
今天这篇文章,从零开始教你如何下载模型、本地部署、对接 AI Agent ,真正做到 Token 自由。
一、模型介绍
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive(简称 Qwen3.6-35B 越狱版), HF 下载量已突破 211 万,是目前热度最高的开源无审查模型。
核心数据一览:
📊 HF 下载量: 211 万+
❤️ 社区点赞: 1022
📜 开源协议: Apache 2.0
🧠 基础模型: Qwen/Qwen3.6-35B-A3B
官方版 vs 越狱版对比:
同样是 Qwen 3.6 ,官方版会拒绝敏感请求、强制过滤某些话题。而越狱版 Aggressive 版本直接移除了所有安全护栏,什么都敢说什么都肯干,关键是——智商完全不打折。
能力亮点:
✅ 完全无审查、无限制、没有思想钢印
✅ 6GB 显存即可运行
✅ 支持 N 卡、 A 卡、 Intel 显卡
✅ 支持多模态视觉(图片识别、 OCR 、截图分析)
✅ 在 40B 以下开源模型中,中文理解、代码、多模态、推理能力全线霸榜
✅ 纯 CPU 也可运行
二、显存与量化版本选择
不同显存选择不同的量化版本,选错了要么跑不起来,要么浪费性能。
速查表:
🔹 6-8GB 显存 → IQ2_M 版本(最低配,建议 8G )
🔹 8-12GB 显存 → IQ3_M 版本(性价比之选)
🔹 12-16GB 显存 → IQ4_NL 版本(高压缩高质量)
🔹 16-24GB 显存 → Q4_K_M 版本(稳定版,推荐)
🔹 24GB 显存 → Q4_K_P 版本( 4090 首选,体验最好)
🔹 32GB+ 显存 → Q6_K_P / Q8_K_P (接近无损质量)
建议:显存允许的情况下,优先选 Q4_K_M 或 Q4_K_P ,量化越高质量越好。
显卡与 llama.cpp 版本对照:
🔹 NVIDIA 10 系/20 系 → CUDA 11.4
🔹 NVIDIA 30 系/40 系/50 系 → CUDA 13.1
🔹 AMD A 卡 → Vulkan 版本
🔹 Intel 显卡 → SYCL 或 HIP 版本
🔹 macOS Apple Silicon → brew install 原生版
三、部署步骤( Windows )
Step 1 :下载越狱版模型
前往 HF模型页面:
https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
需要下载两个文件:主模型(选一个)+ 视觉模型(必下)。
📥 主模型下载(根据显存选一个):

| Q4_K_M | 19.7 GB | 16-24 GB | 下载(稳定版推荐) |
| Q4_K_P | 21.8 GB | 24 GB | 下载( 4090 推荐) |
📥 视觉模型(必下):
Step 2 :下载 llama.cpp
链接:https://pan.quark.cn/s/453fd60f0a33?pwd=S65b提取码:S65b
版本选择:
🔹 10/20 系显卡选 CUDA 11.4
🔹 30/40/50 系显卡选 CUDA 13.1
🔹 A 卡选 Vulkan 版本
其他系统安装方式:
🔹 macOS :brew install llama.cpp
🔹 Windows :winget install llama.cpp
🔹 Linux :apt install llama.cpp
下载完成后解压到常用目录。
Step 3 :创建模型文件夹
进入 llama.cpp 根目录,新建一个 models 文件夹,把下载好的模型文件全部放进去。
Step 4 :制作一键启动脚本
在 llama.cpp 根目录新建一个 .bat 文件,粘贴以下内容:
@echo off
chcp 65001 >nul
title Qwen3.6-35B-A3B 本地启动器
cd /d "%~dp0"
set "SERVER=llama-server.exe"
set "MMPROJ=models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf"
set "HOST=127.0.0.1"
set "PORT=8080"
if not exist "%SERVER%" (
echo 找不到 %SERVER%
echo 请确认本 bat 文件和 llama-server.exe 在同一目录。
pause
exit /b 1
)
:menu
cls
echo ==========================================
echo Qwen3.6-35B-A3B 启动器
echo ==========================================
echo.
echo 1. Q4_K_P 4090 / 24GB 显存,建议 32K 上下文
echo 2. Q4_K_M 24GB 显存稳定版,建议 32K 上下文
echo 3. IQ4_NL 16GB/24GB,建议 16K-32K 上下文
echo 4. IQ2_M 低显存混合模式,建议 8K 上下文
echo.
echo ==========================================
set "choice="
set /p choice=请输入数字:
if "%choice%"=="1" (
set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf"
set "CTX=65536"
set "NGL=all"
set "NPREDICT=8192"
goto run
)
if "%choice%"=="2" (
set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf"
set "CTX=65536"
set "NGL=all"
set "NPREDICT=8192"
goto run
)
if "%choice%"=="3" (
set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf"
set "CTX=65536"
set "NGL=auto"
set "NPREDICT=8192"
goto run
)
if "%choice%"=="4" (
set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf"
set "CTX=8192"
set "NGL=auto"
set "NPREDICT=4096"
goto run
)
echo.
echo 输入无效,请重新输入 1-4 之间的数字!
pause
goto menu
:run
if not exist "%MODEL%" (
echo 找不到模型文件:
echo %MODEL%
pause
goto menu
)
if not exist "%MMPROJ%" (
echo 找不到多模态 mmproj 文件:
echo %MMPROJ%
echo.
echo 如果只想文字聊天,可以删除启动命令里的 --mmproj 参数。
pause
goto menu
)
echo.
echo 正在启动:
echo 模型: %MODEL%
echo 上下文: %CTX%
echo GPU层数: %NGL%
echo 地址: http://%HOST%:%PORT%
echo.
"%SERVER%" ^
--model "%MODEL%" ^
--mmproj "%MMPROJ%" ^
--gpu-layers %NGL% ^
--ctx-size %CTX% ^
--n-predict %NPREDICT% ^
--host %HOST% ^
--port %PORT% ^
--alias qwen3.6-35b-a3b ^
--jinja ^
--flash-attn on ^
--fit on
echo.
echo llama-server 已退出,错误码:%errorlevel%
pause
goto menu
保存时注意编码选择 UTF-8 ,保存类型选所有文件,文件名后缀 .bat。
Step 5 :启动模型
双击运行 .bat 文件,输入对应数字选择模型版本。
看到 server listening on 127.0.0.1:8080 表示启动成功。
打开浏览器访问 http://127.0.0.1:8080 即可使用。
四、启动参数详解
-m | ||
--mmproj | ||
-ngl 999 | ||
-c 131072 | ||
-n 8192 | ||
--host 127.0.0.1 | ||
--port 8080 | ||
--jinja | 启用 Jinja 模板引擎 | ⚠️ 必加! Qwen 模型专用 |
关于 --jinja 参数:
这是 Qwen 模型非常关键的参数。不加可能出现回复异常、格式错乱、无限重复输出、中文异常等问题。务必加上!
五、 API 调用
llama-server 启动后,同时暴露了一个 OpenAI 兼容 API,可以直接用代码调用。
API 地址: http://127.0.0.1:8080/v1/chat/completions
Python 调用示例:
fromopenaiimportOpenAIclient=OpenAI(base_url="http://127.0.0.1:8080/v1",api_key="not-needed")response=client.chat.completions.create(model="qwen3.6-35b-uncensored",messages=[{"role":"user","content":"你好"}])print(response.choices[0].message.content)任何支持 OpenAI API 格式的工具都可以对接,包括 Cursor
六、对接 AI Agent
部署完成后,可以将本地模型对接到各种 AI Agent 工具。
对接 Hermes Agent 的步骤:
http://127.0.0.1:8080/v1
6.上下文长度:131072(不过不建议开1m,容易卡死,脚本设置的64k)同样支持对接 OpenClaw 、 Hermes、 codex 等任何支持 OpenAI 格式的工具。
七、为什么选 llama.cpp 而不是 Ollama ?
很多人本地跑模型第一反应是 Ollama ,但它其实是 llama.cpp 比ollama响应更快,延迟更低。
三层架构的代价:
🔹 启动延迟:冷启动比 llama.cpp 慢 3-5 秒
🔹 推理损耗:多层转发损失 5-15% 速度
🔹 内存浪费:守护进程常驻占 200-500MB
🔹 参数黑箱:--jinja、-ngl 等参数难以透传
什么时候用 Ollama ?
完全不想碰命令行,不在意速度损失
什么时候用 llama.cpp ?
追求极致速度、需要自定义 GGUF 文件(如越狱版)、需要多模态视觉、需要精细控制参数
💡 结论: Ollama 适合"一键体验", llama.cpp 适合"真正用起来"。
八、常见问题
Q1 :图片上传按钮是灰的?
视觉模型文件( mmproj )未下载或路径不对,确认 --mmproj 参数正确。
Q2 :回复无限重复/格式错乱?
缺少 --jinja 参数, Qwen 模型必须加此参数。
Q3 :输出速度很慢?
量化版本超出显存,换用更小的版本,或降低 -c 上下文长度值。
Q4 : CUDA 报错?
确认 llama.cpp 版本与显卡匹配。 10/20 系用 CUDA 11.4 , 30/40/50 系用 CUDA 13.1 。
Q5 :显存爆了?
降低 -c 值,或换用更小的量化版本。低显存用户建议 -c 8192。
Q6 :纯 CPU 能跑吗?
可以,但很慢。建议至少 32GB 内存,使用 IQ2_M 最小版本。
九、总结
这是目前开源社区中,智商最高、限制最少、门槛最低的本地 AI 模型之一。
🔹 智商: 40B 以下开源模型第一梯队
🔹 越狱程度: Aggressive 版本,目前最激进
🔹 门槛: 6G 显存即可运行
🔹 多模态:支持图片识别、 OCR 、截图分析
🔹 生态:可对接各类 AI Agent 工具
无论你是想体验无审查 AI ,还是搭建本地 AI 工作流,都值得试试。