当前位置:首页 > 产品测评 > 正文

QWEN 3.6 35B 越狱版本地部署教程:6G显存就能跑的无审查最强开源模型

QWEN 3.6 35B 越狱版本地部署教程:6G显存就能跑的无审查最强开源模型  第1张

这可能是目前最强的开源越狱版模型。

完全无审查、无限制(DDDD), 6G 显存即可运行,而且智商不打折。

今天这篇文章,从零开始教你如何下载模型、本地部署、对接 AI Agent ,真正做到 Token 自由。


一、模型介绍

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive(简称 Qwen3.6-35B 越狱版), HF 下载量已突破 211 万,是目前热度最高的开源无审查模型。

核心数据一览

 📊 HF 下载量: 211 万+
 ❤️ 社区点赞: 1022
 📜 开源协议: Apache 2.0
 🧠 基础模型: Qwen/Qwen3.6-35B-A3B

官方版 vs 越狱版对比

同样是 Qwen 3.6 ,官方版会拒绝敏感请求、强制过滤某些话题。而越狱版 Aggressive 版本直接移除了所有安全护栏,什么都敢说什么都肯干,关键是——智商完全不打折。

能力亮点

 ✅ 完全无审查、无限制、没有思想钢印
 ✅ 
6GB 显存即可运行
 ✅ 支持 N 卡、 A 卡、 Intel 显卡
 ✅ 支持多模态视觉(图片识别、 OCR 、截图分析)
 ✅ 在 40B 以下开源模型中,中文理解、代码、多模态、推理能力全线霸榜
 ✅ 纯 CPU 也可运行


二、显存与量化版本选择

不同显存选择不同的量化版本,选错了要么跑不起来,要么浪费性能。

速查表

 🔹 6-8GB 显存 → IQ2_M 版本(最低配,建议 8G )
 🔹 8-12GB 显存 → IQ3_M 版本(性价比之选)
 🔹 12-16GB 显存 → IQ4_NL 版本(高压缩高质量)
 🔹 16-24GB 显存 → Q4_K_M 版本(稳定版,推荐)
 🔹 24GB 显存 → Q4_K_P 版本( 4090 首选,体验最好)
 🔹 32GB+ 显存 → Q6_K_P / Q8_K_P (接近无损质量)

建议:显存允许的情况下,优先选 Q4_K_M 或 Q4_K_P ,量化越高质量越好。

显卡与 llama.cpp 版本对照

 🔹 NVIDIA 10 系/20 系 → CUDA 11.4
 🔹 NVIDIA 30 系/40 系/50 系 → CUDA 13.1
 🔹 AMD A 卡 → Vulkan 版本
 🔹 Intel 显卡 → SYCL 或 HIP 版本
 🔹 macOS Apple Silicon → brew install 原生版


三、部署步骤( Windows )

Step 1 :下载越狱版模型

前往 HF模型页面:

https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

需要下载两个文件:主模型(选一个)+ 视觉模型(必下)。

📥 主模型下载(根据显存选一个)


QWEN 3.6 35B 越狱版本地部署教程:6G显存就能跑的无审查最强开源模型  第2张


版本
大小
适合显存
下载链接
IQ2_M
10.9 GB
6-8 GB
下载
Q2_K_P
14.0 GB
8-12 GB
下载
IQ3_M
14.4 GB
8-12 GB
下载
IQ4_XS
17.4 GB
12-16 GB
下载
Q3_K_P
17.7 GB
12-16 GB
下载
IQ4_NL
18.4 GB
16 GB
下载
Q4_K_M19.7 GB16-24 GB下载(稳定版推荐)
Q4_K_P21.8 GB24 GB下载( 4090 推荐)
Q5_K_P
26.1 GB
24-32 GB
下载
Q6_K_P
28.5 GB
32 GB+
下载
Q8_K_P
40.6 GB
32 GB+
下载

📥 视觉模型(必下)

文件
大小
用途
下载链接
mmproj-f16.gguf
858 MB
多模态识图功能必需
下载


Step 2 :下载 llama.cpp

链接:https://pan.quark.cn/s/453fd60f0a33?pwd=S65b提取码:S65b







版本选择
 🔹 10/20 系显卡选 CUDA 11.4
 🔹 30/40/50 系显卡选 CUDA 13.1
 🔹 A 卡选 Vulkan 版本

其他系统安装方式
 🔹 macOS :
brew install llama.cpp
 🔹 Windows :
winget install llama.cpp
 🔹 Linux :
apt install llama.cpp

下载完成后解压到常用目录。

Step 3 :创建模型文件夹

进入 llama.cpp 根目录,新建一个 models 文件夹,把下载好的模型文件全部放进去。

Step 4 :制作一键启动脚本

在 llama.cpp 根目录新建一个 .bat 文件,粘贴以下内容:



@echo off

chcp 65001 >nul

title Qwen3.6-35B-A3B 本地启动器

cd /d "%~dp0"

set "SERVER=llama-server.exe"

set "MMPROJ=models\mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf"

set "HOST=127.0.0.1"

set "PORT=8080"

if not exist "%SERVER%" (

    echo 找不到 %SERVER%

    echo 请确认本 bat 文件和 llama-server.exe 在同一目录。

    pause

    exit /b 1

)

:menu

cls

echo ==========================================

echo  Qwen3.6-35B-A3B 启动器

echo ==========================================

echo.

echo  1. Q4_K_P  4090 / 24GB 显存,建议 32K 上下文

echo  2. Q4_K_M  24GB 显存稳定版,建议 32K 上下文

echo  3. IQ4_NL  16GB/24GB,建议 16K-32K 上下文

echo  4. IQ2_M   低显存混合模式,建议 8K 上下文

echo.

echo ==========================================

set "choice="

set /p choice=请输入数字:

if "%choice%"=="1" (

    set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf"

    set "CTX=65536"

    set "NGL=all"

    set "NPREDICT=8192"

    goto run

)

if "%choice%"=="2" (

    set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf"

    set "CTX=65536"

    set "NGL=all"

    set "NPREDICT=8192"

    goto run

)

if "%choice%"=="3" (

    set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf"

    set "CTX=65536"

    set "NGL=auto"

    set "NPREDICT=8192"

    goto run

)

if "%choice%"=="4" (

    set "MODEL=models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf"

    set "CTX=8192"

    set "NGL=auto"

    set "NPREDICT=4096"

    goto run

)

echo.

echo 输入无效,请重新输入 1-4 之间的数字!

pause

goto menu

:run

if not exist "%MODEL%" (

    echo 找不到模型文件:

    echo %MODEL%

    pause

    goto menu

)

if not exist "%MMPROJ%" (

    echo 找不到多模态 mmproj 文件:

    echo %MMPROJ%

    echo.

    echo 如果只想文字聊天,可以删除启动命令里的 --mmproj 参数。

    pause

    goto menu

)

echo.

echo 正在启动:

echo 模型: %MODEL%

echo 上下文: %CTX%

echo GPU层数: %NGL%

echo 地址: http://%HOST%:%PORT%

echo.

"%SERVER%" ^

  --model "%MODEL%" ^

  --mmproj "%MMPROJ%" ^

  --gpu-layers %NGL% ^

  --ctx-size %CTX% ^

  --n-predict %NPREDICT% ^

  --host %HOST% ^

  --port %PORT% ^

  --alias qwen3.6-35b-a3b ^

  --jinja ^

  --flash-attn on ^

  --fit on

echo.

echo llama-server 已退出,错误码:%errorlevel%

pause

goto menu






保存时注意编码选择 UTF-8 ,保存类型选所有文件,文件名后缀 .bat

Step 5 :启动模型

双击运行 .bat 文件,输入对应数字选择模型版本。

看到 server listening on 127.0.0.1:8080 表示启动成功。

打开浏览器访问 http://127.0.0.1:8080 即可使用。


四、启动参数详解

参数
含义
推荐值
-m
主模型文件路径
必填
--mmproj
视觉模型路径(多模态必需)
必填,不加则图片上传按钮变灰
-ngl 999
将所有层加载到 GPU
999 (全部上 GPU )
-c 131072
上下文长度( token 数)
131072 ( 128K ),低显存用 8192
-n 8192
最大输出 token 数
8192
--host 127.0.0.1
监听地址
仅本机访问
--port 8080
监听端口
8080
--jinja启用 Jinja 模板引擎⚠️ 必加! Qwen 模型专用

关于 --jinja 参数

这是 Qwen 模型非常关键的参数。不加可能出现回复异常、格式错乱、无限重复输出、中文异常等问题。务必加上


五、 API 调用

llama-server 启动后,同时暴露了一个 OpenAI 兼容 API,可以直接用代码调用。

API 地址: http://127.0.0.1:8080/v1/chat/completions

Python 调用示例

fromopenaiimportOpenAIclient=OpenAI(base_url="http://127.0.0.1:8080/v1",api_key="not-needed")response=client.chat.completions.create(model="qwen3.6-35b-uncensored",messages=[{"role":"user","content":"你好"}])print(response.choices[0].message.content)

任何支持 OpenAI API 格式的工具都可以对接,包括 Cursor 


六、对接 AI Agent

部署完成后,可以将本地模型对接到各种 AI Agent 工具。

对接 Hermes Agent 的步骤


1.选择服务提供者:自定义( Custom )
2.API 地址填写:http://127.0.0.1:8080/v1
3.API 密钥:随便填写或留空
4.API 模式:选择 OpenAI 兼容模式
5.模型名称:qwen3.6-35b-a3b
6.上下文长度:131072(不过不建议开1m,容易卡死,脚本设置的64k)


同样支持对接 OpenClaw 、 Hermes、 codex 等任何支持 OpenAI 格式的工具。


七、为什么选 llama.cpp 而不是 Ollama ?

很多人本地跑模型第一反应是 Ollama ,但它其实是 llama.cpp 比ollama响应更快,延迟更低。

三层架构的代价

 🔹 启动延迟:冷启动比 llama.cpp 慢 3-5 秒
 🔹 
推理损耗:多层转发损失 5-15% 速度
 🔹 
内存浪费:守护进程常驻占 200-500MB
 🔹 
参数黑箱--jinja-ngl 等参数难以透传

什么时候用 Ollama 

完全不想碰命令行,不在意速度损失

什么时候用 llama.cpp 

追求极致速度、需要自定义 GGUF 文件(如越狱版)、需要多模态视觉、需要精细控制参数

💡 结论: Ollama 适合"一键体验", llama.cpp 适合"真正用起来"。


八、常见问题

Q1 :图片上传按钮是灰的

视觉模型文件( mmproj )未下载或路径不对,确认 --mmproj 参数正确。

Q2 :回复无限重复/格式错乱

缺少 --jinja 参数, Qwen 模型必须加此参数。

Q3 :输出速度很慢

量化版本超出显存,换用更小的版本,或降低 -c 上下文长度值。

Q4 : CUDA 报错

确认 llama.cpp 版本与显卡匹配。 10/20 系用 CUDA 11.4 , 30/40/50 系用 CUDA 13.1 。

Q5 :显存爆了

降低 -c 值,或换用更小的量化版本。低显存用户建议 -c 8192

Q6 :纯 CPU 能跑吗

可以,但很慢。建议至少 32GB 内存,使用 IQ2_M 最小版本。


九、总结

这是目前开源社区中,智商最高、限制最少、门槛最低的本地 AI 模型之一。

🔹 智商: 40B 以下开源模型第一梯队
🔹 越狱程度: Aggressive 版本,目前最激进
🔹 门槛: 6G 显存即可运行
🔹 多模态:支持图片识别、 OCR 、截图分析
🔹 生态:可对接各类 AI Agent 工具

无论你是想体验无审查 AI ,还是搭建本地 AI 工作流,都值得试试。


相关文章:

文章已关闭评论!