模型更新日志
本文档追踪 Voxplore 各 AI 模型层的版本变更,帮助你了解每个版本的能力变化和配置差异。
2026-04 模型版本总览
| 模型层 | 当前版本 | 状态 |
|---|---|---|
| LLM(解说生成) | DeepSeek-V3.2 | ✅ 推荐 |
| 视频理解 | Qwen2.5-VL (7B) | ✅ 推荐 |
| ASR(语音识别) | SenseVoice | ✅ 推荐 |
| TTS(配音合成) | Edge-TTS 7.2.8 | ✅ 推荐 |
| 音色克隆 | F5-TTS | 🔶 可选 |
v3.6.0 — 2026-04-11
架构升级
| 变更类型 | 内容 |
|---|---|
| 类型安全 | models.py Any: 89→0,Pydantic v2 替换 dataclass,7个新子类型 |
| Provider 抽象 | 新建 provider_models.py(Pydantic 模型),统一 LLM Provider 接口 |
| Bug 修复 | Hunyuan / Doubao usage 字段缺失问题修复 |
Voxplore v3.6.0 推荐默认配置不变:DeepSeek-V3.2 + Qwen2.5-VL + Edge-TTS。
v3.5.0 — 2026-04-10
UI 全面重构
| 变更类型 | 内容 |
|---|---|
| OKLCH 色彩系统 | UI 全面迁移至 OKLCH 色彩空间,设计一致性提升 |
| OutCubic 缓动动画 | 动画曲线规范化,交互体验更专业 |
| 创作向导重构 | 3 步向导页面全新设计,StageCard 组件动画修复 |
| WizardPage 信号管理 | 修复信号重复绑定、StepPipeline 断开旧连接问题 |
设计规范与 Voxplore Design System v2 对齐。
v3.4.0 — 2026-04-09
品牌与产品定位重构
| 变更类型 | 内容 |
|---|---|
| 品牌重命名 | Voxplore → Voxplore,视觉识别系统全面更新 |
| 产品定位聚焦 | 裁剪全部冗余功能(MashupMaker / BeatSyncMaker / CommentaryMaker / BatchProcessor),只保留 MonologueMaker 核心——AI 第一人称视频解说 |
| OKLCH 设计系统 | 首次引入 OKLCH 色彩系统,替代原有 HSL 配色 |
v3.3.0 — 2026-04-08
性能优化
| 变更类型 | 内容 |
|---|---|
| Scene Detection | 视频场景检测算法优化,处理速度提升 |
TTS 引擎版本详情
Edge-TTS
| 版本 | 日期 | 变更 |
|---|---|---|
| 7.2.8 | 2026-03 | 当前版本,多音色优化,中文自然度提升 |
| 7.0.0 | 2026-01 | 正式支持情感控制参数 |
推荐音色配置:
| 场景 | 音色 | 风格 |
|---|---|---|
| 治愈风格 | zh-CN-Xiaoxiao | 女声,温暖清晰 |
| 悬疑风格 | zh-CN-Yunxi | 男声,低沉留白 |
| 励志风格 | zh-CN-Yunyang | 男声,专业有力 |
| 浪漫风格 | zh-CN-Xiaoyi | 女声,细腻柔和 |
F5-TTS(可选·音色克隆)
| 版本 | 日期 | 变更 |
|---|---|---|
| latest | 2026-03 | 零样本音色克隆,15-30秒参考音频即可克隆任意音色 |
⚠️ F5-TTS 需要独立安装,详见安装指南。
ASR 模型对比
| 模型 | 部署 | 中文精度 | 说话人分离 | 推荐场景 |
|---|---|---|---|---|
| SenseVoice | 本地 | ⭐⭐⭐⭐⭐ | ✅ | Voxplore 默认,精度的中文 ASR |
| Whisper | 本地 | ⭐⭐⭐⭐ | ❌ | 多语言内容 |
| 云端 ASR | API | ⭐⭐⭐⭐⭐ | ✅ | 需要最高精度且不介意上传 |
模型选择快速参考
| 预算 | LLM(解说生成) | 视频理解 | TTS | ASR |
|---|---|---|---|---|
| 免费 | DeepSeek-V3.2 | Qwen2.5-VL(本地) | Edge-TTS | SenseVoice |
| <$5/月 | DeepSeek-V3.2 | Qwen2.5-VL(API) | Edge-TTS | SenseVoice |
| $5-50/月 | GPT-5.4 | GPT-5.4 Vision | Edge-TTS | SenseVoice |
| >$50/月 | Claude Opus 4.6 | GPT-5.4 Vision | OpenAI TTS | SenseVoice |
