Skip to content

模型更新日志

本文档追踪 Voxplore 各 AI 模型层的版本变更,帮助你了解每个版本的能力变化和配置差异。


2026-04 模型版本总览

模型层当前版本状态
LLM(解说生成)DeepSeek-V3.2✅ 推荐
视频理解Qwen2.5-VL (7B)✅ 推荐
ASR(语音识别)SenseVoice✅ 推荐
TTS(配音合成)Edge-TTS 7.2.8✅ 推荐
音色克隆F5-TTS🔶 可选

v3.6.0 — 2026-04-11

架构升级

变更类型内容
类型安全models.py Any: 89→0,Pydantic v2 替换 dataclass,7个新子类型
Provider 抽象新建 provider_models.py(Pydantic 模型),统一 LLM Provider 接口
Bug 修复Hunyuan / Doubao usage 字段缺失问题修复

Voxplore v3.6.0 推荐默认配置不变:DeepSeek-V3.2 + Qwen2.5-VL + Edge-TTS。


v3.5.0 — 2026-04-10

UI 全面重构

变更类型内容
OKLCH 色彩系统UI 全面迁移至 OKLCH 色彩空间,设计一致性提升
OutCubic 缓动动画动画曲线规范化,交互体验更专业
创作向导重构3 步向导页面全新设计,StageCard 组件动画修复
WizardPage 信号管理修复信号重复绑定、StepPipeline 断开旧连接问题

设计规范与 Voxplore Design System v2 对齐。


v3.4.0 — 2026-04-09

品牌与产品定位重构

变更类型内容
品牌重命名Voxplore → Voxplore,视觉识别系统全面更新
产品定位聚焦裁剪全部冗余功能(MashupMaker / BeatSyncMaker / CommentaryMaker / BatchProcessor),只保留 MonologueMaker 核心——AI 第一人称视频解说
OKLCH 设计系统首次引入 OKLCH 色彩系统,替代原有 HSL 配色

v3.3.0 — 2026-04-08

性能优化

变更类型内容
Scene Detection视频场景检测算法优化,处理速度提升

TTS 引擎版本详情

Edge-TTS

版本日期变更
7.2.82026-03当前版本,多音色优化,中文自然度提升
7.0.02026-01正式支持情感控制参数

推荐音色配置:

场景音色风格
治愈风格zh-CN-Xiaoxiao女声,温暖清晰
悬疑风格zh-CN-Yunxi男声,低沉留白
励志风格zh-CN-Yunyang男声,专业有力
浪漫风格zh-CN-Xiaoyi女声,细腻柔和

F5-TTS(可选·音色克隆)

版本日期变更
latest2026-03零样本音色克隆,15-30秒参考音频即可克隆任意音色

⚠️ F5-TTS 需要独立安装,详见安装指南


ASR 模型对比

模型部署中文精度说话人分离推荐场景
SenseVoice本地⭐⭐⭐⭐⭐Voxplore 默认,精度的中文 ASR
Whisper本地⭐⭐⭐⭐多语言内容
云端 ASRAPI⭐⭐⭐⭐⭐需要最高精度且不介意上传

模型选择快速参考

预算LLM(解说生成)视频理解TTSASR
免费DeepSeek-V3.2Qwen2.5-VL(本地)Edge-TTSSenseVoice
<$5/月DeepSeek-V3.2Qwen2.5-VL(API)Edge-TTSSenseVoice
$5-50/月GPT-5.4GPT-5.4 VisionEdge-TTSSenseVoice
>$50/月Claude Opus 4.6GPT-5.4 VisionOpenAI TTSSenseVoice

相关文档

MIT License · Copyright © 2025-2026 Agions