Skip to content

AI 模型配置

Voxplore 的 AI 模型分三层:视频理解解说生成配音合成


视频理解模型

负责逐帧分析视频画面,识别主角、地点、动作、氛围。

模型说明推荐度
Qwen2.5-VL (72B)阿里开源,视频理解 SOTA,支持 Native 视频输入⭐⭐⭐⭐⭐
Qwen3-VL (8B/32B)Qwen 2025 开源,推理比 2.5 更慢,准确度差异不大⭐⭐⭐
GPT-4oOpenAI 旗舰多模态,能力强但费用高⭐⭐⭐
Gemini 2.5 FlashGoogle 高性价比主力⭐⭐⭐⭐

默认使用 Qwen2.5-VL (72B),平衡精度与速度。


解说生成模型

负责将画面分析结果转化为第一人称解说稿。

模型说明推荐度
DeepSeek-V3性价比最高,中文理解强,API 成本极低⭐⭐⭐⭐⭐
GPT-4oOpenAI 旗舰,最强通用能力⭐⭐⭐⭐
Claude Sonnet 4Anthropic 旗舰,超长上下文⭐⭐⭐⭐
Qwen2.5-Max阿里中文优化,API 稳定⭐⭐⭐

默认使用 DeepSeek-V3,成本约为 GPT-4o 的 1/50


语音识别模型(ASR)

负责将原片音频转文字,辅助场景理解。

模型说明部署方式
SenseVoice阿里 FunAudioLLM,中文 ASR + 说话人分离本地
WhisperOpenAI 开源,多语言识别本地
云端 ASRAPI 调用第三方服务云端

默认使用 SenseVoice,完全本地运行,视频不上传。


配音合成模型(TTS)

负责将解说稿转化为自然语音。

模型质量费用特点
Edge-TTS⭐⭐⭐⭐⭐免费低延迟,多音色,Voxplore 默认
F5-TTS⭐⭐⭐⭐免费零样本音色克隆,需 15–30s 参考音频
OpenAI TTS⭐⭐⭐⭐⭐付费超自然,但需付费

快速配置

DeepSeek(默认,推荐)

bash
# 获取 Key:https://platform.deepseek.com
export DEEPSEEK_API_KEY=sk-xxxxxxxxxxxxxxxx

OpenAI GPT-4o

bash
export OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx

Claude Sonnet 4

bash
export ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxxxxx

阿里云百炼(Qwen2.5-VL)

bash
# https://bailian.console.aliyun.com
export DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxx

模型选择建议

预算视频理解解说生成配音
免费Qwen2.5-VL 本地DeepSeek-V3Edge-TTS
低 <¥50/月Qwen2.5-VL APIDeepSeek-V3Edge-TTS
中 ¥50–300/月Qwen2.5-VL APIGPT-4oEdge-TTS
高 >¥300/月GPT-4oClaude Sonnet 4OpenAI TTS

API Key 安全

安全提示

  • 不要 将 API Key 提交到代码仓库
  • 使用 .env 文件(已加入 .gitignore)或系统 Keychain 存储
  • 定期检查用量异常

MIT License · Copyright © 2025-2026 Agions