Skip to content

AI 模型配置

SceneFab 的 AI 模型分三层:视频理解解说生成配音合成


视频理解模型

负责逐帧分析视频画面,识别主角、地点、动作、氛围。

模型说明推荐度
Qwen2.5-VL (72B)阿里开源,视频理解 SOTA,支持 Native 视频输入⭐⭐⭐⭐⭐
Qwen3-VL (8B/32B)Qwen 2025 开源,推理速度比 2.5 更慢⭐⭐⭐
GPT-4oOpenAI 旗舰多模态,能力强但费用高⭐⭐⭐
Gemini 2.5 FlashGoogle 高性价比主力⭐⭐⭐⭐

默认使用 Qwen2.5-VL (72B),平衡精度与速度。


解说生成模型

负责将画面分析结果转化为第一人称解说稿。

模型说明推荐度
DeepSeek-V4性价比最高,中文理解强,API 成本极低⭐⭐⭐⭐⭐
GPT-4oOpenAI 旗舰,最强通用能力⭐⭐⭐⭐
Claude Sonnet 4Anthropic 旗舰,超长上下文⭐⭐⭐⭐
Qwen2.5-Max阿里中文优化,API 稳定⭐⭐⭐

默认使用 DeepSeek-V4,成本约为 GPT-4o 的 1/50


语音识别模型(ASR)

负责将原片音频转文字,辅助场景理解。

模型说明部署方式
SenseVoice阿里 FunAudioLLM,中文 ASR + 说话人分离本地
WhisperOpenAI 开源,多语言识别本地
云端 ASRAPI 调用第三方服务云端

默认使用 SenseVoice,完全本地运行,视频不上传。


配音合成模型(TTS)

模型质量费用特点
Edge-TTS⭐⭐⭐⭐⭐免费低延迟,多音色,SceneFab 默认
F5-TTS⭐⭐⭐⭐免费零样本音色克隆,需 15–30s 参考音频
OpenAI TTS⭐⭐⭐⭐⭐付费超自然,但需付费

模型选择建议

预算视频理解解说生成配音
免费Qwen2.5-VL 本地DeepSeek-V4Edge-TTS
低 <¥50/月Qwen2.5-VL APIDeepSeek-V4Edge-TTS
中 ¥50–300/月Qwen2.5-VL APIGPT-4oEdge-TTS
高 >¥300/月GPT-4oClaude Sonnet 4OpenAI TTS

安全提示

⚠️ 重要

  • 不要将 API Key 提交到代码仓库
  • 使用 .env 文件(已加入 .gitignore)或系统 Keychain 存储
  • 定期检查用量异常

基于 MIT License 开源 · Copyright © 2025-2026 Agions