AI 视频解说工作流
本文档详细介绍 Voxplore AI 第一人称视频解说(MonologueMaker)的工作流程,帮助你理解每个环节的原理,从而更好地掌控输出质量。
完整工作流
视频输入
│
▼
场景分析(Qwen2.5-VL)
│ 逐帧抽帧 → 主角识别 → 场景分段
▼
解说生成(DeepSeek-V3)
│ "我"视角 → 情感风格 → 多版本备选
▼
配音合成(Edge-TTS / F5-TTS)
│ 文字→语音 → 语速/音调调节
▼
字幕对齐(TTS Word-level Timing)
│ ASS 格式 → 逐字同步
▼
视频合成(FFmpeg)
│ 配音+字幕+原片 → H.264/H.265 编码
▼
输出(MP4 / 剪映草稿 JSON)Step 1 — 场景分析
抽帧策略
Voxplore 使用 Qwen2.5-VL(7B) 逐帧分析视频画面。
| 参数 | 默认值 | 说明 |
|---|---|---|
| 抽帧间隔 | 1 秒 | 每隔 N 秒取一帧分析 |
| 最小场景长度 | 3 秒 | 短于此长度的场景合并 |
| 置信度阈值 | 0.7 | 低于此值忽略该帧 |
场景分段算法
基于画面内容变化率(帧间差异)自动切分场景边界,逻辑:
每个场景 = 连续帧间差异 < 阈值的连续片段长视频自动分段处理,每段独立分析后合并结果。
主角识别
AI 识别画面中的主要人物(最大面积 / 中心位置),将其作为"我"的视角来源。识别结果包含:
- 主角外貌特征描述
- 主角动作与意图
- 主角与场景中其他对象的交互关系
Step 2 — 解说生成
情感风格选择
| 风格 | 适用内容 | 解说语气 |
|---|---|---|
| 治愈 | 旅行、自然风光、生活记录 | 温暖、放松、随性 |
| 悬疑 | 惊悚、探秘、推理向内容 | 低沉、留白、制造紧张感 |
| 励志 | 挑战、成长、努力过程 | 坚定、有力、积极 |
| 怀旧 | 回忆、老物件、时光流逝 | 柔和、感慨、余韵悠长 |
| 浪漫 | 情感、约会、美好时刻 | 细腻、温柔、充满画面感 |
长度控制
| 模式 | 每段字数 | 适用场景 |
|---|---|---|
| 简洁版 | 30–60 字 | 短视频(<1 分钟) |
| 标准版 | 60–120 字 | 3–10 分钟视频 |
| 详细版 | 120–200 字 | 纪录片风格 |
Prompt 工程
Voxplore 内部构建的 Prompt 结构(用户不可见):
你是视频中的主角,用"我"的视角描述正在发生的一切。
语气:[情感风格]
主角特征:[主角外貌描述]
场景:[场景描述]
要求:
- 使用第一人称"我"
- 自然流畅,像真实的人在说话
- 不重复画面已有信息,而是补充画面背后的情感和想法
- [字数要求]Step 3 — 配音合成
Edge-TTS(默认)
微软主流 TTS 引擎,无需 API Key,免费使用。
推荐音色:
| 情感风格 | 推荐音色 | 说明 |
|---|---|---|
| 治愈 | zh-CN-Xiaoxiao | 女声,温暖清晰 |
| 悬疑 | zh-CN-Yunxi | 男声,低沉留白 |
| 励志 | zh-CN-Yunyang | 男声,专业有力 |
| 浪漫 | zh-CN-Xiaoyi | 女声,细腻柔和 |
| 怀旧 | zh-CN-Xiaoxiao | 女声,柔和温暖 |
F5-TTS 音色克隆(可选)
只需 15–30 秒参考音频,即可克隆任意音色:
- 准备参考音频(MP3/WAV,15–30 秒,说话清晰)
- 设置 → 配音配置 → F5-TTS → 上传参考音频
- 选择克隆音色作为配音
⚠️ F5-TTS 需要独立安装,详见安装指南。
语速与音调
| 参数 | 范围 | 默认 | 说明 |
|---|---|---|---|
| 语速 | 0.6x – 1.5x | 1.0x | 低于 1.0 放慢,高于 1.0 加快 |
| 音调 | -50% – +50% | 0 | 负值降低音调,正值提高 |
Step 4 — 字幕对齐
TTS Word-level Timing
Edge-TTS 提供逐词时间戳(word-level timing),精确到每个字的起止时间,Voxplore 将其用于 ASS 字幕生成。
字幕样式
| 样式 | 效果 |
|---|---|
| 电影黑底白字(默认) | 底部居中,黑底白字,带淡淡描边 |
| 透明覆盖 | 底部居中,无背景,文字描边 |
| 卡片式 | 全宽底栏,半透明背景 |
| 顶部字幕 | 用于说明画面外事件 |
ASS 高级参数
| 参数 | 可选值 | 默认 |
|---|---|---|
| 字体大小 | 48–96 pt | 60 pt |
| 行数上限 | 1–3 行 | 1 行 |
| 描边宽度 | 0–5 pt | 2 pt |
Step 5 — 视频合成
FFmpeg 管线
配音、字幕、原片通过 FFmpeg 合并:
bash
# 简化逻辑
ffmpeg -i input.mp4 -i narration.wav -vf "ass=subtitle.ass" \\
-c:v libx264 -c:a aac output.mp4编码选择
| 编码 | 兼容性 | 体积 | 推荐场景 |
|---|---|---|---|
| H.264 | 所有设备 | 中 | 通用输出,微信/B站直接上传 |
| H.265 | iOS 15+/Android 10+ | 小约 40% | 存档,高质量输出 |
音频混合
Voxplore 支持将原片音频保留为背景音(可选),配音音量自动降低原音:
| 模式 | 说明 |
|---|---|
| 仅配音(默认) | 完全替换为 AI 旁白 |
| 配音+原音 | 背景音乐/环境音保留,配音覆盖人声 |
| 静音 | 仅保留画面,导出纯视频 |
输出与导出
MP4(直接输出)
成品视频文件,可直接用于各平台发布。
剪映草稿 JSON
导出 .draft.json 原生剪映格式,导入剪映后保留:
- 时间轴和分割点
- 字幕轨道(可继续编辑)
- 配音轨道
单独导出
| 文件 | 格式 | 说明 |
|---|---|---|
| 配音音频 | MP3 / WAV | 可单独用于播客等 |
| 字幕 | ASS / SRT | ASS 含样式,SRT 通用 |
| 解说稿 | TXT | 原始文案 |
质量优化技巧
| 问题 | 解决方案 |
|---|---|
| 解说稿不够自然 | 切换情感风格或调整解说长度 |
| 音画不同步 | 检查视频帧率是否正常,降低抽帧间隔 |
| 字幕时间轴不准 | 使用 Edge-TTS(非 F5-TTS),确认 TTS word-level timing 可用 |
| 视频体积过大 | 切换 H.265 编码或降低分辨率 |
| 配音机械感 | 切换至 F5-TTS 克隆音色,或尝试其他 Edge-TTS 音色 |
