AI 视频解说工作流

本文档详细介绍 Voxplore AI 第一人称视频解说（MonologueMaker）的工作流程，帮助你理解每个环节的原理，从而更好地掌控输出质量。

完整工作流

视频输入
   │
   ▼
场景分析（Qwen2.5-VL）
   │  逐帧抽帧 → 主角识别 → 场景分段
   ▼
解说生成（DeepSeek-V3）
   │  "我"视角 → 情感风格 → 多版本备选
   ▼
配音合成（Edge-TTS / F5-TTS）
   │  文字→语音 → 语速/音调调节
   ▼
字幕对齐（TTS Word-level Timing）
   │  ASS 格式 → 逐字同步
   ▼
视频合成（FFmpeg）
   │  配音+字幕+原片 → H.264/H.265 编码
   ▼
输出（MP4 / 剪映草稿 JSON）

Step 1 — 场景分析

抽帧策略

Voxplore 使用 Qwen2.5-VL（7B） 逐帧分析视频画面。

参数	默认值	说明
抽帧间隔	1 秒	每隔 N 秒取一帧分析
最小场景长度	3 秒	短于此长度的场景合并
置信度阈值	0.7	低于此值忽略该帧

场景分段算法

基于画面内容变化率（帧间差异）自动切分场景边界，逻辑：

每个场景 = 连续帧间差异 < 阈值的连续片段

长视频自动分段处理，每段独立分析后合并结果。

主角识别

AI 识别画面中的主要人物（最大面积 / 中心位置），将其作为"我"的视角来源。识别结果包含：

主角外貌特征描述
主角动作与意图
主角与场景中其他对象的交互关系

Step 2 — 解说生成

情感风格选择

风格	适用内容	解说语气
治愈	旅行、自然风光、生活记录	温暖、放松、随性
悬疑	惊悚、探秘、推理向内容	低沉、留白、制造紧张感
励志	挑战、成长、努力过程	坚定、有力、积极
怀旧	回忆、老物件、时光流逝	柔和、感慨、余韵悠长
浪漫	情感、约会、美好时刻	细腻、温柔、充满画面感

长度控制

模式	每段字数	适用场景
简洁版	30–60 字	短视频（<1 分钟）
标准版	60–120 字	3–10 分钟视频
详细版	120–200 字	纪录片风格

Prompt 工程

Voxplore 内部构建的 Prompt 结构（用户不可见）：

你是视频中的主角，用"我"的视角描述正在发生的一切。
语气：[情感风格]
主角特征：[主角外貌描述]
场景：[场景描述]
要求：
- 使用第一人称"我"
- 自然流畅，像真实的人在说话
- 不重复画面已有信息，而是补充画面背后的情感和想法
- [字数要求]

Step 3 — 配音合成

Edge-TTS（默认）

微软主流 TTS 引擎，无需 API Key，免费使用。

推荐音色：

情感风格	推荐音色	说明
治愈	`zh-CN-Xiaoxiao`	女声，温暖清晰
悬疑	`zh-CN-Yunxi`	男声，低沉留白
励志	`zh-CN-Yunyang`	男声，专业有力
浪漫	`zh-CN-Xiaoyi`	女声，细腻柔和
怀旧	`zh-CN-Xiaoxiao`	女声，柔和温暖

F5-TTS 音色克隆（可选）

只需 15–30 秒参考音频，即可克隆任意音色：

准备参考音频（MP3/WAV，15–30 秒，说话清晰）
设置 → 配音配置 → F5-TTS → 上传参考音频
选择克隆音色作为配音

⚠️ F5-TTS 需要独立安装，详见安装指南。

语速与音调

参数	范围	默认	说明
语速	0.6x – 1.5x	1.0x	低于 1.0 放慢，高于 1.0 加快
音调	-50% – +50%	0	负值降低音调，正值提高

Step 4 — 字幕对齐

TTS Word-level Timing

Edge-TTS 提供逐词时间戳（word-level timing），精确到每个字的起止时间，Voxplore 将其用于 ASS 字幕生成。

字幕样式

样式	效果
电影黑底白字（默认）	底部居中，黑底白字，带淡淡描边
透明覆盖	底部居中，无背景，文字描边
卡片式	全宽底栏，半透明背景
顶部字幕	用于说明画面外事件

ASS 高级参数

参数	可选值	默认
字体大小	48–96 pt	60 pt
行数上限	1–3 行	1 行
描边宽度	0–5 pt	2 pt

Step 5 — 视频合成

FFmpeg 管线

配音、字幕、原片通过 FFmpeg 合并：

bash

# 简化逻辑
ffmpeg -i input.mp4 -i narration.wav -vf "ass=subtitle.ass" \\
  -c:v libx264 -c:a aac output.mp4

编码选择

编码	兼容性	体积	推荐场景
H.264	所有设备	中	通用输出，微信/B站直接上传
H.265	iOS 15+/Android 10+	小约 40%	存档，高质量输出

音频混合

Voxplore 支持将原片音频保留为背景音（可选），配音音量自动降低原音：

模式	说明
仅配音（默认）	完全替换为 AI 旁白
配音+原音	背景音乐/环境音保留，配音覆盖人声
静音	仅保留画面，导出纯视频

输出与导出

MP4（直接输出）

成品视频文件，可直接用于各平台发布。

剪映草稿 JSON

导出 .draft.json 原生剪映格式，导入剪映后保留：

时间轴和分割点
字幕轨道（可继续编辑）
配音轨道

单独导出

文件	格式	说明
配音音频	MP3 / WAV	可单独用于播客等
字幕	ASS / SRT	ASS 含样式，SRT 通用
解说稿	TXT	原始文案

质量优化技巧

问题	解决方案
解说稿不够自然	切换情感风格或调整解说长度
音画不同步	检查视频帧率是否正常，降低抽帧间隔
字幕时间轴不准	使用 Edge-TTS（非 F5-TTS），确认 TTS word-level timing 可用
视频体积过大	切换 H.265 编码或降低分辨率
配音机械感	切换至 F5-TTS 克隆音色，或尝试其他 Edge-TTS 音色

AI 视频解说工作流 ​

完整工作流 ​

Step 1 — 场景分析 ​

抽帧策略 ​

场景分段算法 ​

主角识别 ​

Step 2 — 解说生成 ​

情感风格选择 ​

长度控制 ​

Prompt 工程 ​

Step 3 — 配音合成 ​

Edge-TTS（默认） ​

F5-TTS 音色克隆（可选） ​

语速与音调 ​

Step 4 — 字幕对齐 ​

TTS Word-level Timing ​

字幕样式 ​

ASS 高级参数 ​

Step 5 — 视频合成 ​

FFmpeg 管线 ​

编码选择 ​

音频混合 ​

输出与导出 ​

MP4（直接输出） ​

剪映草稿 JSON ​

单独导出 ​

质量优化技巧 ​

相关文档 ​