Skip to content

AI 视频解说工作流

本文档详细介绍 Voxplore AI 第一人称视频解说(MonologueMaker)的工作流程,帮助你理解每个环节的原理,从而更好地掌控输出质量。


完整工作流

视频输入


场景分析(Qwen2.5-VL)
   │  逐帧抽帧 → 主角识别 → 场景分段

解说生成(DeepSeek-V3)
   │  "我"视角 → 情感风格 → 多版本备选

配音合成(Edge-TTS / F5-TTS)
   │  文字→语音 → 语速/音调调节

字幕对齐(TTS Word-level Timing)
   │  ASS 格式 → 逐字同步

视频合成(FFmpeg)
   │  配音+字幕+原片 → H.264/H.265 编码

输出(MP4 / 剪映草稿 JSON)

Step 1 — 场景分析

抽帧策略

Voxplore 使用 Qwen2.5-VL(7B) 逐帧分析视频画面。

参数默认值说明
抽帧间隔1 秒每隔 N 秒取一帧分析
最小场景长度3 秒短于此长度的场景合并
置信度阈值0.7低于此值忽略该帧

场景分段算法

基于画面内容变化率(帧间差异)自动切分场景边界,逻辑:

每个场景 = 连续帧间差异 < 阈值的连续片段

长视频自动分段处理,每段独立分析后合并结果。

主角识别

AI 识别画面中的主要人物(最大面积 / 中心位置),将其作为"我"的视角来源。识别结果包含:

  • 主角外貌特征描述
  • 主角动作与意图
  • 主角与场景中其他对象的交互关系

Step 2 — 解说生成

情感风格选择

风格适用内容解说语气
治愈旅行、自然风光、生活记录温暖、放松、随性
悬疑惊悚、探秘、推理向内容低沉、留白、制造紧张感
励志挑战、成长、努力过程坚定、有力、积极
怀旧回忆、老物件、时光流逝柔和、感慨、余韵悠长
浪漫情感、约会、美好时刻细腻、温柔、充满画面感

长度控制

模式每段字数适用场景
简洁版30–60 字短视频(<1 分钟)
标准版60–120 字3–10 分钟视频
详细版120–200 字纪录片风格

Prompt 工程

Voxplore 内部构建的 Prompt 结构(用户不可见):

你是视频中的主角,用"我"的视角描述正在发生的一切。
语气:[情感风格]
主角特征:[主角外貌描述]
场景:[场景描述]
要求:
- 使用第一人称"我"
- 自然流畅,像真实的人在说话
- 不重复画面已有信息,而是补充画面背后的情感和想法
- [字数要求]

Step 3 — 配音合成

Edge-TTS(默认)

微软主流 TTS 引擎,无需 API Key,免费使用。

推荐音色:

情感风格推荐音色说明
治愈zh-CN-Xiaoxiao女声,温暖清晰
悬疑zh-CN-Yunxi男声,低沉留白
励志zh-CN-Yunyang男声,专业有力
浪漫zh-CN-Xiaoyi女声,细腻柔和
怀旧zh-CN-Xiaoxiao女声,柔和温暖

F5-TTS 音色克隆(可选)

只需 15–30 秒参考音频,即可克隆任意音色:

  1. 准备参考音频(MP3/WAV,15–30 秒,说话清晰)
  2. 设置 → 配音配置 → F5-TTS → 上传参考音频
  3. 选择克隆音色作为配音

⚠️ F5-TTS 需要独立安装,详见安装指南

语速与音调

参数范围默认说明
语速0.6x – 1.5x1.0x低于 1.0 放慢,高于 1.0 加快
音调-50% – +50%0负值降低音调,正值提高

Step 4 — 字幕对齐

TTS Word-level Timing

Edge-TTS 提供逐词时间戳(word-level timing),精确到每个字的起止时间,Voxplore 将其用于 ASS 字幕生成。

字幕样式

样式效果
电影黑底白字(默认)底部居中,黑底白字,带淡淡描边
透明覆盖底部居中,无背景,文字描边
卡片式全宽底栏,半透明背景
顶部字幕用于说明画面外事件

ASS 高级参数

参数可选值默认
字体大小48–96 pt60 pt
行数上限1–3 行1 行
描边宽度0–5 pt2 pt

Step 5 — 视频合成

FFmpeg 管线

配音、字幕、原片通过 FFmpeg 合并:

bash
# 简化逻辑
ffmpeg -i input.mp4 -i narration.wav -vf "ass=subtitle.ass" \\
  -c:v libx264 -c:a aac output.mp4

编码选择

编码兼容性体积推荐场景
H.264所有设备通用输出,微信/B站直接上传
H.265iOS 15+/Android 10+小约 40%存档,高质量输出

音频混合

Voxplore 支持将原片音频保留为背景音(可选),配音音量自动降低原音:

模式说明
仅配音(默认)完全替换为 AI 旁白
配音+原音背景音乐/环境音保留,配音覆盖人声
静音仅保留画面,导出纯视频

输出与导出

MP4(直接输出)

成品视频文件,可直接用于各平台发布。

剪映草稿 JSON

导出 .draft.json 原生剪映格式,导入剪映后保留:

  • 时间轴和分割点
  • 字幕轨道(可继续编辑)
  • 配音轨道

单独导出

文件格式说明
配音音频MP3 / WAV可单独用于播客等
字幕ASS / SRTASS 含样式,SRT 通用
解说稿TXT原始文案

质量优化技巧

问题解决方案
解说稿不够自然切换情感风格或调整解说长度
音画不同步检查视频帧率是否正常,降低抽帧间隔
字幕时间轴不准使用 Edge-TTS(非 F5-TTS),确认 TTS word-level timing 可用
视频体积过大切换 H.265 编码或降低分辨率
配音机械感切换至 F5-TTS 克隆音色,或尝试其他 Edge-TTS 音色

相关文档

MIT License · Copyright © 2025-2026 Agions