Skip to content

解说模式

解说模式是 StoryFab 的核心功能,将视频自动转化为完整的配音解说视频(带文案、配音、字幕)。


1. 什么是解说模式?

解说模式通过 AI 将视频创作转化为一个完整的解说视频:

上传视频 → AI 分析 → 语义分段 → AI 导演 → 解说词生成 → TTS 配音 → 渲染成片

对比剪辑模式:

维度剪辑模式解说模式
输出多个精彩片段一个完整解说视频
解说词可选自动生成
配音自动 TTS 合成
用户介入多(审核计划)
典型场景直播回放 → 精彩片段短剧 → 完整解说

2. 开始使用解说模式

2.1 创建新项目

  1. 打开 StoryFab,点击 新建项目
  2. 选择 解说模式
  3. 选择视频文件(支持 MP4 / MOV / AVI / MKV)
  4. 设置项目名称和目标时长

2.2 配置参数

参数说明默认值
目标时长解说视频总时长2–3 分钟
输出比例9:16 / 16:9 / 1:19:16
解说风格幽默 / 接地气 / 震惊 / 感动 / 专业幽默版

2.3 工作流程步骤

解说模式共 8 个步骤,UI 会显示当前进度:

Step 1 ──► Step 2 ──► Step 3 ──► Step 4 ──► Step 5 ──► Step 6 ──► Step 7 ──► Step 8
视频导入    AI分析    语义分段   Director   Script   Commentary  渲染合成    导出成片
                           Agent     Gen      Synth

Step 1–3:自动完成(视频导入 + AI 分析 + 语义分段)

Step 4:AI 导演生成解说计划后,需要你审核

Step 5–8:确认后自动执行


3. 解说计划审核(关键步骤)

3.1 查看解说计划

AI 导演生成计划后,你可以在审核面板中看到:

  • 开场 — 开场片段选择 + 解说词
  • 主体段落 — 每个 act 的片段 + 解说词
  • 结尾 — 结尾片段选择 + 解说词
  • 预计时长 — 总时长和每个部分的时长

3.2 可修改的内容

内容修改范围
解说风格切换为幽默 / 接地气 / 震惊 / 感动 / 专业
解说语气调整语气的强弱
片段选择增删改选用的视频片段
解说词直接编辑文字
语速调整朗读速度

3.3 修改选项

按钮效果
重新生成让 AI 重新生成解说词
修改风格切换解说风格,重新生成
确认执行开始配音合成 + 渲染
取消放弃本次解说任务

4. 解说风格选择

风格适用场景语言特点
幽默版喜剧 / 搞笑视频诙谐有趣,添加网络梗,常见"笑死""绝"等
接地气版情感 / 生活类口语化,像和朋友聊天,常见"真的""其实就是"
震惊版悬疑 / 复仇类短剧夸张震惊,制造悬念,常见"天哪!""不敢相信"
感动版爱情 / 亲情类视频温情脉脉,情感共鸣,常见"让人心疼""原来这就是"
专业版纪录片 / 科教类客观冷静,纪录片风格,常见"值得注意的是""关键在于"

5. 配音预览与调整

5.1 预览配音

在执行渲染前,可以逐段预览配音效果

  1. 选择要预览的段落(开场 / 某个 act / 结尾)
  2. 点击 🔊 预览 按钮
  3. 系统播放该段落的 TTS 配音音频

5.2 调整配音参数

参数调整范围说明
语速0.5x – 2.0x影响朗读速度
音量0% – 100%配音音量
原声0% – 50%背景原声音量

5.3 重新生成配音

如果某段配音不满意:

  1. 点击该段落的 🔄 重新生成
  2. AI 会重新调用 TTS 生成
  3. 或者手动调整解说词后重新生成

6. 渲染与导出

6.1 渲染过程

确认解说计划后,点击 确认执行,系统开始:

  1. 配音合成 — 将解说词转为 TTS 音频
  2. 时间轴对齐 — 配音与视频片段同步
  3. 视频渲染 — 切割 + 合并 + 混音 + 字幕烧录

预计时间:

视频时长渲染时间
1 分钟约 10 秒
10 分钟约 60 秒
1 小时约 5–10 分钟

6.2 导出设置

参数选项
输出格式MP4(H.264 + AAC)
分辨率1080×1920(9:16)/ 1080×1080(1:1)/ 1920×1080(16:9)
码率自动(根据平台优化)
字幕烧录 / SRT 文件 / 无字幕

7. 常见问题

Q: 解说风格怎么选?

根据视频内容类型选择。喜剧选幽默,悬疑选震惊,爱情 / 亲情选感动。

Q: 可以同时生成多个版本吗?

可以。生成一个版本后,点击 另存为,选择不同风格重新生成。

Q: TTS 配音失败怎么办?

系统会自动重试 2 次。如果仍然失败,会跳过配音,生成带字幕的视频。

Q: 可以自定义解说风格吗?

可以。在 设置 → 解说风格 中可以创建自定义风格,定义语气、语速、开场句式等。

Q: 解说词不满意怎么办?

在审核阶段直接编辑解说文字,或者点击 重新生成 让 AI 生成新版本。

Q: 如何只生成解说词,不配音?

在设置中选择 仅生成文案,跳过 TTS 配音步骤。


8. 降级与容错

如果中途出错,系统会按以下顺序降级:

全功能解说模式

     ├─► LLM 失败 → 用规则生成解说词(模板)

     ├─► TTS 失败 → 跳过配音,生成视频+字幕

     └─► 渲染失败 → 降级为 autonomous_cut(无解说)

9. 性能与限制

类型限制
视频格式MP4, MOV, AVI, MKV
视频时长30 秒 – 3 小时
视频大小最大 10GB
解说时长30 秒 – 30 分钟
目标语言中文(其他语言后续扩展)

预估 LLM 费用

视频时长Token 消耗成本(DeepSeek V4-Pro)
10 分钟~36,000~0.06 元
1 小时~120,000~0.20 元

基于 MIT 协议开源