Skip to content

解说工作流

8 步 Pipeline

Director  ──►  Visual  ──►  Narration  ──►  Timing


                                          Overlay


                                        Render  ──►  输出

1. Director

策划节奏、段落优先级、风格定位。可手动调整。

2. Visual

镜头语义分段 + 关键帧提取。

3. Narration

LLM 生成逐句解说词。

4. Timing

字幕与配音时间轴对齐。

5. Overlay

烧字幕 + 视觉叠加层。

6. Render

FFmpeg 渲染管线。

7. Output

多比例导出。

状态机

累积式 state chain:每步的输入 = 上一步的输出 + 当前步配置。类型安全保证。

ts
type CommentaryPipelineState = {
  video: VideoMeta;
  director: DirectorPlan;
  visual: VisualAnalysisOutput;
  narration: DraftScript;
  timing: AlignedSegments;
  overlay: OverlayPlan;
};

脚本生成

详见 script-generation.md

TTS 合成

  • Edge TTS:在线,离线模式可用微软预下载包
  • Azure TTS:需 API 密钥

渲染管线

FFmpeg 调用链:

字幕 SRT/VTT → 烧字幕 → 多轨道合成 → 多比例输出

失败回退

每步独立可重试:

失败行为
Director跳过,使用默认规划
Visual改用 Whisper 字幕作为分段依据
Narration自动切换到下一优先级 Provider
Timing重试 3 次后用线性对齐
Overlay跳过视觉层,仅烧字幕

性能与成本

阶段耗时(5 分钟视频)成本
Director10-20 秒$0.01-0.05
Visual30-60 秒$0.05-0.20
Narration15-30 秒$0.10-0.30
Timing5-10 秒$0.00
Overlay10-20 秒$0.02-0.05
Render30-60 秒$0.00
合计2-3 分钟$0.20-0.60

输入限制

限制
视频长度30 秒 - 30 分钟
文件大小≤ 2GB
输出比例9:16 / 1:1 / 16:9 / 4:5 / 21:9

基于 MIT 协议开源