功能介绍

核心定位

SceneFab — AI 影视/短剧解说创作工具。

上传一部电影或短剧，AI 自动完成语义拆条、生成解说稿、合成配音，一键导出解说视频。

从「几天一条」变成「一天十条」。

核心能力

能力	说明
🎬 AI 语义拆条	Qwen2.5-VL 理解视频语义，按情节/场景自动切分，无需手动打点
🎭 情感峰值选段	视觉 + 音频双维评分，优先选取叙事高潮片段
✍️ AI 解说稿生成	DeepSeek-V4 生成情感丰富解说，7 种风格一键切换
🎙️ 一键配音合成	Edge-TTS / F5-TTS，50ms 精度字幕对齐
📦 多格式导出	H.264/H.265 MP4 直出，或原生剪映草稿 JSON
💻 命令行原生	pip 安装即用，支持 Agent 工作流接入（SKILL.md）

5 步创作流程

上传视频（mp4/mov/avi/webm）
    │
    ▼
Step 1 · AI 语义拆条
    Qwen2.5-VL 视觉理解，场景边界检测
    │
    ▼
Step 2 · 情感峰值选段
    视觉信息密度 × 0.6 + 音频语调 × 0.4
    │
    ▼
Step 3 · 解说稿生成
    DeepSeek-V4 · 7 种情感风格
    │
    ▼
Step 4 · 配音合成
    Edge-TTS / F5-TTS + 词级时间戳
    │
    ▼
Step 5 · 视频合成导出
    FFmpeg H.264/H.265 · MP4 / 剪映草稿

功能详解

AI 语义拆条

输入：原始视频文件（mp4/mov/avi/webm）输出：按语义切分的场景片段列表

组件	技术	职责
帧提取器	OpenCV + FFmpeg	定时抽帧，构造帧序列
视觉理解器	Qwen2.5-VL	逐帧理解画面内容与语义
场景边界检测	帧间差异 + 语义相似度	自动发现场景切换点
语义聚类器	向量化 + 聚类算法	将同类场景归组

抽帧策略（可配置）：

参数	默认值	说明
抽帧间隔	1 秒	每隔 N 秒取一帧分析
最小场景长度	5 秒	短于此长度的场景合并
置信度阈值	0.6	低于此值的帧不计入场景

情感峰值选段

评分公式：

情感得分 = 视觉信息密度 × 0.6 + 音频语调变化 × 0.4

维度	权重	说明
画面信息密度	0.6	复杂度 / 动作密度 / 视觉刺激
音频情绪起伏	0.4	语调变化 / 情感强度

解说生成

输入：选定的片段 + 情感风格输出：结构化解说稿（多版本备选）

7 种预设风格

风格	适用场景	解说语气	示例口吻
治愈	旅行、自然风光、生活记录	温暖、放松、随性	"这一刻，风很轻，心很静…"
悬疑	惊悚、探秘、推理向内容	低沉、留白、制造紧张感	"黑暗中，似乎有什么在靠近…"
励志	挑战、成长、努力过程	坚定、有力、积极	"这一刻，我没有退路，只能向前！"
怀旧	回忆、老物件、时光流逝	柔和、感慨、余韵悠长	"那年夏天，仿佛就在昨天…"
浪漫	情感、约会、美好时刻	细腻、温柔、充满画面感	"她的笑容，像阳光一样洒进心里…"
幽默	有趣、搞笑、反转内容	活泼、俏皮、制造笑点	"我当时的表情，大概比表情包还精彩…"
纪录片	知识、科普、深度解读	专业、冷静、逻辑清晰	"根据考古发现，这一时期的社会结构…"

角色设定参数

参数	说明	示例
主角名称	解说中的"我"的名字	"小林"
职业设定	身份背景，影响词汇选择	医生 / 律师 / 教师
性格特征	说话风格，影响语气节奏	内向 / 外向 / 理性 / 感性
口头禅	自定义关键词，AI 自然融入	"说起来你可能不信"

配音合成

引擎	费用	特点
Edge-TTS（默认）	免费	低延迟，50+ 音色，无需 API Key
F5-TTS	免费（本地）	零样本音色克隆，需 15–30s 参考音频

语速与音调：

参数	范围	默认
语速	0.5x – 2.0x	1.0x
音调	-50% – +50%	0

字幕对齐

基于 TTS word-level timing 的音字同步，字幕精确到每个字的起止时间。

精度	样式
50ms 以内	电影黑底白字 / 透明覆盖 / 卡片式 / 顶部字幕

多格式导出

格式	编码	说明
MP4（H.264）	默认	兼容性最好，跨平台
MP4（H.265）	可选	体积小约 40%，需设备支持
剪映草稿 JSON	原生	导入剪映保留时间轴+字幕+配音轨道

支持的视频格式

格式	扩展名	推荐度
MP4	`.mp4`	✅ 高
MOV	`.mov`	✅ 高
MKV	`.mkv`	🟡 中
AVI	`.avi`	🔴 低
WebM	`.webm`	🔴 低

性能与硬件

视频时长	语义拆条	解说生成	配音合成	总计
1 分钟	~5s	~10s	~8s	~25s
10 分钟	~30s	~20s	~15s	~70s
1 小时	~3min	~60s	~3min	~9min

系统自动检测 CUDA，可用时自动启用 GPU 加速（Qwen2.5-VL）。

组件	最低要求	推荐配置
内存	8 GB	16 GB+
存储	5 GB	10 GB+
GPU	可选	NVIDIA GTX 1060+（4GB+ 显存）

下一步

快速开始 — 5 分钟上手
配置 API Key — 配置 DeepSeek / Qwen VL
AI 工作流详解 — 深入理解 AI 处理流程
导出格式 — 详细导出参数配置

功能介绍 ​

核心定位 ​

核心能力 ​

5 步创作流程 ​

功能详解 ​

AI 语义拆条 ​

情感峰值选段 ​

解说生成 ​

7 种预设风格 ​

角色设定参数 ​

配音合成 ​

字幕对齐 ​

多格式导出 ​

支持的视频格式 ​

性能与硬件 ​

下一步 ​