功能介绍
核心定位
SceneFab — AI 影视/短剧解说创作工具。
上传一部电影或短剧,AI 自动完成语义拆条、生成解说稿、合成配音,一键导出解说视频。
从「几天一条」变成「一天十条」。
核心能力
| 能力 | 说明 |
|---|---|
| 🎬 AI 语义拆条 | Qwen2.5-VL 理解视频语义,按情节/场景自动切分,无需手动打点 |
| 🎭 情感峰值选段 | 视觉 + 音频双维评分,优先选取叙事高潮片段 |
| ✍️ AI 解说稿生成 | DeepSeek-V4 生成情感丰富解说,7 种风格一键切换 |
| 🎙️ 一键配音合成 | Edge-TTS / F5-TTS,50ms 精度字幕对齐 |
| 📦 多格式导出 | H.264/H.265 MP4 直出,或原生剪映草稿 JSON |
| 💻 命令行原生 | pip 安装即用,支持 Agent 工作流接入(SKILL.md) |
5 步创作流程
上传视频(mp4/mov/avi/webm)
│
▼
Step 1 · AI 语义拆条
Qwen2.5-VL 视觉理解,场景边界检测
│
▼
Step 2 · 情感峰值选段
视觉信息密度 × 0.6 + 音频语调 × 0.4
│
▼
Step 3 · 解说稿生成
DeepSeek-V4 · 7 种情感风格
│
▼
Step 4 · 配音合成
Edge-TTS / F5-TTS + 词级时间戳
│
▼
Step 5 · 视频合成导出
FFmpeg H.264/H.265 · MP4 / 剪映草稿功能详解
AI 语义拆条
输入:原始视频文件(mp4/mov/avi/webm) 输出:按语义切分的场景片段列表
| 组件 | 技术 | 职责 |
|---|---|---|
| 帧提取器 | OpenCV + FFmpeg | 定时抽帧,构造帧序列 |
| 视觉理解器 | Qwen2.5-VL | 逐帧理解画面内容与语义 |
| 场景边界检测 | 帧间差异 + 语义相似度 | 自动发现场景切换点 |
| 语义聚类器 | 向量化 + 聚类算法 | 将同类场景归组 |
抽帧策略(可配置):
| 参数 | 默认值 | 说明 |
|---|---|---|
| 抽帧间隔 | 1 秒 | 每隔 N 秒取一帧分析 |
| 最小场景长度 | 5 秒 | 短于此长度的场景合并 |
| 置信度阈值 | 0.6 | 低于此值的帧不计入场景 |
情感峰值选段
评分公式:
情感得分 = 视觉信息密度 × 0.6 + 音频语调变化 × 0.4| 维度 | 权重 | 说明 |
|---|---|---|
| 画面信息密度 | 0.6 | 复杂度 / 动作密度 / 视觉刺激 |
| 音频情绪起伏 | 0.4 | 语调变化 / 情感强度 |
解说生成
输入:选定的片段 + 情感风格 输出:结构化解说稿(多版本备选)
7 种预设风格
| 风格 | 适用场景 | 解说语气 | 示例口吻 |
|---|---|---|---|
| 治愈 | 旅行、自然风光、生活记录 | 温暖、放松、随性 | "这一刻,风很轻,心很静…" |
| 悬疑 | 惊悚、探秘、推理向内容 | 低沉、留白、制造紧张感 | "黑暗中,似乎有什么在靠近…" |
| 励志 | 挑战、成长、努力过程 | 坚定、有力、积极 | "这一刻,我没有退路,只能向前!" |
| 怀旧 | 回忆、老物件、时光流逝 | 柔和、感慨、余韵悠长 | "那年夏天,仿佛就在昨天…" |
| 浪漫 | 情感、约会、美好时刻 | 细腻、温柔、充满画面感 | "她的笑容,像阳光一样洒进心里…" |
| 幽默 | 有趣、搞笑、反转内容 | 活泼、俏皮、制造笑点 | "我当时的表情,大概比表情包还精彩…" |
| 纪录片 | 知识、科普、深度解读 | 专业、冷静、逻辑清晰 | "根据考古发现,这一时期的社会结构…" |
角色设定参数
| 参数 | 说明 | 示例 |
|---|---|---|
| 主角名称 | 解说中的"我"的名字 | "小林" |
| 职业设定 | 身份背景,影响词汇选择 | 医生 / 律师 / 教师 |
| 性格特征 | 说话风格,影响语气节奏 | 内向 / 外向 / 理性 / 感性 |
| 口头禅 | 自定义关键词,AI 自然融入 | "说起来你可能不信" |
配音合成
| 引擎 | 费用 | 特点 |
|---|---|---|
| Edge-TTS(默认) | 免费 | 低延迟,50+ 音色,无需 API Key |
| F5-TTS | 免费(本地) | 零样本音色克隆,需 15–30s 参考音频 |
语速与音调:
| 参数 | 范围 | 默认 |
|---|---|---|
| 语速 | 0.5x – 2.0x | 1.0x |
| 音调 | -50% – +50% | 0 |
字幕对齐
基于 TTS word-level timing 的音字同步,字幕精确到每个字的起止时间。
| 精度 | 样式 |
|---|---|
| 50ms 以内 | 电影黑底白字 / 透明覆盖 / 卡片式 / 顶部字幕 |
多格式导出
| 格式 | 编码 | 说明 |
|---|---|---|
| MP4(H.264) | 默认 | 兼容性最好,跨平台 |
| MP4(H.265) | 可选 | 体积小约 40%,需设备支持 |
| 剪映草稿 JSON | 原生 | 导入剪映保留时间轴+字幕+配音轨道 |
支持的视频格式
| 格式 | 扩展名 | 推荐度 |
|---|---|---|
| MP4 | .mp4 | ✅ 高 |
| MOV | .mov | ✅ 高 |
| MKV | .mkv | 🟡 中 |
| AVI | .avi | 🔴 低 |
| WebM | .webm | 🔴 低 |
性能与硬件
| 视频时长 | 语义拆条 | 解说生成 | 配音合成 | 总计 |
|---|---|---|---|---|
| 1 分钟 | ~5s | ~10s | ~8s | ~25s |
| 10 分钟 | ~30s | ~20s | ~15s | ~70s |
| 1 小时 | ~3min | ~60s | ~3min | ~9min |
系统自动检测 CUDA,可用时自动启用 GPU 加速(Qwen2.5-VL)。
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 内存 | 8 GB | 16 GB+ |
| 存储 | 5 GB | 10 GB+ |
| GPU | 可选 | NVIDIA GTX 1060+(4GB+ 显存) |
下一步
- 快速开始 — 5 分钟上手
- 配置 API Key — 配置 DeepSeek / Qwen VL
- AI 工作流详解 — 深入理解 AI 处理流程
- 导出格式 — 详细导出参数配置
