功能介绍
Narrafiilm 的核心只有一个:将含明确主角的视频,转化为第一人称配音解说。以下所有功能都围绕这一核心展开。
核心工作流
视频 → Qwen2.5-VL 场景理解 → DeepSeek-V3 解说生成 → Edge-TTS 配音 → ASS 字幕 → MP4 / 剪映草稿场景理解
Qwen2.5-VL(72B) 逐帧抽帧分析,识别:
- 主角的外貌、动作、行为意图
- 场景地点和环境氛围
- 画面中的关键物体及空间关系
- 事件发展的叙事逻辑
抽帧密度可配置(默认每秒 1 帧),支持长视频分段处理。
第一人称解说生成
DeepSeek-V3 基于场景理解结果,用"我"的视角撰写解说稿。
解说风格(情感模式)
| 风格 | 适用场景 | 解说语气 |
|---|---|---|
| 治愈 | 旅行、自然风光、生活记录 | 温暖、放松、随性 |
| 悬疑 | 惊悚、探秘、推理向内容 | 低沉、留白、制造紧张感 |
| 励志 | 挑战、成长、努力过程 | 坚定、有力、积极 |
| 怀旧 | 回忆、老物件、时光流逝 | 柔和、感慨、余韵悠长 |
| 浪漫 | 情感、约会、美好时刻 | 细腻、温柔、充满画面感 |
解说长度控制
- 简洁版:每段 30–60 字,适合短视频
- 标准版:每段 60–120 字,适合 3–10 分钟视频
- 详细版:每段 120–200 字,适合纪录片风格
配音合成
Edge-TTS(默认)
微软主流 TTS 引擎,低延迟、高保真,支持中文多音色:
| 音色 | 风格 | 适用 |
|---|---|---|
zh-CN-Xiaoxiao | 女声,清晰自然 | 通用场景 |
zh-CN-Yunxi | 男声,成熟稳重 | 叙事为主 |
zh-CN-Xiaoyi | 女声,活泼轻柔 | 治愈风格 |
zh-CN-Yunyang | 男声,专业正式 | 新闻/课程 |
F5-TTS(可选)
零样本音色克隆,只需 15–30 秒参考音频,即可克隆任意音色。
⚠️ F5-TTS 需要独立安装,详见高级配置。
语速与音调
- 语速:0.6x – 1.5x(默认 1.0x)
- 音调:-50% – +50%(默认 0)
精准字幕
基于 TTS word-level timing 的音字同步,字幕精确到每个字的起止时间。
字幕样式
| 样式 | 效果 |
|---|---|
| 电影黑底白字 | 底部居中,黑底白字,带淡淡的描边 |
| 透明覆盖 | 底部居中,无背景,文字描边 |
| 卡片式 | 全宽底栏,半透明背景 |
| 顶部字幕 | 用于说明画面外事件 |
ASS 高级样式
- 字体大小、行数、位置可调
- 一次只显示一行(KTV 模式)
- 可叠加解说词 + 环境音文字说明
导出格式
MP4(直接输出)
| 参数 | 说明 |
|---|---|
| 编码 | H.264(兼容性好)或 H.265(体积小) |
| 分辨率 | 保持原片或指定缩放(1080p / 720p / 480p) |
| 帧率 | 保持原片帧率 |
| 音轨 | 配音 + 可选保留原音 |
剪映草稿 JSON(继续精剪)
导出原生 .draft.json,直接导入剪映继续编辑,保留:
- 时间轴和分割点
- 字幕轨道(可继续调整)
- 配音轨道
配置选项总览
| 类别 | 选项 | 默认值 |
|---|---|---|
| 场景理解 | 抽帧间隔 | 1 秒 |
| 场景分段最小长度 | 3 秒 | |
| 解说生成 | 情感风格 | 治愈 |
| 解说长度 | 标准版 | |
| 是否保留原音 | 否 | |
| 配音 | TTS 引擎 | Edge-TTS |
| 音色 | XiaoXiao(女声) | |
| 语速 | 1.0x | |
| 音调 | 0 | |
| 字幕 | 样式 | 电影黑底白字 |
| 是否启用 | 是 | |
| 导出 | 视频编码 | H.264 |
| 分辨率 | 保持原片 | |
| 格式 | MP4 |
支持的视频格式
| 格式 | 扩展名 | 说明 |
|---|---|---|
| MP4 | .mp4 | 推荐,兼容性最好 |
| MOV | .mov | macOS 录制格式 |
| AVI | .avi | 支持但体积较大 |
| MKV | .mkv | 支持多音轨 |
| WebM | .webm | 支持但部分编码有限制 |
不支持 GIF。GIF 请先转换为 MP4。
硬件与性能
| 配置 | CPU 模式 | GPU 加速(CUDA) |
|---|---|---|
| 视频分析 | ~3x 实时 | ~10x 实时(需 4GB+ 显存) |
| 配音合成 | 超实时 | — |
| 视频导出 | 约 0.5–2x 实时 | 约 2–5x 实时 |
系统自动检测 CUDA,可用时自动启用 GPU 加速,无 GPU 时回退 CPU。
