功能介绍

Narrafiilm 的核心只有一个：将含明确主角的视频，转化为第一人称配音解说。以下所有功能都围绕这一核心展开。

核心工作流

视频 → Qwen2.5-VL 场景理解 → DeepSeek-V3 解说生成 → Edge-TTS 配音 → ASS 字幕 → MP4 / 剪映草稿

场景理解

Qwen2.5-VL（72B） 逐帧抽帧分析，识别：

主角的外貌、动作、行为意图
场景地点和环境氛围
画面中的关键物体及空间关系
事件发展的叙事逻辑

抽帧密度可配置（默认每秒 1 帧），支持长视频分段处理。

第一人称解说生成

DeepSeek-V3 基于场景理解结果，用"我"的视角撰写解说稿。

解说风格（情感模式）

风格	适用场景	解说语气
治愈	旅行、自然风光、生活记录	温暖、放松、随性
悬疑	惊悚、探秘、推理向内容	低沉、留白、制造紧张感
励志	挑战、成长、努力过程	坚定、有力、积极
怀旧	回忆、老物件、时光流逝	柔和、感慨、余韵悠长
浪漫	情感、约会、美好时刻	细腻、温柔、充满画面感

解说长度控制

简洁版：每段 30–60 字，适合短视频
标准版：每段 60–120 字，适合 3–10 分钟视频
详细版：每段 120–200 字，适合纪录片风格

配音合成

Edge-TTS（默认）

微软主流 TTS 引擎，低延迟、高保真，支持中文多音色：

音色	风格	适用
`zh-CN-Xiaoxiao`	女声，清晰自然	通用场景
`zh-CN-Yunxi`	男声，成熟稳重	叙事为主
`zh-CN-Xiaoyi`	女声，活泼轻柔	治愈风格
`zh-CN-Yunyang`	男声，专业正式	新闻/课程

F5-TTS（可选）

零样本音色克隆，只需 15–30 秒参考音频，即可克隆任意音色。

⚠️ F5-TTS 需要独立安装，详见高级配置。

语速与音调

语速：0.6x – 1.5x（默认 1.0x）
音调：-50% – +50%（默认 0）

精准字幕

基于 TTS word-level timing 的音字同步，字幕精确到每个字的起止时间。

字幕样式

样式	效果
电影黑底白字	底部居中，黑底白字，带淡淡的描边
透明覆盖	底部居中，无背景，文字描边
卡片式	全宽底栏，半透明背景
顶部字幕	用于说明画面外事件

ASS 高级样式

字体大小、行数、位置可调
一次只显示一行（KTV 模式）
可叠加解说词 + 环境音文字说明

导出格式

MP4（直接输出）

参数	说明
编码	H.264（兼容性好）或 H.265（体积小）
分辨率	保持原片或指定缩放（1080p / 720p / 480p）
帧率	保持原片帧率
音轨	配音 + 可选保留原音

剪映草稿 JSON（继续精剪）

导出原生 .draft.json，直接导入剪映继续编辑，保留：

时间轴和分割点
字幕轨道（可继续调整）
配音轨道

配置选项总览

类别	选项	默认值
场景理解	抽帧间隔	1 秒
	场景分段最小长度	3 秒
解说生成	情感风格	治愈
	解说长度	标准版
	是否保留原音	否
配音	TTS 引擎	Edge-TTS
	音色	XiaoXiao（女声）
	语速	1.0x
	音调	0
字幕	样式	电影黑底白字
	是否启用	是
导出	视频编码	H.264
	分辨率	保持原片
	格式	MP4

支持的视频格式

格式	扩展名	说明
MP4	`.mp4`	推荐，兼容性最好
MOV	`.mov`	macOS 录制格式
AVI	`.avi`	支持但体积较大
MKV	`.mkv`	支持多音轨
WebM	`.webm`	支持但部分编码有限制

不支持 GIF。GIF 请先转换为 MP4。

硬件与性能

配置	CPU 模式	GPU 加速（CUDA）
视频分析	~3x 实时	~10x 实时（需 4GB+ 显存）
配音合成	超实时	—
视频导出	约 0.5–2x 实时	约 2–5x 实时

系统自动检测 CUDA，可用时自动启用 GPU 加速，无 GPU 时回退 CPU。

下一步

快速开始 — 5 分钟上手指南
安装配置 — 各平台完整安装步骤
FAQ — 常见问题解答

功能介绍 ​

核心工作流 ​

场景理解 ​

第一人称解说生成 ​

解说风格（情感模式） ​

解说长度控制 ​

配音合成 ​

Edge-TTS（默认） ​

F5-TTS（可选） ​

语速与音调 ​

精准字幕 ​

字幕样式 ​

ASS 高级样式 ​

导出格式 ​

MP4（直接输出） ​

剪映草稿 JSON（继续精剪） ​

配置选项总览 ​

支持的视频格式 ​

硬件与性能 ​

下一步 ​