Skip to content

功能介绍

Narrafiilm 的核心只有一个:将含明确主角的视频,转化为第一人称配音解说。以下所有功能都围绕这一核心展开。


核心工作流

视频 → Qwen2.5-VL 场景理解 → DeepSeek-V3 解说生成 → Edge-TTS 配音 → ASS 字幕 → MP4 / 剪映草稿

场景理解

Qwen2.5-VL(72B) 逐帧抽帧分析,识别:

  • 主角的外貌、动作、行为意图
  • 场景地点和环境氛围
  • 画面中的关键物体及空间关系
  • 事件发展的叙事逻辑

抽帧密度可配置(默认每秒 1 帧),支持长视频分段处理。


第一人称解说生成

DeepSeek-V3 基于场景理解结果,用"我"的视角撰写解说稿。

解说风格(情感模式)

风格适用场景解说语气
治愈旅行、自然风光、生活记录温暖、放松、随性
悬疑惊悚、探秘、推理向内容低沉、留白、制造紧张感
励志挑战、成长、努力过程坚定、有力、积极
怀旧回忆、老物件、时光流逝柔和、感慨、余韵悠长
浪漫情感、约会、美好时刻细腻、温柔、充满画面感

解说长度控制

  • 简洁版:每段 30–60 字,适合短视频
  • 标准版:每段 60–120 字,适合 3–10 分钟视频
  • 详细版:每段 120–200 字,适合纪录片风格

配音合成

Edge-TTS(默认)

微软主流 TTS 引擎,低延迟、高保真,支持中文多音色:

音色风格适用
zh-CN-Xiaoxiao女声,清晰自然通用场景
zh-CN-Yunxi男声,成熟稳重叙事为主
zh-CN-Xiaoyi女声,活泼轻柔治愈风格
zh-CN-Yunyang男声,专业正式新闻/课程

F5-TTS(可选)

零样本音色克隆,只需 15–30 秒参考音频,即可克隆任意音色。

⚠️ F5-TTS 需要独立安装,详见高级配置

语速与音调

  • 语速:0.6x – 1.5x(默认 1.0x)
  • 音调:-50% – +50%(默认 0)

精准字幕

基于 TTS word-level timing 的音字同步,字幕精确到每个字的起止时间。

字幕样式

样式效果
电影黑底白字底部居中,黑底白字,带淡淡的描边
透明覆盖底部居中,无背景,文字描边
卡片式全宽底栏,半透明背景
顶部字幕用于说明画面外事件

ASS 高级样式

  • 字体大小、行数、位置可调
  • 一次只显示一行(KTV 模式)
  • 可叠加解说词 + 环境音文字说明

导出格式

MP4(直接输出)

参数说明
编码H.264(兼容性好)或 H.265(体积小)
分辨率保持原片或指定缩放(1080p / 720p / 480p)
帧率保持原片帧率
音轨配音 + 可选保留原音

剪映草稿 JSON(继续精剪)

导出原生 .draft.json,直接导入剪映继续编辑,保留:

  • 时间轴和分割点
  • 字幕轨道(可继续调整)
  • 配音轨道

配置选项总览

类别选项默认值
场景理解抽帧间隔1 秒
场景分段最小长度3 秒
解说生成情感风格治愈
解说长度标准版
是否保留原音
配音TTS 引擎Edge-TTS
音色XiaoXiao(女声)
语速1.0x
音调0
字幕样式电影黑底白字
是否启用
导出视频编码H.264
分辨率保持原片
格式MP4

支持的视频格式

格式扩展名说明
MP4.mp4推荐,兼容性最好
MOV.movmacOS 录制格式
AVI.avi支持但体积较大
MKV.mkv支持多音轨
WebM.webm支持但部分编码有限制

不支持 GIF。GIF 请先转换为 MP4。


硬件与性能

配置CPU 模式GPU 加速(CUDA)
视频分析~3x 实时~10x 实时(需 4GB+ 显存)
配音合成超实时
视频导出约 0.5–2x 实时约 2–5x 实时

系统自动检测 CUDA,可用时自动启用 GPU 加速,无 GPU 时回退 CPU。


下一步

MIT License