功能介绍

核心定位

Voxplore v4.0 — 多视频智能合并解说专家。

输入： 批量视频（文件夹 / Ctrl 多选）
输出： 模块化成品（合并版完整叙事 + 高光片段单独发布）
成本： <¥0.01 / 视频（DeepSeek-V3）

4 步创作流程

批量上传视频
    │
    ▼
┌─────────────────────────────────────────────────────────┐
│  Step 1 · 场景理解                                        │
│  AI 逐帧分析，判断"我"的主体视角，提取高光片段              │
│  模型：Qwen2.5-VL                                         │
└─────────────────────────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────────────────────────┐
│  Step 2 · 智能分组                                        │
│  视觉 embedding（0.7）+ 声纹（0.3）混合相似度              │
│  → 同一人物避免重复解说                                   │
│  模型：Qwen2.5-VL + 声纹识别                              │
└─────────────────────────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────────────────────────┐
│  Step 3 · 叙事选段                                        │
│  叙事完整优先 + 情感峰值驱动                              │
│  悬疑铺垫 → 剧情高潮 → 情感共鸣                          │
└─────────────────────────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────────────────────────┐
│  Step 4 · 解说生成 + 导出                                 │
│  7 种预设风格 + 角色设定                                  │
│  模型：DeepSeek-V3 + Edge-TTS / F5-TTS                   │
└─────────────────────────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────────────────────────┐
│  模块化成品输出                                           │
│  · 合并版：完整叙事视频（抖音/B站发布）                    │
│  · 高光片段：精彩片段（短视频平台分发最大化）              │
│  · 剪映草稿：原生 JSON，导入剪映继续精剪                   │
└─────────────────────────────────────────────────────────┘

核心功能详解

多视频智能合并

上传方式

方式	说明
文件夹选择	选一个文件夹，自动递归扫描所有视频（mp4/mov/avi/webm/mkv）
Ctrl 多选	按住 Ctrl 一次选中多个视频，统一加入队列
混合模式	文件夹 + 多选，AI 自动去重合并

智能分组算法

维度	技术	权重	说明
视觉 embedding	Qwen2.5-VL	0.7	主导，判断场景/人物一致性
音频声纹	声纹识别	0.3	辅助修正，同一人避免重复解说

分组结果展示：

视频缩略图网格（3列），每组置信度颜色指示
>80% 绿色 / 60–80% 黄色 / <60% 红色
支持手动合并 / 拆分 / 新建 / 删除分组

第一人称片段提取

提取逻辑

逐帧采样 → 视角判断（"我"的主体？）→ 连续性过滤 → 时长过滤（9–60s）

阶段	说明
逐帧采样	关键帧分析，每帧画面信息密度评估
视角判断	Qwen2.5-VL 判断"我"的主体视角，输出置信度
连续性过滤	时序连续的候选片段，剔除跳切/碎片
时长过滤	保留 9–60 秒（短视频黄金区间）

片段数据结构

python

{
    "start_time": 12.5,      # 开始时间（秒）
    "end_time": 45.2,        # 结束时间（秒）
    "confidence": 0.87,      # 第一人称置信度（0.0–1.0）
    "description": "...",    # 画面描述（用于解说生成）
    "emotion_score": 0.72,   # 情感峰值分数
}

情感峰值检测

评分维度

维度	权重	说明
画面信息密度	0.6	复杂度 / 动作密度 / 视觉刺激
音频情绪起伏	0.4	语调变化 / 情感强度

峰值触发条件

类型	触发条件
🔥 高复杂度	场景信息量大，细节丰富
😱 强情绪	语调强烈变化，情绪波动大
⚡ 动作密度	画面动作密集，高光时刻

叙事完整选段

选段策略

策略	权重	说明
叙事完整优先	0.7	每个片段有头有尾，保证信息完整
情感峰值驱动	0.3	情感峰值片段加权优先入选

目标时长（按平台）

平台	目标时长	说明
抖音	15–30 秒	短平快，高潮前置
B站	3–10 分钟	完整叙事，起承转合
小红书	30s–2 分钟	中等长度，兼顾深度

系统按目标平台自动调整，也支持手动设置。

解说风格 + 角色设定

7 种预设风格

风格	适用场景	解说语气	示例口吻
治愈	旅行、自然风光、生活记录	温暖、放松、随性	"这一刻，风很轻，心很静…"
悬疑	惊悚、探秘、推理向内容	低沉、留白、制造紧张感	"黑暗中，似乎有什么在靠近…"
励志	挑战、成长、努力过程	坚定、有力、积极	"这一刻，我没有退路，只能向前！"
怀旧	回忆、老物件、时光流逝	柔和、感慨、余韵悠长	"那年夏天，仿佛就在昨天…"
浪漫	情感、约会、美好时刻	细腻、温柔、充满画面感	"她的笑容，像阳光一样洒进心里…"
幽默	有趣、搞笑、反转内容	活泼、俏皮、制造笑点	"我当时的表情，大概比表情包还精彩…"
纪录片	知识、科普、深度解读	专业、冷静、逻辑清晰	"根据考古发现，这一时期的社会结构…"

角色设定参数

参数	说明	示例
主角名称	解说中的"我"的名字	"小林"
职业设定	身份背景，影响词汇选择	医生 / 律师 / 教师 / 销售 / 自由职业
性格特征	说话风格，影响语气节奏	内向 / 外向 / 理性 / 感性 / 幽默 / 沉稳
口头禅	自定义关键词，AI 自然融入	"说起来你可能不信"

模块化成品

成品类型

类型	说明	适用场景
合并版	所有选段按叙事顺序拼接成一条完整视频	抖音/B站完整版发布
高光片段	最精彩的片段单独导出	短视频平台分发最大化
剪映草稿	原生 `.draft.json`，导入剪映继续精剪	专业后期编辑

导出格式

格式	编码	说明
MP4（H.264）	默认	兼容性最好，跨平台兼容
MP4（H.265）	可选	体积小约 40%，但老设备可能不兼容
剪映草稿 JSON	原生	无损传递，导入剪映完整保留所有编辑

分辨率选项

选项	说明
保持原片	无重新编码，质量最高
1080p	全高清，适合大多数场景
720p	体积更小，适合移动端分享

精准字幕

基于 TTS word-level timing 的音字同步，字幕精确到每个字的起止时间。

精度： 50ms 以内

字幕样式

样式	效果	适用场景
电影黑底白字	底部居中，黑底白字，带淡淡描边	专业感，高对比度
透明覆盖	底部居中，无背景，文字描边	极简风格，不遮挡画面
卡片式	全宽底栏，半透明背景	信息量大，需要背景衬托
顶部字幕	顶部居中	用于说明画面外事件/旁白

支持的视频格式

格式	扩展名	推荐度	说明
MP4	`.mp4`	✅ 高	兼容性最好，H.264/H.265 均支持
MOV	`.mov`	✅ 高	macOS 录制格式，画面质量高
MKV	`.mkv`	🟡 中	支持多音轨，封装灵活
AVI	`.avi`	🔴 低	体积较大，已逐渐淘汰
WebM	`.webm`	🔴 低	部分编码有限制，兼容性一般

性能与硬件

处理时间（5 分钟视频，GPU 加速）

阶段	CPU 模式	GPU 加速	提升
智能分组	10–15 分钟	2–3 分钟	~5x
第一人称提取	15–20 分钟	3–5 分钟	~4x
情感检测	5–10 分钟	1–2 分钟	~5x
解说生成	~30 秒	~30 秒	—
配音合成	~2 分钟	~2 分钟	—
视频导出	5–10 分钟	2–3 分钟	~3x

系统自动检测 CUDA，可用时自动启用 GPU 加速。
无 GPU 时，纯 CPU 运行亦可完成所有功能。

硬件要求

组件	最低要求	推荐配置
内存	8 GB	16 GB+
存储	10 GB 可用	50 GB+（处理大文件时需要）
GPU	可选	NVIDIA GTX 1060+（显存 6GB+）

下一步

快速开始 — 5 分钟上手
安装配置 — 各平台完整安装步骤
导出格式 — 详细导出参数配置
常见问题 — 常见问题解答

功能介绍 ​

核心定位 ​

4 步创作流程 ​

核心功能详解 ​

多视频智能合并 ​

上传方式 ​

智能分组算法 ​

第一人称片段提取 ​

提取逻辑 ​

片段数据结构 ​

情感峰值检测 ​

评分维度 ​

峰值触发条件 ​

叙事完整选段 ​

选段策略 ​

目标时长（按平台） ​

解说风格 + 角色设定 ​

7 种预设风格 ​

角色设定参数 ​

模块化成品 ​

成品类型 ​

导出格式 ​

分辨率选项 ​

精准字幕 ​

字幕样式 ​

支持的视频格式 ​

性能与硬件 ​

处理时间（5 分钟视频，GPU 加速） ​

硬件要求 ​

下一步 ​