功能介绍
核心定位
Voxplore v4.0 — 多视频智能合并解说专家。
输入: 批量视频(文件夹 / Ctrl 多选)
输出: 模块化成品(合并版完整叙事 + 高光片段单独发布)
成本: <¥0.01 / 视频(DeepSeek-V3)
4 步创作流程
批量上传视频
│
▼
┌─────────────────────────────────────────────────────────┐
│ Step 1 · 场景理解 │
│ AI 逐帧分析,判断"我"的主体视角,提取高光片段 │
│ 模型:Qwen2.5-VL │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ Step 2 · 智能分组 │
│ 视觉 embedding(0.7)+ 声纹(0.3)混合相似度 │
│ → 同一人物避免重复解说 │
│ 模型:Qwen2.5-VL + 声纹识别 │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ Step 3 · 叙事选段 │
│ 叙事完整优先 + 情感峰值驱动 │
│ 悬疑铺垫 → 剧情高潮 → 情感共鸣 │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ Step 4 · 解说生成 + 导出 │
│ 7 种预设风格 + 角色设定 │
│ 模型:DeepSeek-V3 + Edge-TTS / F5-TTS │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ 模块化成品输出 │
│ · 合并版:完整叙事视频(抖音/B站发布) │
│ · 高光片段:精彩片段(短视频平台分发最大化) │
│ · 剪映草稿:原生 JSON,导入剪映继续精剪 │
└─────────────────────────────────────────────────────────┘核心功能详解
多视频智能合并
上传方式
| 方式 | 说明 |
|---|---|
| 文件夹选择 | 选一个文件夹,自动递归扫描所有视频(mp4/mov/avi/webm/mkv) |
| Ctrl 多选 | 按住 Ctrl 一次选中多个视频,统一加入队列 |
| 混合模式 | 文件夹 + 多选,AI 自动去重合并 |
智能分组算法
| 维度 | 技术 | 权重 | 说明 |
|---|---|---|---|
| 视觉 embedding | Qwen2.5-VL | 0.7 | 主导,判断场景/人物一致性 |
| 音频声纹 | 声纹识别 | 0.3 | 辅助修正,同一人避免重复解说 |
分组结果展示:
- 视频缩略图网格(3列),每组置信度颜色指示
>80%绿色 /60–80%黄色 /<60%红色- 支持手动合并 / 拆分 / 新建 / 删除分组
第一人称片段提取
提取逻辑
逐帧采样 → 视角判断("我"的主体?)→ 连续性过滤 → 时长过滤(9–60s)| 阶段 | 说明 |
|---|---|
| 逐帧采样 | 关键帧分析,每帧画面信息密度评估 |
| 视角判断 | Qwen2.5-VL 判断"我"的主体视角,输出置信度 |
| 连续性过滤 | 时序连续的候选片段,剔除跳切/碎片 |
| 时长过滤 | 保留 9–60 秒(短视频黄金区间) |
片段数据结构
python
{
"start_time": 12.5, # 开始时间(秒)
"end_time": 45.2, # 结束时间(秒)
"confidence": 0.87, # 第一人称置信度(0.0–1.0)
"description": "...", # 画面描述(用于解说生成)
"emotion_score": 0.72, # 情感峰值分数
}情感峰值检测
评分维度
| 维度 | 权重 | 说明 |
|---|---|---|
| 画面信息密度 | 0.6 | 复杂度 / 动作密度 / 视觉刺激 |
| 音频情绪起伏 | 0.4 | 语调变化 / 情感强度 |
峰值触发条件
| 类型 | 触发条件 |
|---|---|
| 🔥 高复杂度 | 场景信息量大,细节丰富 |
| 😱 强情绪 | 语调强烈变化,情绪波动大 |
| ⚡ 动作密度 | 画面动作密集,高光时刻 |
叙事完整选段
选段策略
| 策略 | 权重 | 说明 |
|---|---|---|
| 叙事完整优先 | 0.7 | 每个片段有头有尾,保证信息完整 |
| 情感峰值驱动 | 0.3 | 情感峰值片段加权优先入选 |
目标时长(按平台)
| 平台 | 目标时长 | 说明 |
|---|---|---|
| 抖音 | 15–30 秒 | 短平快,高潮前置 |
| B站 | 3–10 分钟 | 完整叙事,起承转合 |
| 小红书 | 30s–2 分钟 | 中等长度,兼顾深度 |
系统按目标平台自动调整,也支持手动设置。
解说风格 + 角色设定
7 种预设风格
| 风格 | 适用场景 | 解说语气 | 示例口吻 |
|---|---|---|---|
| 治愈 | 旅行、自然风光、生活记录 | 温暖、放松、随性 | "这一刻,风很轻,心很静…" |
| 悬疑 | 惊悚、探秘、推理向内容 | 低沉、留白、制造紧张感 | "黑暗中,似乎有什么在靠近…" |
| 励志 | 挑战、成长、努力过程 | 坚定、有力、积极 | "这一刻,我没有退路,只能向前!" |
| 怀旧 | 回忆、老物件、时光流逝 | 柔和、感慨、余韵悠长 | "那年夏天,仿佛就在昨天…" |
| 浪漫 | 情感、约会、美好时刻 | 细腻、温柔、充满画面感 | "她的笑容,像阳光一样洒进心里…" |
| 幽默 | 有趣、搞笑、反转内容 | 活泼、俏皮、制造笑点 | "我当时的表情,大概比表情包还精彩…" |
| 纪录片 | 知识、科普、深度解读 | 专业、冷静、逻辑清晰 | "根据考古发现,这一时期的社会结构…" |
角色设定参数
| 参数 | 说明 | 示例 |
|---|---|---|
| 主角名称 | 解说中的"我"的名字 | "小林" |
| 职业设定 | 身份背景,影响词汇选择 | 医生 / 律师 / 教师 / 销售 / 自由职业 |
| 性格特征 | 说话风格,影响语气节奏 | 内向 / 外向 / 理性 / 感性 / 幽默 / 沉稳 |
| 口头禅 | 自定义关键词,AI 自然融入 | "说起来你可能不信" |
模块化成品
成品类型
| 类型 | 说明 | 适用场景 |
|---|---|---|
| 合并版 | 所有选段按叙事顺序拼接成一条完整视频 | 抖音/B站完整版发布 |
| 高光片段 | 最精彩的片段单独导出 | 短视频平台分发最大化 |
| 剪映草稿 | 原生 .draft.json,导入剪映继续精剪 | 专业后期编辑 |
导出格式
| 格式 | 编码 | 说明 |
|---|---|---|
| MP4(H.264) | 默认 | 兼容性最好,跨平台兼容 |
| MP4(H.265) | 可选 | 体积小约 40%,但老设备可能不兼容 |
| 剪映草稿 JSON | 原生 | 无损传递,导入剪映完整保留所有编辑 |
分辨率选项
| 选项 | 说明 |
|---|---|
| 保持原片 | 无重新编码,质量最高 |
| 1080p | 全高清,适合大多数场景 |
| 720p | 体积更小,适合移动端分享 |
精准字幕
基于 TTS word-level timing 的音字同步,字幕精确到每个字的起止时间。
精度: 50ms 以内
字幕样式
| 样式 | 效果 | 适用场景 |
|---|---|---|
| 电影黑底白字 | 底部居中,黑底白字,带淡淡描边 | 专业感,高对比度 |
| 透明覆盖 | 底部居中,无背景,文字描边 | 极简风格,不遮挡画面 |
| 卡片式 | 全宽底栏,半透明背景 | 信息量大,需要背景衬托 |
| 顶部字幕 | 顶部居中 | 用于说明画面外事件/旁白 |
支持的视频格式
| 格式 | 扩展名 | 推荐度 | 说明 |
|---|---|---|---|
| MP4 | .mp4 | ✅ 高 | 兼容性最好,H.264/H.265 均支持 |
| MOV | .mov | ✅ 高 | macOS 录制格式,画面质量高 |
| MKV | .mkv | 🟡 中 | 支持多音轨,封装灵活 |
| AVI | .avi | 🔴 低 | 体积较大,已逐渐淘汰 |
| WebM | .webm | 🔴 低 | 部分编码有限制,兼容性一般 |
性能与硬件
处理时间(5 分钟视频,GPU 加速)
| 阶段 | CPU 模式 | GPU 加速 | 提升 |
|---|---|---|---|
| 智能分组 | 10–15 分钟 | 2–3 分钟 | ~5x |
| 第一人称提取 | 15–20 分钟 | 3–5 分钟 | ~4x |
| 情感检测 | 5–10 分钟 | 1–2 分钟 | ~5x |
| 解说生成 | ~30 秒 | ~30 秒 | — |
| 配音合成 | ~2 分钟 | ~2 分钟 | — |
| 视频导出 | 5–10 分钟 | 2–3 分钟 | ~3x |
系统自动检测 CUDA,可用时自动启用 GPU 加速。
无 GPU 时,纯 CPU 运行亦可完成所有功能。
硬件要求
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 内存 | 8 GB | 16 GB+ |
| 存储 | 10 GB 可用 | 50 GB+(处理大文件时需要) |
| GPU | 可选 | NVIDIA GTX 1060+(显存 6GB+) |
