Skip to content

功能介绍

核心定位

Voxplore v4.0 — 多视频智能合并解说专家。

输入: 批量视频(文件夹 / Ctrl 多选)
输出: 模块化成品(合并版完整叙事 + 高光片段单独发布)
成本: <¥0.01 / 视频(DeepSeek-V3)


4 步创作流程

批量上传视频


┌─────────────────────────────────────────────────────────┐
│  Step 1 · 场景理解                                        │
│  AI 逐帧分析,判断"我"的主体视角,提取高光片段              │
│  模型:Qwen2.5-VL                                         │
└─────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────┐
│  Step 2 · 智能分组                                        │
│  视觉 embedding(0.7)+ 声纹(0.3)混合相似度              │
│  → 同一人物避免重复解说                                   │
│  模型:Qwen2.5-VL + 声纹识别                              │
└─────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────┐
│  Step 3 · 叙事选段                                        │
│  叙事完整优先 + 情感峰值驱动                              │
│  悬疑铺垫 → 剧情高潮 → 情感共鸣                          │
└─────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────┐
│  Step 4 · 解说生成 + 导出                                 │
│  7 种预设风格 + 角色设定                                  │
│  模型:DeepSeek-V3 + Edge-TTS / F5-TTS                   │
└─────────────────────────────────────────────────────────┘


┌─────────────────────────────────────────────────────────┐
│  模块化成品输出                                           │
│  · 合并版:完整叙事视频(抖音/B站发布)                    │
│  · 高光片段:精彩片段(短视频平台分发最大化)              │
│  · 剪映草稿:原生 JSON,导入剪映继续精剪                   │
└─────────────────────────────────────────────────────────┘

核心功能详解

多视频智能合并

上传方式

方式说明
文件夹选择选一个文件夹,自动递归扫描所有视频(mp4/mov/avi/webm/mkv)
Ctrl 多选按住 Ctrl 一次选中多个视频,统一加入队列
混合模式文件夹 + 多选,AI 自动去重合并

智能分组算法

维度技术权重说明
视觉 embeddingQwen2.5-VL0.7主导,判断场景/人物一致性
音频声纹声纹识别0.3辅助修正,同一人避免重复解说

分组结果展示:

  • 视频缩略图网格(3列),每组置信度颜色指示
  • >80% 绿色 / 60–80% 黄色 / <60% 红色
  • 支持手动合并 / 拆分 / 新建 / 删除分组

第一人称片段提取

提取逻辑

逐帧采样 → 视角判断("我"的主体?)→ 连续性过滤 → 时长过滤(9–60s)
阶段说明
逐帧采样关键帧分析,每帧画面信息密度评估
视角判断Qwen2.5-VL 判断"我"的主体视角,输出置信度
连续性过滤时序连续的候选片段,剔除跳切/碎片
时长过滤保留 9–60 秒(短视频黄金区间)

片段数据结构

python
{
    "start_time": 12.5,      # 开始时间(秒)
    "end_time": 45.2,        # 结束时间(秒)
    "confidence": 0.87,      # 第一人称置信度(0.0–1.0)
    "description": "...",    # 画面描述(用于解说生成)
    "emotion_score": 0.72,   # 情感峰值分数
}

情感峰值检测

评分维度

维度权重说明
画面信息密度0.6复杂度 / 动作密度 / 视觉刺激
音频情绪起伏0.4语调变化 / 情感强度

峰值触发条件

类型触发条件
🔥 高复杂度场景信息量大,细节丰富
😱 强情绪语调强烈变化,情绪波动大
⚡ 动作密度画面动作密集,高光时刻

叙事完整选段

选段策略

策略权重说明
叙事完整优先0.7每个片段有头有尾,保证信息完整
情感峰值驱动0.3情感峰值片段加权优先入选

目标时长(按平台)

平台目标时长说明
抖音15–30 秒短平快,高潮前置
B站3–10 分钟完整叙事,起承转合
小红书30s–2 分钟中等长度,兼顾深度

系统按目标平台自动调整,也支持手动设置。


解说风格 + 角色设定

7 种预设风格

风格适用场景解说语气示例口吻
治愈旅行、自然风光、生活记录温暖、放松、随性"这一刻,风很轻,心很静…"
悬疑惊悚、探秘、推理向内容低沉、留白、制造紧张感"黑暗中,似乎有什么在靠近…"
励志挑战、成长、努力过程坚定、有力、积极"这一刻,我没有退路,只能向前!"
怀旧回忆、老物件、时光流逝柔和、感慨、余韵悠长"那年夏天,仿佛就在昨天…"
浪漫情感、约会、美好时刻细腻、温柔、充满画面感"她的笑容,像阳光一样洒进心里…"
幽默有趣、搞笑、反转内容活泼、俏皮、制造笑点"我当时的表情,大概比表情包还精彩…"
纪录片知识、科普、深度解读专业、冷静、逻辑清晰"根据考古发现,这一时期的社会结构…"

角色设定参数

参数说明示例
主角名称解说中的"我"的名字"小林"
职业设定身份背景,影响词汇选择医生 / 律师 / 教师 / 销售 / 自由职业
性格特征说话风格,影响语气节奏内向 / 外向 / 理性 / 感性 / 幽默 / 沉稳
口头禅自定义关键词,AI 自然融入"说起来你可能不信"

模块化成品

成品类型

类型说明适用场景
合并版所有选段按叙事顺序拼接成一条完整视频抖音/B站完整版发布
高光片段最精彩的片段单独导出短视频平台分发最大化
剪映草稿原生 .draft.json,导入剪映继续精剪专业后期编辑

导出格式

格式编码说明
MP4(H.264)默认兼容性最好,跨平台兼容
MP4(H.265)可选体积小约 40%,但老设备可能不兼容
剪映草稿 JSON原生无损传递,导入剪映完整保留所有编辑

分辨率选项

选项说明
保持原片无重新编码,质量最高
1080p全高清,适合大多数场景
720p体积更小,适合移动端分享

精准字幕

基于 TTS word-level timing 的音字同步,字幕精确到每个字的起止时间。

精度: 50ms 以内

字幕样式

样式效果适用场景
电影黑底白字底部居中,黑底白字,带淡淡描边专业感,高对比度
透明覆盖底部居中,无背景,文字描边极简风格,不遮挡画面
卡片式全宽底栏,半透明背景信息量大,需要背景衬托
顶部字幕顶部居中用于说明画面外事件/旁白

支持的视频格式

格式扩展名推荐度说明
MP4.mp4✅ 高兼容性最好,H.264/H.265 均支持
MOV.mov✅ 高macOS 录制格式,画面质量高
MKV.mkv🟡 中支持多音轨,封装灵活
AVI.avi🔴 低体积较大,已逐渐淘汰
WebM.webm🔴 低部分编码有限制,兼容性一般

性能与硬件

处理时间(5 分钟视频,GPU 加速)

阶段CPU 模式GPU 加速提升
智能分组10–15 分钟2–3 分钟~5x
第一人称提取15–20 分钟3–5 分钟~4x
情感检测5–10 分钟1–2 分钟~5x
解说生成~30 秒~30 秒
配音合成~2 分钟~2 分钟
视频导出5–10 分钟2–3 分钟~3x

系统自动检测 CUDA,可用时自动启用 GPU 加速。
无 GPU 时,纯 CPU 运行亦可完成所有功能。

硬件要求

组件最低要求推荐配置
内存8 GB16 GB+
存储10 GB 可用50 GB+(处理大文件时需要)
GPU可选NVIDIA GTX 1060+(显存 6GB+)

下一步

MIT License · Copyright © 2025-2026 Agions