Skip to content

VoxploreAI First-Person Video Narrator

批量上传视频 · AI 自动分组选段 · 一键生成电影感配音解说

Voxplore
🎬Qwen2.5-VL
🎙️DeepSeek-V3
✍️SenseVoice
v4.0.0 最新 · DeepSeek-V3 解说 · SenseVoice ASR · <¥0.01 / 视频 · MIT 开源

vs 传统视频解说

传统方式
Voxplore
制作时间
30–120 分钟
3–10 分钟
配音成本
¥50–500/分钟
<¥0.01/视频
技术门槛
专业剪辑 + 配音
上传视频,一键完成
隐私安全
上传第三方平台
视频永不上传云端
字幕同步
手动对齐,耗时费眼
TTS word-level,50ms 精度
导出格式
仅 MP4
MP4 + 剪映草稿 JSON

为什么选择 Voxplore

3 分钟完成解说

从上传视频到导出成品,全流程自动化。AI 自动分析、自动写稿、自动配音,无需手动剪辑。

💰

不到一分钱一个视频

DeepSeek-V3 成本约 $0.1 / 1M tokens。处理一个 5 分钟视频成本不足 1 分钱

🔒

视频永不上传云端

全部处理在本地完成。FFmpeg 本地合成,API 仅传输文字(解说稿),你的视频永远留在本机。

🎭

7 种情感风格

治愈 · 悬疑 · 励志 · 怀旧 · 浪漫 · 幽默 · 纪录片。AI 根据视频内容自动匹配最合适的解说语气。

4 步创作流程

1
上传视频
文件夹选择 / Ctrl 多选,自动扫描 mp4/mov/avi/webm
2
场景理解
Qwen2.5-VL 逐帧分析,提取"我"的主体视角高光片段
3
情感选段
叙事完整优先 + 情感峰值驱动,悬疑铺垫 → 高潮 → 共鸣
4
解说 + 导出
DeepSeek-V3 生成文案 + Edge-TTS 配音,MP4 / 剪映草稿输出

技术栈

模块
模型 / 技术
说明
分组
Qwen2.5-VL + 声纹
视觉 0.7 + 音频 0.3 混合相似度
提取
Qwen2.5-VL
逐帧分析,主体视角判断,9–60 秒片段
情感
视觉 + 音频双维度
画面信息密度 + 语调变化,综合评分排序
解说
DeepSeek-V3
代入"我"视角,7 种预设风格 + 角色设定
配音
Edge-TTS · F5-TTS
Edge 主流低延迟,F5 零样本音色克隆
导出
MP4 · 剪映草稿
合并版 + 高光片段双输出

快速开始

v4.0.0
最新版本
|
MIT
开源协议
|
Python 3.10+
跨平台
|
PySide6
Qt 桌面端
|
<¥0.01
单视频成本

MIT License · Copyright © 2025-2026 Agions