说话人确认

上传两段中文语音,判断是否同一个人。完全无状态,声纹库由你自己管理 — 服务端不持久化任何用户音频或向量。

POST /v1/voiceprint/compare 稳定 v0.1 更新于 2026 年 4 月
A
B
POST
/v1/voiceprint/compare
计算相似度
分析中…
01

限制与约束

所有限制均可通过环境变量调整,生产部署可按业务需要放宽或收紧。超出会返回 400 配合具体错误码 (见 §05)。

单段时长
0.3 – 60
推荐 3–5 秒真实语音,过短模型不稳定
音频格式
任意
支持 wav/mp3/m4a/flac/ogg/webm 等常见格式
阈值范围
[-1, 1]
默认 0.372,可在 threshold 字段覆盖
超时
30
音频处理超时上限,正常请求毫秒级返回
02

性能指标

待补充 — 我们会在生产硬件(单实例 GPU / CPU)上跑一轮 P50/P95 延迟和吞吐基准,这一节会贴出延迟分布、QPS 上限,以及不同音频时长下的耗时拆分。

单次延迟
P50 / P95(测试中)
吞吐
单 worker QPS(测试中)
冷启动
模型加载时间(测试中)
资源占用
RAM / VRAM(测试中)
03

在线体验

上传两段音频(或点下方示例)直接调用 /v1/voiceprint/compare。所有调用都打到本服务,可在右侧查看完整 JSON 响应。

实时 · POST /v1/voiceprint/compare
音频 A
示例: 说话人1·片段A 说话人1·片段B 说话人2·片段A
音频 B
示例: 说话人1·片段A 说话人1·片段B 说话人2·片段A
阈值 默认 0.372,可按需调整
0.37
结果
两侧都选好音频后,点击 开始比对
⌘ / Ctrl + ↵ 快捷提交
04

请求与响应

POST /v1/voiceprint/compare 接受 multipart/form-data:两段音频 + 可选阈值,返回相似度分数和是否同人的判定。

请求字段

字段 类型 要求 说明
audio_a file 必填 第一段音频。常见音频格式(wav / mp3 / m4a / flac / ogg / webm)。
audio_b file 必填 第二段音频,要求同 audio_a
threshold float 可选 同人判定阈值,范围 [-1, 1]。不传使用服务端默认 0.372

响应

200 OK · application/jsonCompareResponse
{
  "score": 0.847,                // 相似度分数,范围 [-1, 1]
  "is_same_speaker": true,       // score >= threshold
  "threshold": 0.372             // 本次实际生效的阈值
}

调用示例


    
05

错误码

所有业务错误返回统一信封 {"error": {"code": "...", "message": "..."}}。HTTP 状态码与 code 配套使用。

06

AI 集成 — 一键复制提示词

将预制的、经过实战验证的提示词复制到 Claude、Cursor 或 ChatGPT 中,一分钟内即可完成集成。提示词涵盖接口契约、鉴权、错误处理,以及配套的 TypeScript / Python 脚手架代码。

AI-READY PROMPT
tokens · optimized for Claude 4.7 & GPT-5

用AI快速集成

已在主流编码 Agent 上测试通过。包含 API 结构、认证、错误处理和示例输入/输出。只需粘贴并说 "用我的技术栈实现这个"