说话人确认
上传两段中文语音,判断是否同一个人。完全无状态,声纹库由你自己管理 — 服务端不持久化任何用户音频或向量。
POST
/v1/voiceprint/compare
稳定
v0.1
更新于 2026 年 4 月
POST
/v1/voiceprint/compare
计算相似度
分析中…
01
限制与约束
所有限制均可通过环境变量调整,生产部署可按业务需要放宽或收紧。超出会返回 400 配合具体错误码 (见 §05)。
单段时长
0.3 – 60秒
推荐 3–5 秒真实语音,过短模型不稳定
音频格式
任意
支持 wav/mp3/m4a/flac/ogg/webm 等常见格式
阈值范围
[-1, 1]
默认 0.372,可在
threshold 字段覆盖超时
30秒
音频处理超时上限,正常请求毫秒级返回
02
性能指标
待补充 — 我们会在生产硬件(单实例 GPU / CPU)上跑一轮 P50/P95 延迟和吞吐基准,这一节会贴出延迟分布、QPS 上限,以及不同音频时长下的耗时拆分。
单次延迟
—
P50 / P95(测试中)
吞吐
—
单 worker QPS(测试中)
冷启动
—
模型加载时间(测试中)
资源占用
—
RAM / VRAM(测试中)
03
在线体验
上传两段音频(或点下方示例)直接调用 /v1/voiceprint/compare。所有调用都打到本服务,可在右侧查看完整 JSON 响应。
实时 · POST /v1/voiceprint/compare
音频 A
示例:
说话人1·片段A
说话人1·片段B
说话人2·片段A
音频 B
示例:
说话人1·片段A
说话人1·片段B
说话人2·片段A
阈值
结果
两侧都选好音频后,点击 开始比对
⌘ / Ctrl + ↵ 快捷提交
04
请求与响应
POST /v1/voiceprint/compare 接受 multipart/form-data:两段音频 + 可选阈值,返回相似度分数和是否同人的判定。
请求字段
| 字段 | 类型 | 要求 | 说明 |
|---|---|---|---|
| audio_a | file | 必填 | 第一段音频。常见音频格式(wav / mp3 / m4a / flac / ogg / webm)。 |
| audio_b | file | 必填 | 第二段音频,要求同 audio_a。 |
| threshold | float | 可选 | 同人判定阈值,范围 [-1, 1]。不传使用服务端默认 0.372。 |
响应
200 OK · application/jsonCompareResponse
{
"score": 0.847, // 相似度分数,范围 [-1, 1]
"is_same_speaker": true, // score >= threshold
"threshold": 0.372 // 本次实际生效的阈值
}
调用示例
05
错误码
所有业务错误返回统一信封 {"error": {"code": "...", "message": "..."}}。HTTP 状态码与 code 配套使用。
06
AI 集成 — 一键复制提示词
将预制的、经过实战验证的提示词复制到 Claude、Cursor 或 ChatGPT 中,一分钟内即可完成集成。提示词涵盖接口契约、鉴权、错误处理,以及配套的 TypeScript / Python 脚手架代码。
AI-READY PROMPT
用AI快速集成
已在主流编码 Agent 上测试通过。包含 API 结构、认证、错误处理和示例输入/输出。只需粘贴并说 "用我的技术栈实现这个"。