说话人确认 1对1

上传两段中文语音,判断是否同一个人 —— 一对一相似度比对。无需声纹库,适合身份验证、注册校验等单次比对场景。完全无状态,服务端不持久化任何用户音频或向量。

POST /v1/verify 稳定 v0.1 更新于 2026 年 4 月

POST

/v1/verify

计算相似度

分析中…

限制与约束

所有限制均可通过环境变量调整,生产部署可按业务需要放宽或收紧。超出会返回 400 配合具体错误码 (见 §05)。

单段时长

0.3 – 60秒

推荐 3–5 秒真实语音,过短模型不稳定

音频格式

任意

支持 wav/mp3/m4a/flac/ogg/webm 等常见格式

超时

30秒

音频处理超时上限,正常请求毫秒级返回

实测自生产实例 —— 对两段约 3-5 秒中文音频做相似度比对,处理 1 秒音频约 26 毫秒(约 38× 实时)。下方曲线展示单次延迟随客户端并发数变化的趋势,鼠标悬停可看到具体数值。

单次延迟 vs 并发说话人确认 1对1 · 鼠标悬停查看具体数值

P50中位数 — 一半请求比这快、一半比这慢,代表典型用户体验。

P99尾部 — 只有 1% 请求会比它更慢,用来判断最差情况是否仍可接受。

上传两段音频(或点下方示例)直接调用 /v1/verify。所有调用都打到本服务,可在右侧查看完整 JSON 响应。

实时 · POST /v1/verify

音频 A —

示例: 说话人1·片段A 说话人1·片段B 说话人2·片段A

音频 B —

示例: 说话人1·片段A 说话人1·片段B 说话人2·片段A

结果 —

两侧都选好音频后,点击 开始比对

⌘ / Ctrl + ↵ 快捷提交

POST /v1/verify 接受 multipart/form-data:两段音频,返回相似度分数和是否同人的判定。

字段	类型	要求	说明
audio_a	file	必填	第一段音频。常见音频格式(`wav / mp3 / m4a / flac / ogg / webm`)。
audio_b	file	必填	第二段音频,要求同 `audio_a`。

200 OK · application/jsonCompareResponse

{
  "score": 0.847,               // 相似度分数,范围 [-1, 1],越接近 1 越像同一人
  "is_same_speaker": true        // 是否判定为同一说话人
}

所有业务错误返回统一信封 {"error": {"code": "...", "message": "..."}}。HTTP 状态码与 code 配套使用。

将预制的、经过实战验证的提示词复制到 Claude、Cursor 或 ChatGPT 中,一分钟内即可完成集成。提示词涵盖接口契约、鉴权、错误处理,以及配套的 TypeScript / Python 脚手架代码。

AI-READY PROMPT

— tokens · optimized for Claude 4.7 & GPT-5

已在主流编码 Agent 上测试通过。包含 API 结构、认证、错误处理和示例输入/输出。只需粘贴并说 "用我的技术栈实现这个"。