声纹向量库

把一段音频提取成紧凑的声纹,客户端缓存起来组成声纹库;再用查询音频对整个库做 1-vs-N 排序匹配,返回 top-K 命中。完全无状态 — 库由你自己维护、组织、分片。

POST /v1/voiceprint/extract POST /v1/voiceprint/identify 稳定 更新于 2026 年 4 月
QUERY
声纹库 N=4
POST
/v1/voiceprint/identify
识别中
SORTED
01

限制与约束

所有限制均可通过环境变量调整,生产部署可按业务需要放宽或收紧。超出会返回 400 配合具体错误码 (见 §05)。

单段时长
0.3 – 60
推荐 3–5 秒真实语音,过短模型不稳定
音频格式
任意
支持 wav/mp3/m4a/flac/ogg/webm 等常见格式
声纹库大小
≤ 1000
/v1/voiceprint/identify 单次最多比对 1000 个候选
向量维度
512
紧凑编码,~684 字节/条
02

性能指标

待补充 — 我们会在生产硬件(单实例 GPU / CPU)上对 /v1/voiceprint/extract + /v1/voiceprint/identify 跑一轮 P50/P95 延迟和吞吐基准,这一节会贴出延迟分布、QPS 上限,以及不同库大小下的耗时拆分。

单次延迟
P50 / P95(测试中)
吞吐
单 worker QPS(测试中)
冷启动
模型加载时间(测试中)
资源占用
RAM / VRAM(测试中)
03

在线体验

左侧"注册"上传音频 + 起个名字,直接调 /v1/voiceprint/extract 把返回的 base64 向量塞进页面里的临时声纹库。右侧"匹配"用 query 音频对这个库调 /v1/voiceprint/identify,结果按相似度排序。整个体验过程不会持久化任何东西。

实时 · POST /v1/voiceprint/extract + POST /v1/voiceprint/identify · 临时库仅存内存
注册音频
示例: 说话人1·片段A 说话人1·片段B 说话人2·片段A
说话人 ID 单次请求内必须唯一
临时声纹库 (0)
还没有条目。先上传音频 + 起名,点上方"加入临时声纹库"。
查询音频
示例: 说话人1·片段A 说话人1·片段B 说话人2·片段A
阈值 默认 0.372,可按需调整
0.37
top_k 留空返回全部
先在左边注册至少 1 条,再选好查询音频,点"开始匹配"。
04

请求与响应

两个接口都是 multipart/form-data。先选接口看请求字段 + 响应,再切到下方语言 tab 复制可直接运行的代码片段。

上传一段音频,返回紧凑的 base64 声纹向量(每条约 ~684 字节)。客户端把这串字符串原样缓存,下次直接用 /v1/voiceprint/identifytype=embedding 条目匹配,免去重复处理。

请求字段

字段 类型 要求 说明
audio file 必填 常见音频格式(wav / mp3 / m4a / flac / ogg / webm)。建议 3–5 秒真实语音。

响应

200 OK · application/jsonEmbedResponse
// 512 维声纹向量 — 紧凑 base64 编码,载荷约 684 字节
{
  "embedding": "AgUEAQQF/vwB+wTu/fwOAwD6APcHBwX/CQgCAvv+BgMICPz/...AAQ=",
  "dim": 512,
  "dtype": "int8",
  "encoding": "base64",
  "duration_seconds": 3.420
}

// 客户端解码(若需要 float 数组做点积):
//   bytes = base64.b64decode(embedding)            # 512 个有符号字节
//   vec   = np.frombuffer(bytes, dtype=np.int8)/127.0  # → float32, ≈ unit norm

调用示例


    
05

错误码

所有业务错误返回统一信封 {"error": {"code": "...", "message": "..."}}。HTTP 状态码与 code 配套使用。

06

AI 集成 — 一键复制提示词

将预制的、经过实战验证的提示词复制到 Claude、Cursor 或 ChatGPT 中,一分钟内即可完成集成。提示词涵盖 /v1/voiceprint/extract + /v1/voiceprint/identify 接口契约、library JSON 结构、鉴权、错误处理,以及配套的 TypeScript / Python 脚手架代码。

AI-READY PROMPT
tokens · optimized for Claude 4.7 & GPT-5

用AI快速集成

已在主流编码 Agent 上测试通过。包含 API 结构、认证、错误处理和示例输入/输出。只需粘贴并说 "用我的技术栈实现这个"