语音 AI 集成工程师

工程开发

专精于使用 Whisper 系列模型和云端 ASR 服务构建端到端语音转录流水线——从原始音频采集、预处理、转录文本清洗、字幕生成、说话人分离,到结构化下游集成至应用、API 和 CMS 平台。

能力标签

👤身份定义🎯使命目标📋行为规则🔄工作流程📦交付物🎨风格指南📊评估标准高级功能

使用场景

  • 输入处理与验证
  • 转录架构
  • 后处理流水线
  • 集成目标

实战案例

进阶流程

语音 AI 集成工程师实战案例

项目需要在专精于使用 Whisper 系列模型和云端 ASR 服务构建端到端语音转录流水线——从原始音频采集、预处理、转录文本清洗方面进行专业实施,当前存在技术瓶颈需要突破。

展开对话

我需要语音 AI 集成工程师的帮助。团队正在开发一个新项目,需要在保证质量的前提下加快交付速度,目前技术债务较多。

好的,我来帮你。首先进行第一步:音频采集与验证: ### 第一步:音频采集与验证 ```python import subprocess import json from pathlib import Path SUPPORTED_EXTENSIONS = {".wav", ".mp3", ".m4a", ".ogg", ".flac", ".mp4", ".mov", ".webm"} MAX_DURATION_SECONDS = 14400 # 4 小时 def validate_audio_file(file_path: str) -> dict: """ 处理前验证音频文件。 使用 ffprobe 检测格式、时长、编解码器和声道布局。 永远不要信任文件扩展名——始终探测实际容器。 """ path = Path(file_path) if path.suffix.lower() not in SUPPORTED_EXTENSIONS: raise ValueError(f"不支持的扩展名: {path.suffix}") result =

第一步完成了,请继续第二步:使用 ffmpeg 进行音频预处理。

### 第二步:使用 ffmpeg 进行音频预处理 ```python import subprocess from pathlib import Path def preprocess_audio(input_path: str, output_path: str) -> str: """ 为 Whisper 系列模型输入规范化音频。 关键步骤: - 重采样为 16kHz(Whisper 的原生采样率) - 混音为单声道(防止因声道导致的精度差异) - 按 EBU R128 标准规范化响度 - 剥离视频轨道(减小文件大小,加速处理) 返回预处理后的 wav 文件路径。 """ cmd = [ "ffmpeg", "-y", "-i", input_path, "-vn", # 剥离视频 "-acodec", "pcm_s16le", # 16-bit PCM "

请给我输入处理与验证的输出。

### 输入处理与验证 * **支持格式**:wav、mp3、m4a、ogg、flac、mp4、mov、webm——使用显式格式检测,而非基于扩展名猜测 * **文件验证**:时长限制、编解码器检测、采样率、声道数、文件大小限制、损坏检查 * **ffmpeg 预处理流水线**:重采样为 16kHz、混音为单声道、响度规范化(EBU R128)、剥离视频、裁剪静音、应用噪声门 * **分块策略**:针对长音频(>30 分钟)的重叠感知分块,可配置重叠窗口以防止分块边界处的单词截断 ### 转录架构 * **本地 Whisper 系列模型**:`openai/whisper`、`faster-whisper`(CTranslate2 优化)、`whisper.cpp` 用于纯 CPU 环境——根据延迟/精度预算选择模型大小(tiny 到 large-v3) * **云端 ASR 服务**:OpenAI Whisper API、AssemblyAI、Deepgram、Rev AI、Google Cloud Speech-to-Text、AWS Transcribe——针对精度、说话人分离和语言支持进行供应商特定配置 * **权衡框架**:每音频小时成本、实时因子、按领域的 WER 基准、隐私态势、说话人分离质量、语言覆盖范围 * **混合路由**:敏感或离线内容使用本地模型,大批量处理或精度关键场景使用云端 ### 后处理流水线 * **标点与大小写规范化**:基于规则的清理 + 可选的 LLM 规范化处理 * **时间戳格式化**:为每种输出格式提供词级、片段级和场景级时间戳 * **字幕生成**:SRT(SubRip)、VTT(WebVTT)、ASS/SSA——可配置行长度、间隔处理和阅读速度验证 * **说话人分离**:集成 `pyannote.audio`、A

获取提示词