AI 大模型之 whisper 云端 API 批量处理 / 实时调用 使用指南

AI人工智能阿木 发布于 2025-07-13 8 次阅读


Whisper:云端API使用指南——围绕AI大模型之批量处理与实时调用

Whisper 是 OpenAI 推出的一款基于深度学习的大模型,它能够将语音转换为文本。Whisper 的云端 API 提供了批量处理和实时调用的功能,使得开发者能够方便地将语音识别功能集成到自己的应用程序中。本文将详细介绍 Whisper 云端 API 的使用方法,包括批量处理和实时调用,帮助开发者快速上手。

一、Whisper 云端 API 简介

Whisper 云端 API 是 OpenAI 提供的一个 RESTful API,允许用户将语音转换为文本。该 API 支持多种语言和方言,并且能够处理多种语音格式,如 MP3、WAV、M4A 等。Whisper 云端 API 提供了两种调用方式:批量处理和实时调用。

二、批量处理

批量处理是指将多个语音文件一次性上传到 Whisper 云端 API,然后一次性获取转换结果。这种方式适用于需要处理大量语音文件的场景。

2.1 准备工作

1. 注册 OpenAI 账号并获取 API 密钥。

2. 准备待处理的语音文件。

2.2 代码示例

以下是一个使用 Python 和 requests 库进行批量处理的示例代码:

python

import requests


import json

API 密钥


api_key = 'your_api_key'


API URL


url = 'https://api.openai.com/v1/engines/davinci-codex/completions'

语音文件列表


audio_files = ['audio1.mp3', 'audio2.mp3', 'audio3.mp3']

批量处理请求


for audio_file in audio_files:


with open(audio_file, 'rb') as f:


data = {


'prompt': 'Translate the following text to English: "Hello, how are you?"',


'max_tokens': 60,


'temperature': 0.5,


'api_key': api_key


}


files = {'audio': (audio_file, f)}


response = requests.post(url, data=data, files=files)


print(response.json())

2.3 结果处理

批量处理完成后,API 会返回一个 JSON 格式的响应,其中包含了转换结果。开发者可以根据需要解析和存储这些结果。

三、实时调用

实时调用是指将语音实时传输到 Whisper 云端 API,然后立即获取转换结果。这种方式适用于需要实时处理语音的场景。

3.1 准备工作

1. 注册 OpenAI 账号并获取 API 密钥。

2. 准备实时语音传输的设备或应用程序。

3.2 代码示例

以下是一个使用 Python 和 requests 库进行实时调用的示例代码:

python

import requests


import wave


import pyaudio

API 密钥


api_key = 'your_api_key'


API URL


url = 'https://api.openai.com/v1/engines/davinci-codex/completions'

初始化 PyAudio


p = pyaudio.PyAudio()

打开麦克风


stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=1024)

实时调用 Whisper 云端 API


while True:


data = stream.read(1024)


headers = {'Authorization': f'Bearer {api_key}'}


response = requests.post(url, data=data, headers=headers)


print(response.json())

关闭麦克风和 PyAudio


stream.stop_stream()


stream.close()


p.terminate()


3.3 结果处理

实时调用完成后,API 会返回一个 JSON 格式的响应,其中包含了转换结果。开发者可以根据需要解析和存储这些结果。

四、总结

Whisper 云端 API 提供了批量处理和实时调用两种方式,使得开发者能够方便地将语音识别功能集成到自己的应用程序中。本文详细介绍了 Whisper 云端 API 的使用方法,包括准备工作、代码示例和结果处理。希望本文能够帮助开发者快速上手 Whisper 云端 API,并将其应用于实际项目中。

五、注意事项

1. 在使用 Whisper 云端 API 时,请确保遵守 OpenAI 的使用条款和隐私政策。

2. 根据实际需求选择合适的 API 调用方式,批量处理适用于处理大量语音文件,实时调用适用于实时处理语音。

3. 在处理语音数据时,请确保数据的安全性,避免泄露用户隐私。

通过本文的学习,相信开发者已经对 Whisper 云端 API 的使用有了较为全面的了解。在实际应用中,开发者可以根据自己的需求进行相应的调整和优化。