Audio API Cost Tool
OpenAI 音声文字起こし 料金計算
GPT-4o Transcribe、GPT-4o mini Transcribe、Whisperの文字起こし料金を、音声分数・ファイル数・為替レートから概算します。
2026年5月時点で確認したOpenAI API PricingとSpeech-to-textモデルDocsを初期値にしています。
音声量
音声ファイル数、平均分数、対象期間から文字起こしAPI料金を概算します。
サンプル
GPT-4o Transcribe
OpenAIの高精度speech-to-textモデル。精度重視の文字起こしに向いています。
見積もり
推定月額
$7.20
約 1,116円 / 1 USD = 155.00円
期間合計
$7.20
1,116円
1本あたり
$0.36
1時間 / file
総音声時間
20時間
20.0 hours
月間音声時間
20時間
1,200 minutes/month
現行モデル対応
gpt-4o-transcribe、gpt-4o-mini-transcribe、Whisperを比較できます。
案件見積もり向け
ファイル数×平均分数×期間で、会議・Podcast・コールセンターの月額を概算できます。
後処理は分離
要約、翻訳、話者分離、検索化などの追加LLM費用は別枠として扱います。
音声文字起こし料金の見方
まず分単価で見る
録音済みファイルの文字起こしは、音声時間に分単価をかけると概算しやすいです。1時間は60分なので、$0.006/分なら$0.36/時間です。
gpt-4o系とWhisperの使い分け
精度重視ならgpt-4o-transcribe、低コスト大量処理ならgpt-4o-mini-transcribe、既存Whisper実装との互換比較ならWhisperを基準にできます。
このツールに含めていないもの
Realtime接続、音声保存、ノイズ処理、話者分離、議事録要約、翻訳、ベクトル検索、管理画面のインフラ費用は含めていません。
参考にした公式情報
価格とモデル仕様はOpenAI公式PricingおよびSpeech-to-textモデルDocsを参照しています。
よくある質問
Whisper APIだけでなくGPT-4o Transcribeが出るのはなぜですか?
OpenAIの現行Speech-to-text APIでは、gpt-4o-transcribeとgpt-4o-mini-transcribeが主要モデルとして案内されています。Whisperは既存実装との比較用に残しています。
料金は分単位だけで計算できますか?
音声文字起こしの実務見積もりでは、まず音声分数×分単価で概算するのが分かりやすいです。gpt-4o系ではtoken単価も公開されているため、最終請求はUsageログで確認してください。
会議の要約や話者分離も含まれますか?
含まれません。このツールは音声からテキストへの文字起こしAPI料金に絞っています。要約、整形、話者分離、翻訳、保存、検索インデックス化は別途見積もりが必要です。
入力した録音時間は保存されますか?
保存されません。計算はブラウザ上で完結し、入力したファイル数や音声時間を外部に送信しません。