OpenAI Whisperには、tiny からlarge-v3-turbo まで複数のモデルサイズが用意されています。「どのモデルを使えばいいの?」という疑問に答えるため、各モデルの特徴を徹底比較します。
モデル一覧と基本スペック
| モデル | パラメータ数 | モデルサイズ | 必要VRAM | 相対速度 |
|---|---|---|---|---|
| tiny | 39M | 75MB | 約1GB | 32x |
| base | 74M | 142MB | 約1GB | 16x |
| small | 244M | 466MB | 約2GB | 6x |
| medium | 769M | 1.5GB | 約5GB | 2x |
| large-v2 | 1550M | 2.9GB | 約10GB | 1x |
| large-v3 | 1550M | 2.9GB | 約10GB | 1x |
| large-v3-turbo | 809M | 1.6GB | 約6GB | 6x |
※ 相対速度はlarge-v2を1xとした場合の目安
各モデルの特徴
tiny / base
用途: テスト、プロトタイプ、リアルタイム用途(低スペックPC)
最も軽量で高速ですが、精度は低めです。日本語では誤認識が目立つことがあります。テスト目的や、精度よりも速度を優先するケースで使用します。
small
用途: 日常的なメモ、カジュアルな文字起こし
バランスの取れたモデルです。VRAMが2GB程度のGPUでも動作し、日常的な用途であれば十分な精度を提供します。
medium
用途: ビジネス文書、議事録(中品質)
多くの用途で実用的な精度を提供します。VRAMが5GB程度のGPUで動作するため、ミドルレンジのGPUでも利用可能です。
large-v2 / large-v3
用途: 高品質な文字起こし、正確性が最重要な場面
最大のモデルで最高精度を提供します。large-v3はv2に比べて多言語性能が改善されています。VRAM 10GB以上のGPU(RTX 3080以上)が推奨です。
large-v3-turbo(おすすめ)
用途: ほぼすべての用途に最適
2024年10月にリリースされた比較的新しいモデルです。large-v3のデコーダー層を32層から4層に削減した蒸留モデルで、以下の特徴があります。
- 精度: large-v3とほぼ同等(WER差は1%未満)
- 速度: large-v3の約6倍高速
- VRAM: 約6GB(large-v3の約60%)
- サイズ: 1.6GB(large-v3の約55%)
用途別おすすめモデル
| 用途 | おすすめモデル | 理由 |
|---|---|---|
| 議事録・ビジネス文書 | large-v3-turbo | 高精度かつ高速 |
| 動画の字幕制作 | large-v3-turbo / large-v3 | 精度重視 |
| リアルタイム文字起こし | large-v3-turbo / small | 速度と精度のバランス |
| 大量ファイルのバッチ処理 | large-v3-turbo | 高速処理で時間短縮 |
| VRAM 4GB以下のGPU | small | VRAMに収まる最大モデル |
| CPU環境(GPUなし) | tiny / base | 処理時間を短縮 |
| テスト・開発 | tiny | 最速で結果確認 |
GPU VRAMとモデル選択の目安
| GPU | VRAM | 推奨モデル |
|---|---|---|
| GTX 1650 / RTX 3050 | 4GB | small |
| RTX 3060 / RTX 4060 | 8GB | large-v3-turbo |
| RTX 3070 / RTX 4070 | 8-12GB | large-v3-turbo / large-v3 |
| RTX 3080 / RTX 4080以上 | 10-16GB | large-v3 |
WhisperAppでは、PCに搭載されたGPUを自動検出し、最適なバックエンド(CUDA、OpenVINO、Vulkan)を自動選択します。モデルのダウンロードもアプリ内からワンクリックで行えます。
まとめ
迷ったらlarge-v3-turboを選びましょう。ほぼすべての用途で最適な精度と速度のバランスを提供します。
VRAMが不足する場合はsmall、最高精度が必要な場合はlarge-v3と、用途に応じて使い分けることで、常にベストな結果を得られます。



