OpenAI Whisperには、tiny からlarge-v3-turbo まで複数のモデルサイズが用意されています。「どのモデルを使えばいいの？」という疑問に答えるため、各モデルの特徴を徹底比較します。

モデル一覧と基本スペック

モデル	パラメータ数	モデルサイズ	必要VRAM	相対速度
tiny	39M	75MB	約1GB	~10x
base	74M	142MB	約1GB	~7x
small	244M	466MB	約2GB	~4x
medium	769M	1.5GB	約5GB	~2x
large-v2	1550M	2.9GB	約10GB	1x
large-v3	1550M	2.9GB	約10GB	1x
large-v3-turbo	809M	1.6GB	約6GB	~8x

※ 相対速度はlarge-v2を1xとした場合の目安

各モデルの特徴

用途: テスト、プロトタイプ、リアルタイム用途（低スペックPC）

最も軽量で高速ですが、精度は低めです。日本語では誤認識が目立つことがあります。テスト目的や、精度よりも速度を優先するケースで使用します。

用途: 日常的なメモ、カジュアルな文字起こし

バランスの取れたモデルです。VRAMが2GB程度のGPUでも動作し、日常的な用途であれば十分な精度を提供します。

用途: ビジネス文書、議事録（中品質）

多くの用途で実用的な精度を提供します。VRAMが5GB程度のGPUで動作するため、ミドルレンジのGPUでも利用可能です。

用途: 高品質な文字起こし、正確性が最重要な場面

最大のモデルで最高精度を提供します。large-v3はv2に比べて多言語性能が改善されています。VRAM 10GB以上のGPU（RTX 3080以上）が推奨です。

用途: ほぼすべての用途に最適

2024年10月にリリースされた比較的新しいモデルです。large-v3のデコーダー層を32層から4層に削減した蒸留モデルで、以下の特徴があります。

WhisperAppでは、PCに搭載されたGPUを自動検出し、最適なバックエンド（CUDA、OpenVINO、Vulkan）を自動選択します。モデルのダウンロードもアプリ内からワンクリックで行えます。

迷ったらlarge-v3-turboを選びましょう。ほぼすべての用途で最適な精度と速度のバランスを提供します。

VRAMが不足する場合はsmall、最高精度が必要な場合はlarge-v3と、用途に応じて使い分けることで、常にベストな結果を得られます。