Whisperモデル徹底比較|tiny〜large-v3-turboの速度・精度・VRAMを検証

WhisperApp チーム公開日: 2026年3月3日読了時間 4
XFacebook

OpenAI Whisperには、tiny からlarge-v3-turbo まで複数のモデルサイズが用意されています。「どのモデルを使えばいいの?」という疑問に答えるため、各モデルの特徴を徹底比較します。

モデル一覧と基本スペック

モデル パラメータ数 モデルサイズ 必要VRAM 相対速度
tiny 39M 75MB 約1GB 32x
base 74M 142MB 約1GB 16x
small 244M 466MB 約2GB 6x
medium 769M 1.5GB 約5GB 2x
large-v2 1550M 2.9GB 約10GB 1x
large-v3 1550M 2.9GB 約10GB 1x
large-v3-turbo 809M 1.6GB 約6GB 6x

※ 相対速度はlarge-v2を1xとした場合の目安

各モデルの特徴

tiny / base

用途: テスト、プロトタイプ、リアルタイム用途(低スペックPC)

最も軽量で高速ですが、精度は低めです。日本語では誤認識が目立つことがあります。テスト目的や、精度よりも速度を優先するケースで使用します。

small

用途: 日常的なメモ、カジュアルな文字起こし

バランスの取れたモデルです。VRAMが2GB程度のGPUでも動作し、日常的な用途であれば十分な精度を提供します。

medium

用途: ビジネス文書、議事録(中品質)

多くの用途で実用的な精度を提供します。VRAMが5GB程度のGPUで動作するため、ミドルレンジのGPUでも利用可能です。

large-v2 / large-v3

用途: 高品質な文字起こし、正確性が最重要な場面

最大のモデルで最高精度を提供します。large-v3はv2に比べて多言語性能が改善されています。VRAM 10GB以上のGPU(RTX 3080以上)が推奨です。

large-v3-turbo(おすすめ)

用途: ほぼすべての用途に最適

2024年10月にリリースされた比較的新しいモデルです。large-v3のデコーダー層を32層から4層に削減した蒸留モデルで、以下の特徴があります。

  • 精度: large-v3とほぼ同等(WER差は1%未満)
  • 速度: large-v3の約6倍高速
  • VRAM: 約6GB(large-v3の約60%)
  • サイズ: 1.6GB(large-v3の約55%)

用途別おすすめモデル

用途 おすすめモデル 理由
議事録・ビジネス文書 large-v3-turbo 高精度かつ高速
動画の字幕制作 large-v3-turbo / large-v3 精度重視
リアルタイム文字起こし large-v3-turbo / small 速度と精度のバランス
大量ファイルのバッチ処理 large-v3-turbo 高速処理で時間短縮
VRAM 4GB以下のGPU small VRAMに収まる最大モデル
CPU環境(GPUなし) tiny / base 処理時間を短縮
テスト・開発 tiny 最速で結果確認

GPU VRAMとモデル選択の目安

GPU VRAM 推奨モデル
GTX 1650 / RTX 3050 4GB small
RTX 3060 / RTX 4060 8GB large-v3-turbo
RTX 3070 / RTX 4070 8-12GB large-v3-turbo / large-v3
RTX 3080 / RTX 4080以上 10-16GB large-v3

WhisperAppでは、PCに搭載されたGPUを自動検出し、最適なバックエンド(CUDA、OpenVINO、Vulkan)を自動選択します。モデルのダウンロードもアプリ内からワンクリックで行えます。

まとめ

迷ったらlarge-v3-turboを選びましょう。ほぼすべての用途で最適な精度と速度のバランスを提供します。

VRAMが不足する場合はsmall、最高精度が必要な場合はlarge-v3と、用途に応じて使い分けることで、常にベストな結果を得られます。

音声を、テキストに。

WhisperAppは高精度なAI文字起こしをローカルで実行。プライバシーを守りながら、会議・インタビュー・動画の文字起こしを効率化します。

7日間無料トライアル・クレジットカード不要

関連記事