「Whisperを使いたいけど、GPUを搭載していないPCしかない」という方は少なくありません。結論から言うと、GPUがなくてもWhisperは動作します。ただし、処理速度に大きな差が出ます。
この記事では、CPU環境でのWhisperの実行方法と、快適に使うためのコツを解説します。
GPU vs CPU: 処理速度の違い
なぜGPUが速いのか
Whisperのようなディープラーニングモデルは、大量の行列演算を並列処理します。GPUは数千のコアで並列処理するため、数十コアのCPUに比べて圧倒的に高速です。
処理速度の目安
10分の音声ファイルを文字起こしした場合の処理時間目安:
| モデル | GPU (RTX 3060) | CPU (Core i7) |
|---|---|---|
| tiny | 約5秒 | 約30秒 |
| base | 約8秒 | 約1分 |
| small | 約20秒 | 約4分 |
| medium | 約50秒 | 約15分 |
| large-v3-turbo | 約20秒 | 約10分 |
| large-v3 | 約2分 | 約30分以上 |
※ 実際の速度はCPUの世代・コア数・メモリ量によって変動します
CPU環境でWhisperを使う方法
方法1: OpenAI Whisper(公式)
pip install openai-whisper
# CPUで実行(deviceを指定しなければ自動でCPUが使用される)
whisper audio.mp3 --model small --language ja
GPUが検出されない環境では自動的にCPUで実行されます。
方法2: faster-whisper(推奨)
faster-whisperはCTranslate2で最適化されており、CPU環境でも公式Whisperより高速に動作します。
pip install faster-whisper
from faster_whisper import WhisperModel
# CPUで実行
model = WhisperModel("small", device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3", language="ja")
ポイント: compute_type="int8" を指定すると、モデルを8bit整数に量子化し、CPU環境でさらに高速化・省メモリ化できます。
方法3: GUIアプリを使う
WhisperAppはGPUが搭載されていないPCでもCPU実行に自動で切り替わります。モデルの選択やダウンロードがGUI上で行え、コマンドラインの知識は不要です。
CPU環境で快適に使うコツ
1. 小さいモデルを選ぶ
CPU環境では処理速度が制限されるため、small(244M)以下のモデルが実用的です。mediumも使えますが、処理時間が長くなります。
2. int8量子化を使う
faster-whisperの compute_type="int8" はCPU環境での処理を大幅に高速化します。精度の低下はほぼありません。
3. 音声を分割する
長時間の音声は分割して処理すると、メモリ使用量を抑えられます。
4. バックグラウンドで実行する
CPUでの処理中はPCが重くなるため、文字起こしをバックグラウンドで実行し、処理が終わるのを待つのが現実的です。
GPUの追加を検討する
頻繁に文字起こしを行う場合は、GPUの導入を検討する価値があります。
| GPU | 価格帯 | VRAM | おすすめモデル |
|---|---|---|---|
| RTX 3050 | 約2.5万円 | 4-8GB | small / medium |
| RTX 4060 | 約4万円 | 8GB | large-v3-turbo |
| RTX 4070 | 約8万円 | 12GB | large-v3 |
Intel製GPUをお持ちの場合、WhisperAppのOpenVINOバックエンドで高速化が可能です。また、Vulkan対応GPUでもある程度の高速化が見込めます。
まとめ
GPUがなくてもWhisperは使えます。CPU環境ではsmallモデル+faster-whisper(int8量子化)の組み合わせが最も実用的です。
ただし、頻繁に文字起こしを行うなら、GPUの導入で作業効率が劇的に向上します。WhisperAppはCPU/GPU環境を自動検出し、最適な設定で動作するため、PCのスペックに関わらずすぐに文字起こしを始められます。



