「Whisperを使いたいけど、GPUを搭載していないPCしかない」という方は少なくありません。結論から言うと、GPUがなくてもWhisperは動作します。ただし、処理速度に大きな差が出ます。

この記事では、CPU環境でのWhisperの実行方法と、快適に使うためのコツを解説します。

GPU vs CPU: 処理速度の違い

なぜGPUが速いのか

Whisperのようなディープラーニングモデルは、大量の行列演算を並列処理します。GPUは数千のコアで並列処理するため、数十コアのCPUに比べて圧倒的に高速です。

処理速度の目安

10分の音声ファイルを文字起こしした場合の処理時間目安:

モデル	GPU (RTX 3060)	CPU (Core i7)
tiny	約5秒	約30秒
base	約8秒	約1分
small	約20秒	約4分
medium	約50秒	約15分
large-v3-turbo	約20秒	約10分
large-v3	約2分	約30分以上

※ 実際の速度はCPUの世代・コア数・メモリ量によって変動します

CPU環境でWhisperを使う方法

方法1: OpenAI Whisper（公式）

pip install openai-whisper

# CPUで実行（deviceを指定しなければ自動でCPUが使用される）
whisper audio.mp3 --model small --language ja

GPUが検出されない環境では自動的にCPUで実行されます。

方法2: faster-whisper（推奨）

faster-whisperはCTranslate2で最適化されており、CPU環境でも公式Whisperより高速に動作します。

pip install faster-whisper

from faster_whisper import WhisperModel

# CPUで実行
model = WhisperModel("small", device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3", language="ja")

ポイント: compute_type="int8" を指定すると、モデルを8bit整数に量子化し、CPU環境でさらに高速化・省メモリ化できます。

方法3: GUIアプリを使う

WhisperAppはGPUが搭載されていないPCでもCPU実行に自動で切り替わります。モデルの選択やダウンロードがGUI上で行え、コマンドラインの知識は不要です。

CPU環境で快適に使うコツ

1. 小さいモデルを選ぶ

CPU環境では処理速度が制限されるため、small（244M）以下のモデルが実用的です。mediumも使えますが、処理時間が長くなります。

2. int8量子化を使う

faster-whisperの compute_type="int8" はCPU環境での処理を大幅に高速化します。精度の低下はほぼありません。

3. 音声を分割する

長時間の音声は分割して処理すると、メモリ使用量を抑えられます。

4. バックグラウンドで実行する

CPUでの処理中はPCが重くなるため、文字起こしをバックグラウンドで実行し、処理が終わるのを待つのが現実的です。

GPUの追加を検討する

頻繁に文字起こしを行う場合は、GPUの導入を検討する価値があります。

GPU	価格帯	VRAM	おすすめモデル
RTX 3050	約3万円	6-8GB	small / medium
RTX 4060	約4万円	8GB	large-v3-turbo
RTX 4070	約8万円	12GB	large-v3

Intel製GPUをお持ちの場合、WhisperAppのOpenVINOバックエンドで高速化が可能です。また、Vulkan対応GPUでもある程度の高速化が見込めます。

まとめ

GPUがなくてもWhisperは使えます。CPU環境ではsmallモデル＋faster-whisper（int8量子化）の組み合わせが最も実用的です。

ただし、頻繁に文字起こしを行うなら、GPUの導入で作業効率が劇的に向上します。WhisperAppはCPU/GPU環境を自動検出し、最適な設定で動作するため、PCのスペックに関わらずすぐに文字起こしを始められます。

GPUなしでもWhisperは使える？CPU環境での文字起こしガイド