音声認識（ASR）といえば OpenAI の Whisper が定番ですが、スマートフォンや Raspberry Pi のようなエッジデバイスで動かすには、モデルサイズと処理速度がネックになります。

そこで登場したのが Moonshine Voice ASR です。Whisper の 1/10 以下のパラメータ数で、CPU だけでリアルタイムを大幅に超える速度を実現する軽量モデルです。

この記事では、Moonshine の特徴を Whisper と比較しながら解説し、日本語での実力を紹介します。

Moonshine Voice ASR とは

Moonshine Voice は、TensorFlow チームの初期メンバーが共同創業した Moonshine AI（旧 Useful Sensors）が開発するオープンソースの音声認識モデルです。

最大の特徴は エッジデバイスでのリアルタイム動作を前提に設計されている こと。スマートフォンの CPU だけで十分な速度が出るよう、モデルアーキテクチャから最適化されています。

主な特徴

超軽量: Base モデルで 61.5M パラメータ（Whisper Large-v3 の約 1/25）
GPU 不要: CPU のみで 30〜60 倍速のリアルタイム処理
オープンソース: 英語モデルは MIT、日本語を含む非英語モデルは Moonshine Community License（年商100万ドル未満なら商用利用可）
多言語対応: 日本語を含む 6 言語の単言語特化モデル（Flavors 世代）
ストリーミング対応: v2 世代では 320ms の低遅延リアルタイム認識（現時点では英語のみ）

Moonshine と Whisper の違い

サイズと速度

項目	Moonshine Base JA	Whisper Large-v3
パラメータ数	61.5M	1,550M
モデルサイズ	約 135MB	約 3GB
GPU 必要性	不要	事実上必須
RTF (CPU)	0.016〜0.026	0.5〜2.0+

RTF（Real-Time Factor）は処理時間と音声長の比率で、小さいほど高速です。Moonshine は CPU 16 スレッドで RTF 0.016〜0.026、つまり 38〜61 倍速 で処理できます。72 分の音声を約 1.2 分で文字起こし可能です。

一方、Whisper Large-v3 を CPU で動かすと RTF 0.5〜2.0 以上で、リアルタイム処理すら難しくなります。

精度

精度面では Whisper に軍配が上がります。

Whisper Large-v3: 99 言語対応、1,550M パラメータの大規模モデルで高精度
Moonshine Base JA: 日本語特化、公式 CER 13.62%（FLEURS データセット）

Moonshine は Whisper の 1/25 のパラメータ数ながら、日常的な会話や講義の文字起こしでは十分に実用的な結果が得られます。ただし、Whisper Large-v3 には精度面で及びません。

アーキテクチャの違い

Whisper は固定長（30 秒）の入力を前提とした設計で、短い音声でもゼロパディングして 30 秒分の計算を行います。

Moonshine は 音声の長さに比例した計算量 で処理します。5 秒の音声なら 5 秒分の計算しか行いません。これが短いセグメントでの圧倒的な速度の理由です。

Moonshine の世代

Moonshine には 3 つの世代があり、それぞれ特徴が異なります。

Original Moonshine（2024年10月）

最初の世代。英語のみ 対応で、Tiny（27.1M）と Base（61.5M）の 2 サイズ。論文で Whisper を大幅に上回る速度を実証しました。

Flavors of Moonshine（2025年9月）

日本語を含む 6 言語 の単言語特化モデルを追加。アーキテクチャは v1 と同じですが、言語ごとに最適化することで、同サイズの多言語モデルより高精度を実現しています。

Moonshine Streaming（2026年2月）

最新世代。320ms の低遅延リアルタイム認識 を実現する全く新しいアーキテクチャ（sliding-window self-attention）。英語の Medium Streaming モデル（245M）が Whisper Large-v3（1,550M）と同等精度を約 1/6 のパラメータで達成しています。2026年3月時点では英語のみ 対応で、日本語モデルは Flavors 世代（v1 アーキテクチャ）です。

日本語での実力

Moonshine の日本語モデル（Flavors 世代）を実際にテストした結果を紹介します。

テスト条件

テスト音声: 11 分の講義音声、72 分の講義音声
モデル: Moonshine Base JA（61.5M params）
環境: Intel Core Ultra 9 285H / 32GB RAM（GPU なし、CPU のみ）

処理速度

音声	処理時間	RTF	速度
11 分 (Base JA)	約 18 秒	0.026	38 倍速
11 分 (Tiny JA)	約 11 秒	0.016	62 倍速
72 分 (Base JA)	約 71 秒	0.016	61 倍速

認識精度

人手で補正したリファレンスとの LCS（最長共通部分列）ベース比較:

テスト	F1 スコア
11 分 Base JA	96.98%
11 分 Tiny JA	93.60%
72 分 Base JA	87.97%

11 分の音声では F1 97% と高精度ですが、72 分の長時間音声では 88% に低下します。これは音声の複雑さの違い（72 分音声は話者交代、質疑応答、無音区間が多い）によるものです。

得意なこと・苦手なこと

得意:

一般的な日本語の発話（講義、プレゼン、会話）
短〜中程度のセグメント

苦手:

固有名詞（人名、専門用語）— Whisper の initial_prompt のような文脈ヒント機能がない
同音異義語の判別（文脈を考慮しない文字変換）
句読点を出力しない（必要なら後処理で追加が必要）
非常に長い発話セグメント（ONNX 量子化モデルの入力長上限が約 10 秒）

なぜエッジデバイスに最適なのか

Moonshine がスマートフォンやエッジデバイスに適している理由をまとめます。

1. CPU だけで十分高速

GPU がないデバイスでも 30 倍速以上のリアルタイム処理が可能です。スマートフォンの CPU でも十分な速度が出ます。

2. メモリ消費が少ない

モデルサイズが約 135MB（Base）/ 約 60MB（Tiny）と軽量で、スマートフォンのメモリに余裕で収まります。

3. 完全オフライン動作

インターネット接続なしで文字起こしが完結します。機密性の高い音声でも安心して利用できます。

4. バッテリー消費を抑えられる

GPU を使わず CPU のみで処理するため、バッテリー消費が抑えられます。モバイルアプリでは重要なポイントです。

ライセンスに関する注意

Moonshine のライセンスは言語によって異なります:

英語モデル: MIT License（完全フリー）
日本語を含む非英語モデル: Moonshine Community License
- 研究・非商用: 無制限 OK
- 商用利用: 年商 100 万ドル（約 1.5 億円）未満なら OK（要登録）
- 年商 100 万ドル以上: エンタープライズライセンスが必要

詳細は Moonshine AI の公式サイトで確認してください。

WhisperApp との関係

WhisperApp のデスクトップ版は OpenAI Whisper をメインエンジンとして採用しており、GPU を活用した高精度な文字起こしに強みがあります。

一方、現在開発中の WhisperApp モバイル版（Android）では Moonshine を音声認識エンジンとして搭載 しています。スマートフォンでは GPU が使えない、または制限されることが多いため、CPU のみで高速に動作する Moonshine が最適な選択肢となります。

デスクトップで培った文字起こしのノウハウ（話者分離、LLM 統合、字幕生成など）をモバイルでも活かしつつ、エンジンをデバイスに最適なものに切り替える。これが WhisperApp の戦略です。

まとめ

観点	Moonshine	Whisper
速度	CPU で 30〜60 倍速	GPU 推奨、CPU だと遅い
精度	実用レベル（CER 13.62%）	高精度
サイズ	60〜135MB	1.5〜3GB
オフライン	完全対応	完全対応
適した環境	スマホ・エッジ・CPU	デスクトップ・GPU

Moonshine は Whisper の完全な代替ではありませんが、エッジデバイスでの高速オフライン文字起こし という用途では非常に強力です。速度重視・モバイル・プライバシー重視なら Moonshine、精度重視・デスクトップなら Whisper という使い分けがベストです。

技術的な詳細（VAD パラメータチューニング、パイプライン構築、ベンチマーク検証）に興味がある方は、Zenn の技術記事で詳しく解説しています。

Moonshine Voice ASR とは？Whisperに代わるエッジ向け音声認識モデルを解説