開発ロードマップ

WhisperApp の今後の展開予定をご紹介します

最終更新: 2026年2月27日

1

Phase 1 — デスクトップ版

Windows デスクトップアプリケーション

現在

完全ローカル処理による高精度な文字起こしと AI アシスタント。すべての処理がお使いの PC 上で完結し、音声データが外部に送信されることはありません。

リリース済み

高精度文字起こし（多言語対応・使用モデルにより対応言語が異なります）
リアルタイム文字起こし
話者分離（誰が話したかを自動判別）
AI アシスタント（ローカル LLM によるチャット・要約・翻訳）
動画字幕生成（SRT / VTT 形式）
スマートバックエンド最適化（GPU / NPU / CPU を自動選択）
複数の推論エンジンに対応（whisper.cpp / sherpa-onnx）
好きなモデルを自由に持ち込める — Whisper も LLM も、使いたいモデルを自分で選んで導入可能。迷ったらおすすめガイドですぐ始められます

開発中

モバイルアプリ（Android） — PC との連携により、スマートフォンから文字起こしの操作・確認が可能に
LLM 接続先の拡張 — 内蔵エンジンに加え、ローカルで動作する他の LLM サーバーや外部 API への接続に対応
文字起こし履歴 — 過去の認識結果を一覧表示し、いつでも確認・再利用
LLM 文字起こし補正 — ローカル LLM を活用し、誤認識の修正や不自然なセグメント分割の補正など、文字起こし結果を自動で整形
ドキュメント自動生成 — 文字起こし結果を AI が自動で整形し、議事録や報告書として docx 等にエクスポート
LLM ウェブ検索 — AI アシスタントがインターネット上の情報を参照して回答
辞書機能 — 固有名詞や専門用語を事前登録し、文字起こしの認識精度を向上

2

Phase 2 — CLI 版 & マルチ OS 対応

コマンドライン対応とクロスプラットフォーム展開

コマンドラインから WhisperApp の全機能にアクセス。UI 非依存のコアエンジンとして、あらゆる環境・ワークフローに統合できます。

UI とロジックの完全分離 — デスクトップ版のビジネスロジックを独立したコアライブラリとして再構築
バッチ処理 — 大量の音声ファイルをスクリプトで一括処理
パイプライン統合 — 既存の業務ワークフローや自動化スクリプトへの組み込み
Linux / macOS 対応 — コアエンジンの分離により、Windows 以外の OS でも動作可能に

CLI 使用例

$ whisperapp transcribe audio.mp3 --diarize --speakers 3
$ whisperapp export meeting.wav --format docx --summarize

3

Phase 3 — サーバー版 / 法人向けソリューション

エンタープライズ環境への展開

ヘッドレスサーバーとして動作し、チームや組織全体での共有利用を実現。社内ネットワーク内で完結するため、機密性の高い音声データを外部に出さずに運用できます。

サーバー機能

管理 Web UI — ブラウザから操作・設定（ルーターや NAS の管理画面のような直感的な UI）
マルチユーザー & ジョブキュー — 複数ユーザーからのリクエストを効率的に処理
マルチ GPU スケジューリング — 複数の GPU リソースを自動的に割り当て・負荷分散
LLM 展開モード — 常時起動 / アイドリングストップ / オンデマンドから選択し、リソース消費を最適化
RAG 機能 — 指定したディレクトリ内の社内ドキュメントをもとに、AI が関連情報を参照して回答
CLI 管理ツール（whisperapp-admin） — サーバーの設定・監視をコマンドラインから操作

法人向け展開

オンプレミスサーバー導入支援
プリインストール済みサーバー — 最小限のネットワーク設定ですぐに導入可能な専用ハードウェア
社内ネットワーク内で完結 — データが外部に出ない安心設計

4

Phase 4 — クラウドサービス

SaaS 形態でのサービス提供

サーバー構築不要で、あらゆるデバイスから利用できる AI 文字起こしプラットフォーム。主要 AI プロバイダーの API を活用し、インフラ管理コストを最小化。他社サービスよりも手頃な価格で提供します。

クラウドホスティング版 — サブスクリプションですぐに利用開始、サーバー構築や GPU の用意は不要
マルチクライアント対応 — Web ブラウザ / モバイルアプリ / デスクトップ軽量クライアント
マネージドサービス — サーバー導入が難しい企業向けに、運用込みのクラウドソリューションを提供
GPU クラウド環境 — 任意の Whisper モデルやローカル LLM を自由に実行できるクラウドサーバー

※ 本ロードマップは現時点での開発方針であり、内容・時期は予告なく変更される場合があります。掲載されている機能の実装を保証するものではありません。

今すぐダウンロード

高精度な文字起こし、話者分離、リアルタイム認識、ローカルLLMチャットを搭載

ダウンロード