機能紹介
WhisperAppでできること — 使い方に沿って機能をご紹介します
すべてオフラインで完結
WhisperAppの全機能はインターネット接続なしで動作します。音声データがサーバーに送信されることはなく、プライバシーを完全に保護。機密性の高い会議録やインタビューも安心して処理できます。
ファイル文字起こし
音声・動画ファイルをドラッグ&ドロップで追加し、ワンクリックで高精度なテキストに変換。会議録やインタビュー、講演の記録など、さまざまな音声の文字起こしに対応します。
- CUDA / OpenVINO / Vulkan / CPU の4バックエンドを自動選択
- バッチ並列処理で複数ファイルを同時に文字起こし
- 繰り返し検出・ウォッチドッグで処理エラーを自動回復
- 完了済みタスクから直接エディタやLLMで開ける
リアルタイム文字起こし
マイクやPC内部の音声を録音しながら、リアルタイムでテキスト化。会議やインタビューの最中にメモを取る必要がなくなります。
- マイク録音との同時動作 — 録音ファイルとテキストの両方を取得
- PC内部音声(システム全体/特定アプリ)のリアルタイム認識(Pro版)
- レベルメーターで入力音量をリアルタイム確認
話者分離Pro版
複数の話者がいる音声から「誰が何を話したか」を自動で識別。会議やインタビューの議事録作成に不可欠な機能です。
- 専用エンジンによる高精度な話者分離
- 話者数の自動検出 / 手動指定(2〜10人)をファイルごとに設定可能
- 24色パレットによる話者色分けでエディタ・音声バー上で視覚的に識別
- 話者タグの追加・名前変更・削除、バッチでの話者変更にも対応
エディタ
文字起こし結果を効率的に仕上げるための専用編集ツール。話者分離の有無にかかわらず使用でき、セグメントごとの音声再生、キーボードだけで完結する操作体系、自動復旧機能を備えています。議事録やインタビュー記録の校正作業を大幅に効率化します。
- 全操作がキーボードのみで完結(E=編集, D=分割, M=統合, T=タイミング, S=話者, Space=再生, ↑↓=移動)
- 自動復旧: 編集中にアプリが閉じてもPCが落ちても、次回起動時に編集途中の状態から復元
- 話者色分け付き音声バー — クリックでシーク、全体の構成を視覚的に把握
- 変速再生(0.5x〜2.0x)— 速度変更用の音声ファイルをバックグラウンドで事前生成
- マルチタブ対応 — 複数ファイルを独立した状態で同時に編集
- 11種類の操作すべてにアンドゥ/リドゥ対応(テキスト編集、話者変更、分割、統合、削除、挿入、タイミング調整など)
- セグメントのタイムスタンプ調整時、隣接セグメントとの重なりを自動検出して解決策を提案
3モード録音 & ダウンロード
マイク、PC内部音声、YouTube/URL ダウンロードの3つの方法で音声を取得。録音した音声はそのまま文字起こしキューに追加できるので、録音→文字起こしの流れがシームレスです。
マイク録音
デバイスを選んで録音開始。WAV/FLAC/MP3/AAC/OGG/OPUSの6フォーマットで保存。リアルタイム文字起こしとの併用も可能。
内部オーディオキャプチャ(Pro版)Pro版
PCから出力される音声をキャプチャ。システム全体の音声はもちろん、特定のアプリケーション(Zoom、Teams等)を指定して、そのアプリの音声だけを録音することも可能。
YouTube/URLダウンロード(Pro版)Pro版
YouTubeなどの動画URLを貼り付けてダウンロード。音声のみ抽出や、映像付き(画質選択)にも対応。ダウンロード後は自動で文字起こしキューに追加。
- 録音完了後にファイルリストへ自動追加
- レベルメーターと録音タイマーでリアルタイムモニタリング
ローカルLLM(AI分析・要約)Pro版
ローカルで動作するAIチャット機能。文字起こし結果を読み込ませて「要約して」「重要なポイントは?」と質問するだけで、AIが内容を分析。すべてローカルで処理されるため、機密データも安全に扱えます。
- ストリーミング応答でリアルタイムにAIの回答を表示
- プロンプトテンプレートを自由に作成・編集・管理
- 会話履歴の保存・名前変更・復元・エクスポート
- コンテキストサイズの調整、LLMサーバーの起動/停止をGUIから制御
動画字幕の生成Pro版
文字起こし結果を使って、動画に字幕を追加。焼き付け(ハードサブ)とトラック埋め込み(ソフトサブ)の2つの方式に対応し、YouTubeアップロード用の字幕ファイルとしても活用できます。
- ハードサブ: 映像に直接焼き付け(どの環境でも字幕表示)
- ソフトサブ: 字幕トラックとして埋め込み(ON/OFF切替可能)
- フォント・サイズ・色・位置などのスタイルをカスタマイズ
スマートフォン連携Pro版
Android版WhisperApp(無料)と連携して、スマートフォンで手軽に録音し、PCのGPU性能を活かした高速・高精度な文字起こしが可能。外出先での録音をデスクで処理するワークフローに最適です。(現在開発中 — 今後のアップデートで提供予定)
- Wi-Fi経由のローカル通信 — インターネット不要
- WebSocketで文字起こしの進捗をリアルタイム表示
- PCのGPU(CUDA/OpenVINO/Vulkan)をスマホから活用
モデル管理 & ModelHub
音声認識とLLMで使用するAIモデルを自由に選択・管理できます。初心者にはおすすめモデルを提示し、上級者にはHuggingFaceから任意のモデルを追加する自由を提供。GPU/VRAM情報の自動検出により、自分の環境で実行可能かどうかの判断もサポートします。
- おすすめモデル: 各サイズに最適な量子化を「おすすめ」バッジで表示。迷わず導入できる
- カスタムモデル: HuggingFace検索や直接URLから任意のモデルを追加可能(FTモデル等)
- GPU/VRAM自動検出: ハードウェア情報を自動取得し、ステータスバーに表示
- LLMモデルにはVRAM/RAM要件が記載されており、自分の環境との照合が容易
- ASR 6モデル × 量子化 + LLM 12+シリーズ — 豊富なモデルライブラリ
- 最大3ファイル同時ダウンロード、ダウンロード済みモデルの一覧管理・削除
エンジン自動アップデート
文字起こし・LLM・音声処理など主要エンジンの更新確認・インストールをアプリ内で完結。GPUバックエンドに合ったビルドを自動選択するので、手動での差し替え作業は不要です。
- 設定画面の「更新」タブから全エンジンの状態を一覧確認
- ワンクリックで個別にアップデート・インストール
- 起動時の自動チェックと自動インストールに対応
- GPU環境に合わせたビルドを自動選択(CUDA/OpenVINO/Vulkan/CPU)
スマートバックエンド最適化
お使いのハードウェアに最適なGPUバックエンドを自動選択。電源状態もリアルタイムで検知し、ノートPCではパフォーマンスと省電力を自動で両立します。設定を一切触らなくても、常に最適な状態で動作します。
AC電源接続時
GPU優先で最大パフォーマンスを発揮。CPUリソースもフル活用し、最速の処理を実現します。
バッテリー駆動時
NPU優先の省電力動作。CPUリソースの使用を抑え、バッテリー持続時間を最大化します。
- NVIDIA GPU(CUDA)、Intel GPU/NPU(OpenVINO)、Vulkan対応GPUを自動検出し、最適なバックエンドを選択
- 電源の抜き差しをリアルタイム検知し、パフォーマンスモードと省電力モードを自動切替
- GPUエラー発生時は別のバックエンドへ自動フォールバック。常に安定動作
- Performance / Balanced / Power Saving / Auto の4プロファイルから選択可能
- 個別にバックエンドを手動選択して固定することも可能
- エンジンごとに対応バックエンドが異なり、それぞれに最適な組み合わせを自動判定