YouTube動画の内容をテキスト化したい場面は多くあります。動画の内容をメモしたい、ブログ記事にまとめたい、字幕ファイルを作りたいなど、目的はさまざまです。
この記事では、YouTube動画を文字起こしする5つの方法を、手軽さ・精度・機能の観点で比較しながら紹介します。
方法1: YouTubeの自動字幕機能を利用する
最も手軽な方法は、YouTube自体が提供する自動字幕(自動キャプション)を利用することです。
手順
- YouTubeで対象の動画を開く
- 動画プレイヤーの右下にある「字幕」ボタン(CCマーク)をクリック
- 字幕が表示される
テキストとしてコピーする方法
- 動画の下にある「...」(その他)をクリック
- 「文字起こしを表示」を選択
- タイムスタンプ付きの文字起こしが表示される
- テキストを選択してコピー
メリット・デメリット
- メリット: 追加のツールが不要、無料
- デメリット: 精度が低い場合がある(特に日本語)、SRT/VTTファイルとしてダウンロードできない、字幕がない動画には使えない
方法2: Chrome拡張機能を使う
YouTube字幕のダウンロードに特化したChrome拡張機能がいくつかあります。
代表的な拡張機能
- YouTube Summary with ChatGPT: 字幕テキストの取得とAI要約
- Glasp: YouTubeの字幕をテキストでコピー
メリット・デメリット
- メリット: ブラウザから直接操作できる、無料のものが多い
- デメリット: YouTubeの字幕データに依存(字幕がない動画には対応不可)、精度はYouTubeの自動字幕と同等
方法3: yt-dlpで字幕をダウンロードする
yt-dlpはオープンソースのコマンドラインツールで、YouTubeから字幕ファイルを直接ダウンロードできます。
手順
# 利用可能な字幕一覧を確認
yt-dlp --list-subs "https://www.youtube.com/watch?v=動画ID"
# 自動字幕をSRT形式でダウンロード
yt-dlp --write-auto-sub --sub-lang ja --convert-subs srt --skip-download "https://www.youtube.com/watch?v=動画ID"
メリット・デメリット
- メリット: SRT/VTTファイルとして直接ダウンロード可能、バッチ処理に対応
- デメリット: コマンドラインの知識が必要、YouTubeの字幕データに依存
方法4: 動画をダウンロードしてWhisperで文字起こし
YouTubeの自動字幕に頼らず、動画の音声そのものをAI(Whisper)で文字起こしする方法です。字幕がない動画にも対応でき、精度も高くなります。
コマンドラインでの手順
# yt-dlpで音声をダウンロード
yt-dlp -x --audio-format mp3 "https://www.youtube.com/watch?v=動画ID"
# Whisperで文字起こし
whisper downloaded_audio.mp3 --model medium --language ja --output_format srt
GUIツールを使う場合
コマンドライン操作が不要なGUIツールも存在します。WhisperAppはyt-dlp統合を搭載しており、URLを入力するだけで動画のダウンロードから文字起こしまでを一括で処理できます。
メリット・デメリット
- メリット: 字幕のない動画にも対応、高い精度、SRT/VTTファイルを直接生成
- デメリット: ダウンロードと処理に時間がかかる、コマンドラインの場合はセットアップが必要
方法5: 動画をリアルタイムで文字起こし
動画をダウンロードせず、PCで再生しながらリアルタイムで文字起こしする方法です。
仕組み
PCの内部音声(ステレオミキサーやWASAPIループバック)をキャプチャし、リアルタイムでWhisperモデルに入力して文字起こしします。WhisperAppのリアルタイム文字起こし機能を使うと、YouTube動画を再生するだけでテキスト化できます。
メリット・デメリット
- メリット: ダウンロード不要、YouTube以外の動画サービスにも対応
- デメリット: リアルタイム処理のため再生速度と同じ時間がかかる、再生環境のノイズに影響される
方法比較まとめ
| 方法 | 手軽さ | 精度 | 字幕なし動画 | SRT出力 |
|---|---|---|---|---|
| YouTube自動字幕 | 非常に簡単 | 中 | 不可 | 不可 |
| Chrome拡張 | 簡単 | 中 | 不可 | ツールによる |
| yt-dlp字幕DL | やや難 | 中 | 不可 | 可能 |
| DL + Whisper | やや難 | 高 | 対応 | 可能 |
| リアルタイム | 簡単 | 高 | 対応 | ツールによる |
まとめ
YouTube動画の文字起こし方法は、目的と技術的なスキルに応じて選ぶのがベストです。
- 手軽さ重視: YouTube自動字幕 or Chrome拡張
- 精度重視: Whisperでの文字起こし
- 字幕ファイルが必要: yt-dlp + Whisper、またはWhisperApp
特に字幕のない動画や精度を重視する場合は、Whisperによる文字起こしが最も信頼性が高い方法です。GUIツールを使えば、技術的な知識がなくてもすぐに始められます。