YouTube動画を文字起こしする5つの方法|字幕テキスト化からSRT出力まで

WhisperApp チーム公開日: 2026年3月2日読了時間 5
XFacebook

YouTube動画の内容をテキスト化したい場面は多くあります。動画の内容をメモしたい、ブログ記事にまとめたい、字幕ファイルを作りたいなど、目的はさまざまです。

この記事では、YouTube動画を文字起こしする5つの方法を、手軽さ・精度・機能の観点で比較しながら紹介します。

方法1: YouTubeの自動字幕機能を利用する

最も手軽な方法は、YouTube自体が提供する自動字幕(自動キャプション)を利用することです。

手順

  1. YouTubeで対象の動画を開く
  2. 動画プレイヤーの右下にある「字幕」ボタン(CCマーク)をクリック
  3. 字幕が表示される

テキストとしてコピーする方法

  1. 動画の下にある「...」(その他)をクリック
  2. 「文字起こしを表示」を選択
  3. タイムスタンプ付きの文字起こしが表示される
  4. テキストを選択してコピー

メリット・デメリット

  • メリット: 追加のツールが不要、無料
  • デメリット: 精度が低い場合がある(特に日本語)、SRT/VTTファイルとしてダウンロードできない、字幕がない動画には使えない

方法2: Chrome拡張機能を使う

YouTube字幕のダウンロードに特化したChrome拡張機能がいくつかあります。

代表的な拡張機能

  • YouTube Summary with ChatGPT: 字幕テキストの取得とAI要約
  • Glasp: YouTubeの字幕をテキストでコピー

メリット・デメリット

  • メリット: ブラウザから直接操作できる、無料のものが多い
  • デメリット: YouTubeの字幕データに依存(字幕がない動画には対応不可)、精度はYouTubeの自動字幕と同等

方法3: yt-dlpで字幕をダウンロードする

yt-dlpはオープンソースのコマンドラインツールで、YouTubeから字幕ファイルを直接ダウンロードできます。

手順

# 利用可能な字幕一覧を確認
yt-dlp --list-subs "https://www.youtube.com/watch?v=動画ID"

# 自動字幕をSRT形式でダウンロード
yt-dlp --write-auto-sub --sub-lang ja --convert-subs srt --skip-download "https://www.youtube.com/watch?v=動画ID"

メリット・デメリット

  • メリット: SRT/VTTファイルとして直接ダウンロード可能、バッチ処理に対応
  • デメリット: コマンドラインの知識が必要、YouTubeの字幕データに依存

方法4: 動画をダウンロードしてWhisperで文字起こし

YouTubeの自動字幕に頼らず、動画の音声そのものをAI(Whisper)で文字起こしする方法です。字幕がない動画にも対応でき、精度も高くなります。

コマンドラインでの手順

# yt-dlpで音声をダウンロード
yt-dlp -x --audio-format mp3 "https://www.youtube.com/watch?v=動画ID"

# Whisperで文字起こし
whisper downloaded_audio.mp3 --model medium --language ja --output_format srt

GUIツールを使う場合

コマンドライン操作が不要なGUIツールも存在します。WhisperAppはyt-dlp統合を搭載しており、URLを入力するだけで動画のダウンロードから文字起こしまでを一括で処理できます。

メリット・デメリット

  • メリット: 字幕のない動画にも対応、高い精度、SRT/VTTファイルを直接生成
  • デメリット: ダウンロードと処理に時間がかかる、コマンドラインの場合はセットアップが必要

方法5: 動画をリアルタイムで文字起こし

動画をダウンロードせず、PCで再生しながらリアルタイムで文字起こしする方法です。

仕組み

PCの内部音声(ステレオミキサーやWASAPIループバック)をキャプチャし、リアルタイムでWhisperモデルに入力して文字起こしします。WhisperAppのリアルタイム文字起こし機能を使うと、YouTube動画を再生するだけでテキスト化できます。

メリット・デメリット

  • メリット: ダウンロード不要、YouTube以外の動画サービスにも対応
  • デメリット: リアルタイム処理のため再生速度と同じ時間がかかる、再生環境のノイズに影響される

方法比較まとめ

方法 手軽さ 精度 字幕なし動画 SRT出力
YouTube自動字幕 非常に簡単 不可 不可
Chrome拡張 簡単 不可 ツールによる
yt-dlp字幕DL やや難 不可 可能
DL + Whisper やや難 対応 可能
リアルタイム 簡単 対応 ツールによる

まとめ

YouTube動画の文字起こし方法は、目的と技術的なスキルに応じて選ぶのがベストです。

  • 手軽さ重視: YouTube自動字幕 or Chrome拡張
  • 精度重視: Whisperでの文字起こし
  • 字幕ファイルが必要: yt-dlp + Whisper、またはWhisperApp

特に字幕のない動画や精度を重視する場合は、Whisperによる文字起こしが最も信頼性が高い方法です。GUIツールを使えば、技術的な知識がなくてもすぐに始められます。

音声を、テキストに。

WhisperAppは高精度なAI文字起こしをローカルで実行。プライバシーを守りながら、会議・インタビュー・動画の文字起こしを効率化します。

7日間無料トライアル・クレジットカード不要

関連記事