動画に字幕(SRT/VTT)を自動生成する方法|AI文字起こしで字幕制作を効率化

WhisperApp チーム公開日: 2026年3月3日読了時間 5
XFacebook

動画コンテンツに字幕をつけることは、視聴者層の拡大、アクセシビリティの向上、SNSでのリーチ増加に不可欠です。しかし、手作業での字幕制作は非常に手間がかかります。1分の動画に字幕をつけるのに5〜10分かかるとも言われ、30分の動画なら2.5〜5時間の作業になります。

この記事では、AI文字起こしを活用して字幕ファイル(SRT/VTT)を自動生成する方法を解説します。

字幕ファイルの基礎知識

SRT形式とは

SRT(SubRip Text)は、最も広く使われている字幕ファイル形式です。YouTube、Premiere Pro、DaVinci Resolveなど、ほとんどの動画プラットフォームや編集ソフトが対応しています。

1
00:00:01,000 --> 00:00:04,500
こんにちは、今日のテーマは
AI文字起こしについてです。

2
00:00:05,000 --> 00:00:08,200
まずは基本的な仕組みから
説明していきましょう。

VTT形式とは

VTT(WebVTT)は、Web標準の字幕形式です。HTMLの<video>タグと直接連携でき、Webサイト上の動画に字幕を表示する場合に適しています。

WEBVTT

00:00:01.000 --> 00:00:04.500
こんにちは、今日のテーマは
AI文字起こしについてです。

00:00:05.000 --> 00:00:08.200
まずは基本的な仕組みから
説明していきましょう。

SRTとVTTの使い分け

用途 推奨形式
YouTube / 動画編集ソフト SRT
Webサイト上の動画 VTT
汎用的に使いたい SRT(VTTへの変換も容易)

AI文字起こしで字幕を自動生成する方法

方法1: Whisperコマンドラインで生成

OpenAI Whisperはコマンドラインから直接SRT/VTTファイルを出力できます。

# SRT形式で字幕を生成
whisper video.mp4 --model large-v3-turbo --language ja --output_format srt

# VTT形式で字幕を生成
whisper video.mp4 --model large-v3-turbo --language ja --output_format vtt

方法2: GUIツールで生成

コマンドライン操作が不要なGUIツールを使えば、動画ファイルをドラッグ&ドロップするだけで字幕ファイルを生成できます。WhisperAppでは、文字起こし後にSRT/VTT形式でエクスポートが可能です。

方法3: faster-whisperで高速生成

処理速度を重視する場合は、faster-whisperを使うとオリジナルのWhisperより最大4倍高速に字幕を生成できます。

字幕の品質を上げるコツ

1. 適切なモデルサイズを選ぶ

字幕の品質は文字起こしの精度に直結します。large-v3-turbo または large-v3 モデルの使用をおすすめします。

2. タイムスタンプの調整

AIが生成した字幕は、タイミングがわずかにずれることがあります。動画編集ソフトで微調整するか、WhisperAppのタイムスタンプ編集機能を使って修正できます。

3. 1行の文字数に注意

字幕が長すぎると画面を圧迫します。一般的な目安:

  • 日本語: 1行あたり20文字以内
  • 英語: 1行あたり42文字以内
  • 表示時間: 1つの字幕につき1〜7秒

4. 固有名詞の確認

AI文字起こしは固有名詞(人名、製品名、専門用語)を誤認識しやすい傾向があります。生成後に必ず確認・修正を行いましょう。

動画プラットフォーム別の字幕アップロード方法

YouTube

  1. YouTube Studioにログイン
  2. 対象の動画を選択 → 「字幕」タブ
  3. 「字幕を追加」→「ファイルをアップロード」
  4. SRTファイルを選択してアップロード

Vimeo

  1. 動画の設定画面を開く
  2. 「字幕」セクションで「ファイルをアップロード」
  3. SRTまたはVTTファイルを選択

自社サイトの動画

HTML5の<video>タグと<track>タグを使って字幕を表示:

<video controls>
  <source src="video.mp4" type="video/mp4">
  <track src="subtitles.vtt" kind="subtitles" srclang="ja" label="日本語" default>
  <track src="subtitles-en.vtt" kind="subtitles" srclang="en" label="English">
</video>

多言語字幕の作成

グローバルに動画を配信する場合、多言語字幕が必要です。Whisperは99言語に対応しているため、翻訳用の元テキストとしても優秀です。

多言語字幕のワークフロー:

  1. 元言語で字幕を自動生成(SRT形式)
  2. LLMで他言語に翻訳
  3. 翻訳後のテキストをSRT形式で保存
  4. 各言語の字幕ファイルを動画にアップロード

WhisperAppのLLM統合機能を使えば、文字起こし→翻訳の流れをアプリ内で完結できます。

まとめ

AI文字起こしを活用すれば、手作業で数時間かかっていた字幕制作を数分に短縮できます。

SRT/VTTファイルの自動生成は、YouTube投稿者、動画クリエイター、企業の動画制作チームにとって大きな業務効率化につながります。精度の高いモデルを選び、生成後の確認を行うことで、プロフェッショナルな品質の字幕を効率的に制作できます。

音声を、テキストに。

WhisperAppは高精度なAI文字起こしをローカルで実行。プライバシーを守りながら、会議・インタビュー・動画の文字起こしを効率化します。

7日間無料トライアル・クレジットカード不要

関連記事