たった5分で、AIだけでYouTube Shortsを作成できる時代が来ました。
台本作成・ナレーション・映像・字幕・音楽・編集まで、すべてAIツールで完結。
しかも大半のツールは無料で利用可能です。
初心者でも再現できる実践的なワークフローを、具体的な手順と例文付きで完全公開します。
目次
5分AIワークフロー全体像
「5分」は、2回目以降のアクティブ作業時間の目安です。
初回はアカウント登録や操作習得が必要なため45~90分程度かかりますが、
それ以降は完全に5分程度で完成させられます。
すべてのステップで無料ツールを使用可能。
有料版はクオリティや上限を上げるためのオプションであり、必須ではありません。
【5分ワークフロー】
1. 台本:30~60秒
2. ナレーション:ElevenLabs無料
3. 映像:Kling/Pika無料
4. 字幕:CapCut自動
5. BGM:Suno無料
6. 編集:CapCut無料
ステップ1:台本作成(ChatGPT)
Shortsは15~60秒、文字数にして40~160語程度。
長い台本を切り詰めるのは失敗の元。最初から短い形式で書きましょう。
オススメChatGPTプロンプト
「YouTube Shorts用の台本を作成してください。 話し言葉で45~55秒程度、最初の3秒で興味を引くフック、3~4個の情報、最後にCTAを入れて。 前置きなし、無駄な言葉なし、知識のある人が話すような自然なトーンで。」
「YouTube Shorts用の台本を作成してください。 話し言葉で45~55秒程度、最初の3秒で興味を引くフック、3~4個の情報、最後にCTAを入れて。 前置きなし、無駄な言葉なし、知識のある人が話すような自然なトーンで。」
悪い台本 vs 良い台本
❌ 悪い例
「みなさんこんにちは!今日はAIツールについて紹介します。まず~」前置きが長く、離脱される
✅ 良い例
「週に10時間以上節約できるAIツール3選」最初から興味を引き、視聴者を引き留める
Shortsは視聴者維持率がすべて。すべての文が「次を聞きたい」と思わせる必要があります。
ステップ2:ナレーション(ElevenLabs)
AIナレーションの中で最も自然なElevenLabs。
無料枠で月10,000文字利用可能。Shorts200本以上に対応します。
使い方
1. 無料アカウント作成
2. Speech Synthesisを開く
3. 台本を貼り付け
4. 自然な声を選択(Adam/Rachelがオススメ)
5. 生成してMP3ダウンロード
1. 無料アカウント作成
2. Speech Synthesisを開く
3. 台本を貼り付け
4. 自然な声を選択(Adam/Rachelがオススメ)
5. 生成してMP3ダウンロード
無料版でも十分に自然で、通常の再生速度では人間との違いがほとんどわかりません。
有料版(月$5~)では自分の声をクローン可能です。
ステップ3:AI映像Bロール(Kling/Pika)
ナレーションに合わせて、文ごとに3~5秒のBロールを作成します。
Kling AI(リアル調)
無料クレジット66回/日
プロンプト例:「夜景の近代的な都市のドローン空撮、光が輝く、5秒」
無料クレジット66回/日
プロンプト例:「夜景の近代的な都市のドローン空撮、光が輝く、5秒」
Pika(アニメ・イラスト調)
無料枠利用可能
スタイル指定を追加するだけで簡単に独特の雰囲気に
無料枠利用可能
スタイル指定を追加するだけで簡単に独特の雰囲気に
45秒のShortsでは8~10クリップ必要。生成はバックグラウンドで実行可能です。
代替案:Pexels動画(完全無料)
ステップ4:自動字幕(CapCut)
2026年現在、字幕なしのShortsは大半の視聴者を失います。
音声なしで視聴する人が非常に多いため、必須作業です。
CapCutでの作成方法
動画を読み込み→「自動字幕」→言語選択→完了
正確率が非常に高く、編集も簡単です。
動画を読み込み→「自動字幕」→言語選択→完了
正確率が非常に高く、編集も簡単です。
字幕配置は画面中央がオススメ。
低すぎると一部端末で切れ、高すぎるとタイトルと衝突します。
ステップ5:BGM(Suno)
BGMはShortsの印象を大きく変えます。
無音状態は冷たく感じられ、適切なBGMで情緒やテンポが生まれます。
Sunoは無料で1日50曲生成可能。
プロンプト例:「アップビートな背景音楽、歌詞なし、ポジティブ」
BGMの音量は15~25%に抑える。ナレーションが常に明確に聞こえるように。
ステップ6:編集・納品(CapCut)
無料で高機能なCapCutがShorts編集の標準ツールになりました。
編集手順
1. 新規プロジェクトを9:16縦長で作成
2. AI映像Bロールを読み込み
3. ナレーションを配置
4. 映像を音声に合わせてトリミング
5. 自動字幕を適用
6. BGMを追加して音量調整
7. 1080p縦長で書き出し
1. 新規プロジェクトを9:16縦長で作成
2. AI映像Bロールを読み込み
3. ナレーションを配置
4. 映像を音声に合わせてトリミング
5. 自動字幕を適用
6. BGMを追加して音量調整
7. 1080p縦長で書き出し
完成時間:素材が揃えば5~10分
実例:AIツール紹介Shorts
実際にこのワークフローで作成したShortsの事例を紹介します。
台本事例
「毎週使う本当に役立つAIツール3選。1つ目:ElevenLabs。自分の声でナレーションを作成。2つ目:Kling AI。無料で毎日66個のAI映像を作成。Bロールに最適。3つ目:Descript。文字編集で音声を編集。これらで制作時間が半分になりました。リンクは概要欄へ。」
「毎週使う本当に役立つAIツール3選。1つ目:ElevenLabs。自分の声でナレーションを作成。2つ目:Kling AI。無料で毎日66個のAI映像を作成。Bロールに最適。3つ目:Descript。文字編集で音声を編集。これらで制作時間が半分になりました。リンクは概要欄へ。」
使用した映像
・波形オーディオビジュアライズ(Kling)
・AI映像生成画面(Kling)
・文字編集画面(Kling)
・データビジュアル(Pika)
・波形オーディオビジュアライズ(Kling)
・AI映像生成画面(Kling)
・文字編集画面(Kling)
・データビジュアル(Pika)
生成時間:約25分(バックグラウンド実行)
編集時間:7分
費用:0円
全ステップ無料・有料比較表
【台本】無料:ChatGPT無料 / 有料:ChatGPT Plus($20)
【ナレーション】無料:ElevenLabs / 有料:Starter($5)
【映像】無料:Kling/Pika / 有料:Kling($7)
【字幕】無料:CapCut / 有料:CapCut Pro($8)
【BGM】無料:Suno / 有料:Suno Pro($8)
【編集】無料:CapCut / 有料:Descript($24)
【ナレーション】無料:ElevenLabs / 有料:Starter($5)
【映像】無料:Kling/Pika / 有料:Kling($7)
【字幕】無料:CapCut / 有料:CapCut Pro($8)
【BGM】無料:Suno / 有料:Suno Pro($8)
【編集】無料:CapCut / 有料:Descript($24)
完全無料ですべての工程を実行可能。
有料版はクオリティや上限を上げるオプションです。
よくある失敗と回避法
失敗1:フックが遅い
最初の2~3秒で離脱が決まる。前置きなし、最も興味を引く内容から始める。
最初の2~3秒で離脱が決まる。前置きなし、最も興味を引く内容から始める。
失敗2:映像スタイルがバラバラ
リアル・アニメ・ストックを混ぜると統一感が崩れる。1スタイルに固定。
リアル・アニメ・ストックを混ぜると統一感が崩れる。1スタイルに固定。
失敗3:字幕が煩雑
フォントはシンプルに、大きさ適切、過剰なアニメーションを避ける。
フォントはシンプルに、大きさ適切、過剰なアニメーションを避ける。
失敗4:BGMが大きすぎる
15~25%が最適。ナレーションが不明瞭にならないように。
15~25%が最適。ナレーションが不明瞭にならないように。
失敗5:調整しすぎて公開しない
まず公開し、次回改善する。1回目から10回目の上達は劇的。
まず公開し、次回改善する。1回目から10回目の上達は劇的。
AI動画のクオリティを上げるコツ
AI映像のクオリティは「プロンプトの具体性」で決まります。
具体的にするべき点
・カメラアングル(空撮、接写、広角)
・ライティング(ゴールデンアワー、ネオン、スタジオ)
・動き(ゆっくりパン、静止、ズーム)
・スタイル(リアル、アニメ、シネマティック)
・時間帯・環境
・カメラアングル(空撮、接写、広角)
・ライティング(ゴールデンアワー、ネオン、スタジオ)
・動き(ゆっくりパン、静止、ズーム)
・スタイル(リアル、アニメ、シネマティック)
・時間帯・環境
曖昧なプロンプト=曖昧な映像。具体的なプロンプト=高品質な映像。
必要なものチェックリスト
・ChatGPT無料アカウント(台本)
・ElevenLabs無料アカウント(ナレーション)
・Kling/Pika無料アカウント(映像)
・Suno無料アカウント(BGM)
・CapCut無料(編集・字幕)
・YouTubeチャンネル(5分で作成可能)
・ElevenLabs無料アカウント(ナレーション)
・Kling/Pika無料アカウント(映像)
・Suno無料アカウント(BGM)
・CapCut無料(編集・字幕)
・YouTubeチャンネル(5分で作成可能)
アカウント作成:30~40分
その後の1本あたり作業時間:5~15分
本音のメリット・デメリット
メリット
・圧倒的なスピード
・完全無料で始められる
・自分が出演せずに継続可能
・大量にコンテンツを制作可能
・圧倒的なスピード
・完全無料で始められる
・自分が出演せずに継続可能
・大量にコンテンツを制作可能
デメリット
・人間の個性や臨場感には劣る
・パラソーシャルな結びつきが弱い
・クオリティの上限がプロ撮影に劣る
・人間の個性や臨場感には劣る
・パラソーシャルな結びつきが弱い
・クオリティの上限がプロ撮影に劣る
最強のクリエイターは「AIでスピードと量を担保」しつつ、
「実際の出演映像」を混ぜて親近感を生み出しています。
よくある質問(FAQ)
完全無料でShortsを作れますか?
はい。すべてのステップで無料ツールを利用可能。ChatGPT・ElevenLabs・Kling・Suno・CapCutで無料で作成できます。
作成にどれくらい時間がかかりますか?
初回は45~90分。2回目以降はアクティブ作業時間約5分で完成します。
Shortsに最適なAIナレーションは?
ElevenLabsが最も自然です。無料枠でも月に多数のShortsに対応できます。
Shortsの最適な長さは?
15~60秒。40~160語程度の台本が最適です。長い台本を削るより最初から短く書きましょう。
字幕は本当に必要ですか?
2026年現在、必須です。音声なしで視聴する人が大半であり、字幕なしでは著しくパフォーマンスが落ちます。
