chatGPTとviduを活用したショートアニメの作り方

一、制作事例のご紹介

まずは、この手法を用いて制作した作品をご覧ください。

（動画埋め込み想定： https://youtu.be/aaCH-fbvzXw ）

このショートアニメは、以下のツール群を連携させることで生み出されました。

アイデア・構成・画像生成指示: ChatGPT (GPT-4o)
キャラクター画像生成: ChatGPT (DALL-E 3機能)
動画アニメーション生成: Vidu 2.0
特定演出（浮遊）: Vidu テンプレート「Balloon Me」
オリジナルBGM生成: SUNO
動画編集（音声・テロップ・タイミング調整）: Filmora
最終出力の高画質化: HitPaw VikPea
声: 私自身（妖精アーヤ）

二、制作したショートアニメの概要：「花より団子」な妖精のてんまつ

（注：「花より団子」とは日本のことわざで、美しい花（見た目の美しさ）よりも団子（実用的な美味しさ）を好むという意味。美的なものより実利を重んじる考え方を表します）

この動画では、「花より団子」を地で行く食いしん坊な妖精アーヤが、お花見の席で美味しいものに夢中になるあまり、食べ過ぎて体が風船のように膨らみ、ついには空へと飛んでいってしまう…という、少しシュールでユーモラスなショートストーリーを描いています。

（注：「お花見」は日本の伝統行事で、春に桜の花が咲く時期に桜の木の下で飲食を楽しむ集まりです）

可愛らしいキャラクターの外見と、その行動のギャップが生み出す意外性は、特にSNSなどで短時間で視聴者の心を掴むショートアニメにおいて、非常に有効な表現手法の一つです。このようなコンセプトを、AIツール群を活用することで、個人でも比較的容易に、かつ高品質に実現できる時代になりました。

三、制作フローの全体像と各ツールの役割

今回の制作は、大まかに以下の流れで進行しました。

企画・構成: ChatGPTと対話しながらストーリーとカット割りを決定。
キャラクター設定の固定: ChatGPTにキャラクター情報を記憶させる。
画像素材生成: ChatGPTに指示を出し、各カットに必要な画像を生成。
BGM生成: SUNOで動画の雰囲気に合ったBGMを作成。
アニメーション化: Viduに画像を読み込ませ、基本動作とテンプレートによる特殊効果を適用。
編集: Filmoraで各素材を結合し、ナレーション、BGM、テロップを追加、タイミングを調整。
高画質化: HitPaw VikPeaで最終出力の品質を向上。

それぞれのツールが持つ独自の強みを組み合わせ、互いに補完しあうことで、従来であれば専門的なスキルや多くの時間を要したアニメーション制作が、個人の手でも実現可能となります。

四、核となるChatGPT活用術：企画から画像生成までを一元管理

今回の制作プロセスにおいて、特に中心的な役割を果たしたのがChatGPT（GPT-4o）です。単なるテキスト生成ツールとしてではなく、企画立案のパートナー、キャラクター設定のデータベース、そして画像生成の指示役として、制作全体を統括する司令塔のような存在となりました。

なぜChatGPTなのか？：統合的な役割の重要性

従来の画像生成AIでは、「同じキャラクターを異なる構図や表情で複数枚生成する」際に、一貫性を保つことが大きな課題でした。顔つきが変わってしまったり、服装が微妙に異なったりすることは日常茶飯事です。しかし、ChatGPT（特にGPT-4o以降）は、文脈の理解度と記憶力が向上しており、特定のキャラクター設定を維持したまま、対話を通じて連続的な画像生成指示を行うことが得意です。

さらに、画像生成だけでなく、ストーリー構成の相談や絵コンテのアイデア出しといった、制作の上流工程においても非常に有用です。これにより、「企画立案 → キャラクター設定 → ストーリー構成 → 絵コンテ（ラフ） → 画像生成指示」という一連の流れを、ChatGPTとの対話の中でシームレスに進めることが可能になります。

ステップ1：キャラクターの一貫性を確保する「記憶術」

まず最初に行ったのは、「妖精アーヤ」というキャラクターの具体的な特徴を定義し、それをChatGPTに明確に記憶させることです。これは、以降の全てのプロセスにおいてキャラクターの一貫性を保つための基礎となります。

実際にChatGPTに伝えたキャラクター設定プロンプト例：

これからショートアニメの制作について相談し、必要な画像を生成していきます。主人公は「妖精アーヤ」というオリジナルキャラクターです。今後の指示で「アーヤ」と呼んだら、必ず以下の特徴を持つキャラクターを描写・生成してください。

【妖精アーヤの特徴】

髪型：ブラウンの肩につかない程度のボブヘア。少し内巻き。
顔：丸眼鏡をかけている。目は大きめで、好奇心旺盛な印象。
服装：オフショルダーのチョコレート色のドレス。胸元に小さなリボン。
アクセサリー：頭に小さな花の飾りがついたベレー帽（色は服装に合わせて）。
その他：背中に青い蝶のような透明感のある羽。
表情・性格：基本的に明るく元気。食いしん坊で、美味しいものを見ると目が輝く。少しおっちょこちょいな面もある。
スタイル：アニメ風のデフォルメされた、可愛らしい等身。

この設定を記憶し、今後の会話や画像生成指示に反映してください。

このように、具体的な外見的特徴だけでなく、性格や表情の傾向まで伝えておくことで、ChatGPTはより一貫性のある応答と画像生成指示を行うことができます。「この設定を記憶してください」と明示的に伝えることが重要です。

その後、画像生成でイラストを作成できたら、画像を添付して次のように指示します。

「この妖精アーヤのキャラクターを基に、２Dアニメのセル画を横長でつくっていきますよ。用意はいいですか？」

ステップ2：物語の骨子を練る「壁打ち相手」としてのChatGPT

キャラクター設定を記憶させた後、次にアニメのストーリー構成についてChatGPTに相談しました。頭の中にある漠然としたアイデアを投げかけ、具体的なカット割りに落とし込んでもらいます。

実際にChatGPTに投げかけた最初の相談プロンプト例：

記憶してもらった妖精アーヤを主人公にしたショートアニメを作りたいです。

テーマは「花より団子」。

お花見に行ったアーヤが、桜そっちのけで団子やお弁当をたくさん食べてしまい、最終的には食べ過ぎでお腹がパンパンに膨らんで、風船みたいになって空に飛んでいってしまう…というユーモラスなストーリーを考えています。

これを、だいたい10カットくらいの構成にしたいのですが、どのようなシーン割りにするのが効果的でしょうか？起承転結を意識して、面白い流れになるような構成案を提案してください。

この問いかけに対し、ChatGPTは以下のような構成案を提示してくれました。

ChatGPTからの提案（要約）：

（起）導入: 桜満開のお花見会場に到着したアーヤ。わくわくした表情。
（起）目的発見: レジャーシートに座り、目の前にある三色団子を見て目が輝く。
（承）食欲全開: 団子だけでなく、お弁当や桜餅など、たくさんのご馳走が並んでいる様子。
（承）爆食開始: 幸せそうな表情で、次々と食べ物を口に運ぶアーヤ。
（承）加速する食欲: 周囲の桜も目に入らないほど、食べることに夢中になっている。
（転）異変の兆候: 少しお腹がぽっこりと膨らんできたことに気づく（あるいは気づかない）。
（転）限界突破: お腹がはち切れんばかりにパンパンに膨らむ。苦しいというより、驚いている表情。
（転）浮遊開始: 体がふわりと浮き始める。地面から足が離れる瞬間。
（結）空へ: 風船のように、ゆっくりと空へ舞い上がっていくアーヤ。桜の花びらが舞う中を飛んでいく。
（結）オチ: 空の上で困ったような、あるいは諦めたような表情のアーヤ。画面に「たべすぎちゅうい」などのテロップ表示。

この提案は、起承転結が明確であり、視覚的にも面白い変化が盛り込まれていたため、これをベースに各カットの画像生成を進めることにしました。このように、ChatGPTは構成案を提示するだけでなく、その意図や流れについても説明してくれるため、まるで脚本家やディレクターと壁打ちしているような感覚でアイデアを具体化できます。

ステップ3：シーンを具現化する「画像生成ディレクター」

構成が決まったら、各カットに対応する画像を生成するためのプロンプトをChatGPTに作成させます。

まずは各シーンをつないだラフ構図をだしてみました。

このラフ構図は思っていたよりも気にいったため、今回の動画の表紙に採用しました。

このあと、１カット目以降の画像も生成していきました。

プロンプトは下記です。

「いいね。ラフはそんなかんじでいいけど、本番は光のコントラストや描写力が美しい繊細な日本にアニメ絵にしてね。では１枚目」

とてもシンプルな指示ですね。

同様に、「次のカットをお願いします」「2カット目は、アーヤが団子を食べ始めて、幸せそうな目で口に運んでいるシーンで」といった形で対話を続けるだけで、設定を踏襲した一連のシーン画像を生成するためのプロンプトを次々と作成してくれます。これにより、従来は手間のかかった連続性のあるイラスト素材の準備が、劇的に効率化されました。

Viduによるアニメーション化：テンプレートが生む魔法

ChatGPTで用意した一連の静止画に命を吹き込むのが、動画生成AI「Vidu 2.0」です。Viduは、テキストや画像から短い動画クリップを生成する能力に長けており、特にキャラクターアニメーションにおいて強力な機能を提供します。

Vidu 2.0の概要と基本的な使い方

Viduは、入力された画像やテキストに基づいて、自然な動きやカメラワークを持つ動画を生成します。基本的な使い方は、生成した静止画をアップロードし、どのような動きを加えたいかをテキストで指示するか、用意されたテンプレートを選択するだけです。

テンプレート「Balloon Me」の活用事例：難易度の高い表現を簡単に

今回の制作で特に効果を発揮したのが、Viduにプリセットされているテンプレート「Balloon Me」です。これは、入力された画像（キャラクター）が、まるで風船のようにゆっくりと膨らみながら画面上部へ浮き上がっていくアニメーションを自動生成してくれる機能です。

ストーリーのクライマックスである「食べ過ぎて体が膨らみ、空へ飛んでいく」シーンは、手描きや3Dで表現しようとすると相応の技術と時間を要します。しかし、Viduの「バルーン」テンプレートを使えば、該当するアーヤの静止画（少しお腹が膨らんだ状態のイラスト）をテンプレートに適用するだけで、１分後には自然な浮遊アニメーションが完成します。

画像を１枚入れて、「Create」ボタンを１クリックするだけ！

テンプレートは単にキャラクターを動かすだけでなく、微妙な表情の変化、体の揺れ、そしてカメラがキャラクターを追いかけるような動きまで自動で付与してくれるため、想像以上にリッチで滑らかなアニメーションを手軽に実現できました。

Viduテンプレートの可能性：表現の幅を広げる

Viduには、「Balloon Me」以外にも様々な動きを簡単に実現できるテンプレートが用意されています。例えば、「Fly Me」「Orbit」「Push-in」「Nap Me」などがあり、これらを組み合わせることで、キャラクターの日常シーン、アクションシーン、感情表現などを豊かに演出できます。

静止画だけでは伝えきれないキャラクターの魅力や物語のダイナミズムを、これらのテンプレート機能が強力にサポートしてくれます。「少し動きを加えるだけで、こんなにも生き生きとするのか」と、その表現力には毎回驚かされます。

制作を支える周辺ツール：クオリティを高める連携

ChatGPTとViduが制作の中核を担いますが、最終的な作品のクオリティを高めるためには、他の専用ツールとの連携も欠かせません。

SUNO：AIによるオリジナルBGM生成

動画の雰囲気を決定づける重要な要素であるBGMには、AI作曲ツール「SUNO」を使用しました。SUNOは、テキストで曲のイメージ（ジャンル、雰囲気、使用楽器、テンポなど）を入力するだけで、オリジナルの楽曲を生成してくれます。

実際にSUNOで使用したプロンプト例：

Spring, picnic, cherry blossoms, cheerful, funny

これにより、お花見ののどかな雰囲気と、アーヤの少しおかしな状況にマッチした、軽やかで可愛らしい和風ファンタジー調のBGMが生成され、動画全体の質感を高めることができました。

Filmora：編集作業の実際

生成された画像、Viduによるアニメーションクリップ、SUNOによるBGM、そして自身で録音したナレーション。これらの素材を一つにまとめ、最終的な動画として完成させるために、動画編集ソフト「Filmora」を使用しました。

Filmoraでは、以下の作業を行いました。

シーケンスの組み立て: 各カットの静止画や動画クリップを、構成案に沿ってタイムラインに配置。
音声編集: ナレーションとBGMの音量バランスを調整し、適切なタイミングで挿入。
タイトル挿入: テンプレートを使用しました
尺の調整: 全体のテンポ感を調整し、視聴しやすい長さにまとめる。

直感的なインターフェースで、比較的容易にプロフェッショナルな編集が可能です。

HitPaw VikPea：最終仕上げの高画質化

AIによって生成された画像や動画は、時に解像度が不足していたり、若干のノイズが含まれていたりすることがあります。そこで、最終出力の前段階として、AI高画質化ツール「HitPaw VikPea」を使用しました。

このツールは、AIアルゴリズムを用いて動画の解像度を向上させたり、ノイズを除去したりすることができます。今回は、生成された動画素材を読み込ませ、4K相当までアップスケーリング処理を行うことで、よりクリアで鮮明な映像品質を実現しました。YouTubeなどのプラットフォームで公開する際に、この一手間が高品質な印象を与える上で効果的です。

制作フローの全貌：AI時代のクリエイティブプロセス

これまでのプロセスをまとめると、以下のようになります。

企画＆対話 (ChatGPT): アイデア出し、ストーリー構成、キャラクター設定。
素材生成 (ChatGPT + 画像生成AI): キャラクター設定に基づき、各カットの画像を生成。
音響生成 (SUNO): 動画の雰囲気に合わせたBGMを生成。
アニメーション化 (Vidu): 静止画に動きを与え、テンプレートで特殊効果を追加。
編集 (Filmora): 全素材を統合し、音声、テロップ調整。
品質向上 (HitPaw VikPea): 最終出力の高画質化。
公開: 完成した動画をSNS等で発信。

この一連の流れが、特別な専門知識や大規模なチームがなくとも、個人レベルで、しかも比較的短期間（慣れれば1日～数日）で実現可能になったことは、AIがもたらしたクリエイティブ分野における大きな変革と言えるでしょう。事実、わたしはこの作品を２時間以内で作成しています。