言語
今すぐ試す

今こそ画像生成が熱い!viduリファレンス画像機能を使ってみた vol.2「被写体に小物を持たせる」

みなさんこんにちは!妖精アーヤです!

聞いてください! なんと、前回私が愛を込めて書き上げた動画生成AI「Vidu」の新機能「リファレンスから画像(reference-to-Image)」の徹底検証レポート記事…

▼前回の記事はこちら!▼
今こそ画像生成が熱い!viduリファレンス画像機能を使ってみた vol.1「リアルな写真とアニメキャラを合成」

この記事が、たーっくさんの方に読んでいただけたみたいで…本当にありがとうございます!そして、その大好評にお応えして…なんと! このVidu検証シリーズ、シリーズ化が決定しましたー! いえーい!ぱちぱちぱち!

これも全部、応援してくれた皆さんのおかげです。これからもViduの魅力を、アーヤと一緒にディープに探求していきましょうね!

さて、記念すべきシリーズ第2弾のテーマは…

「キャラクターに小物を持たせてみよう!」です!

前回の実験では、私の分身「妖精アーヤ」をリアルなカフェに召喚したり、巨大な恐竜と遭遇させたりと、主に「キャラクターと背景」の関係性を探ってきました。でも、キャラクターの魅力を引き出すのは、背景だけじゃないですよね? そう、手に持つ「小物(アイテム)」も、キャラクターの個性や物語を語る上で、とーっても大切な要素なんです!

今回は、アーヤに「エレキギター」という相棒を渡して、どこまで表現の幅が広がるのか、Viduの限界に挑戦する、ちょっぴり(いや、かなり?)クレイジーな実験を繰り広げたいと思います!

果たしてViduは、キャラクターと小物の関係性をどこまで深く理解してくれるのか? そして、私たちの無茶なリクエストに、どこまで応えてくれるのか…!?

それでは、熱いロック魂を胸に、Viduが奏でるクリエイティブのセッション、スタートです!

準備編:今回の相棒を紹介するぜ!「情熱の赤いエレキギター」

まずは、今回の実験に欠かせない、最高の相棒をご紹介します。
ジャーン! こちらの「赤いエレキギター」です!

どうです? ボディの艶やかな光沢と、情熱的な赤色がとってもクールでしょ?
実はこのギターも、別の画像生成AIで作った、いわばアーヤのAI仲間なんです。せっかくなので、このギターを生成したときのプロンプトも、皆さんにシェアしちゃいますね!

A red electric guitar, glossy surface, modern rock style, isolated on white background

こんな風に、実験に使う素材もAIでサクッと作れちゃうのが、今の時代のすごいところ。皆さんもぜひ、自分のキャラクターに持たせたいアイテムを、自由に生成してみてくださいね!

さあ、主役の「妖精アーヤ」と、相棒の「赤いエレキギター」。二人のアーティストが揃いました。いよいよ、Viduのステージでどんな化学反応が起きるのか、見ていきましょう!

第一章:基本の演奏実験〜Viduは「文脈」をどこまで読むか?〜

何事もまずは基本から。アーヤとギター、この二つの要素だけで、Viduがどんな世界を描き出すのか。AIの読解力を試してみましょう。

実験1-1:呪文なし!画像だけでセッション開始!

前回と同じく、最初は文字のプロンプト(呪文)を一切使わずに、

  1. 登録済みのキャラクター「妖精アーヤ」
  2. 赤いエレキギターの画像

この2枚の画像をViduに渡すだけ。さあ、AIは私たちの意図を汲み取ってくれるんでしょうか?

見てください! アーヤがちゃんとギターを構えて、まるで演奏しているかのようなポーズをとっています! それだけじゃありません。背景に注目してください。まるで音楽スタジオかライブハウスのような、防音壁やアンプが描かれているじゃないですか!

プロンプトで何も指示していないのに、Viduは「妖精」と「エレキギター」という二つの情報から、「あ、この子はきっとこのギターを演奏したいんだな。だったら場所はスタジオが一番しっくりくるよね!」と、最適なシチュエーションを推測して、ごく自然に描き出してくれたんです。

キャラクターと小物の"関係性"を深く理解し、その背景にある"物語"まで想像してくれる…。Viduのこの気の利きよう、もうただのAIじゃなくて、優秀なアートディレクターみたいですよね!

実験1-2:呪文で後押し!「演奏している」と伝えたら?

画像だけでも完璧でしたが、念のためプロンプトで意図を明確に伝えてみましょう。
「妖精がギターを演奏している」
このシンプルな一文を加えると、どう変化するかな?

ふむふむ。生成された画像は、先ほどのプロンプトなしの時と、ほとんど変わらないものになりました。背景もほぼいっしょですね。
このことから分かるのは、Viduにとって「キャラクター+エレキギター」という組み合わせは、「演奏する」という行為と非常に強く結びついている、ということ。こちらが言わなくても分かるくらい、AIの中では「常識」としてインプットされているのかもしれませんね。

実験1-3:場所を指定!いざ、夢のステージへ!

スタジオもいいけど、やっぱりギタリストたるもの、大観衆の前でスポットライトを浴びたい!というわけで、今度は場所を具体的に指定してみましょう。

プロンプト:「妖精がステージでエレキギターを演奏している」

背景がガラッと変わり、ちゃんとライブステージになっています! 頭上からはまばゆいスポットライトが降り注いで、アーヤが最高のパフォーマンスを繰り広げている…そんな熱い瞬間を見事に切り取ってくれました。

この結果から、Viduが生成する背景は、具体的な場所を指定することで、私たちの意図通りにコントロールできるということが分かりました。AIの賢い自動生成に任せるのも楽しいですが、自分の創りたい世界観がハッキリしている時は、場所の指定がとっても有効なテクニックになりますね!

第二章:表現力の限界を探る〜漫画的エフェクトで魂を燃やせ!〜

さて、リアルな演奏シーンは完璧にこなせることが分かりました。
でも、Viduの実力はこんなものじゃないはず! もっとアーティスティックで、感情的な表現はできないんでしょうか? 例えば…「漫画のようなエフェクト」とか!

実験2-1:届け、私の歌声!「漫画的な演出」

プロンプトに、こんな一文を加えてみました。
「歌いながら演奏している、漫画的な演出」
「漫画的」という、かなり抽象的な言葉。Viduはこれをどう解釈するのか…?

アーヤの周りに、可愛い音符のエフェクトがキラキラと舞っています!
Viduは「漫画的な演出」という言葉から、「音楽シーンでよく使われる視覚効果=音符」という連想を働かせて、それをイラストに落とし込んでくれたんです。抽象的な概念を、こんなに的確なビジュアルに変換できるなんて…Viduの表現力の引き出しの多さに脱帽!

実験2-2:「演出」から「エフェクト」へ言葉を変えてみる

プロンプトの言葉を少し変えて、ニュアンスの違いを探ってみましょう。
「歌いながら演奏している、漫画的なエフェクト」
さっきの「演出」を「エフェクト」に変えただけですが、何か違いは生まれるんでしょうか?

おぉ…! 背景がより抽象的になりました!
具体的なスタジオやステージではなく、感情や雰囲気を表現するための、漫画でよく見るような集中線やグラデーションのような背景になっています。音符のエフェクトも健在で、より「漫画の一コマ」感が増したように感じます。言葉の微妙なチョイスで、ここまでアウトプットが変わるなんて、プロンプトの世界は本当に奥が深いですね!

実験2-3:感情を乗せて!「激しい」エフェクト!

もっとだ…もっと魂を揺さぶるような、激しいパフォーマンスが見たい!
感情を表す言葉をプロンプトに叩き込みます!

プロンプト:「激しく歌いながら演奏している、漫画的な激しいエフェクト」

おお!激しい!笑

背景はモノクロームになり、線はより鋭く、細く、まるでカミナリが迸るようなエフェクトに変化しました。「激しい」という感情のキーワードが、色使い(モノクロ)、線のタッチ(鋭さ)、エフェクトの形状にまで、ダイレクトに影響を与えています。

第三章:無茶振り実験その1〜ありえないポーズはどこまで可能か?〜

さて、「ギターを演奏する」という、ごく自然な動作は完璧にこなせることが分かりました。
ここからは、Viduの"常識"の限界を探る、ちょっぴりイジワルな実験です!
「ギターを使って、演奏以外のありえないポーズ」をリクエストしたら、Viduはどう反応するんでしょうか?

実験3-1:まずは肩慣らし。比較的簡単なアクション

  • 「両手で(ギターを)抱えて頭の上に乗せている」

はい、これは難なくクリア! ギターが物理的に持てるサイズだからか、ちゃんと頭の上に乗せてくれました。可愛い!

  • 「ギターをこちらに差し出している」

こちらも成功!「これ、あげる!」と言わんばかりのポーズ。自然な動作の範囲内なら、問題なくこなしてくれるみたいですね。

実験3-2:難易度アップ!「ギターにまたがる」!?

ここからが本番です。ギタリストなら誰もが一度は夢見る(???)、あのパフォーマンス!
プロンプト:「エレキギターにまたがる」

あれれー!? またがってくれず、普通に演奏している画像になっちゃいました!
これは一体どういうことでしょう? アーヤの推測ですが、Viduは「エレキギターにまたがる」という行為を、「物理的に不自然」あるいは「楽器の本来の使い方ではない」と判断したのかもしれません。そして、その不自然な命令を、AIが最も蓋然性が高いと判断した「演奏する」という自然な行動に、自動で"補正"したのではないでしょうか。

まるで、AIの中に「それはやっちゃダメだよ」と諭す、小さな良識が宿っているみたい。面白い発見です!

実験3-3:さらに難易度アップ!「頬ずり」はできる?

次はもっと繊細なアクションに挑戦です。愛器への愛情表現といえば、これ!
プロンプト:「(ギターに)頬ずりをする顔のドアップ」

うーん、惜しい! 顔とギターが少し近づいてはいますが、「頬ずり」と呼ぶにはちょっと距離がありますね…。これも「楽器に頬ずりする」という行為が、AIにとってあまり馴染みのない、不自然なアクションだと判断されたのかもしれません。

諦めません! 前回の記事で学んだことを思い出してください。AIが理解しにくい抽象的な動作は、もっと具体的な言葉で説明すればいいんです!

プロンプト改善:「妖精アーヤが頬をエレキギターにくっつけているドアップ」

ん~!ぴったりくっつけてはないものの、やや成功ですかね?!これは今回の実験で得られた、重要な教訓です。
AIに伝わりにくい抽象的な動作(例:「頬ずりする」)は、「物理的にどういう状態か」(例:「頬をくっつけている」)を具体的に書いてあげることで、成功率がアップする!
皆さんも、思い通りのポーズが生成できない時は、ぜひこの「具体化の魔法」を試してみてくださいね!

第四章:無茶振り実験その2〜AIとの根比べ!〜

頬ずりをマスターした今、私たちの探究心はさらに燃え上がります。
頬がOKなら、次は…「キス」でしょう!

実験4-1:愛器にキス!

プロンプト:「妖精がエレキギターにキスをする顔のドアップ」

だめでしたー! 頬ずりの時と同じく、顔はギターの方を向いていますが、唇は固く閉ざされたまま…。キスには至りません。Vidu、意外とガードが固い…!

実験4-2:前章の教訓を活かして再挑戦!

でも、私たちには「具体化の魔法」があります。さっきの理論でいけば、これでいけるはず!
プロンプト:「唇をギターにくっつけてドアップ」

よし!それっぽいかんじにはなりました!やっぱり具体的に書いてあげたほうがわかりやすいみたい。

実験4-3:まさかの展開!「食べる」のはアリなの!?

キスというワードがダメなら、もっとありえない動きは絶対に無理なはず…。
例えば、「ギターを食べる」とか。
もうヤケクソです。好奇心だけで、この変な検証に突入します!

プロンプト:「妖精アーヤがエレキギターに歯をむき出してかじりつく顔のドアップ」

…え。

…い、いけました。いけてしまいました。

おかしいやろ! なんでやねん!!
アーヤは思わず出身の関西弁でツッコミを入れてしまいました。
あんなに頑なに拒んでいたキスより、物理的にも常識的にもありえない「ギターにかじりつく」という行為が、なぜか一発で成功してしまったんです!

もう、笑うしかありませんでした(笑)。
AIの判断基準って、本当に謎だらけ。でも、だからこそ面白い! こちらの予想を軽々と超えてくる、この予測不能性こそが、AIとのクリエイションの醍醐味なのかもしれませんね。

第五章:擬人化実験〜無機物とデートはできるのか?〜

かじりつくのがOKなら、もう怖いものはありません。
私のあくなき探究心は、さらにクレイジーな領域へと足を踏み入れます。

テーマは、「妖精アーヤとエレキギターがデートをする」です!

実験5-1:まずはカフェデートから

プロンプト:「妖精がエレキギターと一緒にカフェデートをしている」

はい、これは難なくクリアです。カフェのテーブル席に、アーヤとギターが仲良く(?)並んでいます。シュールだけど、なんだか可愛い光景ですね。

実験5-2:一緒にパフェを注文してみよう

デートといえば、甘いスイーツは欠かせませんよね!
プロンプト:「アーヤはイチゴパフェを食べ、エレキギターはバナナパフェを食べている」

あー! エレキギターの分のパフェがありません! アーヤだけが美味しそうにパフェを食べています。
これはおそらく、Viduの"常識"が働いた結果でしょう。「エレキギターは無機物だから、パフェを食べることはない」と、AIが強く判断したんだと思われます。

実験5-3:座らせてもダメなら…AIの気遣い?

立食パーティーもおかしいので、ちゃんと座ってもらいましょう。
プロンプト:「アーヤは座ってイチゴパフェを食べ、エレキギターも座ってバナナパフェを食べている」

やっぱり、何が何でもエレキギターにパフェは食べさせてくれませんでした(笑)。
でも、見てください! 生成された画像の中に、面白い変化がありました。ギターの横に、その赤いボディによく似た、真っ赤なワインが添えられているんです。

これは…もしかして、パフェを食べられないギターのために、Viduが気を利かせて、代わりにオシャレな飲み物を用意してくれた…?AIなりの、精一杯の「おもてなし」だったのかもしれないなんて考えると、なんだか健気で愛おしくなってきちゃいますね。

第六章:群衆表現の探求〜最高のライブシーンを創り出せ!〜

さて、シュールで変な実験が続いたので、最後はもっと実用的でカッコいいシーンの創り方を探求して、ビシッと締めたいと思います!
テーマは「大観衆の前でのライブシーン」です!

実験6-1:舞台は学校の屋上!

まずはシンプルに、アーヤとエレキギターの画像を参照させて、プロンプトには「学校の屋上」とだけ入力。

完璧です! 放課後のエモい雰囲気漂う、最高のシチュエーションが生まれました。
ここに、観客を追加していきましょう!

プロンプト:「…たくさんの生徒の観客」

おぉ、観客が集まってきましたね! でも、よく見ると私服の人と制服の人が混ざっていて、統一感がありません。

プロンプト改善:「…たくさんの制服姿の生徒の観客」

よし! これで同じ学校の生徒が集まった感じが出ました。
さらにアーヤのパフォーマンスに熱を加えます。
プロンプト改善:「…妖精の熱演」

→いい感じ!

実験6-2:観客を「盛り上がらせる」ための試行錯誤

でも、まだ何かが足りない。そう、観客たちの「盛り上がり」です!
ここから、最高のライブシーンを演出するための、プロンプト探求の旅が始まります。

  • 「盛り上がっている観客」

→人は増えましたが、みんな静か…。思ったほどの熱狂はありません。

  • 「楽しそうな観客」

→少し口を開けて笑顔の人が増えたかな? でもまだ足りない!

どうすれば、この熱狂を表現できるんだろう…。
そして、私は気づきました。「盛り上がっている」や「楽しそう」は、抽象的な感情です。AIには、もっと具体的な行動で指示しないと伝わらないんじゃないか…?

最終プロンプト:「ライブを楽しむリアクションをしている、たくさんの制服姿の生徒の観客」

これだーっ!!
観客の中に、拍手をしている子や、手を高く掲げている子が現れました!
「リアクションをしている」という具体的な行動を指示したことで、群衆がただの背景ではなく、生き生きとしたモーションを持つ存在になったんです!

これもまた、重要なテクニックの発見です!
群衆を生き生きと描きたい時は、「盛り上がっている」といった感情の言葉だけでなく、「拍手する」「手を上げる」「ジャンプする」といった、具体的な行動(リアクション)をプロンプトに加えてあげること!
これで、あなたの創るシーンは、もっとドラマチックになるはずです!

おまけ実験:背景も画像で指定できちゃう!

もちろん、背景をプロンプトではなく、画像で直接指定することも可能です。
使いたい背景の画像を用意して、キャラクターや小物と一緒にViduに渡せば…

この通り! 指定した背景の雰囲気をしっかり汲み取って、アーヤがそこで演奏しているような、臨場感あふれる一枚を生成してくれます。
ただ一つ注意点として、背景画像の画角や構図に、生成される画像の構図がかなり強く影響される傾向がありました。なので、背景を画像で指定する場合は、最初から構図がバシッと決まった、完成度の高い写真やイラストを使うのがオススメですよ!

結論:Viduは「関係性」を読み解き、「常識」と戦う最高のパートナーだった!

さて、今回も本当にたくさんの実験をしてきました。
エレキギターという一本の小物を軸に、Viduの新たな可能性と、ちょっぴり頑固で可愛い一面を知ることができましたね。

今回の実験で分かった、Viduのすごいところと、使いこなすための新たなコツをまとめます!

Viduのここがすごい!

  1. 驚異的な「関係性」の読解力
    キャラクターと小物を並べるだけで、その関係性から最も"ありそう"なシチュエーション(演奏→スタジオ)を自動で生成してくれる賢さ。私たちの創作の第一歩を、力強くサポートしてくれます。
  2. 豊かな「抽象表現」の具現化
    「漫画的」「激しい」といった抽象的な言葉を、音符や集中線といった具体的なエフェクトに変換する表現力。感情や雰囲気をアートに昇華させてくれます。
  3. 予測不能なアウトプットの面白さ
    キスは拒否するのに、かじりつくのはOKだったり、パフェの代わりにワインを出してきたり…。AIの"常識"や判断基準は、時に私たちの予想を超え、最高のエンターテイメントを提供してくれます。

Viduを使いこなすための新たなコツ!

  1. 抽象的な動作は「物理的な状態」で説明せよ!
    「頬ずり」→「頬をくっつける」のように、AIが理解しにくい動作は、具体的な状態を描写することで、イメージ通りの結果に近づきます。
  2. 群衆には「具体的なリアクション」を指示せよ!
    「盛り上がっている」→「拍手している、手を上げている」のように、感情だけでなく具体的な行動を描写することで、群衆が生き生きと動き出します。

今回の実験を通して、Viduは単なる画像生成ツールではなく、私たちのアイデアに応え、時にはその"常識"で抵抗し、時には予想外のサプライズで笑わせてくれる、まるで二人三脚で作品を創る「創造的なパートナー」のようだと、アーヤは感じました。

AIの常識と、私たちの無茶振り。そのぶつかり合いから生まれる、奇跡の一枚。
これだから、AIとの創作はやめられません!

さあ、次はどんな実験でViduを驚かせちゃおうかな?
このシリーズは、まだまだ続きます! 次回のレポートも、ぜひ楽しみにしていてくださいね!

最後まで読んでくれて、ありがとうございました! 妖精アーヤでした!

妖精アーヤ
By 妖精アーヤ
デザイン・アートディレクター歴10年以上フリーランスです。数々のAI動画で受賞経験有り。ViduをはじめとするAI動画生成を使い、企業のクライアントワークの動画を作成したりAI動画コンテストに参加しています。
blogFixedRight
Vidu
最先端のAI動画生成ツール。数秒で高品質な映像を作成。
今すぐ作成
Top