「ノード化」がもたらす制作プロセスの革命
――複数のモデルや手法を組み合わせるというお話がありましたが、具体的にはどのようなプロセスで制作されているのでしょうか?
柴山:我々が今、エンタープライズの領域で進めているのが、制作プロセスの「ノード化」です。
一般的に使われるAI生成は、チャット画面に指示を入力する対話型が一般的ですが、広告クリエイティブ動画制作のような複雑な工程だと、それだけでは限界があります。そこで、一つひとつの処理をつなぎ合わせてワークフローを構築する手法をとっています。この処理を「ノード」と言います。
たとえば、「テキストから開始フレームの静止画を作るノード」「終了フレームを作るノード」「その間を動画として補完するノード」「人物の動きを制御するノード」「解像度をアップスケールするノード」といった具合に、処理を部品化し、線でつないでいく。作業手順書をプログラム化したようなイメージですね。
――まるで工場の生産ラインを設計するようですね。なぜ、そのような手法にしたのですか?
柴山:属人性を排除し、品質を高いレベルで標準化するためです。毎週のように新しいAIモデルが登場する現在、個々のクリエイターが全ての最新技術を追いかけ、最適な組み合わせを見つけ出すのは不可能です。組織として100人、200人規模で高品質なクリエイティブを提供し続けるには、プロセスを構造化する必要があります。これは、いずれ多くの広告会社や制作会社が直面する壁だと思います。
我々は、社内のトップクリエイターとエンジニアが共同で開発した「優れた映像表現・演出表現のワークフロー」をテンプレート化しています。これにより、他のクリエイターは複雑な中身をすべて理解していなくても、素材を入れて簡単なチューニングをするだけで、プロが組んだ最高品質のプロセスを再現できるのです。これにより、クリエイターは技術的な試行錯誤に時間を奪われることなく、本来の「表現」や「演出」に集中できるようになります。
動画制作は、やはり静止画より格段に複雑なので、第2回、第3回でお話した「CREATIVE BLOOM」内にはまだ組み込んでいません。ただ、プランニングと配信後の分析、動画のAI効果予測はBLOOM内で行えます。
広告会社が「GPU」に投資する理由
――AI活用というとクラウドサービスを使うイメージがありますが、御社ではローカルモデルやハードウェアへの投資も進めているとお聞きしました。
柴山:はい。GPT ImageやGoogle VeoのようなAPI型のクラウドサービスももちろん利用しますが、それだけではプロの制作現場としては不十分です。
理由の一つは、試行回数の担保です。クラウドのAPIは従量課金制であることが多く、100パターンの検証を何度も繰り返すとコストが膨大になります。並列処理も難しいため、単純に時間もかかってしまいます。これではクリエイターが「もっと試したい」と思ってもブレーキがかかってしまい、精神衛生上も良くありません。
そこで重要になるのが、自社環境(ローカル)で動かすオープンソースモデルの活用です。これならコストを気にせず、納得いくまで何百回でも試行錯誤ができます。また、世の中に数多にある、特定のアニメーションや表現に特化したニッチなモデルを自由に組み込めるのも、ローカル環境の強みです。その環境整備のために、GPUをはじめ多額の投資をしています。
――なるほど。博報堂DYグループの資産であるクリエイティブの力を今後も生かすために、これまでの戦い方をがらっと変えていくわけですね。
柴山:特にデジタル広告クリエイティブの領域において、ゲームが変わっている。だから我々も変わらなければと、高速で準備してきました。その中で、前述の通りクリエイターの能力は意外とAIに奪われなかった、と実感しています。それをつかめたので、クリエイターの知見や暗黙知をこの時代に存分に発揮できるよう、環境を整えたのです。
今、クリエイターの手元にゲーミングPCのような高性能なGPUマシンを配備し、さらに大規模な処理にはオンプレミス(自社保有)のデータセンターにあるGPUサーバーを活用する構成をとっています。クラウド、オンプレミス、そして個人のローカルGPUを組み合わせたハイブリッドな環境です。これにより、一人のクリエイターのデスクが、かつての巨大な撮影スタジオやCGスタジオと同じような「破壊力」を持つようになりつつあります。
GPUと聞くと、AIを作るための学習への投資というイメージが強いですが、強力なオープンモデルも増えた今、我々のような事業会社における推論へのGPU投資も今後重要であると考えています。

