画像の中を自由に散策する体験
「Google Flow」の動画を拡張して、長尺ができる機能を使って、Google Flow で画像の中の世界の散策してみました。Sora の世界シミュレータの記事でも Minecraft を遊んでいたので、Veo でも似たようなことできるかになります。次のカメラの移動をプロンプトで入力して、Veo2(Fast)の 2 本の動画を生成し、気に入ったほう方を選択で進めています
こちらの記事を読んで以前から漠然と認識していた「生成 AI のローグライク的な側面」について考察を深めたいと思えた。ローグライクとは、1980 年に登場したゲームジャンルであり、ランダム生成されるダンジョンを探索し、モンスターと戦い、アイテムを収集することを目的とする。代表的な作品には『Rogue』や『NetHack』がある。日本においては、1995 年にリリースされた『風来のシレン』が有名である。
ローグライクにおいては各プレイの開始時においてマップ構成・敵配置・アイテム配置が逐次再生成される一方で、モンスターの行動パターンやアイテムの効果は固定されているのが一般的だ。プレイヤーは、ランダム生成された環境において、戦略的な探索と戦術的な選択を繰り返し、最終目標を目指すことになるのだが、その本質としては全てをあらかじめ生成しておくのではなく、オンデマンドに発生する生成と探索の繰り返しにあると感じている。
つまり、ローグライクは「長期の予測不可能性に対する戦略的適応」と「短期の予測可能性に対する戦術適応」というプレイングスタイルを内包する。これは対話型生成 AI における Temperature や Top_k による非決定的応答の生成と、ユーザーが次の結果を予測しながら選択的に応答を考えて実行する過程に類似している。
ローグライクにおける生成と探索
生成 AI との対話やコード、画像生成で重要なのは「一発で最適解にたどり着く」ことだけではなく、出力に応じて短期的な応答を繰り返す過程そのものに学習的価値や面白さがあるという点だ。入力を変えれば結果も変わる。出力を見て次の一手を考える。その繰り返しの中で、生成物と共に自分なりの知識体系や攻略法が磨かれていく体験に価値がある。
特にコーディングエージェントにコード生成をさせてパッと見は良さそうだが、ちょっとだけおかしい成果物をエンジニアリングで完パケまで持っていく体験はランダム生成された初期配置からあるべき姿まで連れていくローグライク的な体験と重なる。『#100日チャレンジ 毎日連続100本アプリを作ったら人生が変わった』のような結果論としての継続的学習プロセスは、一発で完全な成果物ができてしまうと成立し得ないため、AIが「てかげん」するようなモードも求められていくのだろう。
そして、読み進めるとけっこう似通ったパターンの話が続くことに気付く。一話一話は独立しているものの、同じようなモチーフや展開がしばしば繰り返されるのである。とはいえまったく同じというわけではなく、むろん少しずつ違う。さっきは主人公が死んで終わったのに次の話では上手く生き延びたりする。
そういう反復のなかに少しずつ差異が潜む構造について、以前僕は「ミニマリズム的享楽」という言葉で表現していた。
ところで、「ローグライク」という単語で連想したのが、id:visco110 氏による駒田信二の訳す志怪小説への感想であった。志怪小説は、短編の怪異譚が集積されたものであり、同じようなモチーフでありながらも初期設定と行動の選択肢が異なることで、各短編は独立した物語として成立する。同じようでいて少しだけ違うさまざまな物語に触れることで擬似的に場数を踏んでいく。
その上で、「語り得る世界の断片」の再配置をしていく構造は記号論的な意味における差延(différance)や構造主義的なテクスト生成論(バルト的書く主体の死)とも相補的に響きあう。生成とは、あらかじめ存在する情報の「回収」ではなく、差異の動的構成によって初めて立ち現れる応答環境である。つまり、直線的知識伝達に対する批判的超越であり、むしろ知識生成のプロセス自体に知が内在しているという認識の転換がある。
複数のファクトを取りまとめる企画書の作成、AI コーディングツールからの複数プルリク、大量の仮説検証を取りまとめる探索的研究。どれも「大量の仮説を同時に投げて、良いものだけを残す」という構造においては類似問題であり、異なるのは経験的な棄却率と重複率に対する最適化方法となる。AIが作るプルリクは捨てられることもある投機的なものであるとみなしてからが本番である。部下の仕事を捨てたら辞めちゃうかもしれないけれど、Devinは涙を流さない。ロボットだから、マシンだから。
学習用途であれば戦術行動の人力化に価値がある一方で、成果物を前提とするのであれば戦術行動の投機的実行と自動化の観点もある。こちらはオンデマンドに探索する過程さえRTAで自動化したいというオンデマンドへの対応だ。
改めて検索からオンデマンドな生成へ
そもそも「オンデマンド (on‑demand)」という言葉は 19 世紀の金融用語である payable on demand(要求払い)に語源を求めることができる。すなわち〈需要が発生した瞬間に支払い可能〉という条件付き即時性が原義であった。20 世紀後半、この概念は印刷業界の Print‑on‑Demand、放送業界の Video‑on‑Demand に波及し、在庫を持たず要求(demand)に応じて即時生成・配信するビジネスモデルを指すようになっている。
生成 AI はこの系列に接続しつつ、最適な物理的商品を検索する代わりに知的オブジェクトそのものをリアルタイム生成する。プロンプト入力という“デマンドシグナル”を受け取ったモデルは、内部表現空間を動員して即席のテキスト・画像・コードを生成し、ユーザーに応答する。ここでのオンデマンド性は、単なるコンテンツ配信を超え、潜在知識の即時具体化という認知操作に直結し、自身の需要≒欲望を具現化していくインセンティブと過程がある。
この変化はエコシステム的なレベルにまで及ぶ。教育、報道、ビジネス、芸術の各領域で、知識へのアクセスはもはや検索の精度ではなく、生成のリテラシーと批評性に依拠するようになりつつある。そこでは、プロンプト能力が識字能力の次の段階として出現しているとも言える。特にコーディングやデザインの分野では、生成 AI の活用がオンデマンドな創造的プロセスを生み出し、従来の専門知識に依存しない形での知識生成が可能になりつつある。
したがって、生成 AI はオンデマンド技術史の最終到達点として、需要と供給の時間的ギャップを極小化し、ユーザーの意図に同期する形で知識生成を“callable”にする環境を提供している。加えて、3D プリンタやドローンを例にあげるまでもなく、もはやオンデマンドに生成できるオブジェクトはデジタルだけに限らない。つまり世界構造そのものがローグライク的になっている前提で長期的戦略と短期的戦術を考える時代になっているのかもしれない。