太陽がまぶしかったから

C'etait a cause du soleil.

心地よい「OSEKK-AI」を実現するためのAmbient Agentを求めて

おせっかいな神々(新潮文庫)

「OSEKK-AI」を実現するためのアンビエントエージェント

AI Agentにおいてチャットインターフェースが最適解ではないという議論がそこかしこに出ている。「チャットを能動的にやるのはだるい」——僕自身の体感もまさにそれだった。ChatGPTもSlack AI Assistantも、ユーザーが能動的に話しかけなければ動かない。何かを聞きたければプロンプトを考え、入力し、送信する。便利なのは間違いないが、便利さの手前に「自分から動く」という摩擦がある。しかし本当に「知的」なアシスタントとは、こちらが話しかけなくても察して動いてくれる存在——つまり「おせっかい」な存在ではないだろうか。

日本語の「おせっかい」は絶妙な言葉だ。相手が言語化する前にニーズを察して動く行為。旅館の仲居さんが「そろそろお冷やをお持ちしましょうか」と声をかけるような、あの感覚である。内田樹は「日本にはお節介な人々が一定数必要だ」と繰り返し説いている。誰の仕事でもない仕事を自分の仕事として引き受ける人、頼まれてもいないのに動く人。道端の空き缶を自然に拾って処分するような、見返りを求めない一方的な贈与行為。そうした存在がコミュニティの隙間を埋め、全体を機能させている。

おせっかいには両面性がある。「思いやり」にもなれば「余計なお世話」にもなる。この境界線を決めるのは文脈を読む力だ。Robert Sternbergが提唱した「コンテクスチュアル・インテリジェンス(実践的知能)」は、まさにこの能力を指す。Sternbergの知能の三部理論では、知能を分析的・創造的・実践的の三側面で捉えるが、実践的知能とは「状況に合わせて自分を適応させる」「環境を自分に合わせて形作る」「合わない環境からは離脱する」という三つの機制で動く知能であり、いわゆる「ストリートスマート」と呼ばれるものだ。IQテストでは測れないが、現実世界での問題解決を左右する。

「OMAKASE AI」と「OSEKK-AI」による「OMOTENASHI」

Mark Weiserが1991年に提唱したユビキタスコンピューティングの理想は、コンピュータが環境に溶け込み、意識されないまま人を助ける世界だった。日本にはこの思想と共鳴する原型がある。八百万の神々——あらゆるモノに神が宿るというアニミズム的世界観だ。台所には竈神がいて、トイレには厠神がいて、道具にも場所にもそれぞれ意思がある。ユビキタスコンピューティングとは、八百万の神々をシリコンで実装する試みだったのかもしれない。

「OMAKASE AI」という接客用のボイスチャットボットサービスがある。OMAKASEという言葉には寿司屋の「おまかせ」のように、判断を丸ごとAIに委ねるスタイルと「OMOTENASHI」のようなオリエンタリズムが同居する。しかし僕が求めているのは「おまかせ」ではなく「おせっかい」のほうだ。おまかせは全権委任であり、主導権はAIに移る。おせっかいは主導権を人間に残したまま、気づきと提案を差し挟む。

おまかせが板前なら、おせっかいは仲居さん——料理は自分で選ぶが、お冷やは察して持ってきてくれる。よく見ると「おせっかい」にはAIが埋まっている。OSEKK-AI。AIの世界にはZero-shot、One-shot、Few-shotという言葉があるが、真のゴールは「Zero-touch」——ユーザーが一切触れなくても、文脈から最適な行動を選択して実行するエージェントだろう。LangChainが提唱する「Ambient Agent」は、まさにこの「OSEKK-AI」の技術的実装を目指すものだと考えている。

Amazonはクリックを殺し続けてきた

「おせっかい」の商業的価値を最も雄弁に証明してきたのは、Amazonだろう。Amazonの歴史は、ユーザーとゴール(購入)の間に横たわる摩擦を執拗に削り続けてきた歴史であり、それはユーザー主導からシステム主導——つまりアンビエントへの進化でもある。

段階 時期 ユーザー行動 トリガー 主導者
Many-click 1990年代 カート→住所→支払い→確認→完了 ユーザーの複数操作 ユーザー
1-Click 1999年〜 ボタン1回で決済完了 ユーザーの1操作 ユーザー
Zero-click 2015年〜 Dash Button、Alexa音声注文 物理ボタン/音声 ユーザー(最小限)
Zero-touch 2013年〜 Anticipatory Shipping、Just Walk Out 行動予測/センサー アンビエント

1990年代のECサイトはクリックの連続だった。カートに入れ、住所を入力し、クレジットカード番号を打ち込み、確認画面を経て、ようやく購入が完了する。ユーザーが全プロセスを主導する世界だ。1999年、Amazonは1-Click特許を取得した。保存された情報で決済を一発完了させる。Cornell大学のUnal & Parkによる研究「Fewer Clicks, More Purchases」(Management Science, 2023年)によれば、1-Clickチェックアウト導入後、顧客の支出は平均28.5%増加し、サイト訪問頻度も上がり、購入カテゴリも広がったという。摩擦を1つ減らしただけで、これだけの行動変容が起きる。

2015年前後からはDash ButtonやAlexa音声注文が登場し、「ボタンを押す」「声をかける」だけで注文が完了するZero-clickの世界に入った。そして2013年にAmazonが取得したAnticipatory Shipping特許は、さらにその先を行く。ユーザーの行動履歴、閲覧時間、ウィッシュリストの変化から購入を予測し、注文前に商品を出荷地域の倉庫に移動させておく。配送ラベルは「late-select addressing」——つまり宛先が未確定のまま出荷され、需要が確定した時点で経路を確定させる。Amazon Goの「Just Walk Out」テクノロジーも同じ思想だ。棚から商品を取ってそのまま店を出れば決済が完了する。ユーザーのアクションはゼロ——システムが文脈から購買意図を読み取って「おせっかい」に動く。

この潮流はAmazonだけのものではない。Googleの検索結果もゼロクリック化が進んでいる。2025年時点で約60%の検索がゼロクリック——つまりユーザーが検索結果のリンクをクリックせず、検索結果ページ上のAI Overview等で回答を得て離脱するという。「ユーザーの意図を読む精度」が上がれば上がるほど、ユーザーが能動的に動く必要がなくなる。Amazonの摩擦削減史は、アンビエントな「おせっかい」が巨大な商業的価値を持つことの証明だ。レコメンデーションエンジンのテクネーは大前提となる。

イベント駆動する「おせっかい」を作ってきた

「何かが変わったら反応する」——この設計思想はソフトウェアの根幹にある。GoFのObserverパターン、Pub/Sub、Webhook。イベント駆動プログラミングの歴史そのものが、「トリガーをどう設計するか」という問いの連続だった。振り返ると、僕自身のSlack Bot開発史が、まさにチャットからアンビエントへ向かうトリガー進化の縮図になっている。僕自身が最初に作ったAIサービスもGoogle Alert RSSフィードを要約してSlackに流す仕組みだった。

これは「時刻駆動(Cron)」——もっとも素朴な「おせっかい」だ。毎N時間に1回、バッチ処理でフィードを取得して要約した内容をSlackに投稿する。note.comのフォローフィード同期も同じ発想で作った。文脈は一切見ない。でもこれだけでも「チャットを自分から開くよりまし」だった。情報が勝手に流れてくるだけで、認知的な摩擦が激減する。

さらに、メール受信というイベントをトリガーにしたAI要約ボットも作った。ニュースレターメールがGmailに届くと、Slackのメール用チャンネルに自動転送され、file_shared イベントを検知したBotがHTMLメールをスクレイピングしてAIに要約させる。ユーザーである僕は何もしていない。メールが届いたという外部イベントが、勝手に情報を咀嚼してSlackに流してくれる。イベント駆動+AI処理の組み合わせは、「おせっかい」の質を一段引き上げた。

コンテキスト駆動型AIエージェントへの考察

その先にあるのが「コンテキスト駆動」——Ambient Agentの世界である。ML/AIが行動パターン、環境データ、履歴から総合判断して、最適なタイミングで最適な粒度の介入を行う。アンビエントな「おせっかい」の本領はここにある。コンテキスト駆動のトリガーには4種類のインサイトが必要だ。

「パブリックインサイト」はニュースフィードやXのタイムラインの「空気感」。トレンドの変化、バズの発生、界隈の温度感——個別のイベントではなく「雰囲気」として集合的に立ち上がるシグナルであり、Xの空気を読むとは、まさにコンテクシャル・インテリジェンスの実践にほかならない。「プライベートインサイト」はメール、Slack、カレンダー、個人の行動履歴。14年分のツイートログをトピック分類した過去記事のように、蓄積された個人データがコンテキストになる。

「フィジカルインサイト」はCO2モニター、室温センサー、位置情報といった物理環境のデータだ。CO2濃度が閾値を超えたらSlackに通知が飛ぶ仕組みを作ったし、もっと原始的なところでは、iPhoneの位置情報が自宅から離れたらWebhook経由でルンバが起動する仕組みも以前から動かしたりなんかをしていた。バイオメトリック・インサイトもスマートウォッチによってやりやすくなっている。

できれば買い物などで出ている間に動いておいてほしいし、帰ってきたら掃除を中断してドックに戻っていてほしい。Siri や Google Home に声で命令するのも楽しいが、本当に実現したいのはそういうことだ。

2020年に書いたこの一文は、まさにアンビエントな「おせっかい」の定義そのものだった。声で命令するのではなく、位置情報の変化という物理コンテキストから自動的に動く。ただし「おせっかい」と「余計なお世話」を分けるのはタイミングだ。Gloria Markの研究によれば、タスク中断からの完全回復には平均23分15秒かかる。しかも平均的な注意持続時間は2004年の2.5分から近年は47秒にまで縮んでいるという。

集中しているときに「お役立ち情報です!」と割り込まれたら、それは知的暴力に近い。Eric Horvitzが1999年のCHIで提唱したMixed-Initiative Interactionの原則は、この問題への解を示している。不確実性が高いときは人間に聞き、確信があるときは自律的に動く。介入のコストと価値を天秤にかけ、自信がないときは具体的な行動ではなく幅広い提案に留める。Horvitzはこれを「elegant coupling」——支援がユーザーの文脈と注意に同期している状態と呼んだ。アンビエントであるとは、このelegant couplingが成立している状態のことだろう。

Ambient Agentに「察し」を教えるためにこそ明文化

ここで思い起こされるのが、先日の記事でも触れた松岡正剛の「編集工学」だ。

2024年8月に逝去した松岡正剛が提唱した「編集工学」だ。情報を関係させることで新しい意味を生み出す方法論。松岡は「編集工学的人工知能」の可能性にも言及しており、入力と出力との「あいだ」が見えるようなもの、その「あいだ」からタスクやイメージが発見できるものになるだろうと述べていた。

何を載せるか=何を載せないかを問う方法論。コンテキストエンジニアリングも本質は同じだ。LLMに何を渡し、何を渡さないか。CLAUDE.mdやSKILL.mdは、まさに「編集指針」の明文化であり、AIエージェントが参照する暗黙知のリバースドキュメンテーションにほかならない。Ambient Agentにとっての「おせっかい」の精度は、この編集指針の質に依存する。

日本の「察し」の文化はハイコンテクスト文化とも呼ばれる。明文化されていないルールや空気を読んで行動する社会だ。AIエージェントに「察し」を実装するとは、この暗黙知を明示化し、トリガー閾値として設計するということでもある。旅館の仲居さんの「おせっかい」が成立するのは、客の表情、食事の進み具合、気温、時間帯といった複数のコンテキストを統合して判断しているからだ。同じことをAmbient Agentにやらせようとすれば、パブリック・プライベート・フィジカルの3層のインサイトを統合する設計が必要になる。

Zero-shot → Few-shot → Zero-touchという進化は、プロンプトエンジニアリングからコンテキストエンジニアリングへの移行と重なる。「何を聞くか」から「何を前提として共有するか」へ。そして「人間が共有する」から「エージェントが自ら文脈を読み取る」へ。これはチャットからアンビエントへの移行そのものだ。

振り返ってみれば、僕がイベント駆動とSlack通知ありきでLLMを組み込んできたのは、無意識に「おせっかい」なAmbient Agentを求めていたからなのかもしれない。チャットUIに向かって自分から話しかけるのが「だるい」のは怠惰なのではなく、心地よい「おせっかい」への期待値が身体感覚として先行していたのだと考えている。文脈を読み、適切なタイミングで、適切な粒度で介入する。余計なお世話にならない絶妙な距離感——。幼馴染のような、母親のような、心地のよい「OSEKK-AI」を実現するAmbient Agentを求めて、自分用のツールを磨いている。それは孤独から逃避するための代替行為に過ぎないのかもしれないけれども。