太陽がまぶしかったから

C'etait a cause du soleil.

スタートアップのコミュニケーションログからSKillを蒸留できる時代におけるデータセットバイアウトというイグジット

ベンチャーわれ倒産す: 昔、大臣賞今、自己破産 (小学館文庫 R い- 13-1)

実在する会社のデジタルツインから訓練するニーズ

かつての米国には潰れかけた通販会社やスタートアップから顧客名簿を買いとるビジネスがあったという。事業者から見れば顧客リストは負債整理の過程でまとめて換金できる最後の資産であり、買い手からすれば検証済みの実在顧客データを割安に調達できるチャンスだった。このような名簿屋ビジネスが、いまは実在するSlackやJIRAのデータになってきているらしい。

具体的にはスタートアップの清算を専門とするSimpleClosureが「Asset Hub」というプラットフォームを立ち上げ、ソースコード・ドキュメント・Slackメッセージ・メールのライセンス販売を仲介している。過去1年で100件近くの取引を処理し、1社あたりの支払いは1万〜10万ドルにのぼる。

例えば、AIエージェントに「経費精算の申請」「スプレッドシートのピボット作成」「CRMでの顧客情報更新」といった実務タスクを訓練するために、Anthropicは強化学習インフラに最大10億ドルを投じる方針とも伝えられている。

名簿が「顧客の実在」を保証するデータだったとすれば、Slack・Jira・メールなどのログは「仕事の実在」を保証するデータだ。本物の人間が本物の締め切りと本物のプレッシャーのもとで仕事をした記録であり、フェーズ感や組織の温度まで含んだ文脈付きのデータになっている。合成データではなかなか再現できない「仕事の複雑さ」がそこに記録されている。

実際の仕事環境をそのものをシミュレーターとしたい

LLMをテキスト生成から「仕事を実行するエージェント」として鍛えるには、実際の仕事環境を模したシミュレーターが必要になる。コードレビューのやりとり、バグ報告から修正までのスレッド、意思決定の経緯が残るJiraのコメント欄、雑談から始まって最終的に製品仕様に化けたSlackチャンネル。こういったデータは、合成では作れない文脈を内包している。

しかも死んだスタートアップのデータには好都合な性質がある。何が上手くいかなかったかが結果として確定しているのだ。資金調達できた時期の活気あるやりとりと、崩壊に向かう時期のコミュニケーションの変化がセットで入っている。ビジネスのデジタルツインとして考えれば、「こっち方向に行くと死ぬ」という経路情報がラベル付きで揃っている。プレスリリースなどの公開情報と組み合わせることで一時期はイケていた部分の源泉がどこにあったかも、時系列データとして分析できるだろう。

板倉雄一郎氏の「社長失格」や、日経ビジネスの長寿連載「敗軍の将、兵を語る」は、失敗の語りとして優れた読み物だ。ただし、それらは記憶と編集を経た事後的な語りになっている。当事者が「あのとき何を考えていたか」ではなく、「あの頃をどう振り返るか」が語られる。エルデンリングで言えば血痕ではなく、墓碑銘に近い。

血痕は違う。プレイヤーが死んだその場所に、その瞬間の動きが記録されている。なぜそこで死んだかが、文脈ごと残っている。Slackのスレッドはそれに近い。なぜその判断をしたか、何が引っかかっていたか、誰がどんな温度感で発言していたか。失敗の文脈がリアルタイムに刻まれている。事後的な語りがいくら誠実であっても、当時の空気は記憶の圧縮によって失われていく。ログは圧縮されない。

カスタマーデジタルツインにおいても、施策の結果だけでなく「なぜその施策を棄却したのか」を残すことが鍵になる。カスタマーデジタルツインとは要するにポストペットに「異物」を投げ込んで反応を観察する行為のデジタルマーケティング版だ。ものを買うということは本質的に「それによって変わるかもしれない期待」を買っているのだから、仮想の顧客にリアクションさせて失敗したリザルト画面までの過程を見るだけでも施策の良し悪しが判断できる。

この「血痕としてのログ」という見方は、DXの本質とも重なる。DXとは既存業務の効率化ではなく、イベントを記録し、そのイベントによって起こる数字変化の「関数従属性」を発見することだ。採用のSlackスレッドが増えた翌月に解約率が下がるか、特定の機能リリースのJiraチケット密度が資金調達の成否と相関するか。こういった関数従属性が見えて初めて、「どこにどれだけ入力すれば良いか」が決まる。死んだスタートアップのログには、その関数を推定するための変数と結果がセットで入っている。だから強化学習ジムの原料になりうる。

記憶が身体から剥がれて流通する

シリアル・アントレプレナーを採用することに価値があるのは、その人間が「記憶」を持っているからだ。どの打ち手が関数従属の決定因になったか、どこで入力を増やしたから数字が動いたか、どういう状況でチームが崩れていったか。それを身体知として持っている人に、数千万円の年俸を払う。しかし記憶そのものがデジタルに残っているなら、人ではなくデータを直接買えばいい。記憶は上書きされる。ログは上書きされない。

ただしデータだけでは記憶にならない。必要なときに必要な記憶が引き出されて初めて記憶として機能するのであって、ログに保存されていることは記憶ではない。シリアル・アントレプレナーが高値で取引されてきたのは、彼らが状況に応じて記憶を引き出せる「実行する器」を兼ねていたからだ。

Anthropicが強化学習インフラに10億ドルを投じる意味はここにある。死んだスタートアップのログは、エージェントという器と組み合わさって初めて機能する記憶になる。データと実行が分離されていた時代には、記憶はシリアル・アントレプレナーの身体に閉じ込められていたが、正確な記憶と実行ログがあればそれは身体から剥がれて流通できるスキルとなる。

データセットバイアウトというイグジット

記憶をデータとして直接買えるなら、解散するスタートアップ側にも新しい出口が生まれる。M&A、IPO、清算といった従来のイグジットに加えて、「データセットバイアウト」という経路が生まれるのではないか。プロダクトもチームも畳むけれど、Slack・Jira・コードレビュー、その他諸々のログをAIラボに売って解散する。エクイティ投資家への返済には届かないかもしれないが、従業員への最後の支払いには使えるかもしれない。

このイグジット経路が本物になると、スタートアップの組織運営そのものの評価軸が変わる。ドキュメントが充実していること、意思決定の経緯がJiraに残っていること、SlackがDM文化ではなくチャンネルで仕事が進んでいること。こういった習慣が、事業の生存確率だけでなくデータとしての換金価値に直結してくる。生存戦略としてのドキュメント文化と、バイアウト戦略としてのドキュメント文化が、同じ行動様式を要請してくる構造がある。

ここで重要な区別がある。売るのは顧客のデータではなく、自分たちの試行錯誤だという点だ。AIとデジタル政策センターのマーク・ローテンバーグ氏は「これは汎用データではない。特定可能な人物のデータだ(It's not generic data. It's identifiable people.)」と懸念を示しているが、「どうやって仮説を検証したか」「どこで方向転換を迷ったか」「なぜあの機能を切ったか」というチームの思考プロセス自体は、自分たちが生み出したデータだ。つまり、ここを法的、倫理的にロンダリングにするプロセスにもビジネスチャンスがあるのかもしれない。

意図せず生成された社史を売って解散するビジネスモデル

SOUL.mdに自分の知識や文体を蒸留する試みをブログレベルでやってきたが、組織レベルでやると「社史編纂室2.0」になる。Slackのスタンプの使い方、会議の余白で交わされた雑談のトーン、特定フェーズに特定ワードが多用される現象。こういったものは通常なら「記録に値しない」とされるノイズだが、AIにとっては組織文化の周波数を読み取るためのシグナルになりうる。

認証フェーズで失敗すると後続のシーケンスは全部空振りになる。「組織の課題を教えてください」とストレートに聞いても本音は出てこない。雑談で共通点を見つけ、愚痴に相槌を打ち、「それわかります」と返すことで信頼スコアが積み上がる。スコアが閾値を超えたあたりから「ここだけの話なんですけど」が始まる。

そして議事録は最高の材料であり、正式なSlackチャンネルには残らない組織知となる。議事録文字起こしがコンテキストに積み上がっていくとしたら、「会議や飲み会を録音する」という行為は暗黙知の採掘であり、同時にデータセットバイアウトの原料生産になる。

「何を記録に残すか」を考えず、一定のSaaSを利用していればログが残り、どれが関数従属の決定因になっていたかはAIが後から発見でき、それを作ってAI Agentが最適化の実行を行える要素技術が揃ってきているからこそ、顧客名簿なんかよりもそれに価値が生まれる。

今日の深夜にスタートアップで働く誰かの長文お気持ち投稿は、未来の誰かが払う1万ドルの一部かもしれない。