太陽がまぶしかったから

C'etait a cause du soleil.

LCM から想起するフォトリーディングと翻訳早押しクイズにおける”マイナスの遅延”

LCM(Large Concept Model)からフォトリーディング

Meta AI が発表した Large Concept Model(LCM)は、文単位での概念生成を可能にする新たな言語モデルである。従来の LLM における単語ベースとは異なり、文章の意味をベクトル空間で直接操作し、一般に拡散モデルを用いてノイズから文章を復元する手法を採用している。

この技術は、文章の構造的意味を変換することに特化しており、特に多言語要約や視覚文脈理解、非構造情報の要約抽出など、従来の LLM では難しかったタスクにおいて優れた性能を発揮するのだけど、そのアルゴリズム構造を理解する過程で、フォトリーディングを想起した。

AI が「ノイズから意味をすくい上げる」プロセスは、ページ全体を「一瞬で視覚にに焼き付ける」と主張するフォトリーディングの低解像度な直観的メカニズムと似ている。つまり人間が経験的に編み出してきた読解のショートカットが、ある種のアルゴリズム設計において部分的な再現を果たしているのではないかと考えたのだ。

LCM の理論的背景とフォトリーディングの類似性

LCM は、先ほども述べたとおり、文単位の概念生成を前提とする生成モデルであり、従来のトークンベース LLM と異なり、意味のまとまりを直接的に操作可能なベクトル空間で表現・処理する。このアーキテクチャにおいて中心となるのは、Gaussian 拡散過程を逆再生する形での意味ベクトル再構成である。

これは、時間方向における潜在変数のエネルギー減衰とともに、概念が徐々に顕在化していくプロセスをモデル化している。復元された潜在表現はデコーダにより自然言語文へと変換される。この技術は画像生成モデル(例:Stable Diffusion)と共通する数理的基盤を持ちながらも、言語モデルとしての拡張性を備えている。

またフォトリーディングとは以下のプロセスを経て、情報を処理する技法である。

  • Prepare:読書目的の明確化とリラクゼーション
  • Preview:次や見出し、図表の配置など、文書のメタ構造を把握
  • PhotoRead:ページを 1 秒程度でめくりながら、視野全体に文字情報を浴びるように取り込む
  • Postview:暫定記憶から浮上する認知残像を手がかりに、注目箇所を再認識・マーキング
  • Activate:質問生成、マッピング、再読、記述などを通じて理解

これは、プロンプトエンジニアリングによって目的が明確化され、文書の構造を把握し、情報を画像のようなベクトルとして取り込み、後で意識的に再構成するという LCM の一連のプロセスと類似している。Postview は Attention だし、Activate はユーザーからのプロンプトで質問を答える段階でオンデマンドに再読されることに相当するか。

フォトリーディングでは、情報の視覚的キャッシュを利用して、無意識下での情報処理を促進し、後に意識的な意味形成へと移行するが、実際には脳内にすでにあるクリシェパターン認識を通じて、「超解像的」に文書を再構築している側面が大きい。フォトリーディングが 2000 年代日本のビジネス書市場で流行した背景には、同ジャンルの論調・構成が相対的に類型化されており、視覚的キャッシュのみでも要旨が外れにくいという事情があったと妄想している。逆に言えばセンスオブワンダーや複雑な文脈が求められる文学作品などでは効果が限定的であり、これは LCM にも当てはまることだろう。

予測的読解と投機的実行を前提とした高速化

フォトリーディングにおいては、まず目的意識を明確にしたり、目次や索引を読む必要があり、実際的には、まだ読んでいないページの内容を予測し、次に来る情報を先取りしつつ、視覚的な流し読みで正誤判定する対応が行われる。つまり、次文予測と投機的実行による「早押しクイズ」や「百人一首」のようなアプローチでありつつ、あくまで低解像度な文章であることがポイントだ。

「ABEMA Prime」に出演した Kotoba Technologies CEO・小島熙之氏が手掛けた、リアルタイム翻訳サービス「同時通訳」は、従来の翻訳アプリが人間が話し終えてから訳すのに対して、独自の生成 AI モデルを開発したことで、話したそばから翻訳していく。そのスピードは世界最速レベルで、人間が話したところから計算した遅延は平均で 1 秒以内。さらに小島氏は「マイナス 0.5 秒まで達成している」という。“遅延がマイナス”となれば、人が話す前に翻訳が始まることになる。小島氏は番組で、この仕組みや今後の展望について語った。

生成 AI によるリアルタイム同時翻訳が“マイナス 0.5 秒”の遅延 ── すなわち話し手が言語化する前に翻訳側が先回りして出力を始める段階に達しているという報道も、フォトリーディングや LCM 的アプローチの社会実装例として示唆的である。Kotoba Technologies のモデルは話者の語用論的文脈を高速に推定し、次に現れる語句列を予測することで遅延をマイナス域へと押し下げたという。

つまり「翻訳処理の高速化」の前段階としての「まだ喋られていない次の会話の予測」が重要になるという構図であり、「一般的な会話」はビジネス書のように予測可能性が高いゆえに機能しやすいこと、そして現実の会話に先駆けて「マイナスの遅延」で表示される翻訳文とのリアルタイム正誤判定および修正が求められるという点において極めてフォトリーディングとの類似性がある。

決定論的な未来予測と決定論的じゃない部分への注力

このように、これまでオカルトと言われがちだったフォトリーディングも LCM のような技術的実装を経ると、実用的な読解手法としての側面が強調される。大抵の人間には写真記憶が不可能ってことを除けばだけど。それでも、AI やハードウェアの進化に伴い、読書や翻訳のプロセスはますます高速化され、予測的な要素が強くなっていく。

読んでいない本を堂々と語りたいと言えば、『バーナード嬢曰く。: 1 (REXコミックス)』(流)であるが、この「読破したっぽいフンイキ」として「タイトル」や「名言」の引用(主に Wikipedia で調べた)が挙げられる。SF 作品の邦題はタイトルだけでも魅力的だし、名言はそれだけで何かを理解した気にさせるという点で必要十分な情報を得ていると見ることもできる。

まだ読んでいない本について先駆けて堂々と語り、まだ会話されてないことに先駆けて堂々と翻訳することが可能な世界。”マイナスの遅延”や”負の遅延”と言えば、テッド・チャンの『予期される未来』なのだけど、現実世界においても決定論的な未来を予測する精度が高まってくる中、どのようにして非決定論的な未来を作るための活動に人間として関わっていくのかが問われるのかもしれない。無理にどんでん返しやひっかけ問題をしても仕方がないけれども。