太陽がまぶしかったから

C'etait a cause du soleil.

佐野大樹『生成 AI スキルとしての言語学』感想〜選択体系機能言語学における命名と分類と理論化から学ぶプロンプトエンジニアリング

生成AIスキルとしての言語学 誰もが「AIと話す」時代におけるヒトとテクノロジーをつなぐ言葉の入門書

言語学を軸にした生成 AI 活用の新視点

生成 AI とのコミュニケーションは、プログラミング言語のような形式言語でなく、私たちが普段使っている言葉、自然言語で行われています。
言語学が研究の対象としてきたのは、この「自然言語」なのです。 私たちは、長年にわたり言語学で探求され続けてきた、「伝えたいこと」を言葉で表す際の「選択肢」を理解し、そのなかで、生成 AI との対話で効果的な「言葉の選び方」を学ぶことで、生成 AI の潜在能力を引き出すことができるのです。

本書は、生成 AI が日常的な対話相手として広がりを見せる現代において、プロンプトエンジニアリングを言語学的な枠組みで整理するのに実践的な書籍である。Google の研究者である著者の研究対象であった「選択体系機能言語学(Systemic Functional Linguistics, SFL)」を基盤とし、アルゴリズムの変化に左右されない普遍的で持続可能な「言葉の使い方」の提供を目指している。

我々は自然言語においても常に相手との関係性や状況を踏まえながら言葉を”選択肢の中から選んでいる”と本書は指摘しており、これはトークンを確率的に選択している LLM との相似形にある。このような視点を持つことで、生成 AI に指示を伝える方法をメタに捉えることがで可能となり、より効果的なプロンプト設計が実現する手がかりとなる。

SFL とプロンプトエンジニアリング

言語学における SFL 理論とは、言語を単なるコミュニケーションの道具としてではなく、社会的な行為や関係性を形成するための「選択体系」として捉える理論である。SFL 理論においては以下の 3 つの要素が重要な役割を果たしており、プロンプトエンジニアリングにおいてもそれを反映させることが推奨されている。

  • フィールド(話題・行為内容)
    • 何について話しているのか、どのような行為が行われているのか。
  • テナー(話者と聞き手の関係性)
    • 誰が話しているのか、誰に向けて話しているのか。
  • モード(媒体・文体・チャンネル)
    • どのような形式でコミュニケーションが行われているのか。

これを知って想起するのは、いわゆる深津式プロンプトである。

あなたは XXXX をわかりやすくまとめる AI です。
以下の資料を、非専門家の人でもわかりやすい簡潔なサマリーにまとめてください。

###
資料の文章をコピペ

深津式プロンプトにおいては最初にフィールド(話題)を明示的に設定し、テナーを「わかりやすくまとめる AI」と「非専門家」にした上で、モードを「簡潔なサマリーにまとめ」に設定していると解読することができる。

深津式プロンプトが考案された前提として SFL があったのかは定かではないが、SFL という言語学の理論を知ることで、プロンプト設計の背後にある理論的な根拠を理解し、より効果的なプロンプトを作成することが可能となることは事実だ。

インコンテキストラーニングと実践的プロンプト技術

加えて、本書ではテキスト構造理論(Generic Structure Potential, GSP)を援用し、「状況設定 → 指示/質問 → 出力様式 → 例示」の順序を保つと回答が安定すると整理した。これは役割提示を前提に FewShot や Chain of Thought として知られるインコンテキストラーニング手法である。

そこまでは既知であったが、言語学の世界には「コンテキスト」と「コーテキスト」という、似て非なる用語による区別がある。どちらも「文脈」と訳されがちだが、実はまったくの別物である。たとえば、「昨日、彼に会った」という文章において「彼」が誰なのか、どこで会ったのか、なぜ会ったのか——こうした“外側”の情報が「コンテキスト」だ。つまり、発話が行われる状況や背景、登場人物の関係性、場所や時間、社会的な空気感まで含めて全部ひっくるめたものだ。

一方で「コーテキスト」は、発話の前後にどんな言葉が並んでいるか、どんな文章の流れの中にその一文があるか、というテキスト内の関係性を指す。たとえば「昨日、彼に会った。彼は元気そうだった」の「彼」が誰かは、前の文を見ればわかるということを意味する。自己回帰型の生成 AI においては、コーテキストを意識させることで、より一貫性のある出力を得ることをさせられる一方で、拡散モデルには苦手な分野であることが直感的に理解できるだろう。

言語学における命名と分類と理論の重要性

このように、なんとなく習得してきたプロンプトエンジニアリングの手法について、よりメタに位置する言語学命名と分類と理論化による分解が行われていくのが面白い。そもそも言語学は人間によって行われてきた言語行動を研究する学問であり、人間が生を受けてから明示的な理屈を叩き込まれるまでもなく習得していく「言語」について、ある範囲において帰納的に発生する A, B, C の概念を分類する命名を前提に理論を構築していく性質がある。

これは、MBA経営学の理論が、実務経験を通じて得られた知見を命名して体系化したものであることとの相似形にあり、妖怪や病気に名前を付けていく民俗学や医学のアプローチにもつながる。こうした経験則に明確な名前をつけていくことで、生成 AI に聞いたり、検索したりする際のキーワードとしても機能する。まさに『弱いつながり 検索ワードを探す旅 (幻冬舎文庫)』だ。

帰納的な言語学と演繹的になりうる生成 AI の関係

つまり、我々は改めてハラリのいう「AI(エイリアン・インテリジェンス)」に対する真に工学的な指示コミュニケーション方法 ≒ 命令工学を打ち立てるべきであり、そのためにこそ演繹的な動作原理を学ぶ必要がある。これは本質的に帰納的な経験則となる人間理解とは異なる思考モードである。

かつて SEO が席巻した時代には、Googleブラックボックスアルゴリズムに対して帰納的な少数例から形式的な真似を繰り返す、“カーゴ・カルト”的アプローチが横行しており、エイリアン・インテリジェンスとのコミュニケーションもその延長線上で捉えてしまいがちだが、AI(人工的な知能)を構築するための論文もソースコードも豊富にあって、異星人や異性人や検索猿人と違って解剖も改造手術も自由だ。

生成 AI への言語学的なアプローチは魅力的である一方で、生成 AI が人間と同じアルゴリズムで動くという仮定も危うい。LLM はあくまで膨大な文章を学んで推論しているだけであり、必ずしも人間のような論理的思考や感情を持っているわけではない。したがって、生成 AI とのコミュニケーションを効果的に行うためには、単に自然言語の知識だけでなく、その背後にあるアルゴリズムや動作原理を理解する必要がある。

それでも、人間の言語自体が他者とのコミュニケーションから帰納的に学ばれている範疇が大きいことも明らかであり、言語学からのアプローチとその限界を知ることは結果的に人間と LLM を分つための命名と理論として有用に働く可能性がある。

本書においては生成 AI によって従来のコミュニケーションの壁が崩れる未来の可能性についても詳しく言及している。異なる専門分野や文化的背景を持つ“ディスコース“が生成 AI を媒介として結びつき、新しい「シェアドディスコース(共有された対話空間)」が創造されることを示唆する。

それ自体は ZPD(発達領域の最近接)と呼ばれる概念であり、相手が発言を理解可能な境界を測り、それに合わせて情報を「噛み砕く」ことを発話者に求めるのが正しい行為とされてきたが、中間的なフィルターとしての ChatGPT が相手の知的水準と主義に合わせてマルチモーダルに翻訳してくれることで、発話者が意識せずとも検閲された相手にとって愉快な言葉にしてくれる。

翻訳技術の高度化と相まって異質な知識や視点が融合し、新たな価値観やアイデア創発が促進される未来は、新たなコミュニケーションの可能性を示している。僕自身としても、これまであまり馴染みがなかった言語学の概念を理解するためのブリッジとしての生成 AI の役割を感じており、今後の研究や実践においても役立つものになっていくのだろう。その基礎スキルとして言語学における命名と分類と理論化を学ぶことは有用なスキルになっていくことだろう。