太陽がまぶしかったから

C'etait a cause du soleil.

朝日新聞長文要約APIが原文にない "本日発行のasahi+C(朝日プラス・シー)"を含む要約文を捏造する問題

さよなら朝日

朝日新聞長文要約APIを試してみた

先日公開された朝日新聞の要約APIを試してみました。私が書いたスクリプトは以下。 長めの文章を「sample.txt」というファイルにまとめておくと、勝手に内容を読み込んで要約してくれます。

 id:tekitoeditor さんが、朝日新聞の要約APIを試すスクリプトを書かれていたので、自分も気になってDockerで動くように適当に実装。

 それで色々な文章を試していたのだけど、どうにも興味深い結果になるので記録しておきたい。

原文にない"本日発行のasahi+C(朝日プラス・シー)"

 例えば『今村夏子『あひる』感想〜現実と直交する「やった感」によって「にぎやかな我が家」を作り出そうとするカーゴ・カルトの悲哀と祝福 - 太陽がまぶしかったから』の本文を要約させると、以下のような結果になる。

今村夏子『あひる』、我が家にやってきたのは「のりたま」娘のわたし。2階の部屋にこもって資格試験の勉強している。
本日発行の「asahi+C(朝日プラス・シー)」33号は、ペットの飼い主の親族や息子の実家を出た僕自身が実家に帰る理由を探ります。
あひるを長く飼うために必要なのは栄養バランスを取ることなのに、何でも平らげていたのりたまの食欲が徐々に落ち始めている。
病院から2週間後に帰ってきたあひるも「のりたま」はなぜか小さくなっていた。家族でしている事は「お祈り」だった。

 元の文章が簡潔でないのが悪いってのもあるのだけど、"本日発行の「asahi+C(朝日プラス・シー)」33号は〜理由を探ります" という原文にない文章が混入されてくる不思議な現象が起こっている。"本日発行の「asahi+C(朝日プラス・シー)」57号"と出力されることもあった。捏造か。

Asahi+C(あさひ・プラス・シー)は朝日新聞名古屋本社の日曜日別刷り朝刊新聞(日曜版)である

 東京では全く馴染みがなかったが、SKE48の連載があったりして東海地方ではそれなりに知られているらしい。

 一部の連載記事はこちらで読める。ちょっと気になって読み込んでしまった。

特定の記事本文を機械学習すると出てくる偏りの片鱗

本APIは、入力された記事本文を機械学習を用いて要約するものです。過去30年分の記事データを、ディープラーニングの機構を用いて学習させています。長文を要約するときにお役立てください。

 朝日新聞の長文要約APIのモデルは過去30年分の記事データを機械学習したものだという。混入される文章は「本日発行の〜」とのことなので、おそらくは朝日新聞内の記事において、興味深いトピックスの要約文+「詳しくはこちらで」といったAsahi+Cに誘導する記事があったのではないかと思われる。

 機械学習を実施するためには実際の要約サンプルが膨大に必要となるが、その元ネタとしてAsahi+Cないの本文を問題・上記のような別紙への誘導要約文を正解にした教師データが選定されており、要約文側には別紙への誘導を意図する文章も含まれたままだったという邪推。

 特定のバイアスを持った記事本文を機械学習し続けると当初の意図にない謎のルールを発見してしまうのはディープラーニングの強みであり、弱みであると改めて感じる。何にせよ研究が進められてAPIの公開までしてもらえるのはありがたいこと。研究成果と民主化の両面から発展していくことを願いたい。

自然言語処理の基本と技術

自然言語処理の基本と技術