No.037 - 情報学から読み解く日本古典文学:はじまりは『源氏物語』
情報学から読み解く日本古典文学:はじまりは『源氏物語』
2019年3月からニューヨークのメトロポリタン美術館で、『源氏物語』の展覧会が始まりました。テーマは、『源氏物語』に触発された芸術で、11世紀から現在までに至る作品が展示される北米で初めての展覧会です。
『源氏物語』に触発されたのは、なにも芸術家だけではありません。『源氏物語』がきっかけで日本文学の道へと進み、今では、日本文学と情報学を組み合わせて、コンピュータがくずし字を認識するシステムの研究を行なっている若手研究者がいます。
その若手研究者である人文学オープンデータ共同利用センターのカラーヌワット・タリン特任研究員に『源氏物語』との出会いから現在の情報学を駆使した研究について伺いました。
『源氏物語』について研究しようと思ったきっかけは何ですか?
タイ語訳の『あさきゆめみし』(作者:大和和紀)に出会ったことです。私はもともと日本の文化、特に平安時代などの古い文化に興味があり、小学生の頃から日本語を習っていました。平安時代のことを知ろうとバンコクの図書館に行っても、当時は日本古典文学に関する本がほとんどありませんでした。そんなおりに出会ったのが漫画『源氏物語』です。
そして、文部科学省の国費外国人留学生の奨学金を得て、早稲田大学大学院へ進学することになり、日本に留学するという夢を叶えました。大学院でははじめから『源氏物語』を勉強するつもりでしたが、正直なところ、『源氏物語』の研究については何も知りませんでした。
『源氏物語』を研究するにはくずし字が読めなければなりません。現代の日本人で読める人がそれほどいないくずし字。どのように勉強しましたか?
修士の時にくずし字を読む授業があったのですが、全く読めなくてテストに落ちてしまいました。しかし、どうしても読めるようになりたかったので、少し変わった方法で勉強しました。くずし字が書ければ読めるようにもなるはずと考えて、書道教室に通い始めました。
実際、書きながら読もうとすると上達も早かったんです。くずし字を書けるようになると、読むときに筆の入り方に注目するようになります。そうすると、書き方を意識してくずし字を読むようになり、こう書くからこう読める、という感覚が身につきます。
大学院でどのような『源氏物語』の研究を行いましたか?
鎌倉時代から南北朝時代までの源氏学者が、『源氏物語』をどのように解釈したのかを研究しました。これは『源氏物語』の当時の注釈からわかります。注釈には、語彙の意味、和歌の意味、歴史など、さまざまな種類があります。これらの注釈の解読を通して、平安時代の文化に関する理解を深めました。
現在は人工知能分野の技術を用いて、コンピュータがくずし字を認識するシステムを開発しています。どういった経緯で情報学の勉強を始めましたか。
大学院在学中は、『源氏物語』の注釈の翻刻(ほんこく:くずし字を現代の文字に置き換えること)作業をずっとやっていました。翻刻作業は大変な作業で、本の分量が多いとなかなか終わりません。もしコンピュータを使って一部の作業を進められたら、研究時間をもっと有効に使えるのではないかと考えました。また博士論文を書いている時には、今読んでいる写本の内容を検索したいとも感じていました。しかし現存する文献の量に比べ、翻刻の担い手は圧倒的に少ないという問題があり、その問題を解決する翻刻システムを開発したいと思い、情報学の勉強を始めました。
これまでもくずし字の自動認識の研究はなされていると思いますが、今回の翻刻システムは、これまでとどのように異なりますか?
文字認識の一般的な手法は、主に4段階あります。まず、資料をデジタル化し、次に画像中で、どこが背景、文字、絵の領域かというレイアウトを解析し、さらに文字領域を段落、行、文字などの要素に分割します。最後に、各文字が何の文字なのかを認識します。しかし、くずし字が続けて書かれることで、このような手法はくずし字にはうまく適用できないのです。
この問題を解決するために、私たちは分割を明示的に行わない手法を用いました。この手法はもともと生物医療の細胞画像解析のために提案されたものですが、古典籍で文字が重なったりする様子が、細胞が重なり合うのと類似しているのではないかという発想に基づいています。
実際にこの手法を適用してみると、従来の方法よりも高い精度でくずし字が認識できました。今後はこの翻刻システムを、誰でも使えるように公開したいと考えています。
コンピュータによってくずし字の翻刻が効率化されれば、研究者がその恩恵を受けるだけではなく、くずし字が読めない一般の人も古典籍に触れやすくなるとカラーヌワット特任研究員は話します。
小さい頃から好きだった日本語とプログラミングが互いにぴたりとはまり、現在の研究につながっているカラーヌワット特任研究員。彼女の研究者としての物語は今後、どのように展開していくのでしょうか。
(聞き手:高祖歩美)
情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター カラーヌワット・タリン特任研究員
2018年3月に早稲田大学大学院文学研究科博士後期課程日本語日本文学を修了。同年4月より現職。くずし字の自動認識の研究について、情報処理学会 人文科学とコンピュータシンポジウム「じんもんこん2018」 最優秀論文賞を受賞。
Twitter:@tkasasagi