学術

2021年7月24日

AI時代における外国語学習の意義とは? 漫画機械翻訳エンジン開発者と言語学者に聞く機械翻訳と外国語学習のリアリティー 

 

 近年、機械翻訳技術の発展が目覚ましい。これまでに膨大な時間を英語学習に費やしてきたにもかかわらず、英語を理解するために Google 翻訳やDeepL といった機械翻訳ツールに頼っている学生も多いだろう。機械翻訳とは何なのか、そして外国語学習にどのような影響をもたらすのか。漫画専用機械翻訳エンジンの開発を手掛ける Mantra株式会社創設者の石渡祥之佑さんに機械翻訳の仕組みや用途などについて、言語学や言語教育を専門とし機械翻訳と言語教育の関係などを研究するトム・ガリー教授(東大大学院総合文化研究科)に機械翻訳が存在する中での外国語学習の意義や日本の外国語教育の課題などについて取材した。(取材・弓矢基貴)

 

ニューラル機械翻訳を漫画に応用

 

石渡 祥之佑(いしわたり・しょうのすけ)さん
Mantra株式会社代表取締役。19年東大大学院情報理工学系研究科博士課程修了。博士(情報理工学)。日本学術振興会特別研究員(DC2)、東大生産技術研究所特任研究員などを経て、20年Mantra株式会社設立。

 

 機械翻訳は 2014 年に大きな変革期を迎えた。それまでは確率に基づいた手法で、主に翻訳モデルと言語モデルという二つの統計モデルを用いて翻訳が行われていた。石渡さんは「翻訳モデルは辞書のようなもの」だと説明する。入力言語のフレーズと対応する出力言語のフレーズのデータを集積し、その組み合わせの尤度(ゆうど、もっともらしさの意)を計算するのが翻訳モデル。そうして得られた訳文の語順が自然である確率を、出力言語のデータから計算するのが言語モデルだ。

 

 このようにさまざまな確率モデルをどう設計するかが要であった機械翻訳が、ディープラーニングの技術を適用した途端急激に変わった。ディープラーニングとは人工知能が自らデータを解析・学習する手法で、これによって文脈をより正確に捉えた翻訳が可能となった。数百万、数千万に上る文章の対訳データをニューラルネットワーク(人間の脳機能を模倣した数理的モデル)に覚え込ませることで、複数のモデルを人間が明示的に設計せずとも文章全体を翻訳できるようになり、精度が飛躍的に向上したのだ。その後徐々に実用化され、現在の機械翻訳エンジンはほぼ全てこの「ニューラル機械翻訳」の仕組みを採用している。

 

 Mantra ではこの技術を漫画の翻訳に生かす。その背景には、海外の漫画海賊版サイトに対する問題意識があった。「日本の漫画が読者によって勝手に翻訳されて流通し、結果としてクリエイター側に利益が還元されていない状況がある」ことに危機感を募らせたという石渡さん。研究者として研究するのではなく、自ら起業して機械翻訳の実務に直接関与しているのもそのためだ。幼少期から海外を訪れることが多かった石渡さんは「漫画というコンテンツが言語の壁を超えて人と人をつなぐ」ことを肌で感じてきたという。そのような経験が今後も続くためにも、正規のルートで、速く正確に翻訳できるツールを作ることが急務なのだ。

 

機械翻訳の限界と可能性

 

 漫画の機械翻訳には、漫画特有の障壁がいくつもある。その一つは「吹き出し」の存在だ。どのような順番で吹き出しを読むのかを把握し、時には複数の吹き出しにまたがる一つの文章を認識しなければならない。そもそも、無数の線で表現された絵と文字がランダムに配置されているため、文字を認識することさえ困難だ。さらに、吹き出しの中身は主に会話文。特に日本語の会話では、主語や目的語が省略される例は枚挙にいとまがない。「アンパンマンだ!」という単純なせりふを訳すにも I am、He is、Here comes など多くの可能性の中から適切な表現を選択しなければならない。人間にとっては造作もないことも、機械にとっては至難の業なのだ。

 

 Mantra はこれらの問題に対処するために、絵の中から自動的にテキストを読み取り、こまを検出して読む順番を推定し、一つ一つの吹き出しごとにではなく文章が意味を成しているまとまりごとに訳す技術を翻訳エンジンに搭載している。訳す過程では、原文を消し、訳文を各吹き出しに割り振りフォントを調整する画像の処理も自動で行われる。このような技術により、現在は1ページあたり 10 秒程度で、吹き出し 10 個あたり3〜5個は人間による編集なしで発行できるレベルの訳が出力されるという。とはいえ、残りの5〜7個には何らかの修正が必要なのが現状だ。「特に個々のキャラクター特有の言葉遣いや技の名前などのクリエイティビティーが問われる場面では、しばらくの間は人間の力を借りることになるだろう」と話す。

 

機械翻訳を経た原稿の編集画面。コメント機能などを用いることで複数人での作業が効率化される

 

 石渡さんは、機械翻訳は「日進月歩の分野」だと語る。機械翻訳の精度を上げるための具体的な方法は、アルゴリズムとデータの改良だ。機械翻訳のアルゴリズムとは翻訳の仕方や手順のことで、ニューラルネットワークの導入はアルゴリズム改良の端的な例である。アルゴリズムの改良にはさまざまなアプローチがあり、例えば文章全体の文脈、漫画で描かれている絵、さらには入力と出力の言語以外の言語に関するデータなどを考慮して翻訳する技術が研究されている。

 

 一方、データの改良には量と質の二つの側面がある。単純に対訳データの数を増やすのが量的アプローチだが、集めるデータの質については微妙な判断を迫られる。一般的には文章と訳文が正確で洗練されている方が良いとされるが、特に会話文中心の漫画では、訳すべき文章が文法的に正しくきれいなものだとは限らない。そのような場合に対応するため、意図的に誤りのある文章をデータに混ぜるなどの工夫も時には効果的だという。

 

 文IIIに入学した当初は言語を教える教師になりたいと考えていた石渡さんは、言語学習の分野への進出にも意欲的だ。訳された漫画を英語学習に役立てることを目指し「Langaku」という英語学習サービスを開発している。こまをタップすると英語が日本語に切り替わったり、読む速度や合計ワード数、訳を見ずに読めている割合などの詳細な学習記録が保存されたりと、さまざまな工夫が施されている。見据えるのは「機械翻訳を研究する中で開発した技術を外国語学習に生かす」という、言語の壁を壊す新たな挑戦だ。

 

「Langaku」ではタップしたこまの言語が切り替わる

 

機械翻訳「硬い文章なら8、9割正確」

 

トム・ガリー教授(東京大学大学院総合文化研究科)
79、80年シカゴ大学大学院修士課程修了(言語学、数学)。83年に来日後、翻訳家、総合文化研究科准教授などを経て、13年より現職。

 

 「ニューラルネットワークの技術が適用されるまでは、機械翻訳は全く実用的ではなかった」とガリー教授は語る。天気予報などの限られた用途であれば実用化の可能性はあったが、雑誌や論文などの生の文章を入力すると高確率で意味不明な訳文が出力されていた。翻訳家として約 20 年間の経験があるガリー教授は「個々の単語やフレーズを置き換えるだけでは翻訳は成り立たないと身をもって痛感していたため、機械翻訳の実用化は現実的ではないと思っていた」と当時を振り返る。

 

 しかし、Google 翻訳がニューラル機械翻訳を一般公開した 16 年に、その見解を見直すこととなった。急激に精度が向上し、論文や新聞記事などの「硬い」文章を入れると、出力される訳文の 80 〜 90%が正確だったという。17 年に開始した機械翻訳サービス DeepL は、ガリー教授の目から見れば、少なくとも日英翻訳においては Google 翻訳の精度をもしのぐ。他にも、Bing 翻訳、百度(バイドゥ)翻訳など、さまざまな機械翻訳エンジンが高い精度を誇るようになった。

 

 機械翻訳の強みは、膨大なデータだ。特に専門性の高い論文の翻訳などでは、一人の人間の知識量をはるかに上回るデータを用いて正確な訳を導出する。フォーマルな文体で、省略などがない完全な文章に強いのも機械翻訳の特徴だ。

 

 逆に、主語を省いたり体言止めを用いたりした文章の場合、翻訳の精度は落ちる。小説や歌詞、落語などの文脈や常識の理解を必要とする文章も不得意だ。精度を上げるには、文章を入力する際に、日本語の場合は省略を避ける、固有名詞は誤読を防ぐためにローマ字で書く、英語の場合はなるべく代名詞を使わないなど、工夫が必要だ。出力言語の知識があれば、英語の単数複数の区別や冠詞など、誤りやすい箇所を確認して修正を加えると翻訳の質が高くなる。

 

英語学習に意義はあるのか

 

 機械翻訳があれば他言語で書かれた新聞記事の内容を理解できてしまうのなら、義務教育として学校で英語を教えることに意味はあるのか。ガリー教授によれば、従来英語教育には実用・教養・試験という三つの意義があるとされてきたが、特に近年、これらの意義が失われつつある。

 

 実用とは「将来社会で活躍するために英語が必要」という考え方のことだが、これは機械翻訳の台頭以前から矛盾をはらんでいた。「社会に出てから英語を使う必要がある日本人はせいぜい1割程度だ」とガリー教授は指摘する。日本国内に住んでいても外国人と出会う機会があることは事実だが、それなら英語よりも中国語・韓国語・ベトナム語の方が需要はある。そのような状況に機械翻訳の存在が加わり、実用面の意義はさらに薄まった。幼い頃から学校で英語を勉強しても、最終的に機械翻訳以上の英語力を身に付ける人はごくわずか。さらに機械翻訳は英語以外の言語も網羅するため、多くの人にとっては自分で学ぶより機械翻訳に頼る方が実用的なのだ。

 

 それでは教養はどうか。これは英語を学ぶことで異文化や言語自体に対する理解が深まり、結果的に日本の文化や言語のさらなる理解にも寄与する、という見方だ。機械翻訳を使ってもこのような教養は得られない。外国語を学ぶことによる知的成長は、それだけで十分価値があるだろう。しかし英語の教育だけに特化する必然性は見えてこないというのが、日本の外国語教育の課題だ。

 

 英語を学ぶ第3の理由は試験だ。大学入試や TOEICなどの英語能力試験で結果を出すために英語を学ぶ。これは、そもそも英語試験が存在する意義が実用と教養に依存しているので、英語教育の根本的な意義とはなり得ない。また「日本の英語試験で問われる能力は非常に限られている」とガリー教授は問題視する。日本社会は公平性を重視する傾向にあるため、生徒の習熟度に応じて発展的・本質的な内容まで踏み込むことができない。そのような表面的な能力を問う試験で満点を取っても、実用や教養を追求するために必要な英語力は身に付いていない可能性が高いのだ。「進学や就職、昇進に英語試験の点数が重要視される社会構造を、機械翻訳という大きな変化に対応させる時期が来ているのかもしれない」と語る。

 

 日本の英語教育には批判的だが、言語教育の意義はあると語るガリー教授は、85 年に日本語能力試験における最高レベルの1級(現在のN1に相当)を取得した。「真の日本語学習はそこから始まった」と話す。くだけた表現や方言、ユーモアなど、いまだに学びの途中だという。「外国語を学べば、機械翻訳では得られない友人や恋人と接し、海外を訪れて多くの刺激を受け、人生の可能性を広げられます。初修外国語も1年間で勉強を終えてしまうのはもったいないですよ」と学生にエールを送った。

 

タグから記事を検索


東京大学新聞社からのお知らせ


recruit
koushi-thumb-300xauto-242

   
           
                             
TOPに戻る