このページの先頭です


名古屋大学情報基盤センター 教授 外山 勝彦

更新日:2024年1月22日

官報からのテキストマイニング

名古屋大学情報基盤センター
教授

外山 勝彦


官報には、かつて英訳版が存在したことをご存知でしょうか。
官報英語版(または官報英訳版、英文官報)は、戦後の占領開始翌年の1946年4月4日から占領終了の1952年4月28日まで約6年間、連合国軍最高司令官総司令部(GHQ/SCAP)の指令に基づいて、大蔵省印刷局(当時)が発行していました。本紙1,828号、号外974号などの発行が確認されています。名古屋大学大学院法学研究科附属法情報研究センター(当時)は、その紙面画像のアーカイブサイトを2011年3月から公開しています。また、現在では国立国会図書館デジタルコレクションでも閲覧できます。

さて、近年、社会のグローバル化に伴い、日本の法令を英訳する必要性が高まりました。それは、国際取引の円滑化、対日投資の促進、法制度の国際的協調、法整備支援、在留外国人への法情報提供などによるものです。それに対して、日本政府は2006年3月、法令外国語訳とその基盤整備の推進を決定し、法務省は2009年4月に「日本法令外国語訳データベースシステム」を公開しました。筆者は情報科学の研究者として、その設計・開発を担当しました。また、法令英訳を支援する情報技術の研究・開発に取り組んできました。

法令英訳における課題の一つは、訳語の統一です。法令用語専用の標準対訳辞書を構築することはその解決策の一つですが、それは容易な作業ではありません。そこで、テキストマイニングと呼ばれる情報技術を利用しました。まず、既存の日英対訳法令153件のデータから、原文1文とその英訳文1文をペアにした対訳文約4万文からなるデータベースを作成しました。次に、それら対訳文の中で、どの日本語単語とどの英単語が同時に含まれやすいかという統計情報をコンピュータで解析し、対訳語候補を自動抽出しました。その後、法律家による検査を経て、「法令用語日英標準対訳辞書」初版(日本語見出し語3,315語)が2006年3月にできあがりました。

実は、訳語の統一は官報英語版においても課題でした。統一のための心得が当時の資料として残っています。官報英語版の英訳の品質についてGHQ/SCAPは一定の信頼を置いていたようですから、当時の翻訳技術は現在の法令英訳において参考になると考えられます。そこで、 官報英語版の画像からOCR(光学的文字認識)により英訳法律1,624件(約15万文)の文字データを翻刻し、また、対応する原文の文字データを国立印刷局・官報情報検索サービスなどから取得したうえで、上記と同じ方法で解析しました。その結果、英文OCRや原文データの品質に悩まされながらも、対訳語候補を抽出できました。それを「法令用語日英標準対訳辞書」と比較したところ、同一訳322語、別訳218語のほか、「福祉司/welfare official」、「水利/water utilization」など追加登録の対象になりそうな新たな対訳語4,931語が見つかりました。また、「相続税」の訳語は1950年を境に、estate tax(遺産税)からaccessions tax(遺産取得税)に変更されたことも検出できました(「法令用語日英標準対訳辞書」ではinheritance tax)。これは相続税法が改正されて、課税方法が変更されたことを反映したものと考えられます。

このように、官報とその英語版に掲載された日英対訳文データから、対訳語という新しい情報を抽出するという作業は、テキストマイニングの一例です。官報には法令だけでなく、社会の制度や現況を表す実にさまざまな情報が掲載され、明治期以来蓄積されています。それらを解析すれば、直接は見えない新しい情報を抽出することが期待できます。そのために、官報の掲載内容は、正確で、かつコンピュータで容易に処理可能な形のオープンデータとして提供されることを切に望みます。

関連コンテンツ

国立印刷局について
私たち国立印刷局は、ものづくりを通じ、国民経済の更なる発展に貢献できるよう、努めています。


お札について
お札(日本銀行券)を安心して使っていただくため、お札に関する必要な情報を提供しています。

本文ここまで