前田 亮
立命館大学 理工学部 情報学科
〒525-8577 滋賀県草津市野路東1丁目1-1
Tel: 077-561-5049,Fax: 077-561-2669, E-Mail: amaeda@cs.ritsumei.ac.jp
越田 高志
奈良先端科学技術大学院大学 情報科学研究科
〒630-0192 奈良県生駒市高山町8916-5
Tel: 0743-72-5336, Fax: 0743-72-5339, E-Mail: takas-ko@is.aist-nara.ac.jp
松江工業高等専門学校 情報工学科
〒690-8518 島根県松江市西生馬町14-4
Tel: +81-852-36-5248, Fax: +81-852-36-5248, E-Mail: takashi@matsue-ct.ac.jp
宮崎 純, 植村 俊亮
奈良先端科学技術大学院大学 情報科学研究科
〒630-0192 奈良県生駒市高山町8916-5
Tel: 0743-72-5336, Fax: 0743-72-5339, E-Mail: {miyazaki, uemura}@is.aist-nara.ac.jp
Akira Maeda
Department of Computer Science, College of Science and Engineering, Ritsumeikan University
1-1-1 Noji-Higashi, Kusatsu, Shiga 525-8577, Japan
Phone: +81-77-561-5049, Fax: +81-77-561-2669, E-Mail: amaeda@cs.ritsumei.ac.jp
Takashi Koshida
Graduate School of Information Science, Nara Institute of Science and Technology
8916-5 Takayama, Ikoma, Nara 630-0192, Japan
Phone: +81-743-72-5336, Fax: +81-743-72-5339, E-Mail: takas-ko@is.aist-nara.ac.jp
Information Technology, Matsue National Colledge of Technology
14-4 Nishiikushima, Matsue, Shimane 690-8518, Japan
Phone: +81-852-36-5248, Fax: +81-852-36-5248, E-mail: takashi@matsue-ct.ac.jp
Jun Miyazaki, Shunsuke Uemura
Graduate School of Information Science, Nara Institute of Science and Technology
8916-5 Takayama, Ikoma, Nara 630-0192, Japan
Phone: +81-0743-72-5336, Fax: +81-0743-72-5339, E-Mail: {miyazaki, uemura}@is.aist-nara.ac.jp
そして最近では、Web文書の内容を機械が理解できるようにし、 さらに高度な処理が可能となることを目指した研究が行われ始めている。 セマンティックWebはその代表例である。 この目的を達成するのに重要な役割を果たすと考えられるのがオントロジーである。 オントロジーとは、対象とする世界に存在するものごとを体系的に分類し、 その関係を記述したものである。 オントロジーに記述されたこれらの情報を利用することにより、 機械にある単語の意味を理解させることが可能となるため、 オントロジーの応用例の一つとしてこのような研究が行われている。
また、Webは世界中の多くの地域で利用されるようになったことにより、 Web文書は英語だけでなくそれ以外の様々な言語を用いて記述されるようになった。 この傾向は今後さらに大きくなることが予想されることを考慮すると、 Webを十分に活用するには単一の言語のみが対象では十分とは言えない。 そこで我々は、2言語を対象としたオントロジーの構築を行う。 2言語オントロジーを利用することにより、言語の制約から解放された セマンティックWebの実現、異なった言語間にわたるデータの統合などが 可能となることが期待される。セマンティックWebを例に挙げると、Web文書の検索 などにおいて推論を行うことにより、現在の検索エンジンではできない高度な検索が 可能となる。例えば、「世界で液晶ディスプレイを一番安く販売している店」を 探すといったようなことも可能となる。
図書館には日本の資料だけではなく、世界各国の資料が蔵書として保管されている。 同様に、ディジタル図書館においても、様々な言語で書かれた資料や文書が存在する。 このような状況において蔵書を効率的に管理するためには、多言語を扱える 必要がある。 また、ディジタル図書館が世界的な情報の共有を行うことは、 重要な目的の一つである。そのためには言語の壁を乗り越えるための手段が 必要となる。これらの目的を実現するために、2言語オントロジーは重要な役割を 果たすことができると考えられる。
近年、Web文書の内容を機械が理解できるようにする試みがなされている。 その試みとは、Tim Berners-Leeが提唱したセマンティックWeb[3]である。 セマンティックWebにおいてもオントロジーは、機械が言葉の意味を理解するための 知識を与える役割を期待されている。セマンティックWebにおけるオントロジーの 記述言語として、W3C(World Wide Web Consortium)により、 OWL(Web Ontology Language)が開発されている[4]。OWLではある一つの概念は クラスにより記述されるが、他のクラスとの関係が記述できるように設計 されており、これを推論ルールとして利用することが可能である。
OWLにより記述されたオントロジーのうち公開されているものに、 "WordNet.OWL"[5]がある。WordNet.OWLは、英語のシソーラスであるWordNet1.7.1[6]を もとにOWLにより記述することで作られた英語のオントロジーである。現在のところ、 公開されている日本語のオントロジーはないが、神崎は日本語の単語を対訳辞書を 用いて翻訳しWordNetに対応付けることにより、利用可能な日本語のオントロジーを 構築する試みを行っている[7]。 しかし、この手法では対訳辞書により得られる訳語を全て対応付けているため、 概念の異なる単語が同じ概念として扱われてしまう可能性がある。 そこで本研究では、この問題を解決したオントロジーの翻訳手法を提案し、 2言語オントロジーの構築を目指す。
この問題を解決する方法として、言語横断情報検索の分野で研究されている 訳語の曖昧性解消の手法[8]を用いることが考えられる。これは、問合せに用いられた 単語の組合せから、どの訳語候補が最も適切であるかを推定する手法である。 ただし、これらの曖昧性解消の手法は、問合せに用いられた単語の訳語として 適切である訳語を一つ、場合によっては数語を選択するため、類似する概念を表した 訳語候補を全て抽出するという本研究の目的には、そのまま適用することはできない。 そこで本研究では、Webディレクトリを利用した曖昧性解消の手法[9]を 二言語オントロジーの構築のために適用することを提案する。
図1.
Webディレクトリを利用した曖昧性解消を行うには,例えばYahooのように複数の 言語版があるWebディレクトリを利用する.本研究では英語から日本語への翻訳なので、 Webディレクトリも英語版と日本語版を用いる。 まず、前処理として次の2つの処理をおこなう。
これらの前処理が完了すると、訳語の曖昧性解消を行うことができる。
図2.
前処理では最初に行うのは、特徴語の抽出である。各カテゴリは特徴語集合により その特徴を表現される。特徴語集合は、そのカテゴリの特徴を表現していると思われる 単語の集合である。特徴語を抽出するために、まず各カテゴリに属するWeb文書から 単語を抽出する。次に、抽出された単語をカテゴリごとに集計し、その単語が カテゴリの内容を表現する程度を表す重みを計算する。抽出された単語のうち、 重みが大きいものから上位n語をそのカテゴリの特徴語として抽出する。
Web文書から抽出された単語の重みは、TF・ICF (term frequency ・ inverse category frequency)により計算する。これは、 一般に良く知られた単語の重み付けの手法の1つであるTF・IDF (term frequency ・ inverse document frequency)を発展させたものである。 TF・IDFは単語の出現頻度(TF)と文書頻度の逆数との積により求められる。 TFは単語の網羅性を表し、IDFは単語の特定性を表しており、これらの積である TF・IDFは網羅性と特定性がともに高い単語の重みが大きくなるようになっている。 TF・IDFでは文書を単位として重みを計算するが、文書のかわりにカテゴリを 単位として重みを計算したのがTF・ICFである。TF・ICFにより重みを計算することで、 文書単位で計算するTF・IDFより、カテゴリの内容をより反映した重み付けを 行うことができる。
前処理で行うもう一つの処理は言語間でのカテゴリの対応付けである。あるカテゴリ に対して、異言語の一つのカテゴリが対応するカテゴリとして選択される。 それぞれの言語版のWebディレクトリのカテゴリ数が同数であるとは限らないため、 一つのカテゴリが複数の異言語のカテゴリから選択されることはあるが、 一つのカテゴリが選択するカテゴリは一つだけである。
図3.
1)において、一つの単語だけから適合するカテゴリを推定することは困難であるため、 複数の単語を用いる必要がある。WordNet.OWLではある一つの概念に複数の単語が 登録されていることも多い。そこで、一つの概念に登録されている全ての単語を用いる ことにより、適合するカテゴリの推定を行う。
Webディレクトリの同じカテゴリには類似した分野を主題としたWeb文書が属している ため、訳語候補のうちで同じカテゴリに属しているものは、類似した概念を表している 可能性が高いと考えられる。よって、上記手法により類似した概念を表す単語を 抽出することが可能である。
今回の実験において、WebディレクトリはYahooの英語版と日本語版を用いた。 尚、下位の階層のカテゴリを上位のカテゴリに統合することにより、 それぞれの言語版の最上位のインデックスページに登録されている13カテゴリに 統合した。ただし、英語版の"Regional"および日本語版の"地域情報"のカテゴリは 除いている。また、最上位のインデックスページに登録されているカテゴリは どの言語版においても同じ構造であるため、その対応をそのまま言語間における カテゴリの対応付けに用いた。
Web文書から単語を抽出する際に,英語版では単語の活用形を原形にしたのち, ストップワードを取り除いた.日本語版では,"茶筌"[10]を用いて名詞,動詞, 形容詞,未知語を抽出した.特徴語の翻訳には,EDR電子化辞書の対訳辞書[11]を 用いた.また、各カテゴリの特徴語数は、特徴語の重みの上位5,000語とした。
本手法ではまず、抽出したい概念がどのカテゴリに適合しているかを推定する。 今回の実験では、上述の抽出したい概念が、英語版のカテゴリ"Business_and_Economy" に適合するものと仮定した。よって、このカテゴリに対応する日本語のカテゴリ "ビジネスと経済"が選択される。
次に、対訳辞書から英語の"bank"という単語の訳語候補を抽出する。 "bank"という単語の訳語候補は以下のとおりであった。
峰, 灰をかぶせる, 銀行, 貯蔵所, 傾斜する, バンクさせる, 漕ぎ手席, 銀行に預ける, 副見出し, 親元, 岸, 外側を高くさせる, 傾いて飛行する, 堤で囲む, 積み上げる, ゴム縁, 袖見出し, 堆積, 湯銭, 土手, 堤, 配列する, 坑口, 銀行業を営む, 銀行へ預金する, 横に傾ける, 胴元の用意金, 漕ぎ手, バンク, 〜バンク, 列に並べる, 土手を築く, 左右に傾ける, 堆積する, 片勾配, 堆, 縦坑口, テーブル, カウンター, 小見出し, 胴元になる, 浅瀬, 層をなす, クッション, 縦坑の入口付近, 貯金箱, 堤防, 堤のようになる, 傾斜させる, 横に傾く, 古代船のオールの列, 胴元, バンクする, 横傾斜, 隆起する, 積み重なる, タイプライターのキーの列, 砂州, 親元になる
そして、上記の訳語候補が日本語のカテゴリ"ビジネスと経済"の特徴語として 含まれているかを調べ、含まれていた訳語のみを抽出する。 その結果抽出された単語は、"峰", "銀行", "バンク", "カウンター" であった。
実験の結果、十分とはいえないが、全ての訳語候補のうちから目的の概念を表した 単語に絞り込むことができた。今回の実験で目的以外の概念を表した単語も 抽出された。原因は、カテゴリの統合によりカテゴリ数が少なくなったため、 一つのカテゴリが対象とする分野の範囲が大きくなったからであると考えられる。 また、茶筌では、"銀行に預ける"という語は"銀行"と"預ける"という二語に分割される ため、"銀行に預ける"という特徴語は存在しない。よって、こういった複数の単語に 分割される訳語は抽出されないということも問題である。さらに、WordNet.OWLでは 類似の概念であっても品詞が異なる場合は別の概念としているため、名詞だけを 用いることで抽出精度が向上する可能性がある。
[2] 来村徳信, 笠井俊信, 吉川真理子, 高橋賢, 吉崎晃司, 溝口理一郎. "オントロジーに基づく機能的知識の体系的記述とその機能構造設計支援における利用" 人工知能学会論文誌, Vol.17 No.1 pp.73-84, 2002.
[3] T. Berners-Lee, J. Hendler, and O. Lassila. "The Semantic Web" Scientific American, 2001.
[4] S. Bechhofer, F. V. Harmelen, J. Hendler, I. Horrocks, D. L. McGuinness, P. F. Patel-Schneider, and L. A. Stein. "OWL Web Ontology Language Reference" W3C Candidate Recommendation, 2003.
[5] Knowledge, Information and Data Processing Group. "WordNet.OWL" http://taurus.unine.ch/GroupHome/knowler/wordnet.html
[6] "WordNet" http://www.cogsci.princeton.edu/~wn/
[7] 神崎正英. "日本語ウェブ・オントロジーの試み" http://www.kanzaki.com/docs/sw/jwebont.html, 2003.
[8] 酒井哲也, 梶浦正浩, 住田一男, Gareth Jones, Nigel Collier. "機械翻訳を用いた英日・日英言語横断検索に関する一考察" 情報処理学会論文誌, Vol.40, No.11, pp.4075-4086, 1999.
[9] 木村文則, 前田亮, 吉川正俊, 植村俊亮. "Web ディレクトリの階層構造を利用した言語横断情報検索" 日本データベース学会 Letters, Vol.2, No.1, pp.71-74, 2003.
[10] "茶筌" http://chasen.aist-nara.ac.jp/
[11] "EDR電子化辞書, 対訳辞書" http://www.jsa.co.jp/EDR/J_index.html