ディジタル図書館のための概念情報を用いた科学技術論文の検索

堀井 千夏 今井 正和 千原 國宏
奈良先端科学技術大学院大学
〒630-01 奈良県生駒市高山町8916-5
Tel: 07437-2-5205, Fax: 07437-2-5379
E-mail: {chinatsu, imai, chinatsu}@is.aist-nara.ac.jp

概要

 従来の図書館では, 図書館司書により, 検索指示語に対する概念の個人差を 解消し, 情報の信頼性を保ってきた. しかし, ディジタル図書館では, 人間が 介在しないことを目指すため, 図書館司書に代わって, 検索結果の適合性問題 を解消する自動検索システムが求められる. 現在の自動検索システムは, 同 義語・異表記処理などの表層的な手法で適合率を向上させている. しかし, 単 語体系に基づいた手法では, 検索質問の意味解釈や利用者の検索意図の不足情 報に対する処理が不十分であり, より深層的な観点からの検索が必要とされる.

 本手法では,EDR電子化辞書を用いて, 概念レベルでの検索手法を提案し, 検 索質問と文献中の記述語を単なる文字列としてではなく, 意味的な情報として 検索に用いる. 検索対象には, 現在, 本学のディジタル図書館で, 誤字・脱字 を含んだ OCR結果として保管されている科学技術論文を用いる. 科学技術論文 には, 必ず主題が存在し, その主題ついて集中的に論じられているため, 記述 語がもつ概念から, 概念レベルでの論文の主題を獲得し, 検索に用いる.

キーワード

ディジタル図書館, 概念情報, 検索質問, 索引語, 検索式, 科学技術論文

An Information Retrieval using Conceptual Index Term for Technical Paper on Digital Library

Chinatsu HORII, Masakazu IMAI and Kunihiro CHIHARA
Nara Institute of Science and Technology
8916-5, Takayama, Ikoma, Nara 630-01, Japan
Tel: 07437-2-5205, Fax: 07437-2-5379
E-mail: {chinatsu, imai, chinatsu}@is.aist-nara.ac.jp

Abstract

  This paper presents an approach for semantic information retrieval which is implemented on Digital Library. It is well known that Digital Library make the information retrieval automatic and possible to access immediately the every kind of media information from anywhere. However, no improvement is made for use of Digital Library about the retrieval errors based on individual differences of the concepts or senses of user's request. This is one of the significant problem for searching efficiency of information retrieval. The approach developed in this study uses not user's request itself but also concepts of the user's request to solve this problem. This makes possible to do the semantic information retrieval not merely to do the comparison of the word strings of the user's request.

keywords

Digital Library, Concept path, Query, Index Term, Request, Technical Paper

1. はじめに

 近年におけるネットワークやマルチメディア技術の著しい発達にともない, 情報提供の窓口となる「ディジタル図書館」の実現を期待する声が高まってい る. 本学においても, 平成8年4月よりディジタル図書館の運営が開始され, 研究が進められている. ディジタル図書館は, 従来の図書館の機能に加え, 映 像や音声等といった様々なメディアに情報源の区別なくアクセスすることが可 能であり, 情報の即時性や, 時間や場所に対する拘束がないことが大きな利点 である. しかしながら, 情報の電子化が進むにつれて情報量が膨大となり, 利 用者の要求に対する適切な情報の提供がディジタル図書館を実現するうえで重 要な鍵となる.

 従来の図書館では, 検索質問に対する概念の個人差から生じる検索モレやノ イズを図書館司書が解消し, 情報の信頼性を保ってきた. しかしながら, ディ ジタル図書館では人間の介在を減少させるため, 図書館司書に変わって検索結 果の適合性問題を解消する自動検索システムが求められる.

 これまでに, 情報検索システムとして, 検索式の表現や索引語の選定に関す る様々な手法が提案されてきた. 検索式の表現法には, 論理演算に基づいた Boolean query language が広く用いられている. この手法は検索式の表現力 を向上させるが, 利用者から入力された検索質問の文字列にだけ着目している ため, 検索モレが生じやすいといった欠点をもつ. そのため検索質問を意味的 に拡張する手法として, 用語間の同義・階層・関連関係を表記したシソーラス が利用されている. シソーラスは同じような語の微妙なニュアンスの違いや含 意の違いなどを使い分けるための辞書であり, ある語を手がかりとしてそれと 同義語の関係にある語を探すことが可能である. しかし, 語を拡張する範囲の 決定が困難であり求める意味ではない語まで含んでしまうといった問題を抱え ており[1][2][3], 拡張範囲を絞り込み必要な語だけを選定する手法が求めら れる.

 索引語の選定法には, 語句・語幹の類似性を数量的に解析する方法として確 率論やベクトル空間, ファジィ集合論に基づいた研究がさかんに行なわれてい る[3][4][5].しかし, 索引語を単語の出現頻度に基づいて決定しているため, 内容的特質を十分に表現しているとはいえない. そこで, 出現頻度に依存しな い手法として, 文献の主題をグラフで表現する研究などが行なわれている. こ の手法は, 検索質問や記述語を単なる語の羅列ではなく, 構造的に内容のつな がりを表現する手法である. 最適なグラフ表現や照合法が確立していないため, 照合に時間がかかることが問題点である[3].

 本手法では, 検索式の表現および索引語の選定における上記の問題点を解消 するために, 以下の特徴をもつ検索手法を提案する.

 本システムは従来の単語体系に基いた表層的な検索手法ではなく, 概念体系 に基づいた深層的な観点からの検索手法である. シソーラスとしてEDR電子化 辞書[6]を用い, 検索式と文献中の記述語を単なる文字列としてではなく, 意 味的な情報として検索に用いる. そのため, 語のうらに隠された意味や, 利 用者による検索意図の不足情報を推測することが可能であり, 図書館司書の協 力なしに利用者が真に求める検索結果を提供することが期待される. また, 電 子化辞書を多言語シソーラスとして用いることにより, 自然言語処理分野で問 題とされている異なる言語間における検索への対応が可能となる.

 本研究では,検索対象に科学技術論文を用いる. これは現在, ディジタル図 書館で保管されている誤字・脱字を含んだ OCR結果である. 科学技術論文には 必ず主題が存在し, その主題ついて集中的に論じられていることに着目し, 文 献中の記述語から概念レベルでの論文の主題を獲得することを目指す. このこ とは,論文の位置付けやクラスタリングといった文献分類の実現が期待され, ディジタル図書館および情報検索分野において大きく貢献すると考えられる.

2. 概念空間の絞り込みによる概念の獲得

 本研究では,深層的な観点から, 情報検索を実現するために,検索式および 文献中の記述語を単なる文字列としてではなく,意味的な情報として取り扱う. このことにより,検索質問の意味解釈や利用者の検索意図における不足情報の 推測が可能となる.語の意味的な情報としては, 概念情報を用い、概念の階層 構造に基づいた比較により概念空間を絞り込む.

2.1. 電子化辞書による概念情報

 本手法では,単語の概念情報を獲得するために,"EDR電子化辞書"とよばれ る大規模な機械処理用辞書を用いる.従来の辞書は人手で構築されたものであ り,辞書にのっていない単語が比較的多く, 常に専門用語や新しい語を追加す る必要があった.しかし,最近では専門用語辞書の作成や,国語辞書に基づい た概念体系(シソーラス)の構築に関する研究が行われており, 辞書情報を有 効に使用することは効率のよい情報検索を可能にすると考えられる.

 EDR電子化辞書は11のサブ辞書から成る. 各サブ辞書は記述の単位(e.g. 語, 句, 文, 文章), 言語の種類(e.g. 英語, 日本語)と記述のレベル(e.g. 概念) の3つの特徴をもつ座標軸で構成されており, 統合的な言語知識を明らかにし た辞書である[7]. 本手法ではサブ辞書の中から単語辞書, 概念体系辞書およ び概念見出し辞書を用いて, 語の概念情報を検索する.

2.2. 概念空間の絞り込み

 概念体系辞書には, 概念間の関係として, 上位−下位関係が記されている. 語の上位概念を繰り返し検索することにより, 概念空間を木構造として体系化 することができる.例えば, ”ベース”という語から構成された概念空間の主 要な枝葉は, Fig.1のように示される. しかしながら, 1語から構成された概念 空間は, 利用者の意図や論文の主題とは異なる意味の方向へも情報空間を広げ るといった問題点をもつ. そのため, 本手法では概念体系の階層構造に基づい た比較により, 概念空間から必要な概念だけを選定し, 概念空間を絞り込む. "ベース"という語に"楽器"という語を追加した場合, これらの比較から, Fig.1に示すような意味的な重なりが得られる. この部分を, 絞り込まれた概 念情報とする. 各概念とその連結情報を概念パスと定義し, 概念パスの上位 方向を概念空間の意味的な方向とする. 実際,各概念情報はFig.2 のように16 進数のID番号で表示され,検索を容易に行なうことが可能である.

3. 情報検索システムの概要

 概念情報に基づいた情報検索システムは, 概念レベルで検索式を表現する検 索式部, 科学技術論文の主題を選定する索引語作成部, および検索式と索引語 を照合する照合部の3部から成る. 以下に, それぞれについて述べ, Fig.3 に本システムの概要を示す. 日本語の形態素解析には「JUMAN システム」[8] を用いる.

3.1. 検索式部における検索式の概念獲得

 検索時の適合性問題は, 利用者が入力する語の妥当性に依存する. そのた め, 検索の精度を上げるには, 語のうらに隠された意味や利用者の意図におけ る不足情報を推測する必要がある. 本手法では, 語がもつ概念情報を用いて, 深層的な観点から検索式を導く. 以下に概念レベルで検索式を獲得する流れを 簡単に述べる.

1.利用者から入力された検索質問をID番号に変換する

2.ID番号別に上位概念を検索し, 各概念体系を構成する

3.概念空間を絞りこむ

4.絞り込まれた概念パスの意味を利用者に提示する

絞り込まれた概念パスの中から利用者の意図にそったものを選択してもらい, 最終的な検索式とする.

3.2. 索引語作成部における科学技術論文の概念獲得

 検索対象の文献には科学技術論文を用いる. 科学技術論文には必ず主題が 存在し, その主題について集中的に論じられている. そのため, 論文の記述語 から得られる概念パスを用いて, 概念レベルでの主題を獲得する. 以下に概 念レベルで論文の主題を獲得する流れを簡単に述べる.

1.論文のページ毎にOCRをかけ, テキストを獲得する

2.テキストを形態素解析し, 名詞の抽出および出現頻度を算定する

3.各名詞をID番号に変換し, 各概念体系を構成する

4.概念空間を絞りこむ

5.概念パスの出現頻度を算定する

6.名詞および概念パスの出現頻度より概念を重み付ける

7.論文の主題を概念パスの集合として保管する

概念の重み関数は, 式(1)のように設定する.

式(1)

ただし, CTをページ毎に出現する単語Tの出現回数, max(CT)を最も多く出現し た単語CTの出現回数とし,さらにCSを単語Tから求まった概念パスSの出現回数, max(CS)を最も多く出現した概念パスCSの出現回数とする. 各ページ毎に, 概 念パスを重み付けし, 論文単位で保管する. このことにより, 論文を概念の集 合として求めることができ, 概念レベルでの論文の主題を獲得することが可能 となる.

 さらに, 論文間における適合率を比較するために, 式(2)に示す指数を用い る.

式(2)

3.3. 概念照合部

 概念で表現された検索式と, 概念の集合として保管されている科学技術論文 とを照合し, その結果をWWWブラウザを用いて, 利用者に提示する.

4. 実験と評価

4.1. 実験

 本システムにおいては文献の主題を概念で表現することが焦点となる. そこ で, 科学技術論文のテキストデータから論文の主題を概念パスの集合として獲 得する実験を行なった. 以下に実験の条件を示す.

 Table 1に, 電子情報通信学会論文誌に掲載されている''初期視覚における 網膜双曲細胞''に関する論文の実験結果を示す.これは主題の概念を重み順に 並べたものであり, ID番号とその意味を表している. 3つずつのグループは, それぞれ概念パスを示しており, 下にいくに従って上位概念を意味する. 結果 よりこの論文の主題は, 情報分野における視覚および通信(回路)といった概 念の集合で表現されることがわかる.

4.2. 評価

 実験結果を評価するために, 情報科学に関する知識をもつ5人に, アンケー ト調査を行なった. アンケートは, まず, 電子情報通信学会論文誌 VOL.J78-DIINO.7に掲載されている15本の論文を読んでもらい, 『概念で表現 した論文の主題が妥当であるかどうか』という問いに対して, ``excellent'' , ``good'', ``fair'', ``poor''の4段階で評価してらうものである. アンケー トの結果をFig.4 に示す. その結果,76%の被験者が``excellent'' または, ``good''と評価しており, 概念で表現された論文の主題が被験者が想定する主 題とほぼ一致しているいえる. また, ``excellent'' を3点, ``good''を2点, ``fair''を1点, ``poor''を0点とし, 各論文の評価を点数化したグラフを Fig.5 に示す. 各論文に対する評価の平均点は, 15点満点中10.6点と, 総合的 には高いものであった. しかし, 論文の主題によっては, 非常に低い評価がな された. このことは, 以下にあげる2点が問題であると考えられる.

EDR電子化辞書には専門用語の辞書が存在するが, 本システムでは使用しなかっ たため専門用語の概念化が十分に妥当ではなかったと思われる. 今後は, 専門 用語辞書を検索システムに加える計画であり, さらに高い評価が期待される. また, 形態素解析には既存の連接規則を用いた. そのため, 複合名詞として意 味をもつ語を分割してしまう場合が生じた. Jumanシステムにおける連接規則 は, あらかじめ変更しておくことが可能であるので, 不的確な場合を十分に調 べその変更を試みる必要がある.

5. 実装モデル

 本研究で提案した検索システムを試験的に実装した. ユーザインターフェー スにはWWWブラウザを用いる. 利用者による検索条件の入力から利用者が最終 的に閲覧する論文のドキュメントにいたるまでの流れを順に, Fig.6, Fig.7, Fig.8, Fig.9に示す.

6. おわりに

 本研究では, ディジタル図書館のための概念情報に基づいた検索システムを 提案した. 検索対象には, 本学のディジタル図書館で保管されている科学技術 論文として, 誤字・脱字を含んだ OCR結果を用いた.

 以下に, 本システムの特徴を示す.

本手法では, EDR電子化辞書を用いて検索式と科学技術論文の主題を概念で獲 得し,語を単なる文字列としてではなく, 意味的な情報として扱った.このこと は, 表層的ではない, 深層的な観点における情報検索の実現を可能とする. ま た, 概念で科学技術論文の主題を表現することは, 論文の位置付けやクラスタ リングの実現も期待され, ディジタル図書館および情報検索分野においても, 大きく貢献すると考えられる.

参考文献

[1]諸橋正幸, 堤泰治郎, 丸山宏, 野美山浩: 情報検索システムにおける効果 的ナビゲーション機能の提案. ディジタル図書館ワークショップ 第2回, pp.45-49.

[2]Lim, C. and Chen, H. ``An Automatic Indexing and Neural Network Approach to Concept Retrieval and Classification of Multilingual(Chinese-English)Documents.'' IEEE Transactions on Systems, Man and Cybernetics, 1994.

[3]細野公男偏: 情報検索. 雄山閣出版, 1991.

[4]Salton, G. Allen, J. and Buckley, C. ``Automatic structuring and retrieval of large text files.'' Communications of the ACM 37.2 (1994). 94-108.

[5]Harter, S. P. ``A probabilistic approach to automatic keyword indexing. Part II: An algorithm for probabilistic indexing.'' Journal of the American Society for Information Science 26.5 (1975). 280-289.

[6]日本電子化辞書研究所: EDR電子化辞書技術ガイド (第2版再改訂). EDR TR-045, 1995.[http://www.iijnet.or.jp/edr]

[7]横井俊夫, 木村和広ほか: 表層レベルにおける電子化辞書の情報構造. 情 報処理学会論文誌 Vol.37 No.3, pp.333-343.

[8]松本裕治, 黒橋禎夫ほか: 日本語形態素解析システムJUMAN 使用説明書 version2.0. 奈良先端科学技術大学院大学