係り受け情報を用いた全文検索とその評価
新美和彦,兵藤安昭,池田尚志
岐阜大学工学部
〒501-11 岐阜県岐阜市柳戸1-1
Tel: 058-293-2740
Fax: 058-293-2740
E-Mail: {kazuhiko,hyodo,ikeda}@ikd.info.gifu-u.ac.jp
概要
大量の電子化文書に容易にアクセスできる環境が整ってくるにつれて,その中からユーザが
必要とする情報のみを正確に検索する技術がますます必要不可欠となってきている。
従来の検索手法では,文書中に単語が出現するか否かに関するブール演算
による絞り込みが主として用いられてきた。
そのほか、単語間の関係による絞り込みとしては近接演算が用いられてきたが,
近接演算では単語間の正確な関係を表現することは出来ない。
本論文では,単語間の係り受け情報を用い,高精度な絞り込みが可能な
全文検索システムについて述べる。
特許データを対象とした検索実験で,係り受け関係を用いた検索精度は
適合率92.11%,再現率96.01%を示し,
近接関係を用いた検索と比べ良好な結果を得た。また,インデックス容量の
増加も27%程度に抑えることが出来た。
キーワード
全文検索,係り受け情報,骨格構造解析,近接演算
Full-text retrieval using dependency structure and its evaluation
Abstract
Today we can easily access a lot of large scale electoronic
documents, and with these advance the eager wish for high precision text retrieval
is increasing.
In this paper we propose , to improve the precision , the full-text
retrieval using dependency relation between words instead of proximity
operation. The proximity relation has been used as a substitution for
syntactic relation so far, because the syntactic analysis is still a
difficult task for a computer. We apply our method of
skeletal syntactic analysis for Japanese to full-text retrieval and
evaluate the index size, response time, accuracy of retrieval and others
verifying usefulness of this method.
Keyword
Full Text Retrieval, Dependency Structure, Skeletal Syntactic Analysis, Proximity Operation
1.はじめに
大量の電子化文書に容易にアクセスできる環境が整ってくるにつれて,その中からユーザが
必要とする情報のみを正確に検索する技術がますます必要不可欠となってきている。
従来の検索手法では,文書中に単語が出現するか否かに関するブール演算
による絞り込みが主として用いられてきた。
そのほか、単語間の関係による絞り込みとしては近接演算が用いられてきたが,
近接演算では単語間の正確な関係を表現することは出来ない。
検索精度向上のためには言語情報の活用が効果的である。[兵藤 96]は
構文解析情報を活用した翻訳支援のための類似用例検索について述べている。
本論文では,『ある単語がある単語に係る』という係り受け情報を利用した
高精度な全文検索システムについて述べる。
係り受け情報は形態素解析及び構文解析を施すことにより作成されるが,
長文に対する安定した構文解析はまだ困難である。本システムにおいては
表層的情報のみを用いて行う骨格構造解析法[兵藤 95]によって、文書
データベースの係り受け解析を行った。
特許データを対象とした検索実験で,係り受け関係を用いた検索精度は
適合率92.11%,再現率96.01%を示し,
近接関係を用いた検索と比べ良好な結果を得た。また,インデックス容量の
増加も27%程度に抑えることが出来た。
2.全文検索システム
2.1 システム概要
本システムは,図1に示すように文書データベース,係り受け解析部,インデックス部,照合部,
インタフェース部から構成される。インデックス部は,1次記憶上の単語エント
リと,2次記憶上の単語出現情報及び係り先情報とから成る。これらのインデックスは
文書データベースに対する係り受け解析処理の結果から作成される。
照合は2段階に分けて行われる。ユーザが,係り受け関係を含む検索パターン
を入力すると,まず始めに,1次記憶上の単語エントリを検索し,単語が出現
する文を抽出する。
次に検索されたすべての文を対象として,検索パターンと係り受け構造が一致
するか否かの照合を行い,検索結果をインターフェース上に表示する。
検索システムはサーバ上にあり、ユーザはWeb上のインターフェースを
通して検索する。
2.2 係り受け解析部
対象とする文書には,形態素解析および係り受け解析を施す。係り受け解析には
骨格構造解析[兵藤95]を用いた。
骨格構造解析とは必ずしも完全な係り受けの構造を求めるものではなく,
並列構造の解析など意味に立ち入らなければ解析できない部分は曖昧なブロッ
クとしてそのまま残し,文全体の構造を把握しようとするものである。
解析例を図2に示す。
2.3 インデックス部
インデックスは,1次記憶上の単語エントリと,2次記憶上の単語出現情報及
び係り先情報から成る(図3参照)。
単語エントリはパトリシア構造を用いて構築している。現在のところ、
数字・記号を除くすべての自立語を登録している。
単語出現情報は文IDと,文内での単語位置情報から構成されている。
文IDは文書番号,文書内の項目番号,項目内での文番号から成リ、
[泓田97]の手法による階層化ビットベクトル用いて実装した。
また,単語位置情報と係り先情報は,それぞれ文IDごとに単語番号列として登録する。
単語番号は文内でのインデックス対象語を一意に表した番号である。
2.4 照合部
検索は2段階に分けて行う。
ユーザが,係り受け関係を含む検索パターンを入力すると,まず始めに,1次
記憶上の単語エントリを検索し,2次記憶上の文IDおよび単語位置情報と係
り先情報を読み込む。
そして,読み込まれた文IDベクトル(階層化ベクトル)の論理積を実行し,指
定した単語が出現する文を検索する(1次検索)。
次に検索されたすべての文を対象として,検索パターンと係り受け
構造が一致するか否かの照合を行う(2次検索)。
係り受け構造の照合は,単語位置情報と係り先情報をビットベクトルに展開し
論理積を実行することで行う。これにより,1つの単語が複数の位置に出現し
ている場合や,係り先が特定出来ず複数の解析結果が得られている場合でも高速に照合が可能である。
(図4参照)
2.5 インタフェース部
インターフェース部はJAVAを用いて構築しており,Web上で
使用できる。検索単語の入力,係り受け関係の指定は,GUI上で
容易に行うことができる。 図5にインターフェース画面を示す。
3.検索実験
係り受け情報を用いた検索の有効性を実証するため,ブール検索,近接関係を
用いた検索との比較を行った。検索対象には表1に示す公開特許公報の
一部を用い,サーバには,SPARC Station20(CPU:Supe
rSPARCII,75MHz,メモリ:64MByte,OS:SunOS4.
1.4)を使用した。
3.1 インデックス容量,検索実行時間
係り受け検索と近接関係を用いた検索及びブール検索との間で
検索実行速度,インデックス容量の比較を行った。
結果を表2に示す。
検索速度は,係り受け検索で1件あたり約21.45(MS)を要し,近接関係を用い
た検索より高速で,ブール検索と比べても検索実行時間の増加を約12%に抑えることができた。
インデックス容量はブール検索で使用するインデックスの約1.67倍,近接
関係を用いた検索で使用するインデックスの約1.27倍の増加となった。
3.2 係り受け検索の絞り込み精度
本検索システムで用いた骨格構造解析では,意味情報を利用しないと正確に
係り受け解析できない部分は,曖昧なまま係り先を特定しないため,検索の際
に正しく絞り込みができない可能性がある。図6に
誤った絞り込みを行った例を示す。また,誤って解析した場合には,検索洩れを生じる場合もある。
係り受け検索の絞り込み精度を評価するため,「[メモリ]が[記憶する]に係る文」の
ような10件の検索要求に対し適合率と再現率を求めたところ,適合率92.11%,再現率96.01%という結果を得た。
3.3 近接関係を用いた検索との絞り込み精度比較
3.2で述べた同じ検索要求10件に対し,近接関係を用いた検索との絞り込
み精度比較を行った。
表3に係り受け検索と近接距離を1〜5まで変化させた時の適合率・再現率を示す。
近接関係を用いた検索では近接距離が短い時は適合率が良いが再現率が低い。
図7の例では、近接距離1での検索はAしか検索出来ない。
又,近接距離を3にすると、実際には
係り受け関係にないCまで検索してしまう。さらに,DやEを検索するため近接距離を長くとると,
適合率が低下してしまう。このことから係り受け検索が有用であることが分かる。
4.おわりに
本論文では,係り受け情報を用いることによる高精度な全文検索システムについて述べた。
特許公報に対する,係り受け情報の検索精度については、適合率92.11%,
再現率96.01%であり、近接演算を用いた検索より良好な結果を得た。
又、インデックス容量の増加は近接関係を用いた検索でのインデックスの約27%に収まった。
参考文献
[兵藤95] 兵藤安昭,池田尚志:表層的情報とN近傍ブロック化手法による
日本語長文の骨格構造解析,情報処理学会論文誌,Vol.36,No.9,pp2091−2101(1995)
[兵藤96] 兵藤安昭,河田実成,應江黔,池田尚志:構文つきコーパスの作成と類似用例
検索システムへの応用,自然言語処理,Vol3,No.2,pp73−88(1996)
[泓田97]泓田 正雄,溝渕 昭二,獅々堀 正幹,青江 順一:大規模文書データに対する用例文
の効率的検索アルゴリズム,情報処理学会論文誌,Vol.38,No.10,pp2004−2013(1997)