本手法の有効性を検証するために、作成したプロトタイプシステムによる実験とアンケートによる評価を32人に依頼した。選択した「係り受け句」が抽出された文献個所を被験者に一読してもらったところ、その72%は「係り受け句」を見たときに期待した、またはそれ以上の知見が得られるものであったと評価された。
In this paper, we present the evaluation of this method. The evaluation was made by way of a questionnaire, answered by 32 persons who actually used the prototype system. It was found that 72% of the retrieved documents were profitable/relevant because of the use of the "Dependency Phrase".
そこで、本論文では、全文検索システムを利用するエンドユーザに対して、検索要求の明確化を支援するアプローチを提案する。
また、本研究の先行研究として、文献集合(英語)から出現頻度の高い語を中心に語からその語を含む句へ、更に句からその句を含む文へとブラウジングによる選択で順次拡大して行くことで文献集合の理解を試みる研究がある[3]。
本研究は、文献[3]を参考として、日本語文献を対象とした名詞句のブラウジングによる文献選択を試みた。原文献から検索語の関連/派生事項を名詞句として抽出するために日本語の場合に重要だとされる係り受け情報を利用した。
単純に一文から検索語を中心にその前後の数語をそのまま検索語関連の重要な記述部分とみなして抽出する方法がある。しかし、その方法は日本語のように語順の自由度が高く、省略なども多い言語では、この手法の効果はあまり期待出来ないと言われている[7]。
一方、日本語には、文末以外の全ての語が自分より後に出現する他の語に係るという2項関係(係り受け関係)の積み重ねでその構造を解釈する係り受け文法がある。この係り受け情報を用いた検索についての研究は既にいくつか行われている[6]。実際、新美によると日本語の近接度による関連性は3語以上離れた場合、急速に不確実なものとなるため、係り受け情報が有効な手段となる[5]。そこで、この係り受け情報をもとに一文中で検索語と関連性の高い語を認識する方法を本研究では採用した。このようにして、抽出した検索語関連の記述を更に名詞句相当の形式に加工したものを本論文では「係り受け句」と呼ぶ。
プロトタイプシステム上では「係り受け句」の約40%が原文中で非連接の文節から、また、約24%が3語以上離れた文節から構成されていた。
(1) 検索語を含む文節からツリーをリーフとルートの2方向にたどり、それぞれ4文節以内に名詞節があれば、検索語を含む文節から最も検索語に近い名詞節までの全文節を抽出する。
(2) (1)の名詞節が形式名詞もしくは副詞的名詞の場合には、独立した名詞節とはみなさないで、それに係る動詞節を含めて1つの名詞節とみなし、抽出する。
(3) (1)の名詞節が時相名詞もしくは数詞の場合には、その次に検索語に近い名詞節が4文節以内にあれば、その名詞節までの全文節を抽出する。
(4) 4文節以内に、名詞節が無く、サ変動詞節がある場合、検索語から最も近いサ変動詞節までの全文節を抽出する。
(5) 上記の(1)〜(4)のいずれにも該当しない場合には、検索語を含む文節のみを抽出する。
(6) 抽出対象となる句内の名詞節に係る形容詞節がある場合には、その形容詞節も含めて抽出する。
抽出された句を以下の手順で加工した句を「係り受け句」と呼ぶ。
(1) 句の最後の文節から名詞性接尾辞以外の付属語を削除する。
(2) 句の最後の文節が形式名詞あるいは副詞的名詞の場合には、その直前にある用言の活用形を原形にする。但し、その用言がサ変動詞の場合は形式名詞節・副詞的名詞節を削除する。
(3) 句の最後の文節がサ変動詞の場合、サ変動詞“する”を削除する。
(4) 句内の読点や句点や括弧を削除する。
従って、この例文からは<デジタル化することで出現する図書館はデジタルライブラリー><ネットワーク上に出現する図書館はデジタルライブラリー><新しい図書館はデジタルライブラリー>の3つの「係り受け句」が最終的に抽出されることになる。
(2) KNP原文献への前処理
(3) 文献内の検索対象範囲
(4) 文字列一致による検索語を含む文の抽出
(5) JUMANによる形態素解析
(6) 係り受け解析の精度を保つための前処理
(7) KNPを用いた係り受け解析
この際、係り受けの可能性行列、文節間の類似行列なども表示するオプション(detail)を指定した。 (注:本来、JUMANとKNPは、一括処理が可能である。)
(2) 同一文内の類似表現の削除
同一文から抽出されたパターンの内、他のパターンの部分集合となるものを省いた。この処理によって、検索語が全文献中の出現頻度が2番目に高い<図書館>の場合、抽出された句の数(3,853)を約87%(3,378)に削減できた。
(3) 名詞句的形式に整形
また、ソートの第一のキーとなる自立語を同じくする「係り受け句」が5つ以上ある場合には、メインの画面上では検索語と自立語だけを表示し、別途詳細を表示することにした。この処理によって検索語:図書館の場合、抽出された「係り受け句」数(3,378)が選択画面のリスト上で約41%(1,399)に圧縮できた。
また、画面下の細長い表示部は、「係り受け句」が抽出元の一文のみを表示するために設けた。「係り受け句」は原文のある一文から抽出されるものなので、それが一文中でどのような構成要素であったかを知るために必要だと考えたためである。
画面2:選択した「係り受け句」が抽出された原文献のパラグラフの表示画面
原文献は情報学分野の論文なので、この分野の専門的知識をある程度有する大学生・大学院生を中心とした32名を被験者とした。検索語は予め決めてある33個の内から、興味のある語を5つ以上選択してもらうように依頼した。検索語の「係り受け句」リストから選択する句の数はユーザの任意とした。(アンケートの質問項目については付録を参照のこと)
グラフ1:「係り受け句」一覧で選択したパラグラフから得られた知見への評価
「係り受け句」の抽出元のパラグラフを読んだ被験者は、それらのパラグラフの内72%(A,B,C)が「係り受け句」を選択した際に期待した情報に合った、あるいは、期待以上の知見が得られるものであったと評価している。これは、「係り受け句」の多くが抽出元のパラグラフの情報を適切に表現できていたことを意味している。従って、「係り受け句」による文献選択は有効な手法だといえることになる。特に、Aの<予期せぬ知見が得られた>が全体の16%にもおよび、「係り受け句」が新規な情報発見の一手段となりうる可能性が示される結果を得た。
次に、先の質問に対する被験者のパラグラフへの予備知識の程度を示す結果は以下の表1のようになった。検索結果のパラグラフの内容をdの<全く知らない>と被験者が回答した199の「係り受け句」についても、やはり71%(A,B,C)がプラスの評価を被験者から得ているので、検索対象分野について専門的知識が不足していても、「係り受け句」は有効な手法となりうることが示された。
表1:質問<パラグラフから得られた知見への評価>と質問<パラグラフへの予備知識の程度>の集計結果
グラフ2:d<全く知らない>パラグラフから得られた知見への評価分布
次に、「係り受け句」が抽出元の一文中の構成要素として、どの程度重要だと被験者が思ったかについての結果は以下の表2のようになった。グラフ3を見ると抽出元の一文中ではc<単なる1要素に過ぎなかった>と被験者が判断した「係り受け句」でも、その内54%(A,B,C)は期待した、あるいはそれ以上の情報を含む文献のパラグラフを選択する手段となっていたことがわかる。従って、一文を読むことより、「係り受け句」を見る方が検索要求にあったパラグラフを選択するためのより有効な手段であるといえる。
[2] 高野敦子.平井誠.北橋忠宏.情報検索の自然言語インターフェースにおける対話管理の枠組み.自然言語処理.124‐14,p.103-110(1998)
[3] Craig G. Nevill-Manning, Ian H. Witten and Gordon W. Paynter "Browsing in Digital Libraries: A Phrase-based Approach", 2nd ACM International Conference on Digital Libraries, July 1997, pp.230-246
[4] 大山敬三.インターネットに適応した全文検索データベース検索システムの構成.学術情報センター紀要.第7号(1996)http: //www. nacsis.ac.jp/rd/bulletin/no7/ cont-j.html
[5] 新美和彦.兵藤安昭.池田尚志.係り受け情報を用いた全文検索とその評価.ディジタル図書館.No.11 (1997) http://www.ulis.ac.jp/DLworkshop/old-programs.html 「ディジタル図書館」ワークショップ
[6] 池田和幸.高須淳宏.安達淳.単語間の係受け情報を用いた文献検索手法.学術情報センター紀要.第9号,p. 143-159(1997)
[7] 長尾真編.自然言語処理.第2版.岩波書店.1996.(岩波講座:ソフトウェア科学,15巻)
[8] 松本裕治.黒橋禎夫.山地治.妙木裕.長尾真.日本語形態素解析システムJUMAN 使用説明書version 3.3.京都大学工学部.奈良先端技術大学院大学
[9] 黒橋禎夫.日本語構文解析システム KNP使用説明書version 2.0 b4.京都大学工学部
これは、情報検索に関するアンケ-トです。検索対象となる原文献集合は、ディジタル図 書館を中心とする情報学に関連した論文を収集したものです。最初に枠の上の "Your name: No. "に名前の記入をお願いします。 では、以下の質問について、お答えください。 質問(1) 以下の30個の検索語候補の中から興味があるものを5つ以上出来るだけたくさん 選んでください。以降の質問は、選んだ検索語1つ1つに対して個別に解答していただく ことになるので、検索語1つに対して、この用紙1枚を使用してください。 では、選んだ検索語を1つだけ○を付けてください。 1. 著作権 2. マルチメディア 3. オンライン 4. 多言語 5. 目録 6.画像 7. シソーラス 8. サイト 9. OPAC 10. インターネット 11.タグ 12. 蔵書 13.オブジェクト 14.情報検索 15.ブラウザ 16.リンク 17.ソフトウェア 18.索引 19.HTML 20.出版 21.ディジタル化 22.分類 23.メタデータ 24. 学習 25. SGML 26. Web 27. 検索語 28. 課金 29. 辞書 30. 主題 *これ以降の質問(2)から質問(7)までの一連の質問に解答している途中で、新たな検索対 象となりうる(選んだ検索語よりも興味を惹かれる)表現を見つけた、あるいは思い付い たとき、その表現と解答中のID番号、質問番号を(7)に記入してください。もし、そう いったことがなかった場合には、答える必要はありません。 質問(2) この”句”のリストから、興味を惹かれたものを好きなだけ選んで、リストの一 番左にあるID番号を記入してください。”周辺の句”の参照は利用してもしなくても構 いません。 (2)選択した”句”のID:_____________________________________________________ **ここで、一度、最後の質問(7)までを読んでみてください。その方が、全体の流れが 分かり、解答がしやすいと思います。 質問(3) 画面の各句の一番左のIDが表示された列のリンクを開いてください。新しいブ ラウザで表示されたのがその句が存在した段落(原文)です。それを読んでから以下の質 問にお答えください。 今読んだ”段落(原文)”の内容は、選択した各”句”を見た時に期待した情報と、どの 程度一致していましたか? 選択した各”句”のID番号を該当する項目の横に記入して ください。 (A) 予期せぬ知見が得られた ---- 該当”句”のID:____________________________ (B) ほぼ期待通りの内容だった ---- 該当”句”のID:__________________________ (C) まあまあ期待に沿った内容だった ---- 該当”句”のID:____________________ (D) 期待した程の内容はなかった ---- 該当”句”のID: ______________________ (E) 全く期待はずれだった ---- 該当”句”のID:______________________________ もし良ければ、(E)を選んだ、理由を教えてください。例)話しの方向性が期待とは違う 理由:________________________________________________________________________ (F) 選んだ句が読むべき段落を持たなかった ---- 該当”句”のID:______________ 質問(4) 目を通した段落(原文)の内容は、既に知っているものでしたか? 質問(3)が(F)を選択した以外の”句”について、そのID番号を該当する項目の横に記 入してください。 (A) よく知っていた ---- 該当”句”のID:_________________________________ (B) 大体は知っていた ---- 該当”句”のID:_______________________________ (C) 少しなら知っていた ---- 該当”句”のID:_____________________________ (D) 全く知らなかった ---- 該当”句”のID:__________________________________ 質問(5) 原文献の他の場所も読みたいと感じましたか、あるいは読む価値がありそうだと 思いましたか? 選択した各”句”のID番号を該当する項目の横に記入してください。 「はい」 の場合: (A) 検索語とは直接関係ないが面白そうだから ---- 該当”句”のID:_________________ (B) 必要な情報は得られたが、更に興味がわいたから ---- 該当”句”のID:___________ (C) その段落だけでは不十分だったから ---- 該当”句”のID:_______________________ (D) その他:______________________________________________________________________ 「いいえ」 の場合: (A) その段落だけで必要な情報が得られたから ---- 該当”句”のID:_________________ (B) 期待はずれの内容だったから ---- 該当”句”のID:_____________________________ (C) 読みたくないから ---- 該当”句”のID:_______________________________________ (D) その他:______________________________________________________________________ 質問(6) ”句”リストを表示した画面の3番目の列にあるリンクをクリックすると同じ画 面の一番下に、先程選んだ”句”が含まれていた1文が表示されます。 その文を読んでください。”句”は”文”の中でどの程度、重要なもの(主題的)だと思 いますか? 選択した各”句”のID番号を該当する項目の下に記入してください。 (A) ”句”は”文”の1番重要な主張部分だった ---- 該当”句”のID:____________________________________ (B) ”句”は”文”の中で重要な構成要素だった ---- 該当”句”のID:____________________________________ (C) ”句”は”文”の中で単なる1構成要素に過ぎなかった ---- 該当”句”のID:____________________________________ (D) ”句”は”文”の中でほとんど意味のない部分だった ---- 該当”句”のID:____________________________________ 質問(7) ID番号__ を解答中、 句 or 一文 or 段落(原文) の表示画面から 見つけた or 思い付いた 検索語よりも興味がある表現 :_________________________________________________________________________________ <画面の説明> 画面に表示されているのは、質問(1)で○を付けた検索語を含む句のリストです。 最初に画面の説明をします。 ・画面の1番左の列は、句の固有IDです。クリックするとその句を含む段落を中心に 原文献が別のブラウザ画面に表示されます。 ・2番目の列をクリックすると原文献の同じ節や段落に含まれている周辺の句が参照できます。 ・3番目の列をクリックすると同じ画面の下の細長い列にその句を含む1文が表示されます。 ・4番目の列が検索語を含む句です。検索語の後方の語が前方の語に順にソートされています。 注)5個以上同じ語が検索語の後にある場合、”xx検索語xxx”と表示されています。 そこをクリックすると別のブラウザ画面に詳細が表示されます。 注)複数のIDが付与されている句もあります。異なる文から偶然同じ句が抽出された事を、 意味しています。従って、リンクを辿って表示される「段落」や「周辺の句」の内容も 異なります。 以下の質問は、最後に答えてください。 質問(8) 所属は以下のどれですか? A.学部生:_____年 B.大学院生 C.研究生 D.その他:___________ 質問(9) 専攻分野は何ですか? A.図書館学 B.情報学 C.それ以外:________________________ 質問(10) 以下から1つ選んで、○をしてください。 句を選択するとき、”周辺の句”(参照)を 利用した・利用しなかった・両方の場合があった 質問(11) 上の(10) で利用した・両方の場合があったを選んだ方への質問です。 ”周辺の句”は 役にたった・あまり役に立たなかった・どちらともいえない 記名をお願いします。:___________________________________ 最後のお願い:この”句”から、その句が存在する段落(文献全体ではなく)を選択する 方法やこのシステム全体の構成について、何かコメントを頂ければ幸いです。 コメント:___________________________________________________________________ _____________________________________________________________________________ _____________________________________________________________________________ _____________________________________________________________________________ 以上で、終了です。長い時間お付き合い下さいましてありがとうございます。 ご協力を心から感謝します。