1998年9月から10月までの間、国内の図書館のWebページをデータベース化し、図書館職員を対象に試行を行った。多用なページの収集によりデータベースも拡充され、結果としてヒットするキーワードも増加する結果が得られた。
keywords
internet, search engine, World Wide Web, Library
しかし、発信の容易さはインターネット上の情報を劇的に増加させた。WWWでは個々のサイトから情報を発信でき、情報同士をハイパーリンクにより容易に結合できる反面、一個所に情報の所在や概要を集積するようなシステムとしては設計されていなかったため、WWWサーバの増加は同時に情報の洪水を生んだ。結果、情報の所在や内容を把握しにくくし、有益な情報が埋もれてしまうことになる。
このため、インターネット上の情報を整理して提供するサービスが自然発生的に生まれた。比較的古くから存在するのは、The WWW Virtual Library[1]と呼ばれるWWWでの情報を項目別に分類しディレクトリ形式でまとめたもので、これは世界各地で分野を分担して作成されている。同様のディレクトリサービスの一つYahoo!では、ホームページを開設したユーザからの登録申請を元に分野ごとの複数の担当者が登録作業を行っている。
一般に「検索エンジン」あるいは「サーチエンジン」などとも呼ばれる、自動的にWWW上の情報を集積しデータベースにするサービスも行われている。多くの場合、「スパイダー」あるいは「ロボット」と呼ばれる自動検索プログラムが日夜全世界のWWWサーバを巡回して情報を集め、データベースを作成している。日本国内ではgooやinfoseek、altavistaなどのサービスが有名で、多くのユーザに使われている。これらのサービスは非常に多くのWebページを収録しており、網羅的な検索を行う場合は有効であるが、網羅的であるがゆえに検索結果中には必要としない情報(ノイズ)も多い。また、サービスごとに使用できる検索機能や網羅性に特徴があるため、場合によっては使い分けることも必要となる。
これら既存の検索サービスの現状の問題点としては、
などが挙げられる。
そこで、これらの問題点を解決し効率的な情報検索を行いうるシステムとして、以下の方法をとる検索システムを開発した。
まず、データベースの専門化であるが、収録する分野を決定しデータを収集するサイトを特定することで、ある程度の収録データの専門化が図れると想定している。また、検索結果の表示時に提示されたサマリーを参照し、この中から有効と思われるURLへアクセスすることで評価をしたものとする。
以下、このような方法を持った検索システムの概要や試行の状況などについて述べる。
検索エンジンは、多くの場合は自分の必要とする情報を検索するために利用され、利用者は検索した結果のサマリーを見てアクセスするかどうか判定している。このシステムでは、このような利用者の行動をもってユーザによるデータの評価としており、検索結果となったページにアクセスした場合はそのページのURLを保存している。そして、このURLとそのページから一階層のリンクをたどったページを取得し、データベースを再構築している。このような手順により、ユーザは特に意識することなくデータベースに追加するデータを決定することができ、評価されたデータのみを採録できると考えられる。
データベースシステムにはNamazu[2]を採用している。Namazuは高林によって開発された日本語全文検索システムで、GPL2(GNU一般公有使用許諾書バージョン2)に基いたフリーウェアである。手軽に使えることを第一に目指したシステムで、CGI(Common Gateway Interface)としてWWW上のデータベースとして動作するほか、自分の所有するパソコン上のファイルを対象としたパーソナルなデータベースの構築にも利用できる。
Namazuの特徴としては、
などがあるが、今回Namazuをデータベースとして採用した理由は「手軽に導入と運用ができ、比較的高性能」な点による。また、ソースが公開されているため、実行時の挙動がつかみやすく柔軟な運用が可能なことも評価している。さらに、kakasi[3]を用いて語句の分かち書きを行うが、辞書を拡張することによりインデックス時の精度を向上できるなど、専門分野に特化したデータベースの作成に有効だと思われた。
データの取得にはwget[4]を利用している。wgetはGNUによるフリーウェアで、WWWサーバ上に置かれたrobots.txtを読み取りデータ取得の可否を判定するため、情報提供者側の意思を多少なりとも反映できるものと考えられる。
ユーザがアクセスしたリンクの記録は、oidonが作成したLink Checker[5]を改造し利用している。もともとは、アクセス回数などを記録するperlで記述されたスクリプトであったが、今回はこれに手を加えて取得対象となるURLを別途記録するように改造を行った。
これらを組み合わせ、シェルスクリプトを用いて定期的にページを取得しデータベースの再構築を行うシステムを構築した。図1に、本システム「自動成長型サーチエンジン」の概要を示す。
そこで、今回の試行では、林が作成・メンテナンスをしている国内の図書館で目録サービスを提供しているサイトを集めたリンク集「Jump to Library! (in Japan)」[7]を基点とし、ここから一階層のWebページを取得し最初のデータベースとした。これにより、国内の100個所近い図書館のホームページとOPAC(オンライン利用者目録)のページが最初のデータベースとなった。これらのデータの集合に対しユーザが検索を行い、リンクされたページにアクセスすることで、このデータベース自体がさらに成長して行くことになる。収集する分野を図書館関連のページとしたのは、利用者としてインターネットでの情報検索について興味や経験のあるユーザ層である図書館職員を想定し、かつ収集する情報に対してある程度の評価ができるであろう点が理由である。
Webページ取得は、対象となるURLを蓄積しこれをまとめてcronにより毎晩午前1時ごろ自動的に行っている。データベースの更新は、取得したページの数によるがおおむね2時間以内には完了している。このとき、対象分野以外のページはなるべく取得しないようyahooやinfoseek, NTTなど大規模なディレクトリを提供しているページは、取得対象から除外している。
参考のため、今回のシステムが稼動している環境を以下に示す。
マシン:Digital AlphaServer 2100 4/275 メモリ:2 Gb OS :Digital UNIX 3.2G
データベース自体も徐々に成長しており、さまざまなWebページを収集している。以下、いくつかの表にて1998年8月から9月までの利用の状況を示す。表1は、ヒットしたページにアクセスした割合であるが、検索結果全体のURLから見ると数%程度であることが分かった。これは、
あるいは、
かのいずれかの理由が考えられる。表2は、実際に検索語として使われたキーワードが、データベースの成長の過程でどのようにヒット数が変化したかを示す。いくつかのキーワードでは、利用に応じてヒット数が増加していることが分かる。表3は、取得したページと、インデックスされたページとの比較である。これは、データベースがどこまで成長するかを表しているが、約2ヶ月という期間では取得したページとインデックスしたページのとの比率に特段の変化は見られない。このことから、現時点では利用に応じた一定の割合で成長しているものと考えられる。また、表4が実際にアクセスされたページのURLとその回数である。全体では245のURLがアクセスされているが、その半数以上は1回程度のアクセスにとどまっている。5回以上のアクセスのあったWebページは6URLに過ぎなかった。表5はアクセスの多かったページであるが,インターネット上のリソースへのリンクをまとめたページが多い。
以上の点から、今回の約2ヶ月間の試行に於けるユーザの利用とその結果をまとめると、ユーザがアクセスするページは特定されず、このため収集対象とするページも多様化している。また、多様なページの収集によりデータベースも拡充され、結果としてヒットするキーワードも増加する結果となった。さらに,アクセスされたページを見ると,他所へのリンクをしているページは参照されやすいことが考えられる。
特に、清水らのPA-search[8]では、実際にアクセスしたデータを共有することで検索需要のうちおよそ2割を支援することに成功するなど、小規模な実験ながら妥当な結果を得ている。これらの手法を応用することで、より高い精度でユーザの検索行動を支援することができるのではないかと考えている。
今後の課題としては、ユーザの検索行動の把握が挙げられる。たとえば、検索結果からアクセスされたWebページが、ユーザの希望に合致するかどうかを確認することもデータの評価という点では必要であろう。
また、データの精度をさらに向上させることも必要であると考えられる。10月からは、筑波大学図書館部の近藤が作成した図書館用かな漢字変換辞書パッケージl-dic[10]をkakasiに組み込み、図書館用語などをインデックスとして切り出している。これにより、図書館職員がよく使う用語での検索の際にヒット率が向上するものと想定される。また、新規に取得したWebページを別にデータベース化し検索できる機能を追加した。現在、この機能を使い新規に取得したWebページの中からユーザが指定したキーワードで検索を行い、一定以上のスコアを記録したページのみをデータベースに追加する機能の実装を進めている。将来的には、ユーザの指定した語に加え、類義語辞書を利用して語彙を拡張した上でフィルタリングを行ってデータベースに追加することを考えている。これに加え、最初にデータベースとしたWebページの質や特性によって、収集されうるページも変化することが予測される。今後は、データ収集の基点となるWebページの選定や評価の手法についても検証を行いたい。
今後、本システムについては、研究者のグループや個人など小規模な集団での利用を考慮して構築を行い、より収録分野を絞った検索エンジン作成用システムとしていきたい。具体的には、研究者など専門知識と情報検索を行いうるグループよりその分野の基礎となるWebページを聞き取った上で、そこからいくつかのページを収集しデータベースとする。そして、このデータベースを利用してもらうことで、グループにより評価されたページを収集して行く。いわばその道のプロによる「データベースの調教」を行い、データベースを適切な形で拡張するのである。これをいくつかの分野について行い、最終的に は個別の専門分野が統合された検索エンジンの構築を目指すものである。
[2] 高林哲、日本語全文検索システム Namazu:http://saturn.aichi-u.ac.jp/‾ccsatoru/Namazu/intro.html.ja,1998年10月1日アクセス
Namazuでのデータベース構築と利用については、馬場肇, 日本語全文検索エンジンの構築と活用, ソフトバンク. 1998.9 に詳しい。
[3] 高橋裕信, ftp://ftp.kusastro.kyoto-u.ac.jp/pub/baba/wais/, 1998年10月1日アクセス
kakasi に、馬場肇による分かち書きパッチを当てたものをnamazuでは使用する
[4] Hrvoje Niksic 、GNU wget:http://sunsite.auc.uk/ftp/pub/infosystems/wget/, 1998年10月1日アクセス
[5] oidon, Link Checker:http://www.iod.co.jp/‾oidon/,1998年10月1日アクセス
[6] 林賢紀、国内図書館web検索システム:http://www.affrc.go.jp/‾tzhaya/library/seek4lib.cgi, 1998年10月1日アクセス
本稿での内容を含めこのシステム全体の概要については、ttp://www.affrc.go.jp/‾tzhaya/library/ ,1998年10月1日アクセスを参照されたい。
[7] 林賢紀、Jump to Library! in Japan:http://ss.cc.affrc.go.jp/ric/opac/opac.html, 1998年10月1日アクセス
[8] 清水奨,神林隆,佐藤進也,その他、グループ試行WWW検索アシスタントPA-searchの実現:http://www.ingrid.org/w3conf-japan/97/shimizu/pas-info.html, 1998年10月1日アクセス
[9] 吉岡恒夫、代理サーバを利用した検索システム:http://infonet.aist-nara.ac.jp/member/tsuneo-y/, 1998年10月1日アクセス
[10] 近藤努、図書館用かな漢字変換辞書パッケージl-dic:http://www.tulips.tsukuba.ac.jp/‾kondou/ldic/, 1998年10月1日アクセス