コンテンツについてもデジタル化のコストや著作権などクリアすべき課題は多 いが、入力、蓄積、検索、利用に関わる要素技術とインテグレーション技術が進 歩し、ネットワークの普及と相まって、”できることからやる”という意識と熱 意で世界各地の図書館、美術館、博物館等で一次情報や二次情報のデジタル化と ネットワークを介したアクセスサービスが実際に行われつつある[学情][LC][海外 OPAC][国内OPAC]。
電子図書館システムは、コンピュータ操作知識、検索に関する知識、利用目的、 検索要求の明確さ、応答時間や網羅性といった検索実行への要求などの点で、幅 広い層の利用者が利用できるようなインタフェースやサービス機能を提供する必 要がある。
またネットワークの発達に伴い、WWWや従来からの情報サービスを含め、多様な 情報がアクセスできる環境が整いつつあり、情報収集能力やコスト面から、分散 情報源の利用を前提としてシステムを構築する必要が出てきた。しかし、対象と する情報空間が拡大され、システムの能力が向上しても、一般に情報源毎にアク セスインタフェースが異なるため、利用者がそれを充分に活かしきれないという 問題が起きる。WWWのホームページのような同種の情報源を横断的に検索するディ レクトリ検索サービスはいくつか実現されている[Altavista][千里眼][Infoseek] が、さらに、異質で多様な情報源をシームレスにアクセスできる環境を構築して いくことが重要である。
シームレスな情報アクセス機能の実現に際しては、プロトコル、アクセス手順、 サービス機能等の様々な階層における情報源の多様性、データ量の膨大さと冗長 性、計算機スキルや利用目的等の利用者の多様性を考慮する必要がある。
我々は、異種分散型の情報源の利用を想定し、幅広い利用者が、広大な情報空 間から適切な情報を取得し、充分な活用ができるユニバーサル電子図書館の実現 を目指して、開発を進めてきた。
本稿では、主に調査/研究を利用目的として、ある程度計算機に慣れた利用者 がオフィスや研究室などで利用することを想定して開発したシステムで、(1)多様 な情報源からの情報収集を可能にするマルチプロトコル横断検索機能、(2)大量の データからの絞り込み検索支援機能、(3)データ量の直感的な把握を可能にする検 索結果の3次元仮想情報空間表示機能を持つことを特徴とするWWWベース電子図書 館について報告する。
以上のようなネットワーク上のグローバルな情報源の他に、利用者の属する組 織やコミュニティ内で管理されるローカルなデータベースやファイルなども重要 な情報源である。ローカルな情報源には一般に二次情報だけでなく一次情報が含 まれていることが多い。
急激に膨張を続けるWWWにおいて、自分に必要な情報がどこにあるのかが簡単に わかる機能は非常に重要である。WWW上の情報アクセスを支援する機能として様々 なディレクトリ検索サービスが提供され、キーワードを入力することにより、誰 でも容易に欲しい情報が入手できるようになってきた。但し、httpというプロト コルでアクセス可能ないわゆるWWWホームページの情報に限定されている。
CERN HTTPD を起動するWWW電子図書館サーバと、ローカルな情報を蓄積するた めのローカルデータベースサーバで構成され、両者はTCP/IPベースのLANにより接 続されている。WWW電子図書館サーバはインタネットに接続され、国内外のOPACサ ーバやディレクトリ検索サーバにアクセスすることができ、また、WWWクライアン トからWWW電子図書館サーバをアクセスすることができる。データベースサーバで は、書誌事項などの二次情報はOracle RDBで管理し、一次情報はファイル形式で 保持している。
本システムはhttpdによるWWWサーバのCGI(Common Gateway Interface)を利用し ており、HTTPのFORM(fill-out form)によって送られてくる文字列を入力として動 作する。
(1)マルチプロトコル横断検索機能
インターネットでアクセス可能な複数の機関のOPACシステムやデ ィレクトリ検索システムをWWWブラウザから同一手順でシームレス に検索できる機能である。
(2)絞り込み支援機能
(a)自動分布グラフ表示機能:ヒット件数が多い場合に、検索結果を検索要求を 元に自動選択した分類軸に沿ってグラフ表示する機能。絞り込みの条件の選択を 容易にする。利用者の指定したグラフ範囲での絞り込みを行うことができる。
(b)ランキング表示:ヒット件数が多い場合に、利用者が求める情報を迅速に見 つけられるように、検索結果を検索条件との適合度の順に表示する機能。結果リ ストの先頭近くに求める情報が表示される可能性が高くなる。
(3)3次元仮想情報空間表示機能
VRMLを用いた3次元仮想書架の生成により検索結果の直感的な把握、容易 な閲覧を可能にする。
(4)その他の検索機能
(a)書誌事項検索:タイトルや著者名、キーワード等の書誌情報の検索を行う。
(b) 全文検索:一次情報や抄録情報の中から指定されたキーワードを検索する。
(c)検索語のシソーラス展開・訳語展開:書誌事項検索モードや全文検索モード の検索実行において、シソーラスを利用した検索語の類義語展開を行う。検索語 の翻訳を行い、検索語に訳語を追加することにより網羅的な検索が行えるように する。
(d) 日本語検索:日本語文による検索要求から検索条件を抽出して検索を行う。 利用者が検索手段に迷った場合に有効。実行可能な検索機能からの制約を用いた 意味解析による高速・軽量性・ロバスト性を特徴とする。
以上の機能は現在のところ、マルチプロトコル横断検索機能を除 いて、ローカルな情報源を対象にしている。
以下の章では、本システムの主な特徴であるマルチプロトコル横断検索機能、 絞り込み支援機能、3次元仮想情報空間表示機能について述べる。
(1)アクセスの手続きを登録することにより、ネットワークで接続された他機関 のOPACやディレクトリ検索サービスを対象としたキーワード検索が行える。
(2)一度に複数の他機関OPACやディレクトリサービスを対象とした横断的な検索 が行える。
(3)検索対象、運用時間などの条件を記述したリファレンス情報データベースの 参照により、アクセス対象とするOPACを自動的に選択できる。
(4)アクセス先の登録の追加、更新が、検索スクリプトの作成とアクセス先プロ ファイルの作成により簡単に行える。
更に、
(1) 各データベースに含まれる対象領域毎の件数、詳細度、網羅 性、収録年度等からなるデータベース特徴知識を利用し、データベ ースの選択を行う、
(2) 表記の違いや冗長性を排除するために、検索結果の統合処理を行う、
機能等を開発中である。
(1)検索要求入力画面(図4)で検索語、アクセス先の指定を行う。
(2)選択されたアクセス先の中で、リファレンス情報データベースを参照して、 営業時間などの条件を事前にチェック。
(3)各アクセス先用の検索スクリプトをテンプレートと検索要求から生成する。
(4)順次アクセスを行う。
(5)検索結果が得られたアクセス先のリストと検索結果を表示するhtmlを作成す る。
図5に検索スクリプトのテンプレートの例を示す。例中で "U>"で始まる行は利 用者側のWWWサーバから検索先のサーバに送られるメッセージの内容を示し、"S> "で始まる行は、検索先のサーバから送られてくるメッセージ(の一部)を示す。
所在情報検索を実現する方法としては、所在情報データベースを作成すること が考えられるが、ネットワークで接続され、刻々と変化する世界中の膨大な情報 を考えると、個々の資料の所在情報を集中的に管理することは、現実的でない。
WWWのホームページでは、既に、数多くのディレクトリ検索サー ビス[AltaVista][千里眼]が稼働しており、更にそれらの検索サー ビスを横断的に利用できるサービス[SavvySearch]が公開されてい る。
一極集中型ではなく、それぞれ独立に分散して存在する所在情報データベース を統合的に利用するための統一的なインタフェースは非常に重要であり、有用で あると考えられる。本システムはその一部を実現したものである。
電子図書館はテキストデータやイメージデータなどの一次情報がデジタル化さ れ、オンラインで利用できるところに最大の特徴がある。今後、遡及入力や著作 権の問題をクリアしつつ、古文書や貴重書などから順次デジタル化が進むと考え られる。こうしたデジタル化は同時並行的に行われるため、それらのデジタル化 データを集中的に管理することは難しい。独立分散的に運営されるディレクトリ 検索サービスが相互に緩やかに連携し合い、利用者からは統一的なインタフェー スで横断的な検索、アクセスを可能にすることは、将来的にも重要性を増してい くと考えている。
丸山らのシステム[丸山94]でも新聞記事の検索システムにおいて応答時間短縮 のために推定値をグラフ表示する機能が提供されている。本システムのグラフ表 示機能は、利用者が表示軸とするカラムを明示的に指定しなくても検索条件から システムが自動的に表示軸を決める点に特徴がある。
グラフ表示の手順を以下に示す。
(1) 検索条件に応じて、分布の表示軸に用いるカラムを選択
(2) 選択したカラム値毎に件数をカウントする検索式を生成
(3) 検索を実行
(4) 検索結果を棒グラフで表示
表示軸に用いるカラムの選択基準として、以下の二点を考慮した。
(1) 利用者の入力した条件に関連するカラムを優先する
利用者が検索の手掛かりと考えているカラムと関連するものに対しては、知識 を持っていると仮定。
(2) 絞り込みを支援する目的なので、適度に分散するカラムを選ぶ
実際の分散状態を調べて判断することは容易であるが、応答時間が問題となる。 本システムでは、値が一意に制約されたカラムは不適とみなすだけにとどめた。
具体的には検索条件に応じて、以下のようなIF/THENルールにより表示軸を選択する。
[表示軸自動選択ルールの例]
グラフ項目の表示順序については、キーワード、著者名、所属名の場合にはグ ループ化してカウントした件数が多い項目順に並べ、画面の大きさとの兼ね合い から7つまでを区別して、残りは「その他」でひとまとめにして表示する。発行年 月日の場合には、件数に関わらず、古いもの順に全ての項目を表示する。
このスコアは、各レコード中に出現する語を出現カラム別に取り出してその重 みの値とともに格納した索引語テーブルを参照して算出される。図 8にランキング表示での処理の流れを示す。
(1) 索引語の抽出
索引語は、タイトル、抄録などのレコードの内容を表現しているテキストのカ ラムから抽出する。抽出する索引語、テキストを形態素解析し、不要語(活用語 尾、助動詞、連体助詞、終助詞、副助詞、格助詞、並列助詞)を除く。
例えば、「データベース・システム概論」というタイトルカラムの場合、 「データベース/・/システム/概論」のように形態素に分割し、さらに不要語の 「・」を除いて「データベース」「システム」「概論」を索引語とする。
(2) 重み計算
重みはその語がどの程度そのレコードの内容を特徴付け、他のレコードと 識別することができるかを示す値であり、索引語テーブル中に記載されている。 重みは以下のような計算式で算出される。
重み =(出現頻度×出現レコード数の逆数)/(カラム長さ)
ここで、 出現頻度: 語が各レコードの各カラムにおいて出現している頻度、 出現レコード数の逆数: 語がデータベース中で各カラムに出現しているレコー ド数(出現レコード数)を全レコード数で割った数、 カラム長さ: 各レコードの各カラムの長さ、
とする。
例えば、先ほどの「データベース・システム概論」というタイトルの索引語 「データベース」「システム」「概論」の重みを考えてみる。出現頻度はどの語 も1、カラム長さは13である。全レコード数を999、出現レコード数をそれぞれ、 「データベース」:11、「システム」:56、「概論」:5であるとすると、それぞ れの索引語の重みは、
「データベース」:(1×999)/(13×11) = 6.98601
「システム」:(1×999)/(13×56) = 1.47781
「概論」:(1×999)/(13×5) = 15.36923
のように計算できる。
(3) 検索語の入力
ユーザに検索要求を表す検索語を入力してもらう。
(4) 検索
検索語の同義語、上位語、下位語、関連語をシソーラス上で展開し獲得する。 このシソーラス展開語と検索語で索引語テーブルを検索し、それらを含むレコー ドをそのレコードにおける検索語あるいはシソーラス展開語の重みと共に取り出 す。
(5) スコア計算
検索結果の各レコードのスコアを計算する。スコアはレコードに含まれる 検索語の重みの総和となる。例えば、先ほどの「データベース・システム概論」 というレコードが検索語「データベース」と「システム」で検索された場合には、 それぞれの重み6.98601と1.47781を足した8.46382がこのレコードのスコアに なる。ただし、シソーラス展開語でレコードが検索された場合には、そのシソー ラス展開語の重みに、シソーラス上での検索語との関係に応じた値を乗じたもの を重みとする。
(6) スコア順結果の表示
図7に示すように、スコアの高いものから順に検索結果を表示する。
本システムでは、VRMLを用いて検索結果を3次元の形状として視覚化すること によって、従来のデータベース検索でテキストとして一覧形式で表示する場合 に比較して、データ量を直観的に把握できるなどの効果が期待できる。
VRMLファイルは表示するデータの位置や大きさ、大きさなどの属性が各オブジ ェクトに対して階層的に記述できる。本システムでは本棚や本の基本的形状につ いては、あらかじめ3次元CADツール等で作成する。作成した形状は形状全体の 位置、大きさ、および色に関しては変更可能なパラメータとし、テンプレート としてデータベースに蓄積する。
VRML生成スクリプトでは必要なテンプレートを選択してパラメータを計算した 上で組み合わせて最終的なVRMLファイルを生成する。VRMLテンプレートからのVR MLファイル生成のイメージを図10に示す。パラメータとしてページ数と本の厚 み、版型データと本の大きさ、出版者と本の色とを対応付け視覚化を行なう。す なわち物理的に大きな(分厚い)本は大きく表示され、また出版者ごとに背表紙の 一部の色が異なるように表示される。
(1) 検索画面で検索条件を入力し、検索を実行する。
(2) 検索結果はVRMLビューアに書架に並ぶ本の形で行なわれる(図11) と同時にWWWブラウザ側にはタイトルリスト形式で表示される。
(3) 利用者はVRMLビューアを操作して表示された仮想書架内を歩きまわり、書 架に接近して、より詳しい情報を見たい本をマウスクリックで選択する。また はWWWブラウザ上のリストから選択することによって詳細な書誌 情報をWWWブラウザ上に表示する。
電子図書館実現の前提である情報のデジタル化については、従来から指摘され ている通り、著作権や入力コストの問題があり、図書館所蔵品の主要部分を占め る一般図書の本格的なデジタル化にはしばらく時間がかかりそうである。しかし ながら、古文書/貴重書、学会誌、組織内の資料を中心に着実にデジタル化が進 むと考えられる。
こうした状況において、本稿で述べたような実用指向の研究開発と共に、高精 細な画像や3次元CGやマルチモーダルインタフェースを用いた臨場感あふれる インタフェース、自律的で能動的な対話ナビゲーション、一次情報の高度活用技 術など先進的な電子図書館の開発を積極的に進める必要があると考える。
また、出版社や新聞社などのメディア業種との協同形態を探ると共に、入力コ スト低減化技術の開発などに力を入れ、実用規模のシステム化技術を確立、実証 していく必要があると考える。
[神谷96] 神谷 俊之他,「3次元仮想空間情報検索システム」,第52回情処全大,2Y - - -2,1996.
[佐藤] 佐藤 衛他,「未来の電子図書館「孫悟空」」,情報管理,Vol.31,No.12,pp. 1-23-1034,1989.
[谷93] 谷 幹也,久保 加奈子,市山 俊治,「重なった対象領域を持つ複数データベ ースに対する日本語横断検索システム」,情処第47回全国大会,3-93〜94,1993.
[Tani95] M.Tani, et al.,"User Interfaces for Information Strolling on a Digital Library," Proc. of ISDL'95,pp.167-174,1995.
[藤澤96] 藤澤 浩道,絹川 博之,「「仮想個人図書館」と個人情報 環境」,第6回ディジタル図書館ワークショップ予稿集,pp.11-21,1996.
[丸山94] 丸山 宏,諸橋 正幸,野美山 浩,「電子図書館III- Information Outlin ing - 触ってわかる情報の輪郭」,情処第49回全国大会,4-213〜214,1994.
[rao93] Rao,R., Russell,D.M., and Mackinlay,J.D.,"System components for embedded information retrieval from multiple disparate information sourc es," In Proceedings of the ACM Symposium on User Interface Software and Technology, Nov. 1993.
[IPA] http://www.cii.ipa.go.jp/el/index.html
[AltaVista] http://www.altavista.digital.com/
[NFS] http://www.nsf.gov/nsf/press/pr9452.html
[LC] http://lcweb.loc.gov/homepage/lchp.html
[海外OPAC] http://www.comlab.ox.ac.uk/archive/other/museums.html
[学情センタ] http://www.nacsis.ac.jp/nacsis.index.html
[国内OPAC] http://ss.cc.affrc.go.jp/ric/opac/opac.html
[SavvySearch] http://www.cs.colostate.edu/~dreiling/smartform.html
[千里眼] http://www.info.waseda.ac.jp/search.html
[GC-ASK] http://ask.gcdis.usgcrp.gov:8080/