「仮想個人図書館」と個人情報環境

藤澤　浩道　　　　　　　　　　　　　絹川　博之
(株）日立製作所中央研究所*　　　(株）日立製作所システム開発研究所
*連絡先：185 国分寺市東恋が窪 1-280
Tel: 0423-23-1111; Fax: 0423-27-7778; E-mail: fujisawa@crl.hitachi.co.jp

概要

日立製作所における電子図書館への取り組みと，その特徴的なシステム概念および試作したプロトタイプについて紹介する．われわれの重視するはシステム概念は，エンドユーザの「情報活動」全体を支援する情報処理環境としての「仮想個人図書館」である．単なる情報の検索の支援のみならず，情報の入手後の再編集，整理，共有，利用を一貫して支援する情報処理環境を提供することが狙いである．とくに情報の仮想的な個人化機能について焦点をあてる．入手した情報を個人書架に仮想的に保存したり，入手情報を切り取って仮想的なスクラップブックを作って保存する機能，およびそのユーザインタフェースについて述べる．また，文書認識技術を応用した文書検索技術についても述べる．ユーザは目次の認識結果を検索して，本文を参照することが出来る．

キーワード

インターネット，仮想個人図書館，トランスクルージョン，アノテーション，スクラップブック，文書認識，目次認識

Virtual Personal Library and Personal Information Environment

Hiromichi Fujisawa*, Hiroyuki Kinukawa**
*Central Research Laboratory, **Systems Development Laboratory,
Hitachi, Ltd.
*1-280, Higashi-koigakubo
Kokubunji, Tokyo 185
Tel: 0423-23-1111; Fax: 0423-27-7778; E-mail:
fujisawa@crl.hitachi.co.jp

Abstract:

This paper presents some of the Hitachi's research activities on Digital Libraries, their system concept, and the prototype system, Cornucopia. The system concept is a "virtual personal library" which supports his "information activities" acting as an end-user information environment. Such a system should support not only information retrieval but also such activities as editing, filing, sharing, and usage of the retrieved information. The paper focuses on the virtual "personalization" of retrieved information. The user interface of the virtual personal library system enables end-users to create their own scrapbooks from the retrieved information, and to stow the scrapbooks and retrieved information in the virtual personal bookshelves. Document retrieval using the document recognition technology is also described. The users can search through the recognized tables of contents and see selected page images.

Keyword:

Internet, Virtual Personal Library, transclusion, annotation, scrapbook, document recognition, TOC recognition

１．はじめに

　マルチメディア情報処理技術，マルチメディア通信技術，大容量記憶装置技術などの進展，およびマルチメディアパソコンの高性能化と低価格化により，次世代の魅力的な情報システムの一つとして，「マルチメディア電子図書館」の研究開発が，日米欧で進められている[1-7]．これらは世界規模の計算機ネットワークに接続され，文献や資料などの膨大な知的財産を蓄積する情報蓄積・検索サービスシステムである．現在は紙やフィルムなどの媒体に記録されている膨大な情報を逐次電子化（ディジタル化）し，テラバイト級の巨大なマルチメディアデータベースを構築することも技術的には現実のものとなりつつある．これらが実現されれば，ネットワーク全体は実質的に巨大な「マルチメディア情報の蓄積貯蔵庫」となる．

　すでに，インターネット上には多数のWWW (World-Wide Web) 情報蓄積サーバが構築されており，そのためのクライアントソフトウェアを用いれば，それら世界中のサーバにアクセスして諸々の情報を居ながらにして入手することができつつある．しかしながら，誰もが容易に検索してそれら情報を自分のものとしたり，再利用しながら知識の再生産をするためにはまだまだ解くべき課題も多い．

　ここでは，「マルチメディア電子図書館」のシステム概念と課題について概説するとともに，著者らが試作中の電子図書館プロトタイプシステム "Cornucopia" (コーヌコピア)と関連する技術について紹介する．

２．マルチメディア電子図書館

　「マルチメディア電子図書館」とは，インターネットなどの世界に開かれたネットワークに接続され，世界に情報を発信する新しい情報サービスシステムの概念である．マルチメディア電子図書館システムは，歴史的・文化的に価値のある古文書，美術作品，文献，フィルムなどの，人類の膨大な知的財産を電子化して，検索可能なマルチメディア情報として蓄積・管理する．さらに，ビデオやコンピュータグラフィックスで表現された最近の情報も重要な知的財産であり，電子図書館システムでは蓄積・保存の対象となっていくと考えられる．

　マルチメディア電子図書館システムは，多少単純化すると，情報の入力，蓄積，検索，配送，課金などの機能を備える，以下の４つのサブシステムで構成される（図１）．

（１）メディア変換サブシステム

　メディア変換サブシステムでは，古文書，書籍，文献，資料などの文書情報，さらには写真や映像，音声（音楽）といったマルチメディア情報を電子化（ディジタル化）してマルチメディアデータベースに登録する．テキストを主とする文書では，文字をOCRで読取り，その結果のテキストデータを全文検索用のデータとすることも考えられている．データ圧縮しながらも原本を忠実に再現するディジタル化技術や，古文書の染みなどを回復する「ディエイジング (de-aging)」技術[8]などが重要である．

　検索を可能にするためには，それぞれの情報に対して，タイトル，主題，作成者，出典などの書誌情報（属性情報）を入力する必要があり，データベース構築上の大きなコストを占めている．従来，人手によって行われるこのインデキシング作業は，パターン認識などの情報処理技術によって自動化することが考えられている．文書情報に対する文書認識の応用[9]のほか，将来は，写真や図形の内容検索[10]，あるいは動画や音声の内容検索[11]のための特徴抽出もこの部位で行われるようになろう．

　情報の自動分類や，情報相互間の関連性（ハイパーテキストリンク）の自動抽出は蓄積情報の付加価値を高める．ユーザ自らが分類したサンプル文書（教師付きサンプル）からルールを学習して，テキスト文書を自動分類する方法が研究されている[12]．これらの技術により，個人の関心事（興味）に関するプロファイル (interest profile) をシステムに登録しておき，そのプロファイルに合致する情報やそれに関連する情報を利用者に自動的に配信する情報フィルタリングサービスを実現することができる．

（２）蓄積・検索サブシステム

　マルチメディアデータベースは動画，静止画，文書などのマルチメディアデータを膨大に蓄積・管理し，要求に応じて情報を配信する．将来的には，テラバイト級の容量，数億件の超大容量データを蓄積し，同時に 1,000クライアント以上の要求に実時間でこたえる必要がある．巨大データの蓄積にはディスクアレー装置や光ディスクなどを用いた３次記憶装置が，検索には超並列コンピュータがそれぞれ利用されるようになろう．

　検索サーバには，分類型の検索や，自由な単語からの高速な全文検索が必要である．筆者らの開発した統合文書情報システム"Bibliotheca"（ビブリオテカ）は特に日本語情報の高速な全文検索を可能にした[13]．あいまいな情報からの意味的な知的検索[14]や，静止画や映像，または音声などのマルチメディア情報の内容からの「マルチメディア内容検索」は現在盛んに研究されている[1]．カーネギーメロン大学ではInforMediaプロジェクトの一環で音声認識や画像処理技術を応用したビデオ情報の自動インデキシングや自動抄録の研究を進めている．カリフォルニア大学バークレイ校では，概念からの写真の内容検索を実現するための画像処理技術を研究している．

（３）所在検索サブシステム

　電子図書館は世界中に多数構築されて行くので，自分の欲しい情報がどの電子図書館にあるかを知ることがまず必要である．所在情報データベースはネットワークに結合され，どのような情報がどの電子図書館に存在するのかを記録・管理する．現在，世界中のネットワークに分散する情報を検索するシステムとして，すでにYahooやLycos，あるいはInfoSeekといったシステムが稼働している．しかしながら，これらが世界中のすべての情報の在り処を探せるかどうかは不明であり，たとえば，将来は，このような所在サービスシステム同士が多数連携し合って，世界中の情報を分担しながらサービスするような方式も考える必要がある．

　このようにポインタだけを持った所在サービスシステムは「仮想電子図書館」と見ることもできる．このようなシステムは専門分野ごとに多数登場し，競い合って「権威」ある書誌情報をサービスしていくようになるであろう．あるいは，世界中に散逸してる（分散管理されている）古美術品を仮想電子図書館があたかもすべてを管理しているがごとく，利用者に提供することもできよう．

　このようなシステムは図１のように，必ずしも「電子図書館」の中にある必要はなく，独立した機関として存在するようになろう．あるいは，逆に，大きな企業などの組織ではその組織内にこのような所在サービスシステムを独自に持つようになると考えられる．最新の情報のポインタを常に世界中から集めることは「情報組織化」の一つである．

（４）クライアント

　利用者は自分のパソコンのスクリーンから世界を覗いて世界の情報を手に入れるとともに，その情報を分類整理したり，あるいは一緒に仕事をしている仲間との間で情報のやり取りを行いたい．集めた情報を分類，整理（取捨選択）したり，注釈（アノテーション）を書き込んだりすること，さらにはそれを適切な人に回覧することは，実は「情報活動」の中で，非常に重要な意味を持っている．電子図書館を語るときに焦点となる情報の山から適切なものを選び出す「検索」と劣らぬほどの重要性を持つと考える．

　このような機能を最終的に利用者に提供するのはクライアントソフトの役割である．世界中の情報があたかも自分の手元にあるような感覚を与えるようなインターフェース，あるいはその機能を与えるソフトウェアが理想であろう．筆者らはこれを「仮想個人図書館」と捉えている．この場合，「個人」とは全く一人の個人ではなく，グループの一人として捉えることが重要であり，このようなソフトウェアは情報共有を実現するグループウェアとしての機能も持つ必要がある．

３．電子図書館プロトタイプシステム"Cornucopia"

３.１　電子図書館インタフェース

　マルチメディア電子図書館構想の一部を実現するプロトタイプシステム "Cornucopia"を開発した．Cornucopiaとはギリシャ神話で物の豊かな象徴である「豊饒の角」を意味し，ここでは情報や知識がほとばしり出てくるようなイメージを与えることを狙ってその名前とした．図２に同システムのホームページを示す．

　メディア変換サブシステムとしては，印刷文書の目次認識を行い，その認識結果のデータから検索を行う機能を試作した．蓄積・検索サブシステムには，マルチメディア文書管理サーバBibliotheca/InfoShareと全文検索サーバBibliotheca/TextSearchを用いて，ビデオや音声情報を含むマルチメディア文書（HTML文書）を蓄積管理する．これらのサーバは，WWW (World-Wide Web) のクライアントからHTTPプロトコルでアクセスできるように，ゲートウェイソフトBibliotheca/Gatewayを介してインターネットに接続している．利用者は，MosaicまたはNetscapeナビゲータから，上記のBibliothecaで管理するHTML文書を全文検索機能で検索し，閲覧することができる．図３はNetscapeからアクセスしたときの Bibliotheca/InfoShareの分類型検索の画面例である．

　このシステムの特長は，クライアントソフトウェアにおける利用者の知的情報活動の支援する「仮想個人図書館」機能にある．前節で述べたように，単に情報を検索して見るだけではなく，情報の収集，分類整理，蓄積，再編集，発信という情報活動全体を支援することを狙っている．

　ここではとくに，仮想的な情報の個人的所有と再編集を可能とする方式とソフトウェアを試作した．著作権を尊重した上で，得られた情報を「自分のもの」と感じられるようにする方法として，Ted Nelsonによって提案されている「トランスクルージョン (Transclusion)」[15]という考え方を採用した．すなわち，情報の仮想的な「個人化」の方法として，情報のコンテンツを持たずに，そのポインタ情報（アドレス情報）のみを保存して，必要なときには再びアクセスする方法である．したがって，将来は見る度にその量に応じた情報課金を行うことが可能である．

　本システムでは，この考え方を基本に，独自のブラウザソフトウェア Knowledge Bookを開発した．利用者は，WWWから検索で得られた情報をこのKnowledge BookによってHTML文書を閲覧したり，その一部に付箋を張ってアノテーションを付けることができる．アノテーションは「個人化」の第一の具体機能である．図４およびに図５に画面例を示す．写真やビデオ映像はマウスでクリックすることによって別ウインドウに大きく表示させることができる（図５）．

　第二の「個人化」の具体化機能は入手した情報の編集機能である．ソフトウェアKnowledge Scrapbookを開発して，入手した情報の一部を切り取って自分のスクラップブックに仮想的に切り張りすることを可能とした（図６）．切り張りした情報は先述したように情報の所在を示すポインタによって記録し，コンテンツは取り込まない．このスクラップブックはテキストを挿入して自由に編集することができる．スクラップブックを開くと，システムはポインタから自動的に原情報にアクセスして該当部分を抽出して，あたかもそこに情報があるかのように表示する．また，スクラップブックの出典情報を示す部分をクリックすると，元の全文情報を表示させることができる．

　第三の「個人化」の具体化機能は入手した情報を格納する個人書架機能である（図７）．同図に示すように任意の個数の本箱を作り，任意の分類名称を付けて，ドラッグアンドドロップ操作によって，本の形式で表示される情報を自由に格納することができる．分類の変更も自由に行える．これらの本箱は内部的にはHTML文書形式で表現されている．

　これらの機能を持つCornucopiaクライアントは，利用者の「仮想個人図書館」であると言うことができる．グループウェアとしての重要な機能はネットワークを介して別の人にこれらの本箱や編集後のスクラップブックを送付して，情報の共有を促進することであるが，これらの機能は現在開発中である．

３.２　文書イメージ情報の検索

　Cornucopiaは，印刷文書の目次イメージを認識して，そのテキスト情報を元に文字列サーチを行い，該当する本文ページのイメージを表示する機能を持つ．その検索画面例を図８に示す．文書認識の誤りを完全に無くすことは不可能なので，認識で文字を確定できないときは複数の候補を残して認識結果を格納し，検索時にはこの曖昧性を考慮した文字列サーチを行う方法をとる[16]．これによって認識誤りの影響を最小限にして検索することができる．この曖昧性を考慮した検索方式によって，誤認識による検索漏れのうち約80%を救えることを実験的に確認した．図９は目次ページの構造解析の結果と，文字認識の結果の例を示す．鍵括弧で囲まれる文字列が確定できなかった複数の候補文字である．「力，カ」「ー，－」「タ，夕」「間，問」「析，祈」などの例を見ることができる．

４．おわりに

　マルチメディア電子図書館システムは，コンセプトとしては，いわゆる「図書館」という既存の概念を越えた広い意味を持っている．著作権，課金といった課題が解決されないと本当の「電子図書館」は実現できないという議論があるが，これらにとらわれない情報も多い．たとえば，企業などの組織の内部で蓄積したり行き交っている情報をこのような情報システムにのせることの意義は大きい．最近，組織内利用のインターネットを「イントラネット」と呼ぶが，ここで示したシステムはこのような応用にも大いに有効である．

　技術には，内容からのマルチメディア検索，機械翻訳による多言語検索，エージェントを用いた広域分散情報検索などの検索高度化技術，著作権クリアランス方式や課金方式，およびプライバシー保護などのシステム的な技術課題をさらに解決していくことが求められる．インターネット上にはすでに膨大な情報が乗っているが，現在は玉石混淆であり，分野毎に信頼できる情報や評価の高い情報といったものが利用者に分かりやすく提示できるような手段も重要である．

　インターネットでの先進的な利用は始まりつつあるものの，本格的な普及はこれからである．社会的には，有用かつ価値の高い電子化情報を，ある規模以上に蓄積しながらシステムを構築することにより，このようなシステムの有効性を社会に示していくことが重要である．

参考文献

[1] 安達淳，橋爪広達：「欧米における『電子図書館』プロジェクト」，情報処理，Vol. 33, No. 10, pp. 1154-1161 (1992-10)

[2] Special Issue on "Digital Libraries", Communications of ACM, Vol. 38, No. 4, April 1995.

[3] 田中功：「マルチメディアと図書館」，情報管理，Vol. 38, No. 5, pp. 472-478 (1995-8)

[4] 安達淳，外：「学術文献を対象とした電子図書館システムの構成法」，情報処理学会情報学基礎研資，29-7 (1993-5)

[5] 柿本俊博，吉田哲三：「電子図書館実験システムの開発」， FUJITSU, Vol. 46, No. 3, pp. 276-284 (1995-5)

[6] 堤泰治郎，諸橋正幸，外：「電子図書館 I －将来像－」，情報処理学会第49回全国大会，4-209 (1994-9)

[7] H. Fujisawa, Y. Mishina, et al., "Multimedia Digital Library Systems for the Global Information Network," Hitachi Review, Vol. 44, No. 5, pp. 273-280, Oct. 1995.

[8] N. Hamada, T. Kamiuchi, et al., "Digital Image System," Hitachi Review, Vol. 44, No. 4, pp. 227-232,1995

[9] 藤澤浩道，嶋好博，外：「マルチメディア内容検索のための文書画像属性の自動登録」，電子計算機相互運用データベースシステム・講演予稿集，159-168 (1991-11)

[10] 加藤俊一，下垣弘行：「マルチメディア商標・意匠データベース TRADEMARK」，電子情報通信学会パターン認識・理解研究会，PRU88-9, pp.31-38 (1988-5)

[11] 長坂晃朗，田中譲：「カラービデオ映像における自動索引付け法と物体探索法」，情報処理学会論文誌，Vol. 33, No. 4, pp.543-550 (1992-4)

[12] 辻洋，間瀬久雄，外：「テキスト自動分類エキスパートシステムの一構成法」，情報処理学会第49回全国大会，3J-8 (1994-9)

[13] 和歌山哲，外：「クライアントサーバで実現する統合文書情報システム－Bibliotheca」，日立評論，Vol. 77，No. 5，pp. 367-370 (1995-5)

[14] 野村浩郷，伊佐原均，外：「情報ハイウェイ時代のテキスト情報への知的アクセス」，情報処理，Vol. 37, No. 1, pp. 1-9 (1996-1)

[15] T. ネルソン：「リテラリーマシン－ハイパーテキスト原論」，竹内・斉藤監訳，アスキー出版 (1994-10)

[16] H. Fujisawa, K. Marukawa: "Full-Text Search and Document Recognition of Japanese Text," Proc. Symp. Document Analysis and Information Retrieval, pp. 55-80, Las Vegas, April 1995.