「仮想個人図書館」と個人情報環境

藤澤 浩道             絹川 博之
(株)日立製作所中央研究所*   (株)日立製作所システム開発研究所
*連絡先:185 国分寺市東恋が窪 1-280
Tel: 0423-23-1111; Fax: 0423-27-7778; E-mail: fujisawa@crl.hitachi.co.jp

概要

日立製作所における電子図書館への取り組みと,その特徴的なシステム概 念および試作したプロトタイプについて紹介する.われわれの重視するは システム概念は,エンドユーザの「情報活動」全体を支援する情報処理環 境としての「仮想個人図書館」である.単なる情報の検索の支援のみなら ず,情報の入手後の再編集,整理,共有,利用を一貫して支援する情報処 理環境を提供することが狙いである.とくに情報の仮想的な個人化機能に ついて焦点をあてる.入手した情報を個人書架に仮想的に保存したり,入 手情報を切り取って仮想的なスクラップブックを作って保存する機能,お よびそのユーザインタフェースについて述べる.また,文書認識技術を応 用した文書検索技術についても述べる.ユーザは目次の認識結果を検索し て,本文を参照することが出来る.

キーワード

インターネット,仮想個人図書館,トランスクルージョン,アノテーショ ン,スクラップブック,文書認識,目次認識

Virtual Personal Library and Personal Information Environment

Hiromichi Fujisawa*, Hiroyuki Kinukawa**
*Central Research Laboratory, **Systems Development Laboratory,
Hitachi, Ltd.
*1-280, Higashi-koigakubo
Kokubunji, Tokyo 185
Tel: 0423-23-1111; Fax: 0423-27-7778; E-mail:
fujisawa@crl.hitachi.co.jp

Abstract:

This paper presents some of the Hitachi's research activities on Digital Libraries, their system concept, and the prototype system, Cornucopia. The system concept is a "virtual personal library" which supports his "information activities" acting as an end-user information environment. Such a system should support not only information retrieval but also such activities as editing, filing, sharing, and usage of the retrieved information. The paper focuses on the virtual "personalization" of retrieved information. The user interface of the virtual personal library system enables end-users to create their own scrapbooks from the retrieved information, and to stow the scrapbooks and retrieved information in the virtual personal bookshelves. Document retrieval using the document recognition technology is also described. The users can search through the recognized tables of contents and see selected page images.

Keyword:

Internet, Virtual Personal Library, transclusion, annotation, scrapbook, document recognition, TOC recognition

1.はじめに

 マルチメディア情報処理技術,マルチメディア通信技術,大容量記憶装 置技術などの進展,およびマルチメディアパソコンの高性能化と低価格化 により,次世代の魅力的な情報システムの一つとして,「マルチメディア 電子図書館」の研究開発が,日米欧で進められている[1-7].これらは世 界規模の計算機ネットワークに接続され,文献や資料などの膨大な知的財 産を蓄積する情報蓄積・検索サービスシステムである.現在は紙やフィル ムなどの媒体に記録されている膨大な情報を逐次電子化(ディジタル化) し,テラバイト級の巨大なマルチメディア データベースを構築すること も技術的には現実のものとなりつつある.これらが実現されれば,ネット ワーク全体は実質的に巨大な「マルチメディア情報の蓄積貯蔵庫」とな る.

 すでに,インターネット上には多数のWWW (World-Wide Web) 情報蓄積 サーバが構築されており,そのためのクライアントソフトウェアを用いれ ば,それら世界中のサーバにアクセスして諸々の情報を居ながらにして入 手することができつつある.しかしながら,誰もが容易に検索してそれら 情報を自分のものとしたり,再利用しながら知識の再生産をするためには まだまだ解くべき課題も多い.

 ここでは,「マルチメディア電子図書館」のシステム概念と課題につい て概説するとともに,著者らが試作中の電子図書館プロトタイプシステム "Cornucopia" (コーヌコピア)と関連する技術について紹介する.

2.マルチメディア電子図書館

 「マルチメディア電子図書館」とは,インターネットなどの世界に開か れたネットワークに接続され,世界に情報を発信する新しい情報サービス システムの概念である.マルチメディア電子図書館システムは,歴史的・ 文化的に価値のある古文書,美術作品,文献,フィルムなどの,人類の膨 大な知的財産を電子化して,検索可能なマルチメディア情報として蓄積・ 管理する.さらに,ビデオやコンピュータグラフィックスで表現された最 近の情報も重要な知的財産であり,電子図書館システムでは蓄積・保存の 対象となっていくと考えられる.

 マルチメディア電子図書館システムは,多少単純化すると,情報の入 力,蓄積,検索,配送,課金などの機能を備える,以下の4つのサブシス テムで構成される(図1).

(1)メディア変換サブシステム

 メディア変換サブシステムでは,古文書,書籍,文献,資料などの文書 情報,さらには写真や映像,音声(音楽)といったマルチメディア情報を 電子化(ディジタル化)してマルチメディアデータベースに登録する.テ キストを主とする文書では,文字をOCRで読取り,その結果のテキスト データを全文検索用のデータとすることも考えられている.データ圧縮し ながらも原本を忠実に再現するディジタル化技術や,古文書の染みなどを 回復する「ディエイジング (de-aging)」技術[8]などが重要である.

 検索を可能にするためには,それぞれの情報に対して,タイトル,主 題,作成者,出典などの書誌情報(属性情報)を入力する必要があり, データベース構築上の大きなコストを占めている.従来,人手によって行 われるこのインデキシング作業は,パターン認識などの情報処理技術に よって自動化することが考えられている.文書情報に対する文書認識の応 用[9]のほか,将来は,写真や図形の内容検索[10],あるいは動画や音声 の内容検索[11]のための特徴抽出もこの部位で行われるようになろう.

 情報の自動分類や,情報相互間の関連性(ハイパーテキストリンク)の 自動抽出は蓄積情報の付加価値を高める.ユーザ自らが分類したサンプル 文書(教師付きサンプル)からルールを学習して,テキスト文書を自動分 類する方法が研究されている[12].これらの技術により,個人の関心事 (興味)に関するプロファイル (interest profile) をシステムに登録し ておき,そのプロファイルに合致する情報やそれに関連する情報を利用者 に自動的に配信する情報フィルタリングサービスを実現することができ る.

(2)蓄積・検索サブシステム

 マルチメディアデータベースは動画,静止画,文書などのマルチメディ アデータを膨大に蓄積・管理し,要求に応じて情報を配信する.将来的に は,テラバイト級の容量,数億件の超大容量データを蓄積し,同時に 1,000クライアント以上の要求に実時間でこたえる必要がある.巨大デー タの蓄積にはディスクアレー装置や光ディスクなどを用いた3次記憶装置 が,検索には超並列コンピュータがそれぞれ利用されるようになろう.

 検索サーバには,分類型の検索や,自由な単語からの高速な全文検索が 必要である.筆者らの開発した統合文書情報システム"Bibliotheca"(ビ ブリオテカ)は特に日本語情報の高速な全文検索を可能にした[13].あい まいな情報からの意味的な知的検索[14]や,静止画や映像,または音声な どのマルチメディア情報の内容からの「マルチメディア内容検索」は現在 盛んに研究されている[1].カーネギーメロン大学ではInforMediaプロ ジェクトの一環で音声認識や画像処理技術を応用したビデオ情報の自動イ ンデキシングや自動抄録の研究を進めている.カリフォルニア大学バーク レイ校では,概念からの写真の内容検索を実現するための画像処理技術を 研究している.

(3)所在検索サブシステム

 電子図書館は世界中に多数構築されて行くので,自分の欲しい情報がど の電子図書館にあるかを知ることがまず必要である.所在情報データベー スはネットワークに結合され,どのような情報がどの電子図書館に存在す るのかを記録・管理する.現在,世界中のネットワークに分散する情報を 検索するシステムとして,すでにYahooやLycos,あるいはInfoSeekといっ たシステムが稼働している.しかしながら,これらが世界中のすべての情 報の在り処を探せるかどうかは不明であり,たとえば,将来は,このよう な所在サービスシステム同士が多数連携し合って,世界中の情報を分担し ながらサービスするような方式も考える必要がある.

 このようにポインタだけを持った所在サービスシステムは「仮想電子図 書館」と見ることもできる.このようなシステムは専門分野ごとに多数登 場し,競い合って「権威」ある書誌情報をサービスしていくようになるで あろう.あるいは,世界中に散逸してる(分散管理されている)古美術品 を仮想電子図書館があたかもすべてを管理しているがごとく,利用者に提 供することもできよう.

 このようなシステムは図1のように,必ずしも「電子図書館」の中にあ る必要はなく,独立した機関として存在するようになろう.あるいは,逆 に,大きな企業などの組織ではその組織内にこのような所在サービスシス テムを独自に持つようになると考えられる.最新の情報のポインタを常に 世界中から集めることは「情報組織化」の一つである.

(4)クライアント

 利用者は自分のパソコンのスクリーンから世界を覗いて世界の情報を手 に入れるとともに,その情報を分類整理したり,あるいは一緒に仕事をし ている仲間との間で情報のやり取りを行いたい.集めた情報を分類,整理 (取捨選択)したり,注釈(アノテーション)を書き込んだりすること, さらにはそれを適切な人に回覧することは,実は「情報活動」の中で,非 常に重要な意味を持っている.電子図書館を語るときに焦点となる情報の 山から適切なものを選び出す「検索」と劣らぬほどの重要性を持つと考え る.

 このような機能を最終的に利用者に提供するのはクライアントソフトの 役割である.世界中の情報があたかも自分の手元にあるような感覚を与え るようなインターフェース,あるいはその機能を与えるソフトウェアが理 想であろう.筆者らはこれを「仮想個人図書館」と捉えている.この場 合,「個人」とは全く一人の個人ではなく,グループの一人として捉える ことが重要であり,このようなソフトウェアは情報共有を実現するグルー プウェアとしての機能も持つ必要がある.

3.電子図書館プロトタイプシステム"Cornucopia"

3.1 電子図書館インタフェース

 マルチメディア電子図書館構想の一部を実現するプロトタイプシステム "Cornucopia"を開発した.Cornucopiaとはギリシャ神話で物の豊かな象徴 である「豊饒の角」を意味し,ここでは情報や知識がほとばしり出てくる ようなイメージを与えることを狙ってその名前とした.図2に同システム のホームページを示す.

 メディア変換サブシステムとしては,印刷文書の目次認識を行い,その 認識結果のデータから検索を行う機能を試作した.蓄積・検索サブシステ ムには,マルチメディア文書管理サーバBibliotheca/InfoShareと全文検 索サーバBibliotheca/TextSearchを用いて,ビデオや音声情報を含むマル チメディア文書(HTML文書)を蓄積管理する.これらのサーバは,WWW (World-Wide Web) のクライアントからHTTPプロトコルでアクセスできる ように,ゲートウェイソフトBibliotheca/Gatewayを介してインターネッ トに接続している.利用者は,MosaicまたはNetscapeナビゲータから,上 記のBibliothecaで管理するHTML文書を全文検索機能で検索し,閲覧する ことができる.図3はNetscapeからアクセスしたときの Bibliotheca/InfoShareの分類型検索の画面例である.

 このシステムの特長は,クライアントソフトウェアにおける利用者の知 的情報活動の支援する「仮想個人図書館」機能にある.前節で述べたよう に,単に情報を検索して見るだけではなく,情報の収集,分類整理,蓄 積,再編集,発信という情報活動全体を支援することを狙っている.

 ここではとくに,仮想的な情報の個人的所有と再編集を可能とする方式 とソフトウェアを試作した.著作権を尊重した上で,得られた情報を「自 分のもの」と感じられるようにする方法として,Ted Nelsonによって提案 されている「トランスクルージョン (Transclusion)」[15]という考え方 を採用した.すなわち,情報の仮想的な「個人化」の方法として,情報の コンテンツを持たずに,そのポインタ情報(アドレス情報)のみを保存し て,必要なときには再びアクセスする方法である.したがって,将来は見 る度にその量に応じた情報課金を行うことが可能である.

 本システムでは,この考え方を基本に,独自のブラウザソフトウェア Knowledge Bookを開発した.利用者は,WWWから検索で得られた情報をこ のKnowledge BookによってHTML文書を閲覧したり,その一部に付箋を張っ てアノテーションを付けることができる.アノテーションは「個人化」の 第一の具体機能である.図4およびに図5に画面例を示す.写真やビデオ 映像はマウスでクリックすることによって別ウインドウに大きく表示させ ることができる(図5).

 第二の「個人化」の具体化機能は入手した情報の編集機能である.ソフ トウェアKnowledge Scrapbookを開発して,入手した情報の一部を切り 取って自分のスクラップブックに仮想的に切り張りすることを可能とした (図6).切り張りした情報は先述したように情報の所在を示すポインタ によって記録し,コンテンツは取り込まない.このスクラップブックはテ キストを挿入して自由に編集することができる.スクラップブックを開く と,システムはポインタから自動的に原情報にアクセスして該当部分を抽 出して,あたかもそこに情報があるかのように表示する.また,スクラッ プブックの出典情報を示す部分をクリックすると,元の全文情報を表示さ せることができる.

 第三の「個人化」の具体化機能は入手した情報を格納する個人書架機能 である(図7).同図に示すように任意の個数の本箱を作り,任意の分類 名称を付けて,ドラッグアンドドロップ操作によって,本の形式で表示さ れる情報を自由に格納することができる.分類の変更も自由に行える.こ れらの本箱は内部的にはHTML文書形式で表現されている.

 これらの機能を持つCornucopiaクライアントは,利用者の「仮想個人図 書館」であると言うことができる.グループウェアとしての重要な機能は ネットワークを介して別の人にこれらの本箱や編集後のスクラップブック を送付して,情報の共有を促進することであるが,これらの機能は現在開 発中である.

3.2 文書イメージ情報の検索

 Cornucopiaは,印刷文書の目次イメージを認識して,そのテキスト情報 を元に文字列サーチを行い,該当する本文ページのイメージを表示する機 能を持つ.その検索画面例を図8に示す.文書認識の誤りを完全に無くす ことは不可能なので,認識で文字を確定できないときは複数の候補を残し て認識結果を格納し,検索時にはこの曖昧性を考慮した文字列サーチを行 う方法をとる[16].これによって認識誤りの影響を最小限にして検索する ことができる.この曖昧性を考慮した検索方式によって,誤認識による検 索漏れのうち約80%を救えることを実験的に確認した.図9は目次ページ の構造解析の結果と,文字認識の結果の例を示す.鍵括弧で囲まれる文字 列が確定できなかった複数の候補文字である.「力,カ」「ー,−」「 タ,夕」「間,問」「析,祈」などの例を見ることができる.

4.おわりに

 マルチメディア電子図書館システムは,コンセプトとしては,いわゆる 「図書館」という既存の概念を越えた広い意味を持っている.著作権,課 金といった課題が解決されないと本当の「電子図書館」は実現できないと いう議論があるが,これらにとらわれない情報も多い.たとえば,企業な どの組織の内部で蓄積したり行き交っている情報をこのような情報システ ムにのせることの意義は大きい.最近,組織内利用のインターネットを 「イントラネット」と呼ぶが,ここで示したシステムはこのような応用に も大いに有効である.

 技術には,内容からのマルチメディア検索,機械翻訳による多言語検 索,エージェントを用いた広域分散情報検索などの検索高度化技術,著作 権クリアランス方式や課金方式,およびプライバシー保護などのシステム 的な技術課題をさらに解決していくことが求められる.インターネット上 にはすでに膨大な情報が乗っているが,現在は玉石混淆であり,分野毎に 信頼できる情報や評価の高い情報といったものが利用者に分かりやすく提 示できるような手段も重要である.

 インターネットでの先進的な利用は始まりつつあるものの,本格的な普 及はこれからである.社会的には,有用かつ価値の高い電子化情報を,あ る規模以上に蓄積しながらシステムを構築することにより,このようなシ ステムの有効性を社会に示していくことが重要である.

参考文献

[1] 安達淳,橋爪広達:「欧米における『電子図書館』プロジェクト 」,情報処理,Vol. 33, No. 10, pp. 1154-1161 (1992-10)

[2] Special Issue on "Digital Libraries", Communications of ACM, Vol. 38, No. 4, April 1995.

[3] 田中功:「マルチメディアと図書館」,情報管理,Vol. 38, No. 5, pp. 472-478 (1995-8)

[4] 安達淳,外:「学術文献を対象とした電子図書館システムの構成 法」,情報処理学会情報学基礎研資,29-7 (1993-5)

[5] 柿本俊博,吉田哲三:「電子図書館実験システムの開発」, FUJITSU, Vol. 46, No. 3, pp. 276-284 (1995-5)

[6] 堤泰治郎,諸橋正幸,外:「電子図書館 I −将来像−」,情報処理 学会第49回全国大会,4-209 (1994-9)

[7] H. Fujisawa, Y. Mishina, et al., "Multimedia Digital Library Systems for the Global Information Network," Hitachi Review, Vol. 44, No. 5, pp. 273-280, Oct. 1995.

[8] N. Hamada, T. Kamiuchi, et al., "Digital Image System," Hitachi Review, Vol. 44, No. 4, pp. 227-232,1995

[9] 藤澤浩道,嶋好博,外:「マルチメディア内容検索のための文書画 像属性の自動登録」,電子計算機相互運用データベースシステム・講演予 稿集,159-168 (1991-11)

[10] 加藤俊一,下垣弘行:「マルチメディア商標・意匠データベース TRADEMARK」,電子情報通信学会パターン認識・理解研究会,PRU88-9, pp.31-38 (1988-5)

[11] 長坂晃朗,田中譲:「カラービデオ映像における自動索引付け法と 物体探索法」,情報処理学会論文誌,Vol. 33, No. 4, pp.543-550 (1992-4)

[12] 辻洋,間瀬久雄,外:「テキスト自動分類エキスパートシステムの 一構成法」,情報処理学会第49回全国大会,3J-8 (1994-9)

[13] 和歌山哲,外:「クライアントサーバで実現する統合文書情報シス テム−Bibliotheca」,日立評論,Vol. 77,No. 5,pp. 367-370 (1995-5)

[14] 野村浩郷,伊佐原均,外:「情報ハイウェイ時代のテキスト情報へ の知的アクセス」,情報処理,Vol. 37, No. 1, pp. 1-9 (1996-1)

[15] T. ネルソン:「リテラリーマシン − ハイパーテキスト原論 」,竹内・斉藤監訳,アスキー出版 (1994-10)

[16] H. Fujisawa, K. Marukawa: "Full-Text Search and Document Recognition of Japanese Text," Proc. Symp. Document Analysis and Information Retrieval, pp. 55-80, Las Vegas, April 1995.