ディジタル図書館に関する最近の話題から

杉本重雄
図書館情報大学

 

ディジタル図書館に関する様々な活動が活発に進められている。本稿ではディジタル図書 館に関する最近の話題として、National Digital Library Federation (NDLF)、Dublin Core、 NSF/NASA/ARPAによるDigital Library Initiative (DLI)を取り上げ、簡単に述べる。

キーワード:

メタデータ、Dublin Core、Digital Library Initiative、National Digital Library Federation (NDLF)

Recent Topics on Digital Libraries

Shigeo Sugimoto
(University of Library and Information Science)

 

There are many R&D projects on the digital library and related activities. This paper briefly describes recent activities of the National Digital Library Federation (NDLF), Dublin Core, and the Digital Library Initiative by NSF/NASA/ARPA.

Keywords:

Metadata, Dublin Core, Digital Library Initiative, National Digital Library Federation (NDLF)

はじめに

ディジタル図書館(Digital Library)に関する様々な活動が活発に進められている。アメリカ では議会図書館や大学図書館を中心として進められている資料のディジタル化を中心とし たプロジェクト、NSF/NASA/ARPAの大規模な研究助成Digital Library Initiative[1]によ る研究プロジェクトが活発に進められている。ヨーロッパではイギリスでのeLib[2]による 研究助成や各国の国立図書館を中心とする資料のディジタル化プログラム、また我国では これまでに進められてきたプロジェクトに加えて、日本情報処理開発協会(JIPDEC)に よる次世代電子図書館システム研究開発プロジェクト、国立大学図書館での電子図書館機 能の推進等、新しい活動が始められている。ディジタル図書館に関する国際会議も活発に 開かれており、ADL'97(1997.5、主催:米国議会図書館、米国医学図書館、IEEE、NASA ほか)、ACM DL'97(1997.7、主催:ACM)、1st European DL Conference(1997.9、主催: ERCIM(European Research Consortium on Informatics and Mathematics))、ISDL'97 (1997.11、主催:図書館情報大学)など数多く催されている、

本稿では、National Digital Library Federation(NDLF)、Dublin Core、DLIについて簡 単に紹介する。

National Digital Library Federation

NDLFは議会図書館や有力な大学図書館などの研究図書館(注)が集まって1995年5月に構 成された、ディジタルコレクションの形成と有効利用等、学術情報のためのDLに関わる 基本的な問題に取り組んでいる。 特に、NDLFでは大きなコストをかけて作成するディジ タル資料の共有(共同利用・相互利用)や大規模な情報資源の有効利用に焦点を合わせている。 NDLFでは参加組織によるPolicy Boardをもち、議論を進めている。また、NDLFではタ スクフォースを設け計画の基本プランを作ることにした。このタスクフォースは Commission on Preservation and Access (CPA[5])をコーディネータとし、各参加組織の スタッフから上級メンバーが参加することになった。このタスクフォースは1996年8月 にレポートを出し、その中で、現時点での重要項目として以下の3点を中心に進めていく ことを推奨している。

本年5月にWashington DCの議会図書館で開催されたディジタル図書館に関する国際会 議ADL'97ではNDLFの活動の中心的役割を果たしているCPAのDeanna Marcumの招 待講演があり、NDLFの活動について述べていた。NDLFのメンバーは基幹的な図書館な いしは大規模な有力大学の図書館である。資料のディジタル化はコストがかかるため大規 模な組織でなければなかなか取り組むことができない。同じくADL'97の招待講演のひと つであったSmith College図書館のSarah Pritchardによる講演では、大学の規模(すなわ ち図書館の規模)が小さいので資料のディジタル化の計画は特別には持っていないこと、ま たNDLFのような活動によってディジタル資料へのアクセス性が高まることを期待してい ることを述べていた。

注:NDLFのメンバー

(1) Commission on Preservation and Access (CPA)

(2) Columbia University

(3) Cornell University

(4) Emory University

(5) Harvard University

(6) Library of Congress

(7) National Archives and Records Administration (NARA)

(8) New York Public Library

(9) Pennsylvania State University

(10) Princeton University

(11) Stanford University

(12) University of California, Berkeley

(13) University of Michigan

(14) University of Southern California

(15) University of Tennessee

(16) Yale University

メタデータ

メタデータ、すなわちデータに関するデータは大規模な情報資源の中から所望の情報(デー タ)を見つけ出すために必要不可欠のものである。たとえば、従来の図書館情報システムで はMARCに代表される目録情報が電子化され、広く利用されてきた。図書館資料に関する データである目録は代表的なメタデータである。また、索引、辞書やシソーラスもメタデ ータと考える。さらに書評のように他の文書に関する文書もある種のメタデータと考えら れる。

従来のデータベースは単体で使われることが一般的であった。従って、利用者は特定のデ ータベースの利用方法を知っていればよく、また利用するデータベースのメタデータの特 性を知っていれば十分であった。ところが、インターネットを介して多くの情報資源(デ ータベース、コレクション、単体の文書など)が接続されるようになって、複数の情報資 源にアクセスすることが一般的になり、意識しない間に複数の情報資源を利用しているこ とすらある。一般にメタデータは情報資源毎に与えられるので、複数の情報資源にアクセ スできるようにするにはメタデータ間の相互利用性(Interoperability)を向上する必要があ る。さらにデータそのものだけではなく、情報資源に関する情報(たとえばデータベース に関するメタデータ)を用意することも必要である。

メタデータは巨大な情報資源(インターネット、およびそこにつながる電子図書館)から 情報を見つけだすためのキーとなる。そのためメタデータに関する研究は活発である。た とえば、IEEEではメタデータに関する国際会議(第1回1996.4)を開催した。大規模な 情報空間の中から所望の情報を見つけ出す情報発見(Information Discovery)がキーワード の一つとなっているNSF/NASA/ARPAのDLI(Digital Library Initiative)でもメタデータ が特に注目されている。たとえば、ミシガン大学ではエージェント技術を用いてメタデー タによる利用者に応じた検索システムの構築を進めている。カリフォルニア大学サンタバ ーバラ校では地理情報に関するシソーラス、地名事典等に関して研究を進めている。また、 スタンフォード大学では種類の異なる情報資源(データベース)に対する一様なアクセス を実現するため情報資源や利用条件に合わせたメタデータの変換等を行なうシステムの研 究を進めている。

yahooに代表されるインターネット上のディレクトリサービスの場合、人手による分類と メタデータ作成が行なわれている。この場合、データを作成する対象範囲を広くするには 多人数が必要であり、また文書の出版からメタデータの作成までのタイムラグが長くなり がちである。さらに、適切な管理メカニズムを持たないと消滅した文書に関するメタデー タの削除が行なわれず、存在しない文書を紹介することになる。一方、AltaVistaやlycos、 opentextなどの文書検索サービスの場合、ロボットやCrawlerと呼ばれるソフトウェアで 機械的に文書を集めてデータベースを構成している。これらは機械的に多数の文書を集め ることができるのでカバーする範囲は広がり、タイムラグもなくなるが、意味的な自動分 類が困難なので検索ノイズが多くなる。検索ノイズを減らすには適切なメタデータを文書 に埋め込んでおき、ロボットが集めた文書から自動的にメタデータを抽出してメタデータ のデータベースを構成することが有用であると考えられる。以下に示すDublin Core Metadata Element Set (通称Dublin Core)はこうした考え方の下に提案されたものである。

OCLCとNCSAはインターネット上の文書オブジェクト(DLO)のためのメタデータを検討 するためのワークショップを1995年3月にOhio州Dublinで開催し、そこからDublin Coreの提案がなされた。その後、米国、ヨーロッパ、オーストラリアを中心としてDublin Coreに関する実験や評価が進められた。1996年4月には、Dublin Coreをベースとして メタデータを議論するためのワークショップがイギリスのWarwickで開催され、以下のよ うな成果を残した。

Warwick Frameworkでは13項目が提案されたが、その後イメージデータに関するメタデ ータワークショップ(1996.9)等を経て現在以下の15項目になっている。

(1) タイトル(Title): オブジェクトの名前

(2) 作者または著者(Author or Creator): 情報資源の内容に関して責任を持つ人(複数可)

(3) 主題およびキーワード(Subject and Keywords): 情報資源に述べられたトピック

(4) 記述(Description): アブストラクトやイメージデータの説明など内容に関する記述

(5) 出版者(Publisher): 情報資源を流通の形態にしたエージェント

(6) 他の関与者(Other Contributors): 編集者や翻訳者等文書の内容の作成に関わった人

(7) 日付(Date): 出版の日付

(8) 情報資源タイプ(Resource Type): 小説、詩、辞書といった情報資源のジャンル

(9) 形式(Form): PostscriptファイルやWindows実行形式といった、情報資源の物理的な 形式

(10) 情報資源識別子(Resource Identifier): 情報資源を一意に識別するための番号あるい は名前

(11) ソース(Source): 情報資源オブジェクトの出所となった情報資源(印刷物あるいはディ ジタルデータ)

(12) 言語(Language): 情報資源の内容を記述している言語

(13) 関係(Relation): 他の情報資源オブジェクトとの関連づけ

(14) カバレッジ(Coverage): 地理的場所や時間的な内容に関する情報資源の特性

(15) 権利管理(Rights Management):著作権記述などの権利に関する記述や利用条件に関 する記述へのリンク(URLもしくは何らかのURI)

Dublin Coreは基本項目だけを決め、これ以外にドキュメントの性質や提供者の環境に応 じて他の項目を加えることを認めている。

Dublin Coreでは各エレメントをフリーテキストで表すことが許されている。これはメタ データに関する専門知識を持たない著者であっても容易に記述できるという点からは重要 な点である。一方、フリーテキストだけで記述すると、検索ノイズが多くなることは否め ない。そのため、各エレメントにサブエレメントを設け、どのような規準にしたがって記 述しているのか(Scheme)、記述データはどのような形式なのか(Type)を表すことにしてい る。また、サブエレメントの種類を表す記述子をqualifierと呼んでいる[6]。下にタイトル・ エレメントを例として示す。

Element: Title (TITLE)

qualifierとその値:
Scheme 
 Internal 他の記述方法とは無関係に決められた記述方式(フリーテキスト)。
  デフォールト値
  AACR2  AACR2に従って決められた記述方式に従う。

Type 
     Main  主タイトル。デフォールト値。
     Long  長形式タイトル(Long Form)
     Short  短形式タイトル(Short Form)
     Subtitle  サブタイトル
     PartTitle   タイトルの一部
     Spine  背表紙のタイトル
     Translated 翻訳されたタイトル

1997年3月にオーストラリア・キャンベラのオーストラリア国立図書館で開かれた第4回 ワークショップ(DC-4)では上述のqualifierの記述方法に関する議論が進められた (Canberra Qualifier)[7]。Dublin Coreメタデータは任意の電子文書を対象とはしているが、 WWW文書への適用を主要な目的のひとつとしているので、HTMLの文法とqualifierの 記述の整合性等が議論された。Dublin Coreは構造の単純さを特徴とする。一方、あまり に構造を単純化しすぎると記述内容の意味的な解析に対する要求が大きくなりすぎ、効率 的な情報検索が難しくなり、相互利用性が低下するという危険をはらんでいる。qualifier はあまりDublin Core自体の定義が複雑にはならないように配慮しながら、従来から利用 されてきたメタデータで意味が明確に定義されている記述方式や語彙の利用を進められる ようにしている。

これまでDublin Coreに関する研究プロジェクトはアメリカ、イギリス、オーストラリア 等英語圏が中心であったが、ヨーロッパ各国でもプロジェクトが開始されつつある。その ため、メタデータが表す内容が何語で書かれているかといった多言語による記述に関して も重要な話題として認められている。なお、DC-4の参加者はアメリカ、イギリス、オース トラリア、ニュージーランドの英語圏以外にヨーロッパ(フランス、ドイツ、北欧諸国)、 タイ、日本からであった。また、第5回のワークショップは本年10月にフィンランドのヘ ルシンキでの開催が計画されている。

NSF/NASA/ARPA Digital Library Initiative

NSF/NASA/ARPAによる共同助成プログラムDigital Library Initiative(DLI)は1994年か ら4年計画で始められ、すでに3年が過ぎようとしている。助成を受けた下記の6大学 (Carnegie-Mellon University, University of Michigan, University of Illinois at Urbana- Champaign, University of California at Berkeley, University of California at Santa Barbara, Stanford University)に与えられた助成総額2300万ドルであり、これに加えて多 くの企業がPartnerとして寄与している。DLIは図書館と計算機科学の分野の研究者が協 力し、さらに出版社や政府機関などからのコンテンツを対象とする電子図書館のtestbed (実験台)作りのプロジェクトとして脚光を浴びた。DLIでは約半年に1度の割合で全プ ロジェクトが集まる会議を開催しており、進展具合を公開する場であるとともに、意見と 技術の交流の場となっている。(たとえば、1996年5月ミシガン大学、同年12月スタン フォード大学、1997年6月カーネギーメロン大学)また、イリノイ大学のグループが中心 となって6プロジェクトの情報を公開している(http://dli.grainger.uiuc.edu/national.htm)。

NSF他は1998年から次のディジタル図書館研究助成計画(通称DLI II)を、これまでよ りも規模を大きくして進める予定である。DLI IIの計画を議論するためのワークショップ が本年3月にニューメキシコ州サンタフェで開催された。ワークショップは、非常に大規 模で分散した情報環境の中で知的作業を進めていくための基盤環境(Distributed Knowledge Work Environment)に関する研究にはどのような点が重要であるかといった 点から次の研究助成プログラムのプランを考えるという目的で開かれ、ミシガン大学の Daniel Atkinsがホストし、NSFのY.T.Chienを始めとする計画を策定する側からの出席 者、現在のDLIの研究代表者、利用者評価、アーカイブ、美術館等の専門家による presentationと議論が行われた。そこでの議論から、現在のDLIのような大規模プロジェ クトだけのものとは異なり小規模なものから大規模なものまで組み合わせること、またよ り実世界指向のプロジェクトとすることなどの方向付け進められた。このワークショップ の報告書はまもなくWWW上に公開される予定である。

おわりに

DLIのように研究指向のものから図書館自体が進めている資料のディジタル化を中心とす る開発指向のものまでいろいろなディジタル図書館プロジェクトが現在も非常に活発に進 められている。NDLFもあげている「情報発見(Information Discovery)」、「アーカイ ブ」、「知的財産権と経済モデル」は、ディジタル図書館プロジェクトに関する共通のキ ーワードであると思われる。知的財産権の重要性に関しては言うまでもないであろう。非 常に大規模な情報空間を構成することになるディジタル図書館にとって情報検索や情報発 見が重要であることは明らかである。情報発見という観点から、ディジタル図書館間の相 互利用性を高め、非常に大規模で多様な情報資源の中から効率よく情報を探し出すための メタデータの重要性は容易に理解できる。また、アーカイブの観点からは、どのような資 料を電子化して保存すべきかということに加えて、電子化された資料、あるいは電子的に 作成された資料は従来の印刷体の資料とは異なった意味で保存の難しさを含んでいる[8]。

また、ディジタル図書館の相互利用性や国際的な情報基盤上での情報発見等の研究を進め るには国際間での共同研究の場を設けることが重要になってゆく。NSFはERCIMと Digital Libraryに関する共同研究を始めており、現在Metadata、Interoperability、 Optimized Search and Retrieval、Intellectual Property and Economy Modelの4テーマ での共同研究を進めようとしている[9]。さらに、Multi-lingualityを新たに加えてアメリ カ-ヨーロッパの研究者による共同研究を進めようとしている。一方、Dublin Coreのグル ープでも多言語の扱いの需要性を認識しており、DC-4においても多言語に関するディスカ ッションが行われた[10]。こうした多言語情報の処理や相互利用性等の研究はこれからま すます重要性を増すと思える。

参考文献

[1] NSF/ARPA/NASA Digital Libraries Initiative (national synchronization home page), http://dli.grainger.uiuc.edu/national.htm

[2] eLib Home page, http://www.ukoln.ac.uk/elib/

[3] National Digital Library Federation (NDLF), http://lcweb.loc.gov/loc/ndlf/

[4] The Dublin Core Metadata Element Set Home Page , http://www.oclc.org:5046/ research/dublin_core/

[5] Commission on Preservation and Access, http://www-cpa.stanford.edu/cpa/ index.shtml

[6] Dublin Core Metadata Element Set: Reference Description, http://purl.org/metadata/dublin_core_elements

[7] Weibel, S., Iannella, R., Cathro, W., The 4th Dublin Core Metadata Workshop Report, D-Lib Magazine, June 1997, http://www.dlib.org/dlib/june97/metadata/06weibel.html

[8] Preserving Digital Information: Final Report and Recommendations, http://www.rlg.org/ArchTF/

[9] EU-NSF Supported Programme for Planning Meetings Between US DLI Projects,NCSTRL and ERCIM, http://www.area.pi.cnr.it/ErcimDL/EU-NFS.html

[10] Baker, T., Metadata Semantics Shared Across Languages: Dublin Cores in languages other than English, http://www.cs.ait.ac.th/‾tbaker/Cores.html