本稿では、National Digital Library Federation(NDLF)、Dublin Core、DLIについて簡 単に紹介する。
本年5月にWashington DCの議会図書館で開催されたディジタル図書館に関する国際会 議ADL'97ではNDLFの活動の中心的役割を果たしているCPAのDeanna Marcumの招 待講演があり、NDLFの活動について述べていた。NDLFのメンバーは基幹的な図書館な いしは大規模な有力大学の図書館である。資料のディジタル化はコストがかかるため大規 模な組織でなければなかなか取り組むことができない。同じくADL'97の招待講演のひと つであったSmith College図書館のSarah Pritchardによる講演では、大学の規模(すなわ ち図書館の規模)が小さいので資料のディジタル化の計画は特別には持っていないこと、ま たNDLFのような活動によってディジタル資料へのアクセス性が高まることを期待してい ることを述べていた。
注:NDLFのメンバー
(1) Commission on Preservation and Access (CPA)
(2) Columbia University
(3) Cornell University
(4) Emory University
(5) Harvard University
(6) Library of Congress
(7) National Archives and Records Administration (NARA)
(8) New York Public Library
(9) Pennsylvania State University
(10) Princeton University
(11) Stanford University
(12) University of California, Berkeley
(13) University of Michigan
(14) University of Southern California
(15) University of Tennessee
(16) Yale University
従来のデータベースは単体で使われることが一般的であった。従って、利用者は特定のデ ータベースの利用方法を知っていればよく、また利用するデータベースのメタデータの特 性を知っていれば十分であった。ところが、インターネットを介して多くの情報資源(デ ータベース、コレクション、単体の文書など)が接続されるようになって、複数の情報資 源にアクセスすることが一般的になり、意識しない間に複数の情報資源を利用しているこ とすらある。一般にメタデータは情報資源毎に与えられるので、複数の情報資源にアクセ スできるようにするにはメタデータ間の相互利用性(Interoperability)を向上する必要があ る。さらにデータそのものだけではなく、情報資源に関する情報(たとえばデータベース に関するメタデータ)を用意することも必要である。
メタデータは巨大な情報資源(インターネット、およびそこにつながる電子図書館)から 情報を見つけだすためのキーとなる。そのためメタデータに関する研究は活発である。た とえば、IEEEではメタデータに関する国際会議(第1回1996.4)を開催した。大規模な 情報空間の中から所望の情報を見つけ出す情報発見(Information Discovery)がキーワード の一つとなっているNSF/NASA/ARPAのDLI(Digital Library Initiative)でもメタデータ が特に注目されている。たとえば、ミシガン大学ではエージェント技術を用いてメタデー タによる利用者に応じた検索システムの構築を進めている。カリフォルニア大学サンタバ ーバラ校では地理情報に関するシソーラス、地名事典等に関して研究を進めている。また、 スタンフォード大学では種類の異なる情報資源(データベース)に対する一様なアクセス を実現するため情報資源や利用条件に合わせたメタデータの変換等を行なうシステムの研 究を進めている。
yahooに代表されるインターネット上のディレクトリサービスの場合、人手による分類と メタデータ作成が行なわれている。この場合、データを作成する対象範囲を広くするには 多人数が必要であり、また文書の出版からメタデータの作成までのタイムラグが長くなり がちである。さらに、適切な管理メカニズムを持たないと消滅した文書に関するメタデー タの削除が行なわれず、存在しない文書を紹介することになる。一方、AltaVistaやlycos、 opentextなどの文書検索サービスの場合、ロボットやCrawlerと呼ばれるソフトウェアで 機械的に文書を集めてデータベースを構成している。これらは機械的に多数の文書を集め ることができるのでカバーする範囲は広がり、タイムラグもなくなるが、意味的な自動分 類が困難なので検索ノイズが多くなる。検索ノイズを減らすには適切なメタデータを文書 に埋め込んでおき、ロボットが集めた文書から自動的にメタデータを抽出してメタデータ のデータベースを構成することが有用であると考えられる。以下に示すDublin Core Metadata Element Set (通称Dublin Core)はこうした考え方の下に提案されたものである。
OCLCとNCSAはインターネット上の文書オブジェクト(DLO)のためのメタデータを検討 するためのワークショップを1995年3月にOhio州Dublinで開催し、そこからDublin Coreの提案がなされた。その後、米国、ヨーロッパ、オーストラリアを中心としてDublin Coreに関する実験や評価が進められた。1996年4月には、Dublin Coreをベースとして メタデータを議論するためのワークショップがイギリスのWarwickで開催され、以下のよ うな成果を残した。
Warwick Frameworkでは13項目が提案されたが、その後イメージデータに関するメタデ ータワークショップ(1996.9)等を経て現在以下の15項目になっている。
(1) タイトル(Title): オブジェクトの名前
(2) 作者または著者(Author or Creator): 情報資源の内容に関して責任を持つ人(複数可)
(3) 主題およびキーワード(Subject and Keywords): 情報資源に述べられたトピック
(4) 記述(Description): アブストラクトやイメージデータの説明など内容に関する記述
(5) 出版者(Publisher): 情報資源を流通の形態にしたエージェント
(6) 他の関与者(Other Contributors): 編集者や翻訳者等文書の内容の作成に関わった人
(7) 日付(Date): 出版の日付
(8) 情報資源タイプ(Resource Type): 小説、詩、辞書といった情報資源のジャンル
(9) 形式(Form): PostscriptファイルやWindows実行形式といった、情報資源の物理的な 形式
(10) 情報資源識別子(Resource Identifier): 情報資源を一意に識別するための番号あるい は名前
(11) ソース(Source): 情報資源オブジェクトの出所となった情報資源(印刷物あるいはディ ジタルデータ)
(12) 言語(Language): 情報資源の内容を記述している言語
(13) 関係(Relation): 他の情報資源オブジェクトとの関連づけ
(14) カバレッジ(Coverage): 地理的場所や時間的な内容に関する情報資源の特性
(15) 権利管理(Rights Management):著作権記述などの権利に関する記述や利用条件に関 する記述へのリンク(URLもしくは何らかのURI)
Dublin Coreは基本項目だけを決め、これ以外にドキュメントの性質や提供者の環境に応 じて他の項目を加えることを認めている。
Dublin Coreでは各エレメントをフリーテキストで表すことが許されている。これはメタ データに関する専門知識を持たない著者であっても容易に記述できるという点からは重要 な点である。一方、フリーテキストだけで記述すると、検索ノイズが多くなることは否め ない。そのため、各エレメントにサブエレメントを設け、どのような規準にしたがって記 述しているのか(Scheme)、記述データはどのような形式なのか(Type)を表すことにしてい る。また、サブエレメントの種類を表す記述子をqualifierと呼んでいる[6]。下にタイトル・ エレメントを例として示す。
Element: Title (TITLE) qualifierとその値: Scheme Internal 他の記述方法とは無関係に決められた記述方式(フリーテキスト)。 デフォールト値 AACR2 AACR2に従って決められた記述方式に従う。 Type Main 主タイトル。デフォールト値。 Long 長形式タイトル(Long Form) Short 短形式タイトル(Short Form) Subtitle サブタイトル PartTitle タイトルの一部 Spine 背表紙のタイトル Translated 翻訳されたタイトル
1997年3月にオーストラリア・キャンベラのオーストラリア国立図書館で開かれた第4回 ワークショップ(DC-4)では上述のqualifierの記述方法に関する議論が進められた (Canberra Qualifier)[7]。Dublin Coreメタデータは任意の電子文書を対象とはしているが、 WWW文書への適用を主要な目的のひとつとしているので、HTMLの文法とqualifierの 記述の整合性等が議論された。Dublin Coreは構造の単純さを特徴とする。一方、あまり に構造を単純化しすぎると記述内容の意味的な解析に対する要求が大きくなりすぎ、効率 的な情報検索が難しくなり、相互利用性が低下するという危険をはらんでいる。qualifier はあまりDublin Core自体の定義が複雑にはならないように配慮しながら、従来から利用 されてきたメタデータで意味が明確に定義されている記述方式や語彙の利用を進められる ようにしている。
これまでDublin Coreに関する研究プロジェクトはアメリカ、イギリス、オーストラリア 等英語圏が中心であったが、ヨーロッパ各国でもプロジェクトが開始されつつある。その ため、メタデータが表す内容が何語で書かれているかといった多言語による記述に関して も重要な話題として認められている。なお、DC-4の参加者はアメリカ、イギリス、オース トラリア、ニュージーランドの英語圏以外にヨーロッパ(フランス、ドイツ、北欧諸国)、 タイ、日本からであった。また、第5回のワークショップは本年10月にフィンランドのヘ ルシンキでの開催が計画されている。
NSF他は1998年から次のディジタル図書館研究助成計画(通称DLI II)を、これまでよ りも規模を大きくして進める予定である。DLI IIの計画を議論するためのワークショップ が本年3月にニューメキシコ州サンタフェで開催された。ワークショップは、非常に大規 模で分散した情報環境の中で知的作業を進めていくための基盤環境(Distributed Knowledge Work Environment)に関する研究にはどのような点が重要であるかといった 点から次の研究助成プログラムのプランを考えるという目的で開かれ、ミシガン大学の Daniel Atkinsがホストし、NSFのY.T.Chienを始めとする計画を策定する側からの出席 者、現在のDLIの研究代表者、利用者評価、アーカイブ、美術館等の専門家による presentationと議論が行われた。そこでの議論から、現在のDLIのような大規模プロジェ クトだけのものとは異なり小規模なものから大規模なものまで組み合わせること、またよ り実世界指向のプロジェクトとすることなどの方向付け進められた。このワークショップ の報告書はまもなくWWW上に公開される予定である。
また、ディジタル図書館の相互利用性や国際的な情報基盤上での情報発見等の研究を進め るには国際間での共同研究の場を設けることが重要になってゆく。NSFはERCIMと Digital Libraryに関する共同研究を始めており、現在Metadata、Interoperability、 Optimized Search and Retrieval、Intellectual Property and Economy Modelの4テーマ での共同研究を進めようとしている[9]。さらに、Multi-lingualityを新たに加えてアメリ カ-ヨーロッパの研究者による共同研究を進めようとしている。一方、Dublin Coreのグル ープでも多言語の扱いの需要性を認識しており、DC-4においても多言語に関するディスカ ッションが行われた[10]。こうした多言語情報の処理や相互利用性等の研究はこれからま すます重要性を増すと思える。
[2] eLib Home page, http://www.ukoln.ac.uk/elib/
[3] National Digital Library Federation (NDLF), http://lcweb.loc.gov/loc/ndlf/
[4] The Dublin Core Metadata Element Set Home Page , http://www.oclc.org:5046/ research/dublin_core/
[5] Commission on Preservation and Access, http://www-cpa.stanford.edu/cpa/ index.shtml
[6] Dublin Core Metadata Element Set: Reference Description, http://purl.org/metadata/dublin_core_elements
[7] Weibel, S., Iannella, R., Cathro, W., The 4th Dublin Core Metadata Workshop Report, D-Lib Magazine, June 1997, http://www.dlib.org/dlib/june97/metadata/06weibel.html
[8] Preserving Digital Information: Final Report and Recommendations, http://www.rlg.org/ArchTF/
[9] EU-NSF Supported Programme for Planning Meetings Between US DLI Projects,NCSTRL and ERCIM, http://www.area.pi.cnr.it/ErcimDL/EU-NFS.html
[10] Baker, T., Metadata Semantics Shared Across Languages: Dublin Cores in languages other than English, http://www.cs.ait.ac.th/‾tbaker/Cores.html