国立国会図書館におけるメタデータ記述の検討と計画
中井万知子
国立国会図書館総務部企画課電子図書館推進室
100-8924 東京都千代田区永田町1-10-1
Tel: 03-3506-3310, Fax: 03-3581-0768, E-Mail: mnakai@ndl.go.jp
概要
国立国会図書館(以下、NDL)では、インターネット上の情報資源の収集組織化計画を進
める中で、情報資源に対する書誌情報の基準として、Dublin Core Metadata Setに準拠し
た「NDLメタデータ記述要素」を取り決めた。計画の前提となるNDLの電子出版物への
取り組み、記述要素の検討経過と内容、収集組織化計画の概要と現状について述べる。
キーワード
国立国会図書館,メタデータ,ダブリンコア,電子出版物,オンライン情報資源,納本制
度,電子図書館,ウェブ・アーカイビング
Consideration and plan for metadata description of the National Diet Library
Machiko NAKAI
National Diet Library. Electronic Library Development Office.
1-10-1, Nagata-cho, Chiyoda-ku, Tokyo, 100-8924, JAPAN
Phone: +81-3-3506-3310, Fax: +81-3-3581-0768, E-Mail: mnakai@ndl.go.jp
Abstract
The National Diet Library (NDL) developed the NDL Metadata Element Set, based on
the Dublin Core, while considering a plan to archive and organize internet resources.
This paper describes NDL's policy for electronic publications, the process of designing
the NDL metadata and the outline and current state of the plan.
Keywords
National Diet Library, Metadata, Dublin Core, Electronic publications, Online
resources, Legal Deposit, Electronic Library, Web archiving
1 はじめに
Born digitalの情報を図書館の資源としていかに活用していくかは、現在の図書館にとっ
て共通の課題である。その答えを見出すことは必ずしもたやすいことでない。国立国会図
書館(以下、NDL)は2001年3月に、ネットワーク系電子出版物(NDLの定義では、「電
気通信回線を通じて公表された文字、映像、音又はプログラム」)の書誌情報の基準として、
Dublin Core記述要素を採用することとし、「NDLメタデータ記述要素」を取り決めた。こ
れも一つの対応であるが、果たしてわれわれはどこまで前進し得たのか。本稿では検証の
意味もこめて、NDLがBorn digital情報に対応するにあたっての背景を概観した後、基準
の内容とその適用を含む全体的な計画および現在の状況を述べることにする。
2 NDLと電子出版物
2.1 納本制度、書誌調整
1998年11月、第2回全国書誌国際会議(International Conference on National
Bibliographic Services, ICNBS)がコペンハーゲンで開催された。第2回ICNBSは、1977
年の第1回パリ会議で示された法定納本制度と全国書誌の整備に対する勧告の改訂を目的
とし、増大する電子出版物、特にオンライン情報資源を法定納本と全国書誌の対象として
いかに組み入れるかが焦点であった。
改訂自体はまだ納本制度さえ確立していない国々と高度情報化の進む国々とのギャップ
により、焦点を訴求しきれず終わったと言える。しかし、「現在および将来の諸要求に関連
して」法定納本の規定の見直しや改正が必要であること、全国書誌の収録範囲を「現在の
国全体の産出物(output)」を含むとしたこと、また、採用する基準および原則として目録、
典拠コントロール等とともにメタデータにも言及するなどの対応があった[1][2]。
この1998年は、NDLにとっても電子出版物に関するいくつかの流れが形成された年で
あった。収集方針については、前年の1997年1月に納本制度調査会を設置し、21世紀を
展望した納本制度のあり方について諮問し、電子出版物を納本制度に組み入れることに関
する審議が行なわれていた。
また、書誌情報については、館内の書誌作成部門からなる書誌調整検討委員会が、パッ
ケージ系電子出版物の書誌コントロールに併せて、ネットワーク系電子出版物の書誌コン
トロールについて検討を行ない、各国の動向や採用すべき標準について調査が行われた。
2.2 電子図書館
そして、もう一つ、電子図書館の動きがある。電子図書館推進会議等で検討されてきた
今後のNDLにおける電子図書館構築のあり方が1998年5月に「国立国会図書館電子図書
館構想」[3]としてまとめられた。「構想」においては、電子出版物の収集、書誌作成が電子
図書館の枠組みとして重要であることと、インターネット上に情報資源の蓄積およびナビ
ゲーションが電子図書館の構築すべき「蔵書」のカテゴリーとして示されている。
先に述べた納本制度調査会は1999年2月に、CD-ROM等の物理的媒体をもつパッケー
ジ系電子出版物の納本制度化を答申した[4]。一方、通信等によって送受信される物理的媒
体をもたないネットワーク系電子出版物については、その重要性を認めながらも当面は納
本の対象とせず、積極的な選択的収集をはかるものとした。その理由は、媒体に固定して
納本を義務づけることが難しいこと、量的に膨大であること、等の理由による。
この答申に基づき、2000年4月に国立国会図書館法が改正され、10月からパッケージ系
電子出版物の納入が開始された。NDLが所蔵するパッケージ系電子出版物の書誌情報作成
は、納本制度に先行して1999年3月から開始し、当時ドラフト段階であった「日本目録規
則1987年改訂版」第9章(電子資料)に準拠し、「日本全国書誌」の非図書資料の部に収
録を行っていた[5]。
一方でネットワーク系電子出版物については、「構想」を具体的な計画として進めるため
の「電子図書館サービス実施基本計画」に付随するものとして、「ネットワーク系電子出版
物に関する指針」が2000年3月にまとめられ、特にインターネット上で公開されている行
政情報、学術情報など公共的な性格をもつ情報資源の収集・蓄積が電子図書館計画の枠組
みの中で進められることになった。これに先行するものとして、平成11年度に図書館協力
部支部図書館課が実施した「行政省庁のネットワーク系電子出版物の保存実験」があり、
保存すべき情報資源の収集を想定し、総務庁(当時)の協力を得て、各省庁からロボット
で自動収集したファイルを時系列によって突合せ、ホームページ上から削除された情報資
源を同定する実験を実施している。
おりしも2002年に関西文化学術研究都市に開館を予定するNDLの関西館(仮称)の建
設が本格化し、東京本館、関西館および国際子ども図書館の三館を運営するための総合的
なシステムの再編を行うため「電子図書館基盤システム」の開発が1999年から開始された。
電子図書館計画関連では、そのサブシステムの一つである「電子図書館サブシステム」と
して電子化資料の閲覧を目的とする「一次画像関連システム」と「ネットワーク系電子出
版物関連システム」の開発を2000年中にも開始することになり、ネットワーク系情報資源
の組織化の手段として、その書誌情報の基準を早急に検討する必要が生じた。
3 NDLメタデータ記述要素
3.1 メタデータ基準の検討
2000年6月、電子図書館計画を担当する総務部企画課電子図書館推進室から、館内の書
誌調整を担当する図書部に対し、NDLがネットワーク系情報資源を組織化し、アクセス手
段を提供するために作成するメタデータの基準の検討を依頼し、図書部各課と電子図書館
推進室のメンバーによる「メタデータ検討ワーキンググループ」(以下、メタデータ検討
WG)が組織された。
約4ヶ月の検討の結果、メタデータ検討WGは、2000年10月に電子図書館推進室あて
に、「NDLメタデータの基準」を報告した。図書部はこの報告をもとに2001年3月に「国
立国会図書館メタデータ記述要素」を決定した。
3.2 ダブリンコア記述要素の採用
NDLメタデータはDublin Core Metadata Element Set. Ver .1.1(以下、Dublin Core)
を採用した。その理由は以下のとおりである。
-
Dublin Coreが国際的な標準化を推進しており、普及しているメタデータであること
-
リンク情報や権利関係のための記述要素があり、ネットワーク系情報資源の記述に利点
があること
-
簡便であり、一次情報そのものに作成者や出版者自身がメタデータを添付することが可
能であること
なお、2000年10月のメタデータ検討WG報告時点においては、記述要素にはDublin Core
の15要素を採用するほか、NDL独自の記述要素として、「全国書誌番号」(JP番号)が設
けられていた。これは、前述の「ネットワーク系電子出版物に関する指針」に、NDLが収
集・固定して保存するネットワーク系電子情報の書誌情報については「日本全国書誌」に
収録するとの方針が盛り込まれており、全国書誌の書誌レコード共通の一連番号の付与が
想定されたからである。しかし、2001年3月時点では「全国書誌番号」は記述要素でなく
「資源識別子(Identifier)」の限定子(Qualifier)として設定されることになった[6](表)。
3.3 NDL限定子(Qualifier)
各要素の意味内容を補完する目的により、限定子(Qualifier)を設定した。Dublin Core
の推奨するQualifier(以下、DC Qualifier[7])が2000年に公開されたため、これを参照
しながら採用するDC QualifierおよびNDLが規定する限定子(以下、NDL Qualifier)を
設定した。主な特徴は以下のとおりである。
-
「タイトル(Title)」の限定子としてDC Qualifier のAlternative(その他のタイトル)
を採用
-
「著者(Creator)」のNDL Qualifierとして「個人名」および「団体名」を規定。これは
JAPAN/MARCレコードの著者標目のタグに対応している。
-
「主題(Subject)」のNDL Qualifierとして「NDC(日本十進分類法)」と「行政情報キー
ワード」を規定。
-
「寄与者(Contributor)」のNDL Qualifierとして、「著者」と同様に「個人名」および
「団体名」、また、寄与者の役割を示す「編」「訳」「監修」「データ作成」を規定
-
「日付(Date)」としてはDC Qualifierから「作成日」「公開日」「更新日」を採用し、
Encoding schemeとしてW3C-DTFを採用。
-
「資源タイプ(Type)」としてはDC Qualifierの「DCMIタイプ用語」を採用、NDL Qualifier
として「NDLタイプ用語」を規定。
-
「フォーマット(Format)」としてはDC QualifierのIMT(インターネットメディアタ
イプ)を採用。
-
「資源識別子(Identifier)」としてはDC QualifierのURI、NDL Qualifierとしては情報
資源をNDLが固定し保存する場合の「保存先URI」「ISBN」「ISSN」および「全国書誌
番号」を規定。
-
「言語(Language)」としてはDC QualifierのISO639-2を採用。
-
「関係(Relation)」はIs Version Of等DC QualifierのElement refinementsを採用。
なお、「内容記述(Description)」、「公開者(Publisher)」、「情報源(Source)」、「時間的・
空間的範囲(Coverage)」および「権利関係(Rights)」には限定子は設定されていない。
また、NDL Qualifierで用語および記号体系を示すEncoding schemeにあたるのは、
「NDC」、「行政情報キーワード」、「NDLタイプ用語」および「資源識別子」の各種の識別
記号であると言える。
限定子の採用は、事項に述べるように通常のNDLの書誌データとのマッピングを意図し、
より分析的なMARCフォーマットとの摺りあわせが念頭にあった。また、記述方式として
はRDF(Resource description Framework)の動向を見て、これを採用する考えに基づい
ていた。
3.4 JAPAN/MARCフォーマットとの関係
NDLメタデータは従来の目録規則でなくDublin Coreを採用するが、収集したネットワ
ーク系情報資源の書誌レコードの「日本全国書誌」収録を想定することから、JAPAN/MARC
フォーマットへのマッピングが念頭に置かれた。
NDLの書誌情報整備に関しては、平成11年度から開始された前述の「電子図書館基盤
システム」の開発により、これまでデータ項目も入力方式もまちまちだった数十種に及ぶ
書誌データベースを、データ項目の洗い出しとマッピングの上、共通の入力および出力ル
ールをもつ「統合書誌データベース」として再編する準備が関西館の開館を当面の目標と
して進められていた。同データベースから「日本全国書誌」、JAPAN/MARCあるいはOPAC
等の情報提供用の出力を行うことになるため、NDLメタデータを「ネットワーク系電子出
版物関連システム」から定期的に同データベースにダウンロードすることを想定し、デー
タ項目のマッピングを行った。
課題となったのは、マッピング自体よりも、典拠コントロール、かなふり等の運用方法
である。典拠コントロールについては、「統合書誌データベース」の典拠データを参照する
機能は設けるものの、新典拠を作成した場合の「統合書誌データベース」への入力権限の
問題等により今後の検討課題となった。また、かなふりについては、システム中に機械自
動付与の機能は設けるが、当面メタデータの要素としては記述しない方針をとっている。
4 インターネット情報資源の収集組織化計画
4.1 目的および前提
3ではNDLメタデータの記述要素について述べたが、ここではこの記述要素を実装する
ことになるインターネット上の情報資源の収集組織化計画と、そのために開発を実施して
いる「ネットワーク系電子出版物関連システム」の概要について述べる。
計画の目的は、急速に増大しているインターネット上の情報資源の収集・保存(アーカ
イブ)、書誌情報の作成、利用提供を行うことである。
前提としては、以下の三点がある。
(1)選択的な収集方針
-
納本制度調査会の答申に基づき、収集対象機関との協議・契約により選択的に情報資
源を収集する
-
収集対象としては、「ネットワーク系電子出版物に関する指針」に従い、当面、行政情
報、学術情報を中心とする。その中でも、国の行政機関あるいは学・協会、試験研究機
関などがサイトで公開している白書、調査報告書、統計書、広報資料あるいは紀要類な
ど、言わば従来の資料に類する言わば静的な情報が想定されている。
(2)アクセス手段
-
収集した情報資源に対して作成する書誌情報の基準としてDublin Core準拠のNDLメ
タデータ記述要素を採用する。
-
メタデータは、収集・固定しアーカイブする情報資源に対して作成するとともに、外
部のサイトにあり収集しないがリンクしてナビゲートする有用な情報資源に対しても作
成し、統合的な検索が可能なデータベースを構築する。
(3)業務モデル
-
ネットワーク系情報資源の収集・保管・管理、メタデータの入力・検索、そして提供
までを行える一貫したシステムを開発し、そのための業務モデルを構築する。
以上の前提により、2000年10月から3年計画で開発を開始し、平成12年度はメタデー
タ入力のプロトタイプ、平成13年度は収集部分のプロトタイプを開発し、平成14年度中
の実用化を目標としている。なお、準備の一つとして、2001年2月にこれらの機関と図書
館等を対象として、各機関のインターネットによる情報資源の公開状況とNDLによる収集
への対応を把握するため「インターネット上の電子情報資源に関するアンケート調査」を
実施して約2,300機関から回答を得た[8]。
4.2 計画の概要
まず、発行サイトで公開されている情報の収集について、各機関に協力を依頼し、包括
的な許諾を得た上で収集する。
収集の手段としては、以下の4つの方法を想定している。
-
当館から発行機関へのウェブ情報収集ソフトウェアによる収集
-
発行機関から当館へのファイル転送
-
発行機関から当館への電子メール送付
-
発行機関から当館への記録媒体での送付
この中では、最初のソフトウェアによる収集、いわゆるロボット(ハーベスティング・
ロボット)収集をもっとも重視してシステム開発を行う。2001年2月のアンケート調査の
結果で、約66%の機関がNDLによる情報資源の収集に理解を示したが、収集方法として
はその他の方法に比べてロボット収集に対応可能であるとの回答が約67%(条件づきを含
む)とう高率であったことにもよる。
収集した情報資源については、「NDLメタデータ記述要素」によるメタデータを作成し、
リポジトリに格納する。メタデータには登録した情報資源に新たに設定する保管用URLと
元のサイトのURLを記述し、検索用のデータベースから各情報資源にリンクする。また、
収集した情報資源はCD-R等の媒体でも保存することになる。
なお、「WARP(Web Archive Program)」というのが仮称ではあるがこの計画のニッ
クネームである。全体像を示したのが図である。(図 WARPのイメージ)
4.3 システムの機能
ここでは、開発中の「ネットワーク系電子出版物関連システム」の機能について、ロボ
ット収集を手段とする収集組織化のフローに絞って概略を紹介する。
-
契約管理機能。収集対象となる機関とは収集について契約を行い、各機関の収集条件、
利用条件等のデータの入力および維持管理を行う。
-
メタデータ入力機能。「NDLメタデータ記述要素」によるメタデータ記述を行う。各記
述要素が設定され、限定子、IMT等のEncoding Schemesについてはプルダウンのメニュ
ーがある。フリーキーワード、公開者についても辞書管理を行う。また、記述要素以外の
管理用データとして、統合書誌データベースとのマッピングを意識し、官庁コード、刊行
頻度等を設けている。その他の機能としては、自動かなふり、既存データの流用作成機能、
特徴的なものとして、メタデータの階層管理機能(たとえば収集対象となった電子ジャー
ナルなど、巻号や記事等のレベルがあるものについて、メタデータ間を関係づける)、入力
データの実験的なRDF表示機能がある。メタデータ入力機能は主として平成12年度にプ
ロトタイプとして開発されたが、一部機能は平成13年度に改修、追加される。
-
収集機能。ロボット収集のための条件として、収集情報の起点のURL(メタデータ単位
で収集を設定するため、メタデータ入力画面で設定したURLを起点とする)、収集の深さ
(ファイルの重層的なリンクで成り立っているウェブ情報の収集のため、何階層までファ
イルを収集するかを指定する)、またサイト上の情報の更新に対処するための再収集の頻度
等を設定して収集を指示する。収集は夜間に行う場合と即時に行う場合がある。
-
収集情報編集・登録機能(トリミング・個体登録)。収集された情報資源の点検を行ない、
不要ファイルを除去して(トリミングして)格納する。更新された情報資源を再収集した
場合、各更新情報は「個体」としてそれぞれの保存用URLをもち、同一のメタデータの下
位に収集日付とともに記録される。
-
利用提供機能。入力したメタデータによる利用者用検索システム。簡易検索と各記述要
素を検索項目とした詳細検索を備え、NDCおよび公開者のディレクトリ検索機能、収集情
報については全文検索機能を付加する。一覧表示から書誌詳細表示、収集情報の各個体お
よび外部サイトにリンクする。書誌詳細表示からも記述されたURL、また階層関係などに
よって関係づけられたメタデータにリンクする。
その他にも、媒体保存機能、更新チェック・デッドリンクチェック機能、収集通知機能
などの機能が開発項目であり、多岐にわたる開発となっている。しかしながら、最初に想
定した収集情報の「日本全国書誌」収載を想定したメタデータの統合書誌データベースへ
のアップロード機能については、当初平成13年度開発を予定していたものの後述するよう
に収集対象情報の要件が固まらない等の理由により開発をペンディングとしている。
5 現状と課題
5.1 収集とメタデータ作成の対象および単位
今回の開発において、メタデータ入力については書誌データ入力システムという多くの
先例があるものの、ウェブ情報の収集・登録はNDLにとってはまったく前例のない開発と
なった。第2年度において収集プロトタイプを開発する中で、ウェブ情報の特性によるさ
まざまな機能の検討が必要となり、第1年度に開発したメタデータ入力機能についても見
直しが余儀なくされた部分がある
4.1(2)にあるように、今回の計画は収集・保存することにより内部に保持した情
報資源および外部のサイトにある情報資源を包含した、複合的な、そして標準化されたメ
タデータをもつアクセス手段の構築を前提の一つとしてきた。しかし、収集においては収
集の単位つまり「粒度」(granularity)の決定についてその作業方法や労力も含めてかなり
検証が必要であることが明らかになった。それに伴い、同一のツールに収録する外部情報
のメタデータの作成単位との整合性が課題となった。また、「粒度」のみでなく、収集機能
については、開発システムによる実験とともに今後の継続的な研究および開発も視野に入
れなくてはならない。
そのため、第一段階としては想定される収集対象情報との重複を排除する理由もあり、
当面の収集対象とはなり難いインターネット上のデータベースを対象としてメタデータ記
述方法の検討と対象のリストアップを行っている。
メタデータ記述要素はあくまでも記述項目であり、記述規則を定めたものではない。そ
のため「日本目録規則」第9章等を参照しながら、記述の情報源の優先順位、目録規則に
おける「責任表示」と「著者(Creator)」等の概念の違い、また、日付(Date)」など、情
報作成者によるメタデータ付与が行われない限り不明である場合が多い記述要素の扱い等
について整理を行っている。
5.2 メタデータ記述要素の問題点
NDLメタデータ記述要素の検討から1年以上経過し、その間2001年10月には東京で
「Dublin Coreとメタデータの応用に関する国際会議」が開催されるなどの動きがあった。
その中で記述要素自体にも以下のように検討が必要な点がある。
-
Library Application Profile(LAP)との整合性。NDLは「著者(Creator)」および「寄
与者(Contributor)」に「個人名」・「団体名」を限定子として設けている。LAPはCreator
自体を記述要素として採用せず、役割表示を限定子とするContributorを採用しているなど
の相違点がある。NDLの場合、Contributorの限定子は「個人名」「団体名」と「編」訳」
など役割表示の2種類の限定子があり、組み合わせが必要である点についても検討を要す
る。
-
スキーマの用語の確定。「NDL資源タイプ」は、当初静的な行政情報を主な対象として
仮設定していたため、再検討の上確定する必要がある。また「行政情報キーワード」につ
いても見直しを要する。
-
RDFへの対応。独自の限定子を設定する以上、RDF記述が前提となるが、システムにお
いては記述データの実験的なRDF表示に留まっている。並行してNDLのホームページ・
コンテンツにNDLメタデータ記述要素によるメタタグを埋め込む検討を行っているが、
RDFによる記述は困難な状況がある。
-
NDLメタデータ記述要素の登録と公開。
なお、国立情報学研究所のメタデータ共同作成計画で適用するメタデータの基準等が策
定される国内での相互運用性確保のための調整も必要である。今後は、収集と組織化の関
係を明確にした上で、2002年10月の関西館開館を目途として、ネットワーク系電子出版
物関連システムによる業務を開始し、提供可能な部分を公開することになろう。さらに、
情報資源の作成者、また他機関との連携の可能性を追及する必要がある。
6 おわりに
2002年1月30日にNDLは「文化資産としてのインターネット」を副題とする「ウェブ・
アーカイビングに関する国際シンポジウム」を開催した[9]。世界中のウェブ情報を定期的
にアーカイビングしているAlexa Internet社のKahle博士を始め、米国議会図書館、オー
ストラリア国立図書館およびデンマーク王立図書館のウェブ情報収集の担当者が報告し、
得るところが大きかった。バルク収集か、選択的収集か? ウェブ情報の収集・整理の粒
度は? 納本制度の改正はいかにあるべきか? 著作権の問題は? 利用提供の方法は?
収集ロボットは何を使うか? メタデータの付与方法は? 電子情報の長期保存の方法
は? これらの質問は、シンポジウムの翌日行った懇談会の質問リストとして示したもの
である。どの図書館もこれらに問いに確たる答えをもっているわけではないが、現行の枠
組みにとらわれない新たな方法についても積極的に取り入れようとしている。
NDLにおいても2002年3月から納本制度審議会において、ネットワーク系電子出版物
を納本制度の対象にすることについて審議が開始されることになる。従来の制度的な枠組
みと図書館資料に対する経験の蓄積を前提として、新たな情報資源を図書館業務の中に位
置づけていかなくてはならないNDLであるが、メタデータのように今までになかった基準
を検討し取り入れることは、新鮮な風を吸い込み体内に巡らせるようなリフレッシュの効
果がある。今後はこれを血肉の通うものとして育てていかなくてはならないであろう。
参考文献
[1]The final recommendations of the International Conference on National
Bibliographic Services, November 1998. http://www.ifla.org/VI/3/icnbs/fina.htm
[2]石川史士. 第2回全国書誌国際会議報告. 国立国会図書館月報. 458号, 1999.5.
[3]国立国会図書館電子図書館構想 2000.5. http://www.ndl.go.jp/project/kousou.html
[4]納本制度調査会答申 : 21世紀を展望した我が国の納本制度の在り方-電子出版物を中心
に, 2001.2.22. http://www.ndl.go.jp/toukan/nouhon_seido.html
[5]児玉史子. 国立国会図書館における電子資料の組織化 : NCR9章適用をめぐる検討と問
題点. 電子資料の組織化. 日本図書館協会, 2000.
[6]NDLメタデータの基準. http://www.ndl.go.jp/service/bookdata/020115_1.html
[7]Dublin Core Qualifiers. http://dublincore.org/documents/2000/07/11/dcmes-qualifiers/
[8]国立国会図書館総務部企画課電子図書館推進室. インターネット上の電子情報資源に関
するアンケート調査結果について. 国立国会図書館月報. 484号, 2001.7.
[9]国立国会図書館. 文化資産としてのウェブ情報 : ウェブ・アーカイビングに関する国際
シンポジウム, 2002.1.30. http://www.ndl.go.jp/news/websympo/sympo.html