収集する情報資源の範囲は次のとおりである。
(1) 図書館情報学および情報メディア研究関係の研究者が発信している研究情報
(2) 国公私立大学図書館、国公私立図書館等が提供している情報
(3) 各種情報センター等が提供している情報
(4) 図書館情報学および情報メディア研究関連学会および団体が提供している情報
(5) 図書館情報学および情報メディア研究関連企業が提供している情報
(6) その他図書館・情報センター等に関連した情報
また、ネットワーク上の情報資源以外にも、一部の雑誌記事や本システム上 に登録される一次資料などもメタデータの作成対象としている。
(1)タイトル(Title)
情報資源に与えられた名前:html文書では<TITLE>タグの内容を入力す る。<TITLE>タグが無い、空値、内容が不適切などの場合は適当な値を 補記する。
(2)著者あるいは作者(Creator)
情報資源の創造に責任を持つ人あるいは機関。
(3)主題およびキーワード(Subject)
情報資源の主題や内容を説明するキーワード:主題を表す言葉のほか、 重要な語句や頻繁に出てきた単語を入力する。
(4)内容記述(Description)
情報資源の内容に関する説明記述、抄録:トップページについてはその ページだけでなく、サイト全体の概要を記述する。
(5)公開者(出版者)(Publisher)
情報資源を現在の形態で利用可能にしたことに責任を持つもの:「著者 あるいは作者」と異なる場合に入力する。
(6)寄与者(他の関与者)(Contributor)
「著者あるいは作者」以外で、当該情報資源をの創造に知的に重要な寄 与をしたもの(編集者、翻訳者、イラストレータなど)。
(7)日付(Date)
情報資源が作成された、あるいは有効になった日付:Web文書の場合は 最終更新日を入力する。
(8)資源タイプ(Type)
情報資源の種類:Dublin CoreのWorking Draftを参考に、「text」、 「image」、「sound」などを入力。 (参考 http://purl.org/dc/documents/wd-typelist.htm)
(9)形式(フォーマット)(Format)
情報資源のデータフォーマット: http://www.isi.edu/in-notes/iana/assignments/media-types/media-types を参考に、「text/html」のように記述する。
(10)資源識別子(ldentifier)
当該情報資源を一意に識別するための文字列もしくは番号(URI、ISBN など):文書のURLを入力する。
(11)情報源(出処)(Source)
当該情報資源を作り出す元になった別の情報資源に関する情報:当面、 Relationエレメントを使用し、Sourceエレメントは使用していない。
(12)言語(Language)
情報資源の知的内容を記述するために用いられている言語。
(13)関係(Relation)
別の情報資源の識別子および当該情報資源とその情報資源との間の関係: 関係のタイプ(IsPartOfなど)と関連する情報資源をスペースで区切っ て記述する。 (参考 http://purl.org/dc/documents/working_drafts/wd-guide-current.htm)
(14)対象範囲(空間的・時間的)(Coverage)
当該情報資源の知的内容に関する空間的(地理的)あるいは時間的特性: 内容が特定の地域、時代などを扱っている場合に記述する。
(15)権利管理(Rights)
権利管理に関する声明文、権利管理に関する声明文へのリンクを表す識 別子、あるいは当該情報資源の権利管理に関する情報を提供するサービ スへのリンクを表す識別子:主に著作権に関する記述があれば入力する。
(16)文字コード(Charcode)
情報資源の内容記述に用いられている文字セット。
(17)出版国(Country)
情報資源の出版国。
(18)メタデータID(metaid)
メタデータに与えられるユニークな番号:システムで自動的に付与され る。
(1)から(15)までがDublin Coreで規定されているエレメントで、(16)から(18) が本システムで規定したものである。
収集した文書からタイトル、日付、文字コードなどの情報や文書の内容を解 析してキーワードや内容記述を自動的に抽出して、文書毎の自動抽出メタデー タを作成する。このように自動的に作成されたメタデータをメタファイルと呼 んでいる。
たとえば、TitleエレメントはHTMLの<TITLE>タグから抽出される。Dateは収 集文書のサーバーから取得される文書作成・更新日を、IdentifierはURLをそ のまま取り込む。TypeとFormatは文書の種類を識別し、Languageも記述言語を 識別することにより値が与えられる。また、著者自身によりHTMLの<META>タグ でメタデータが付与されている場合には、そこから抽出した値がそれぞれのエ レメントに設定される。
著者によりメタデータが付与されている場合には、SubjectやDescriptionも 含めて、ほとんどのエレメントがかなり正確に自動抽出されることになる。 <META>タグを含むHTML文書も増えており、中にはDublin Coreのメタデータを 与えられているものもあるが、全体としては、まだそれ程多くない。一方、文 書の本文から自動生成されたSubjectやDescriptionは不完全なものが多く、人 間による修正が必要であり、大幅な省力化や完全な自動化はしばらく先のこと になりそうである。
メタデータの作成単位は個々のWebページであるため、メタファイルのデー タはページ単位にリストされている。これを順次呼び出して編集するのである が、あるWebページをいきなり開いてもそれだけでは対象文書の前後関係(リ ンク関係)がわかりづらい。そのページの内容だけでなく、そのサイトで提供 されているWebページ全体の中でどのような位置にあるのかがわからなければ、 メタデータを作成できない場合も多い。このため、文書の関係を調べるのにあ る程度の時間を費やすことになる。現在は担当者ごとにサイトを分担して同じ 担当者が同一サイトのメタデータを作成するなどして効率化を図っているが、 収集先のサイトマップを自動作成するような仕組みができないものかと考えて いるところである。
メタデータの作成作業を担当しているのは、図書館情報大学や筑波大学の学 生、卒業生などのパートタイマーが中心である。全員が図書館情報学を専攻し ているわけではなく、専攻していても目録作成の経験者ではない。主として、 Creator、Subject、Descriptionなど自動生成が困難なエレメントを中心に入 力することになる。Subjectはフリーキーワードで文書中の重要と思われる単 語や、対象分野、図書館のホームページの場合には図書館の種類などを入力し てもらっている。図書館情報学に馴染みの無い担当者は用語の使い方などが難 しいようである。Descriptionは文書内容の簡単な説明を付けてもらっている。 単純なWebページであればほとんど問題はないが、記事や論文のような場合や、 外国語で書かれているものには苦心しているようである。ただし、外国語の場 合には、韓国や中国からの留学生も参加しているため、それぞれの母国語を担 当してもらうことにより助かっている面もある。
とはいえ、図書館で作成している蔵書目録もメタデータの一種であり、その ノウハウを活用することである程度は解決できる部分もある。メタデータの各 エレメントは目録データの項目と対応づけることが可能であるので、これまで 図書館で扱ってきた資料を対象にする限りはそれほど大きな問題は発生しない だろうと考えられる。
一方、ディジタル資料は近年になって急速に発展し、新たな媒体が次々と出 現している。目録規則もこれに対応できるように改定が続けられているが、実 際の目録作成において十分な経験を積むまでに至っていないのではないだろう か。特に、メタデータの作成対象の大きな部分を占めるネットワーク上の情報 資源は、メタタグによりキーワードや抄録まで与えられているものから、HTML の<TITLE>タグさえ付いていないものまで、その差が大きく、エレメント記述 のための安定した情報が得にくいことが問題であるように思われる。
また、Webページのメタデータについては、トップページも最下層のページ も区別なく作成している。このため、サイトごとなどの大きな単位で検索した い場合などには不都合である。Webページの種類のような情報を与える方法を 工夫する必要がある。
この他にも、細かい事柄を挙げればきりがないが、主に経験不足から様々な 問題が発生していると思われる。しかし、これらのほとんどは今後、徐々に解 決していくことができると考えている。
[2] 平岡博, 真中孝行, 横山敏秋, 阪口哲男, 杉本重雄, 田畑孝一 "図書館情 報大学ディジタル図書館システム". 情報管理. Vol.42, No.6, pp.471-479.
[3] Dublin Core参照記述. http://www.DL.ulis.ac.jp/DC/.
[4] Dublin Core Metadata Initiative. http://purl.org/DC/.