タイ語と日本語によるDublin Core: 世界共通のメタデータセマンティクスを管 理する
(Dublin Core in Thai and Japanese: Managing Universal Metadata Semantics)

Thomas Baker
Asian Institute of Technology
Bangkok, Thailand

Stuart Weibel
Online Computer Library Center
Dublin, Ohio

(訳: 杉本重雄, 図書館情報大学)

概要

図書館や博物館、企業、あるいは学術分野といった情報資源を扱うコミュニティ は、これまで個別に情報を蓄積し利用してきた。ところが、こうしたコミュニテ ィがインターネット上の情報を共有するようになるに従い、既存のあるいは今後 作り出される数多くの様々な情報資源に関する記述能力を持つ単一かつ共通のメ タデータの記述方式が必要とされるようになってきた。World Wide Webコンソー シアムが開発を進めているResource Description Framework はこうした要求を 満たそうとするものである。Dublin Coreはインターネット上に提供されるいろ いろな分野の情報資源のためのメタデータを記述するための共通の記述モデルと して最も開発の進んだものである。Dublin Coreのセマンティクスは世界共通で あるので、英語であれ、タイ語であれ、あるいは日本語であれメタデータの表現 は可能である。一方、数多くの言語毎の記述形式を互いに矛盾しないように維持 管理していくことは困難であると考えられる。これまでDublin Coreは、いわば 混成語(Pidgin Language)−異なる母言語を持つ人たちによって自然に作り出さ れた単純化された共通言語−として成長してきた。しかしながら、Dublin Core の将来を考えると、進化と成長のための柔軟性を失うことなく、かつ利用分野の 広がりによる多様性をうまくコントロールしていくことが必要であると思われる 。そのため、メタデータを表すためのことばの意味を取り決めていくための場と してInterlingua(言語とは独立に表した概念のスーパーセット)となる分散レ ジストリ(distributed registory)が必要である。

キーワード

Dublin Core, メタデータ, World Wide Web, Resource Description Framework (RDF), 多言語, オントロジ, 人工言語, 混成語と混合語(PidginとCreole)

Keywords

Dublin Core, metadata, World Wide Web, Resource Description Framework (RDF), multilinguality, ontologies, artificial languages, pidgins and creoles

1. 情報資源の記述コミュニティとインターネット上の情報資源の共有地 (Resource Description Communities and the Internet Commons)

インターネットが発展する以前は、情報資源の記述のために組織毎に異なるメタ データ基準が採用されていても大きな問題にはならなかった。たとえば、図書館 で本を探したり、地図室で地図を探したり、博物館で文化財を探したりというよ うに、資料や情報を探す人は一時にはひとつの場所(建物)にしか行くことがで きないので、行った場所にカードカタログや索引があれば、仮にそれらが利用者 に馴染みのない方法で組織化されていたとしても、図書館員、地図専門家、学芸 委員といった人に助けを求めることができる。

現在、インターネット上に提供されるコレクションやカタログが世界的に共有さ れる情報空間を形作り、いわばインターネットを情報資源の共有地(Internet Commons) と呼んでもよい状況が生まれている。しかし、民族的に複雑に入りくんだ土地を 訪れた旅行者がいくつもの見知らぬことばに戸惑うのと同じように、この共有地 を訪れた人は自然言語や計算機用言語によって表された情報資源や検索方法等に 関するとても理解しづらい記述に出くわすことになる。情報資源の記述を行って きた伝統的なコミュニティと並んで、首尾一貫した記述形式を持たないアドホッ クなコミュニティ、たとえば電子商取引の業者のようなコミュニティが多く生ま れ、そこでは要求に適した書き方が手探りで作り出されている。

さらに好ましくないことには、インターネット上で情報を探しながらいろいろな 情報資源にアクセスする利用者、いわばインターネット上を旅する旅行者(ヴァ ーチャルツーリスト)は必要な情報を探す手伝いをしてくれる通訳やガイドを簡 単に探すことができない。こうした情報資源のためのいろいろな記述の間での自 動翻訳の開発を進める努力がなされるとしても、記述モデルの種類がどんどん増 えるので翻訳はますます難しくなる。これまで経験したことのないような大きな 情報空間の広がりの中で、首尾一貫した情報資源記述を行い、そうして作り出さ れた記述を交換することができるようにするには、世界共通のセマンティクスと シンタックスを持つ情報資源の記述方法を確立することが必要である。こうした 背景の下、メタデータ−すなわち、データに関する記述のための構造化されたデ ータ−がWebの基盤開発における主要な問題と認められるようになった。

情報の共有地としてのインターネットにおいて、様々な情報資源の記述モデルが あることは分野間の境を越えて情報を探す上での障害となる。一方、記述モデル がたくさんあるということは分野やコミュニティによって記述に関する要求が多 様であることを意味している。詳細なレベルでの記述の場合、記述対象が異なる のでこうしたメタデータの記述モデルは異なっている。たとえば、文書の記述者 にとって「雲で覆われた範囲」を書く必要などほとんどないが、農地の衛星写真 の場合には非常に重要な記述項目となり得る。多様な情報資源を見渡すと、より 一般化されたレベルの記述の場合、ほとんどの情報資源に共通な、すなわち分野 に関わらない基本的な属性の記述からなるメタデータの基本要素(コアセット、Core Set) を見出すことができる。このように異なった記述モデルから共通要素として取り 出せるものは、見方を変えると、別々の記述モデルとして発展してきたがために 意味は同じで単に名前だけが異なっていると考えることができる。そのため、分 野に関わらずに共通の属性としてとらえることのできる基本的要素をまとめるこ とによって、分野にまたがった情報資源の検索をより効率よく行うことができる ようになると考えられる。たとえば、「著者(author)」と「作者(creator)」は 情報資源の発見という目的では同一の属性の記述とすることができる。

Dublin Coreは、インターネットのような巨大な情報空間から分野によらずに情 報資源を見つけ出すという要求にこたえるために開発されてきた。Dublin Core は電子的情報資源の記述のために、作者(Creator)、タイトル(Title)、出版者(Publisher) 、主題(Subject)、内容に関する記述(Description)、他の関与者(Other Contributors) 、日付(Date)、情報資源の型(Resource Type)、形式(Format)、情報資源の識別 子(Resource Identifier)、情報資源のソース(Source)、情報資源の記述言語(Language) 、他の関連する情報資源との関係(Relation)、地理的・空間的範囲(Coverage)、 権利管理(Rights Management) の15項目を定めている。こうした要素のほとんど は、図書館の目録カードに書いてあるもののように、一般的な共通理解を得られ るものである。Dublin Coreは、いわば情報の共有地としてのインターネット上 で不慣れな分野の情報を得ようとするヴァーチャルツーリストのために用意され た簡単な会話のための慣用表現集(Phrase Book)のようなものであるといってよ いであろう。マシンレベルのプロトコルが、異なったハードウェア間での相互運 用性(interoperability)を保証するために必要とされるのと同じように、情報処 理における最も重要なプラットフォーム、すなわち情報を理解し扱う利用者の間 で情報の意味的な相互利用を促進するために、データ内容に関するいくつもの標 準の意味的な定義の間での共通性を見つけ出すことが有益であると考えられる。

1.1多言語によるDublin Core

Dublin Coreはもともと英語で定義され、開発が進められてきた。しかし原理的 には、その15項目のカテゴリーは、現代の言語であればどのような言語でも表現 することは可能である。もし技術的用語に適切な訳が存在しなければ句として説 明することも、あるいは新しい語を作ることも可能である。Dublin Coreはこれ までにドイツ語[14]、タイ語(図1参照)[15]、フィンランド語、スウェーデン語 、ノルウェー語、デンマーク語、ハンガリー語、フランス語、ポルトガル語、そ れに日本語に訳されている。

DC-Simple, defined in Thai
図1:DC-Simple, defined in Thai

こうしたいくつもの言語への翻訳は英語で表された標準形の単なる訳であると思 われるかもしれない。実際、多くの図書館における標準はそのように決められて きた。たとえば、Universal Standard Bibliographic Description (USBD)は多 くの言語に翻訳されている。また、言語には依存しない数値表現によって多くの 言語に対する普遍性を備えることを目的として作られているUniversal Decimal Classification (UDC)やDewey Decimal Classification (DDC)もまた数多くの言 語に翻訳されている。たとえば、DDCは30の言語に翻訳され、135カ国で利用され ている。しかしながら、こうしたシステムは、新しい知識が生み出されるのに合 わせて更新され続けなければならない。そして、現実問題として、多くの場合英 語で表された標準を変更し、各国語への翻訳はそこから時間的に遅れて作り出さ れることになる。

本論文では、Dublin Coreを多言語に適用するのにこれまでのようなモデルが不 要であることを議論する。いろいろな言語によって具現化をされたDublin Core をある地域で実現された単なる標準版からの単なる翻訳(すなわち、サブタイト ル付きのDublin Core)ととらえるのではなく、取り決めと改訂作業からなる標 準の策定プロセスにおける(英語版のものと)同等の参加者としてとらえる。以下 の節では、はじめに背景を示す。

2. Webのための単純なメタデータ

Dublin Coreは、目録作りの方法を学んだことのない著者やウェッブ管理者(Webmaster) が自分のドキュメントに自身でメタデータを付加することができるようにするこ とを目的としたものであり、また作成されたメタデータはWeb Harvesterと呼ば れるデータ収集ソフトウェアや検索システムが利用することを目的としたもので ある。そのため、非専門家であっても十分に単純であるように意図されている。Dublin Core はより多くの情報を記述することを目的とする既存のメタデータのモデルに取っ て代わることを意図して作られたものではなく、目録専門家であれ素人であれい ずれもが単純な情報資源記述のために利用できるメタデータ記述要素の基本セッ ト(コアセット)として定義されたものである。

しかしながら、目録のエキスパートにとっては、より詳細な記述構造を付加する ことやより詳細なレベルの意味的記述をすることが可能なようにDublin Coreが 十分な柔軟性を持つことも重要である。図書館の予算縮小、通貨の変動、熟練し た目録専門家の不足、そして世界規模での情報量の増大に際し、図書館で広く使 われ、かつより洗練された目録基準であるAACR2やMARCに対しても、Dublin Core はメタデータとして経済的な選択肢のひとつである。実際、Dublin CoreはWWW文 書のためのメタデータとして将来にわたって利用される適切な技術であるとの見 方もある。

初期の頃からDublin Coreの開発に参加している人たちのコミュニティは大きく 分けて二つのグループに別れる。ひとつはMinimalistと呼ばれる人たちのグルー プである。このグループの立場は、Dublin Core メタデータは単純であることが 望ましく、かつ記述条件をできるだけ与えないというものである。したがって、15 項目の要素の記述は基本的に構造を持たないテキストとし、外部で定義された記 述に依存することやより詳細な構造を要素内部に持ち込まないことを主張するも のである。もう一方のグループはStructuralistと呼ばれる人たちである。この グループは基本要素に付加的な情報や構造を与えることが適切かつ有用であると いう立場である。また、場合によってはDublin Coreを特定の分野に応用するに はそうした付加情報が必要であるとするものである。たとえば、作者(Creator) の要素に与えられた名前が著者ではなく作曲家であるということを限定したり、 主題(Subject)の要素がLibrary of CongressのSubject Headingに基づいて記述 されていることを指定したりすべきであると主張する立場である。実際には多く の人たちがこの両者の中間に位置しており、簡明さの重要性を認めており、複雑 な構造を持ち込むことによって得られる利益が明らかな場合にのみ簡明さを犠牲 にすることができると考えている。

2.1実際的な利用の方法

Dublin Coreをウェッブ上で利用する最も簡単な方法はHTMLのMETAタグを用いて 記述することである。バージョン2.0以降のHTMLを用いる場合には慣習的に簡単 な方法が用いられている。バージョン4.0ではより詳細な構造を表すための属性 を指示をするqualifierを記述する属性をMETAタグの中に指定することができる 。HTML文書に埋め込まれたメタデータは文書の一部であり、Web上の文書を収集 し、索引付けをするソフトウェアによって直接収集される。しかしながら、情報 資源が分散しているのでメタデータの更新と維持を非常に難しいものにしている 。たとえば、ある文書上での変更や修正がそのコピーに伝わらず、矛盾を生じる ことにつながることがある。

また、埋め込み型とは別の方法として、Dublin Coreで記述したメタデータのレ コードを、記述対象の文書とは別に蓄積、維持することも可能である。これは図 書館や博物館で目録や索引を作るのと同じである。たとえば、利用者の年令に対 して適切な資料であるかどうかや利用に関する適合条件の評価付けといったサー ビスを行う組織によって提供される新しい種類のメタデータの場合はこうしたメ タデータだけで蓄積されることになるであろう。

第3の方法はDublin Coreをデータベースの不均一なコレクションへの窓として利 用することである。Dublin Core以外のいくつかのメタデータ基準で構成される 不均一なコレクションの場合、そうした他のメタデータ基準からDublin Coreへ の写像を実現することで、不均一なコレクションを統合的に検索することが可能 である。こうした写像を実現するため、「Crosswalk」と呼ぶDublin Coreと他の メタデータ基準との対応関係定義がなされてきている。たとえば、(図書館向け の)MARC[2]、(政府情報向けの)GILSとの間のCrosswalkが作られている。また 、Z39.50のprofileとの間のCrosswalkにより、Dublin Coreを用いてZ39.50サー バに対して検索質問を発することができるようになる[11]。こうした写像のコレ クションは英国のMichael Dayによって維持管理されている[3]。

2.2モジュール性のためのシンタックス

ウェッブ上のメタデータに対する要求は非常に多様である。そのため、別個に開 発され維持管理されているひとまとまりのメタデータ(メタデータパッケージ)が 共存できる環境が必要とされている。Dublin Coreは情報資源の発見(Resource Discovery) のために設計されたものであるが、他の目的を指向した別の機能を持つメタデー タパッケージが用いられる場合も多いであろう。たとえば、利用条件(Terms and Conditions)パッケージは情報資源の権利保持者の識別、価格表示、再利用 や出版に関する制約条件の指定等のために利用されると考えられる。こうした異 なる基準に基づいて作られるメタデータをひとまとまりのものとして扱うこと、 すなわちメタデータにおけるモジュール性の必要性がWarwickで開催されたワー クショップで認識され、Warwick Frameworkとして形式化されたことによって、Dublin Core は大きく進化した。

Warwick Frameworkとして形成された概念はWWWのために進められていたメタデー タ開発にも大きな影響を及ぼした。WWWの標準化を進める組織であるWorld Wide Web コンソーシアム(W3C)の下で進められているメタデータの基本概念がResource Description Framework (RDF)として確立された[18]。このメタデータの構成方 式によると、たとえば図書館の目録、第3者機関による内容評価(Rating)、電子 商取引等、多様な種類の構造化された情報を表現することができる。これが実現 されると、いろいろな別個の専門分野の組織によって独立的に作られたいろいろ なメタデータの共存が可能になる。より重要なことは、RDFの実現によっていろ いろなメタデータ基準で書かれたメタデータのためのPlug-and-Play(導入するだ けですぐに利用できる)環境が提供されるようになり、利用者の必要性に適合し た記述的メタデータ(descriptive metadata)を利用することが容易になることで あると考えられる。

2.3標準化への過程

Dublin Coreの開発はメタデータを構成する基本要素を決めることであると言え る。1995年3月以来開催されてきた一連のDublin Coreワークショップには図書館 、コンピュータネットワークとディジタル図書館、さらにいろいろなコンテンツ 専門家が集まり、単純な記述レコードとして実現されるメタデータの基本要素に 与えられる意味に関する国際的なコンセンサスを得るための議論を重ねてきた。1997 年10月に開催されたヘルシンキでのワークショップにおいて、正式にこの目標が 達成されたことが宣言された(the Finnish Finish)。ここでは15項目の基本エレ メントからなる定義(DC-simpleと呼ばれる)は、より詳細な定義の記述と修正の 必要性が認められたものの、Dublin Coreの基本としては健全であり、自信を持 って実際の利用に結び付けることができることが確認された。 現在、Internet Engineering Task Force (IETF)における標準化に向けた準備のための文書とし て、実利用に向けた記述形式(syntax)と意味(semantics)がいくつかのRFC(Request for Comments)としてまとめられつつある。また、こうした作業を進める上でよ り詳細な議論と文書の作成を行うためのワーキンググループが作られている。ワ ーキンググループを作って進められている仕事には、基本エレメントに関する詳 細な定義を明確にすること、データのモデル化のための問題点を明らかにするこ と、Dublin Coreを非電子化資料に適用するための拡張に関すること、情報資源 の記述やWWWの標準化に関する委員会等との協力を進めること、Dublin Coreとし て認められ暗黙のうちに利用できるサブエレメント(Sub-elements)を明らかにす ることなどがある。

メタデータの相互利用性を実現するために記述形式(syntax)、意味(semantics) 、および構造(structure)という3本の柱がある。DC-Simpleの定義が安定するに 従い基本的な情報資源記述の意味の基礎が固められる。記述形式は記述のための 文法規則を形式的に与えるものであり、単純なメタデータに関しては定義済みで ある(HTML 4.0のMETAタグ)。また、任意の複雑な構造を持つものに関しても検討 が進められている(Resource Description Frameworkにおけるassertion block) 。第3の柱である構造にはこれから注目が集まることになるであろう。たとえば 、エレメント内に書かれた複数の値を区切る記号を何にするか、名字と名前を書 く順序をいかにするかといった問題のように、情報資源の記述を行ってきたコミ ュニティの文化的な問題ともいえる。数多くの問題に関して完全な合意を得るこ とは不可能であるかもしれない。しかしながら、全体としての意味的な枠組みを 与えることで、少なくとも検索者が目標に意味的な近傍にまでたどり着けること を支援することができるようになると期待している。

3. 世界共通の意味を管理する

Dublin Coreは言語や学術分野の違いを超えてメタデータの意味的な相互利用性 を提供するものとして有望視されている。ところが、地域や分野毎にサブエレメ ントを増やしすぎるとDublin Coreが進めてきたメタデータの意味の定義を不明 確なものにしてしまう危険がある。この点に関して、世界的な共通性と単純化と いう性質という観点からエスペラント(Esperantos)、混成語(Pidgin)、混合語(Creole) という3つの言語的な現象を考察することで多くを学ぶことができる。

3.1エスペラント: 人為的に組み立てられた統合

エスペラントは1875年頃以降の数十年の間に主に欧米で発明された何十もの人工 言語のうちで最も有名なものである。既存の自然言語を分析し合成することで作 られたので、これらはひとまとめにa posteriori languageと呼ばれる。それら のほとんどは単純な形式と文法を持ち、西ヨーロッパの言語の単語を使用してい たり、そうした言語を基礎としていたりする。こうした言語を作ろうとする動き はヨーロッパ各国が海外の植民地を拡張するのと並行して広まった。当時、言語 的な多様性は国際間の摩擦の原因とみなされていたが、かといってラテン語に戻 ることは考えられず、また英語とフランス語の間の合意がまとまることは政治的 に実現可能であるとは思えなかった。科学や社会の進歩、国際間での平和的な共 存を進めるには、国際的に利用できる補助言語を利用することが最善であると信 じられていた。しかしながら、エスペラントをも含めてどれひとつとしてこうし た言語は成功しなかった。

a posteriori languageの多くは単独で定義を進める一人の作者によって作り出 され、そしてそれに従う小さなグループの中でのみ使われていた。運動が盛んに なるにつれ、言語が作られたはじめの頃からの使用者の間では、新しい単語や構 文を採用すべきであるかに関する議論がなされた。しかしながら、そうしたもの の多くは意見の一致を見ることのできないものであった。そこでの議論ではその 言語を日常に利用しようとする人と言語の専門家との間の要求の違いによるもの であった。そうした言語のひとつであるVolapuk ("World Speak")での議論は、 いわばMinimalistとStructuralistとの間の衝突によるものであった。Volapukの 発明者は自然言語にあるような十分な意味的表現能力を入れようとしたが、一部 の使用者は国際的な補助言語として利用が広がる可能性を高めるために簡明さを 残すように希望した。エスペラントの活動においても、たとえば曲折アクセント(circumflex) の使用に関する問題などでの議論があり、いろいろな版のものを推進する派閥に 別れた。Umberto Ecoは「こうした問題は人工言語にとっては避けられない問題 である。すなわち、単語というものは利用が広がらない間においてのみ意味的な 純粋性が保たれる。ところが、いったん利用が広がると変節者のコミュニティの 所有物となる。そして(最善を求めることは良いものを求めることの敵であるの で)その結果はBabelization(多くのことばができて互いにコミュニケーション できなくなるという事態)を招くことになる」と結論づけている[6]。

国連がエスペラントの採用を検討したことはあるものの、これまでに人工言語が 政府からの援助の獲得に成功したことはない。エスペラントの頑固な支持者は、 エスペラントの利用が広がるのはエスペラントが補助言語として利用される場合 のみであると考え、マスメディアでの利用を推進すること、標準の維持と新しい 提案の吟味、そして言語の発展を制御していくための国際的な管理組織を作るこ とを進めている。Ecoは、これまでの過去の失敗によって将来における補助言語 に対する政治的な合意を得るための試みが行われないことを意味するのではない と指摘している。また、Ecoは、日常的に生まれる新しい概念をも表現する能力 までも持つほど厳密にはする必要はないが、補助言語が成功するには言語の定義 を上から(トップダウン的に)与えることが必要であると考察している。

上からのトップダウン的なコントロールと同じように下からのボトムアップ的な 自然な変化によって解決することも必要であろう。二人の言語工学の研究者Donald Laycock とPeter Muhlhauslerが解答への道筋を示唆している。彼等は、自然言語はどん なものにでも対応し、かつ開放的であるが、その一方人工的に作られた言語は閉 じたものであり、規則によって厳密に縛られ、言語学的な自然さがなく、変化に は向いていない、と指摘している。人工言語が成功するには、言語の利用者であ る人間が規則を変更したり、あるいは作ったりすること、システムを状況に合わ せたり、意味に関する新たな取り決めをしたりすることがあることに言語の設計 者が対処しなければならないと彼等は論じている。そして、こうした方向で人工 言語が進歩していく上で、言語工学者は言語の利用者コミュニティがいかに自然 発生的に混成語(Pidgin)を作り出していくかということを十分に検討しなければ ならないと結論づけている。

3.2混成語(Pidgin): 自然発生的ハイブリッド

混成語(Pidgin)は、異なる母言語を持つもの同士が一緒に働いたり、あるいは 取り引きをしたりする際に生じるまにあわせのハイブリッド言語である。そこに は(社会的に有力なグループの言語から持ち込まれたものがほんとんどで)あま り語彙はなく、語形変化は少なく、語の順も一定しない。強調したい内容は反復 やジェスチャーで伝えられる。文法的な正確さにかけるので回りくどい表現に頼 らざるをえないことがあり、話し手の間でことばづかいが一致しないこともある 。観光地、港町、あるいは移住者の入植地で混成語化(Pidginization)が続いて いる。歴史的には、混成語は民族的に混ざり合った植民地の農園の雇い人や奴隷 から生じてきたものである。

商売を進める際に混成語が用いられるようになるなどして、使用者にとって言語 の利用価値が上がるに従い、ことばとしては落ち着き、語彙は広がり、話し手の 母言語として十分な柔軟性を持つようになる。そうなるには、全ての話し手の言 語的な要求にこたえられるものでなくてはならない。そうして、前置詞が入り、 単語が増え、そして文脈に依存しない構文が用いられるようになる。子供が青年 期前の重要な時期に混成語を母言語として用いながら成長すると、本能的な言語 能力で文法的に複雑な表現を加え、両親の混成語から文法的に豊かで表現力に富 んだ混合語(Creole)へと変化してゆくとの研究がある。混合語は正真正銘の言語 であり微妙な表現の構文要素や一貫した語順を持つ。しかしながら、この複雑化 の過程は世代が進むことによるものだけではない。混合語化(Creolization)まで には至らなかったが言語としては落ち着いたものになりかつ拡張もなされた言語 の例として十分に研究されてきた混成語にTok Pisinと呼ばれるものがある。ま た、これは前世紀においてはそれは150万もの人たちにとっての共通語(lingua franca) のひとつであり、パプアニューギニア議会での主要な言語であった。

こうした過程はインターネットを情報資源の共有地とする情報資源記述コミュニ ティにおいて起こってきたことと同じであろう。Dublin Coreは1994年の第2回World Wide Webの国際会議での立ち話から始まった。この年は一般の人たちがインター ネットのことを知るようになった年でもある。いろいろな情報資源記述コミュニ ティが作り上げてきた記述方法を単純化しハイブリッド化するDublin Coreにお ける努力から、値の属性を指定しないMinimalistと呼ばれる基本エレメント集合 (あるいはMinimalistと呼ばれる人達によって指示される基本エレメント集合) が作り出された。前に示したように旅行者は一般的に片言でしか話せないため、 いわば混成語で話しているようなものである。そのため、ヴァーチャルツーリス トのメタファはこの過程をうまく言い表わしていると言えるであろう。

利用者はセマンティクスとシンタックスにより多くのニュアンスを込めようとす るので、minimalistによって示される自然なPidginizationに続いて現れるもの は、再び複雑な内容を表そうとする動きであり、Creolizationである。その結果 混成語より表現能力に富む混合語化したメタデータが現れることになる。Dublin Core におけるstructuralistの展望は複雑な情報を表現しようという意図に基づくも のである。すなわち、より詳しい意味を表す新たなサブエレメントを作り出すこ とによって特定分野のコミュニティにとってより都合の良いメタデータの記述が 得られることになる。このふたつのグループ、すなわちより高い相互利用性を目 指すminimalistと、より高い意味表現を目指すstructuralistの間のトレードオ フは、自然言語での混成語と混合語のトレードオフにあたるものであると言えよ う。

Dublin Coreの発展過程はエスペラントのような人工言語の発展とは大きく異な っている。一連のワークショップの主導した人たちは新しい技術の発明者として ではなく、情報資源記述という分野で働いてきた人たちの持つ知恵を引き出し、 経験を集約することでDublin Coreの定義プロセスを進める役割を担ってきた。 このプロセスは前例がないほど電子メールやウェッブ上においたドラフト、メー リングリストを活用することによって効率よく進められ、また安価な航空券によ って数多くの実践家とDublin Coreに関心を持つ人たちが集まって標準を決定す るプロセスに参加することができた。

しかしながら一方、現在のコミュニケーションの道具だけでは何百、何千もの参 加者による合意を得ることは難しい。現在でも、Dublin Coreの活発なメンバー でさえもメーリングリストといろいろなワーキンググループでの議論に並行して 参加することは難しいと考えている。グループの詳細に関する決定が多数の電子 メールの山の中に埋もれてしまっているようなことさえもある。

混成語(Pidgin)も含めて、自然言語は使用されている間に変化していく。これと 同じ事がメタデータについても言える。また、自然言語の利用が広がり標準的な 言語になっていくのは、日常的な使用、継続的な技術革新、マスメディアや教室 、辞書における認知の広がりが互いに影響を及ぼしあうことによる。もしPidgin メタデータが自然に進化していくことができないほど厳しい制約が与えられるの であれば、このメタデータを技術革新にさらしたり、意味に関する合意を得たり 、適切な実践例を正式に認知したりするための公開討論の場を設けることが必要 になるであろう。この場は次に述べるInterlinguaのようなものでなければなら ない。

3.3 Interlingua: 言語に対して中立なスーパーセット

ここで述べるInterlinguaは言語に対しては中立に構成されたものでいくつかの 言語で表された概念間の意味的関係を表すために用いられるものである。Interlingua のひとつとして、EuroWordNetプロジェクトにおける言語間(Cross-Language)検 索のために開発されたものである[17]。EuroWordNetシステムは単一の言語(monolingual) のためのスペイン語、英語、オランダ語、ドイツ語の全ての基本語を含むwordnet ( オントロジ)を持つ。wordnetの内部は、"same as"、"kind of"、"part of"とい った意味的な関係が与えられた単語のクラスタからできている。(関係の中には 、"near-synonym"、"sub-element"、"role"といったより意味的に深いものも含 まれている。)

wordnetを一つのシステムとして統合するため、EuroWordNetでは言語の対ごとに クラスタを結ぶことにしている。しかしながら、この構造は言語の数が増えると 結び付けられる言語対の数が多くなるので新たに言語を加えることは非常に難し くなり、それを維持管理していくことは悪夢のように思えることさえある。この プロジェクトでは英語のwordnetに他の個々の言語のwordnet(すなわちmonolingual )を結び付けることも考慮した。しかしながら、 monolingualなwordnetを他の 言語のwordnetに写像すると、辞句の構成上の違いや言語依存の意味が失われて しまうことがあることがわかった。たとえば、イタリア語のditoは指(finger)で あり、またつまさき(toe)でもある。言語に依存した微妙な意味を他の言語で表 すことは非常に難しい。

以上のようなことから、EuroWordNetプロジェクトでは、 monolingualなwordnet を言語非依存のInterlingua−すなわち、全ての言語に共通な概念のフラットで 構造を持たないスーパーセット−に結び付けることにした。単語はInterlingua の中に含まれる最も近い意味を持つ要素に対して、等価関係(equivalence)ある いは近等価関係(near-equivalence)を用いて結び付けられる。図2はライオン(lion) が哺乳動物であり、つめのある足(paw)を持ち、たてがみ(mane)を持つことを表 す。ライオン、足、たてがみに対するオランダ語、スペイン語、英語およびフラ ンス語の単語が、Interlinguaに定義された対応する概念への並行するリンクに よって同義語であることがわかる。

A cpnceptual interlingua between wordnets
図2:A cpnceptual interlingua between wordnets

言語に依存する辞句に基づいて概念間の関係を定めようとしても言語によって概 念の位置付けが異なることがある。そのため、Interlinguaの中では概念間は意 味的なリンクで結ばれていない。言い換えると、Interlingua内で概念間のリン ク付けを行ったとしてもそうしたリンクが全ての言語に対して合理的な意味を持 つとはいえない。このように設計することで各言語のwordnetによって多言語に よる豊かさや広がりを持ち続け、かつ一方で、たとえばditoがfingers、toes、fingers-and-toes に結び付けられるというように言語間での単語間の意味の関係の曖昧さを表すこ ともできる。

4レジストリとしてのInterlingua

Dublin Coreをある種のInterlinguaとして概念的に理解することもできよう(図3) 。wordnet間を結ぶ架け橋として役に立つのみならず、より詳しいメタデータ記 述、たとえばGILSやMARC等への橋渡し、また他の言語や目的や組織に応じてカス タマイズされたDublin Coreへの橋渡しのために役立つと考えられる。また、EuroWordNet の場合、既存のwordnetをボトムアップ的にInterlinguaに結び付けようとしたの に対し、メタデータ間のInterlinguaとしてのDublin Coreの場合、目的が異なる ためトップダウン的である。すなわち、必要に応じてサブエレメントが階層的に 深まり、メタデータの内部構造がより詳細になる。こうしたサブエレメントのう ちのいくつかはDublin Coreのために作られるものであり、また、それ以外のも のはcrosswalkを介して取り込まれるものである。

Dublin Core as an interlingua between description models
図3:Dublin Core as an interlingua between description models [7]

4.1複雑化を管理する

EuroWordNetプロジェクトでは、Interlinguaへの新しい概念の追加に対して厳密 な更新手続きを用意している。あるひとつの単語に対して等価な意味を持つ概念 を見つけることができないサイトがあれば、そのサイトはそれを英語で明確に定 義し、新たに加えられることになる項目として付け加えなければならない。画面 分割型のナビゲーションツールを用いて各サイトからの新たな概念の追加の可能 性の報告を定期的にチェックし、既存の概念と重ならないことを確かめた上でInterlingua の更新のための勧告を出す。Interlinguaが更新されると全サイトはそれぞれが 持つwordnetと新たに追加された概念の間のリンクを確かめる。Interlinguaを中 心に置くことで数多くのwordnetの間での更新管理を多対多ではなく1対多にして いる。

世界のどこかで"Dublin Core"というラベルを使って用いられたメタデータのサ ブエレメントとを記述的に結びつけることで、Dublin Coreは値には依存しないInterlingua とすることができよう。こうした結びつきによって作られる空間を(そこに参加 する人によって秩序が作られる)Dublin Core Marketと呼ぶことができよう。し かし、InterlinguaとしてのエレメントをDublin Coreの規範(Dublin Core Canon) として認定することを望む人もいるであろう。John Kunzeは将来の基準Coreにつ いて、地域や組織を限定した拡張や試験的な拡張を公表するメカニズムとそれら を正当と認め基準に組み込むための審査と認定のプロセスに関して論じている[8] 。Coreの維持管理には提案された追加が既存のサブエレメントと重複したり、衝 突していないかをチェックする必要がある。EuroWordNetの場合と同じように、 大きく異なる分野の関連語はInterlinguaの中にならべて登録することができる であろう。自然言語の辞書によくあるように、そうした定義はそのエレメントに 与えられた代替の意味を表すと考えることができる。Interlinguaは認定された エレメントからなる安定した基本要素部分(コア)と、コアを取り巻く正式には用 いられていない発展段階にある要素によって構成されることになるであろう。

また、Dublin Core Market自体は実践のための究極的な調停役であると考えるこ とができる。この場合、Interlinguaは単に実践の例を示すための目録として働 くのみであろう。すなわち、自動的にデータを読み、機関の重複等を考慮しなが ら利用状況を勘定するメカニズムとして働くのみであろう。特定のサブエレメン トがよく用いられること、すなわち相互利用性におけるそうしたサブエレメント の価値は、それらがいかに広く利用されるかによって上がることもあれば下がる こともある。

しかし一方、それは標準的な形を持たない言語のようなものであろう。たとえばAmerican Heritage という辞書の利用性評価に関する委員会(Usage Panel)のようなものをDublin Core は必要とするであろう。この委員会は、この辞書の編集者が実際の利用例の記述 と望ましい形式に関する規定との間のバランスをとることを評価するもので、辞 書の173人の著者に加えて批評家や学者の助けを得て、順序、明確さ、正確さと いった基本的な言語学的美点に対して意味のある項目を評価する役割を持ってい る。

MarketとCanonの両方をカバーするシステムであれば、どのような形式であれ、 あるいは言語であれ新しいサブエレメントを提案し公表することでDublin Core の発展に寄与することができる。Dublin Coreのコミュニティが、DDCのように言 語に依存しない何らかの方法でエレメント名を定義しようとしない限り、EuroWordNet で採用されたように英語で書かれた概念の辞書的な定義のようなスタイルを踏襲 するのが好都合であるように思える。(たとえば、脊椎の指状の部分、新陳代謝 される物質。)

4.2多言語分散レジストリ

世界中のいろいろな意味の情報を集めた定義の中に英語以外の情報を加えるため に、非英語のDublin Coreに関する説明を英語で付加したとしても、非英語言語 の利用者に対しては彼等自身の言語だけでDublin Coreを利用できるようにしな ければならない。それでは、異なる言語で表されているサブエレメントが意味的 に等価であると索引付けるというように、異なる言語で記述されたDublin Core 同士をどのようにして相互的に関係づけることができるのであろうか。

RDFの開発者と協力し、Dublin Coreコミュニティのメンバーはこうした機能を実 現するために必要な簡単なレジストリの設計に参加している。Renato Iannella とEric MillerによるとRDFのレジストリは図4に示す機構を提供するであろうと のことである。この図で、ドイツ語のDublin Coreは基準Dublin CoreからDC.title という機械可読形式の名前を継承するが、そのラベルや人間が読むためのエレメ ント記述にドイツ語のテキストを重ね合わせる。

A registry model in RDF
図4:A registry model in RDF

この概念はシンプルではあるが能力は高い。それはメタデータのエレメントから 、定義と正当性の保証を与える参照モデルへのリンクをRDFが与えることになっ ているためである。Dublin Coreに基づくいろいろな実現例におけるサブエレメ ントがInterlinguaとして働く基準Dublin Coreへリンクを持つのみならず、基準 自身から機械可読形式を得ることもでき、それによってエラーが起きる危険性を 減らすことができる。この分散レジストリを言語間参照のために利用する多言語 検索ツールの開発にはいろいろな研究が必要となるであろう。

これを実際に利用するには実際的な観点からの問題が多く残されている。1997年12 月時点ではUnicodeはまだ世界中で利用可能であるとはいえず、ごく近い将来に どこででも表示可能になるといえない。フォントの問題や競合関係にある標準間 の問題があり、特に日本語に関してはこうした問題は大きい。たとえばブラウザ 上での表示のためにDC-simpleをビットイメージとして送るよりは、日本の図書 館情報大学で開発されたMHTMLを使うことで解決可能な問題であると思われる。 これはタイ語、日本語他の言語に関してヘッダ、フォントをテキストと一緒に送 り、Javaの利用できるブラウザ上で多言語のテキストを読めるようにするもので ある[16]。

4.3将来に向けてのより大きな構図

Dublin CoreコミュニティとWorld Wide Webコンソーシアム(W3C)のメタデータ構 造定義に関わる人たちが両グループのアイデアと努力を互いに交換し理解を広め あうことでWWWで利用可能なメタデータ構造に関する短期的な展望が大きく開け た。Dublin Coreでは、電子的情報資源の単純化された記述のために必要な意味 基盤を明らかにすることに焦点を当てた開発努力がなされてきた。それによって 分野の違いを越えた非常に大きな広がりを持つ情報資源へのアクセスのための障 壁間に橋渡しができること、また、いろいろな分野でウェッブ上の情報資源が増 やされるに従って別のより豊かな情報を持つ情報資源記述へ橋渡しができること が期待できる。RDFによって、Dublin Coreと他のメタデータ記述を相互に利用可 能な形で配布するための技術的基盤が作り出される。図書館、美術館、商用のソ フトウェア販売業者、大学等、いろいろなコミュニティの専門家の協力によって 全てのウェッブ利用者にとって役に立つ解決策に向かってまとまりつつある。情 報資源記述の質と網羅性が高まるにつれ、様々な分野を含む全世界で利用可能な 情報資源としてのウェッブの価値が恒常的に高まると考えられる。

参考文献

[1] Thomas Baker. Dublin Core in Multiple Languages: Esperanto, Interlingua, or Pidgin? International Symposium on Digital Libraries. Tsukuba, Japan, November 1997.

[2] Priscilla L. Caplan and Rebecca S. Guenther. Metadata for Internet Resources: the Dublin Core metadata elements set and its mapping to USMARC. Cataloging and Classification Quarterly 22(3/4): 43-58, 1996.

[3] Michael Day. Metadata: Mapping between Formats. UKOLN (confirmed 30 September 1997). http://www.ukoln.ac.uk/metadata/interoperability.

[4] Lorcan Dempsey and Stuart L. Weibel. The Warwick Metadata Workshop: a framework for the deployment of resource description. July/August 1996, D-Lib Magazine, July/August 1996. http://www.dlib.org/dlib/july96/07weibel.html.

[5] Dublin Core Homepage. http://purl.org/metadata/dublin__core.

[6] Umberto Eco. The Search for the Perfect Language. Oxford: Blackwell, 1995, pp. 319, 346.

[7] Jon Knight and Martin Hamilton. Dublin Core Qualifiers, ROADS Project, Department of Computer Studies, Loughborough University, http://www.roads.lut.ac.uk/Metadata/DC-Qualifiers.html, 1997.

[8] John Kunze. A Unified Element Vocabulary for Metadata. http://www.ckm.ucsf.edu/personnel/jak/dist.html, 1996.

[9] Carl Lagoze, Clifford A. Lynch, Ron Daniel Jr. The Warwick Framework: a Container Architecture for Aggregating Sets of Metadata. TR96-1593, 21 June 1996. Acrobat version: http://www.nlc- bnc.ca/ifla/documents/libraries/cataloging/metadata/tr961593.pdf.

[10] Donald C. Laycock and Peter M"uhlh"ausler. Language Engineering: Special Languages. In: An Encyclopaedia of Language. London: Routledge, pp. 843-875, 1994, p. 871.

[11] Ralph LeVan. Dublin Core and Z39.50: Personal Reflections. http://cypress.dev.oclc.org:12345/"rrl/docs/dublincoreandz3950.html.

[12] Andre Martinet, 1991. Cited in Eco, p. 332.

[13] Geoffrey Nunberg. Usage in the American Heritage Dictionary: the Place of Criticism. In: The American Heritage Dictionary of the English Language, Third Edition. Boston: Houghton Mifflin Company, Pp. xxvi-xxx, 1992.

[14] Diann Rusch-Feja. Dublin Core Version 1.0 in German. http://www.mpib-berlin.mpg.de/DOK/metatagd.htm, 1996.

[15] Praditta Siripan. Dublin Core in Thai. National Science and Technology Development Agency, Bangkok, Thailand, 1997.

[16] Tetsuo Sakaguchi, Akira Maeda, Takehisa Fujita, Shigeo Sugimoto, Koichi Tabata. A browsing tool for multi-lingual documents for users without multi-lingual fonts. Proceedings of the 1st ACM International Conference on Digital Libraries (March 20-23, 1996), pp. 63-71.

[17] Piek Vossen, Pedro Diez-Orzas, Wim Peters. Multilingual design of EuroWordNet. http://www.let.uva.nl/"ewn/Vossen.ps, 1997.

[18] W3C Web Site: Resource Description Framework. http://www.w3.org/Metadata/RDF.