国会図書館件名標目表(NDLSH)のSKOS化とそのグラフィカルブラウザの作成

永森 光晴, 杉本 重雄

茨城県つくば市春日1-2
筑波大学図書館情報メディア研究科

抄録

 ディジタル図書館やセマンティックウェブ技術の普及に伴って、多種多様な情報資源のメタデ ータが作成され利用されるようになってきた。公共図書館や地方自治体の中には、それぞれが作 成したメタデータの組織化を行うために、独自の語彙を定義しているとこをも珍しくない。メタ データに付与する語彙を作成する場合、小規模であればその作成とメンテナンスは容易であるが、 大規模な語彙を作成することは、コストやメンテナンスの観点から現実的ではない。そこで本研 究では、国立国会図書館が2006年9月より提供を開始した国立国会図書館件名標目表(NDLSH) テキストデータをSKOS形式に変換し、ソフトウェアやネットワークを介して利用可能にした。 また本研究では、SKOS版NDLSHテキストデータを対象とした、SKOSのためのグラフィカ ルなブラウザHANAVI(Hybrid And Network-Assisted Vocabulary Interface)の作成を行っ た。

キーワード

件名標目表、メタデータ、SKOS、RDF、統制語彙

Representing National Diet Library Subject Headings (NDLSH) in SKOS and its Graphical Browser

Mitsuharu Nagamori, Shigeo Sugimoto

1-2 Kasuga, Tsukuba, Ibaraki
Graduate School of Library, Information and Media Studies, University of Tsukuba

Abstract

NDLSH (National Diet Library Subject Headings) is a list of subject headings applied to the catalog of the NDL. This paper describes how to represent NDLSH in SKOS (Simple Knowledge Organization System) which is a formal language for representing controlled structured vocabularies such as thesauri or classification schemes. This paper also describes HANAVI (Hybrid And Network-Assisted Vocabulary Interface) browser which visualizes NDLSH.

Keywords

Subject Headings, Metadata, Metadata Vocabularies, SKOS, RDF, controlled vocabularies

1. はじめに

 ディジタル図書館やセマンティックウェブ技術の普及に伴って、多種多様な情報資源のメタデ ータが作成され利用されるようになってきた。近年、メタデータは情報資源の組織化や検索のた めだけではなく、保存や流通のための重要な役割を担うようになってきた。既にRSSを利用し た情報資源の流通は、日々の情報収集において欠かせないものとなっている。また、公共図書館 や地方自治体の中には、それぞれが作成したメタデータの組織化を行うために、独自の語彙を定 義しているとこをも珍しくない。例えば、各都道府県のウェブサイトでは、提供している各種情 報資源を分類するために30〜60語で構成される語彙を決め、情報資源を分類するためのディレ クトリを構成している。岡山県立図書館が提供するディジタル岡山大百科では、岡山県に関連し た情報資源を分類するための約400語からなる独自の語彙を作成している。

 語彙を作成する場合、小さな規模であれば作成とそのメンテナンスは容易であるが、大規模な 語彙を作成することは、コストやメンテナンスの観点から現実的ではない。そこで本研究では、 様々なコミュニティで共通に利用可能な語彙として、国立国会図書館が2006年9月より提供を 開始した国立国会図書館件名標目表(NDLSH)テキストデータ[1]をSKOS(Simple Knowledge Organization System)[2]形式に変換し、ソフトウェアやネットワークを介して利用可能にした。 SKOSは、RDFを使った概念スキームを表現するためのモデルである。また本研究では、SKOS 版NDLSHテキストデータを対象とした、SKOSのためのグラフィカルなブラウザHANAVI (Hybrid And Network-Assisted Vocabulary Interface)の試作を行った。HAVAVIは、NDLSH テキストデータを検索し表示するだけではなく、標目間の関連をグラフィカルに提示する。

2. NDLSHのSKOS化

 国会図書館件名標目表(NDLSH)は、国立国会図書館の和図書・洋図書の目録において使用 実績のある件名標目を収録した件名標目表である。今回提供されているNDLSHテキストデー タは2005年度版で、昭和24年から平成18年3月末までを収録範囲としている。収録件数は、 標目数(主標目、細目、細目つき件名標目の総計)16,879件、50音順見出し数(標目および参 照語の総計)36,922件である[3]。本研究では、NDLSHテキストデータをソフトウェアやネッ トワークを介してより使いやすくするために、シソーラスや件名標目など表現するRDF (Resource Description Framework)[4]を使ったモデルであるSKOS(Simple Knowledge Organization System)への変換を行った。

2.1 NDLSHテキストデータの構造

 NDLSHテキストデータの構造について述べる。NDLSHテキストデータは、TSV(タブ区切 り)形式のファイルとして提供されている。1行が1レコード(件名標目または参照形)を表し ている。表1に各レコードのデータ項目を示した。例えば、件名標目「建築家」のレコードは 以下のとおりである(紙面の都合上1行を折り返している)。

ケンチクカ 建築家〈地理区分〉 ID:00565601 UF:アーキテクト BT:美術家〈地理区分〉〔ビジュ ツカ〕{00560797}RT:建築〈地理区分〉〔ケンチク〕{00565563} ; 建築士〈地理区分〉〔ケンチク シ〕{00565615} NDC(9):520.28

また、「建築家」の参照形である「アーキテクト」は以下のように記述されている。

アーキテクト アーキテクト USE:建築家〈地理区分〉〔ケンチクカ〕{00565601}

上記の「建築家」と「アーキテクト」の記述例からわかるように、NDLSHテキストデータでは、 参照形に関する情報は件名標目のレコードに含まれている。そこで本研究では、NDLSHテキス トデータのうち、SKOS化の対象として件名標目のレコードのみを利用した。

表1 NDLSHテキストデータのデータ項目 (NDLSHテキストデータより引用)

2.2 SKOS

 SKOS(Simple Knowledge Organization System)は、シソーラスや件名標目などの概念ス キーム(concept scheme)の構造や内容を表現するためのRDFを利用したモデルである[2]。 2006年10月現在、SKOSの仕様のステータスはW3C Working Draft で、現在も議論が行わ れている。また、SKOS Extensions Vocabulary において、SKOSの拡張についても検討され ている[5]。

 図1にRDFを使ったSKOSの記述例を示した。図1では、2つの概念、ex:mammals と ex:animals を定義している(文献[6]より引用)。図1は、ex:mammalsを表現するラベルは 'mammals' で、その上位語は ex:animals であることを表している。また同様に、 ex:animals のラベルは 'animals'で、その下位語は ex:mammals であることを示している。 図2は、図1の記述をグラフで表現したものである。


図1 SKOSのRDF記述例 (SKOS Core Guideより引用)


図2 図1に示したSKOSのグラフ表現

2.3 SKOSへの変換

 表2は、本研究でNDLSHテキストデータをSKOSへ変換するために用いた、NDLSHテキ ストデータのデータ項目とSKOSエレメントとの対応付けである。SKOSでは、NDLSHテキ ストデータのデータ項目全てを表現することができない。そのため、いくつかの項目は、Dublin Core [7]、または独自に定義したエレメントと対応付けている(例:dc:subject, slis:annotation, slis:transcriptionなど)。NDLSHテキストデータの日本語の読み をどのようなエレメントを用いて表現するかは今後の課題である。本稿では、SKOSの仕様の 編集者のひとりである Alistair Miles 氏とSKOSにおける日本語の読みの表現について議論し た結果を反映している。

表2 NDLSHデータ項目とSKOSエレメントの対応付け

 表2の対応表に基き、プログラミング言語Ruby と XSLTを利用してSKOS形式への変換を 行った。図3は、件名標目「建築家」をSKOSで表現した例である。


図3 NDLSHテキストデータをSKOSで記述した例

3. ネットワークを介したNDLSHの利用

 本研究ではソフトウェアからSKOS形式に変換したNDLSHテキストデータを利用するため、 以下の2つの機能を作成した。

1) 典拠IDを指定した件名標目データの取得

 各件名標目には典拠IDが割り当てられている。この機能では、指定した典拠ID持つ件名標 目のデータをSKOS形式で取り出すことができる。 http://raus.slis.tsukuba.ac.jp/ndlsh/ に続けて典拠IDを指定したURLにアクセ スすると、SKOS形式での記述が返される。例えば、以下のURLにアクセスすると、図3に示 した件名標目「建築家」(典拠ID 00565601)のデータを取得できる。

例)SKOSで記述した件名標目「建築家」の取得

  http://raus.slis.tsukuba.ac.jp/ndlsh/00565601

2) NDC第9版またはNDLCを指定した件名標目の検索

 NDLSHの個々の件名標目には、その件名標目の内容を表す分類記号(代表分類記号)が付与 されている。代表分類記号は、その件名標目が表す主題に対し、一般的に付与される分類記号を 示したものである。NDLSHテキストデータで使われている代表分類記号には、日本十進分類法 第9版(NDC(9))と、国会図書館分類法(NDLC)[8]の2種類がある。

 本研究では、与えられたNDC第9版またはNDLCの値を使って件名標目の持つ代表分類記 号を検索し、適合した件名標目の典拠IDと件名標目のリストをRSS形式で返す機能を作成し た。NDC第9版の場合は、http://raus.slis.tsukuba.ac.jp/ndc/ に続けてNDCの分 類記号を指定する。NDLCの場合は、http://raus.slis.tsukuba.ac.jp/ndlc/ に続け てNDLCの分類記号を指定する。以下に、NDC第9版とNDLCそれぞれを使って検索する例 を示した。

例1) NDC第9版で520(建築学)を持つ件名標目のリストを取得する

  http://raus.slis.tsukuba.ac.jp/ndc/520

例2) NDLCで KA31 (建築 − 建築史)を持つ件名標目のリストを取得する

  http://raus.slis.tsukuba.ac.jp/ndlc/KA31

図4は、例2の検索結果である。


図4 NDLCのKA31 (建築 - 建築史)を検索した結果

4. HANAVI: グラフィカルなNDLSHブラウザの作成

 SKOSに変換したNDLSHテキストデータを利用し、NDLSHを対象としたSKOSのための グラフィカルなブラウザHANAVI(Hybrid And Network-Assisted Vocabulary Interface)の 試作をおこなった[9]。今回試作したHANAVIは以下の機能を持つ。

 図5は、HANAVIで件名標目「建築家」を表示した画面例である。グラフのノードは件名標 目または参照語を示している。ノードが件名標目の場合は、ノードをクリックすることにより、 さらに関連する件名標目をたどって閲覧することができる。図では、「建築家」の「を見よ参照」 と「をも見よ参照」に関する情報から、関連する件名標目と参照語をグラフ表示している。さら に図では「建築家」と「建築史」の件名標目に関する情報を同時に表示している。この機能は、 実際の目録作業において、複数の件名標目を比較する必要があることから作成した。

 図6は、NDCから件名標目を検索するためのディレクトリである。ディレクトリには第2次 区分までの分類項目名が表示されている。分類項目名をクリックすると、その項目の分類記号を 持つ件名標目を検索した結果が表示される。検索結果の利用方法は、図5と同様である。

 HANAVIの実現には、Ruby on Rails 1.1.6, MySQL 5.0.26, lighttpd 1.4.14, prototype.js, effects.js, wz_jsgraphics.js を利用した。グラフ表示にはSVGやFlashなどを用いておらず、 HTMLとCSSを用いて実現している。そのため、通常のウェブブラウザであれば、特別なプラ グインをインストールすることなくグラフを表示することができる。


図5 HANAVIの画面例 : 「建築家」を表示した例


図6 NDCを使ったディレクトリからの検索インタフェース

5. 関連研究

 件名をグラフィカルに提示する関連研究には、村上による Subject World がある[10]。 Subject Worldでは、OPACにおいて主題や件名による情報検索をより使いやすくするために、 用語体系の統合と可視化を行っている。概念体系としては、件名にBSH4、分類にNDC第9 版を利用している。

 NDLSHをSKOSで表現した例には、神崎の「シソーラスとクラス階層とRDF/OWL」があ る[11]。ここでは、件名標目をRDF/OWLで表現し主題へのアクセスに利用する際に、クラス 階層を使うことの利点と欠点について検討している。文献[11]では、読みに関する表現について は言及されていない。

 Protégé はスタンフォード大学 SMI (Stanford Medical Informatics) が開発したオントロジ エディタである[12]。Protégé ではXML/RDFを意識することなく、対話的にオントロジを作 成することができる。

6. おわりに

 本稿では、NDLSHテキストデータのSKOS化と、SKOSのためのグラフィカルブラウザ HANAVIについて述べた。SKOSにおいてNDLSHテキストデータの日本語の読みをどのよう に表現するかは、今後の課題である。

 HANAVIを作成する中で件名標目間の関連の扱いについて問題があった。それは、いくつか の件名標目では他の件名標目との関係が明示的に記述されていないことである。例えば、件名標 目「工学」では、「をもみよ参照注記(SA)」の項目に「各種の工学の件名をも見よ(例:教育工学)」 と記述されているのみで、約60件ある各種工学の件名標目と明示的に「をも見よ参照(BT, NT, RT)」によって関連付けられていない。ソフトウェアからNDLSHを利用する際には、このよ うなSAに記述されている件名標目間の関連を処理する必要がある。

 現在、様々なコミュニティが扱う情報資源の特徴にあわせた独自の語彙を決め、メタデータの 作成を行っている。今後は、NDLSHテキストデータを中心(ハブ)にコミュニティが作成した 語彙を結び、メタデータの相互利用性を高めるための方式を検討したい。

謝辞

 国立国会図書館書誌部書誌調整課のみなさまには、NDLSHテキストデータの変換と HANAVIの開発において多大なるご協力と貴重なご意見をいただきました。この場を借りて深 く感謝いたします。

参考文献

[1] 国会図書館件名標目表, http://www.ndl.go.jp/jp/library/data/ndl_ndlsh.html

[2] SKOS, http://www.w3.org/2004/02/skos/

[3] 国会図書館件名標目表2005年度版序説、 http://www.ndl.go.jp/jp/library/data/josetsu/josetsu.pdf

[4] Resource Description Framework, http://www.w3.org/RDF/

[5] SKOS Extensions Vocabulary Specifications, http://www.w3.org/2004/02/skos/extensions/spec/

[6] SKOS Core Guide, http://www.w3.org/TR/swbp-skos-core-guide/

[7] Dublin Core Metadata Initiative, http://dublincore.org/

[8] 国立国会図書館分類表, http://www.ndl.go.jp/jp/library/data/ndl_ndlc.html

[9] HANAVI, http://raus.slis.tsukuba.ac.jp/

[10] Subject World, http://www.media.osaka-cu.ac.jp/~harumi/research/SubjectWorld/

[11] 神埼正英、シソーラスとクラス階層とRDF/OWL, 日本図書館研究会, 2006.9, http://www.kanzaki.com/works/2006/pub/0923nal.html

[12] Protégé, http://protege.stanford.edu/