日本十進分類表－中国図書館・図書分類表相互参照システムに基づく Japan-MARC および China-MARC 検索システム

河手太士 1)、石川徹也 2)

1) 図書館情報大学大学院修士課程
〒 305 つくば市春日 1-2 　 E-mail: kawate@ulis.ac.jp

2) 図書館情報大学
〒 305 つくば市春日 1-2 　 E-mail: ishikawa@ulis.ac.jp

概要

　近年、日中の図書館において双方の資料（特に図書）収集および資料調査要求が増加してきている。当状況下において、日本においては日本語キ－ワ－ドによる China-MARC の検索利用が、中国においては中国語キ－ワ－ドによる Japan-MARC の検索利用が望まれている。当検索利用要求に対し、日中キ－ワ－ドに対し、日本十進分類表（NDC）あるいは中国図書館・図書分類表（CLC）の分類名辞を検索し、それぞれに対応する分類標数を基に China-MARC あるいは Japan-MARC の検索を行うシステムの開発を図り、当システム利用の提案を行っている。当システムの実現には NDC と CLC の分類標数相互参照デ－タの完成と検索精度向上のために分類名辞に対するシソ－ラス展開が必要になる。当発表において、システム機能の紹介を行い、分類標数相互参照デ－タの作成およびシソ－ラス展開の課題について考察する。

キーワード

分類標数相互参照システム, 中国図書館図書分類法, 日本十進分類法, Japan-MARC, China-MARC, MARC検索, シソーラス展開

A Mutual Reference Retrieval system for Japan/China-MARC by using NDC and CLC

Futoshi Kawate 1) Tetsuya Ishikawa 2)

1) MA Student of the University of Library and Information Science
Address: 1-2 Kasuga, Tsukuba, 305 Japan
E-mail : kawate@ulis.ac.jp

2) Prof. Dr. of the University of Library and Information Science
Address: 1-2 Kasuga, Tsukuba, 305 Japan
E-mail : ishikawa@ulis.ac.jp

Recently, in the libraries of China and Japan, the collecting and retrieving mutual documents (especially books) has been increasing. It has therefore been asked that a retrieval system to retrieve Japan-MARC by Chinese keywords and China-MARC by Japanese keywords assigned by the user. For this requirement, we have been developing a retrieval system which uses both classification number sys tems that is, the Nippon Decimal Classification (NDC) and Chinese Library Classification (CLC). In order to actually use this system, it is necessary to construct a table of mutual reference classification number in between NDC and CLC. Therefore, in order to raise the recall and precision ratio, it is necessary to unfold synonyms against each class description by using, for instance, a thesaurus or a glossary.

In this paper, we present this system functions, and discuss difficult problems including terminology which must be solved in order to use this system in actual.

Keyword

mutual refirence retrieval system, Chinese Library Classification, Nippon Decimal Classification, Japan-MARC, China-MARC, MARC retrieval, unifolding classification discriptions

1 はじめに

　近年、日中の図書館において、双方の資料（特に図書）収集および資料調査要求が増加の傾向にある。当状況下において、日本においては日本語キ－ワ－ドによる China-MARC-DB の検索利用が、中国においては中国語キ－ワ－ドによる Japan-MARC-DB の検索利用が望まれている。このような検索利用要求に対し、筆者らはシステム化の側面から課題解決を図ることを目的に、「日本十進分類表および中国図書館・図書分類表の利用による双方 MARC-DB の検索システム」の開発を図り、当システムの利用を提案する（当開発研究は、図書館情報大学と中国国家図書館（北京図書館）との学術協定に基づく）。

　テキスト・デ－タ DB を対象とする検索に、一般的には検索語（キ－ワ－ド、以下 KW と記す）による検索指示が行われている。そこで上記の目的のような、異なる文字種 KW による検索を可能にするには、検索インタ－フェイス機能として、例えば既に石川において研究している英日・日英 KW 翻訳システム[1]のような日中・中日 KW 翻訳システムの実装が必要になる。しかし、KW 翻訳システムの実装には、現時点おいて技術的課題から精度の面において実利用には未だ問題がある。これに対して MARC-DB は書誌デ－タ DB であり、デ－タ項目として分類標数があることから、双方の MARC 内に設定されたの分類標数を利用することを考え、当システムの開発を図った。分類標数による検索の利点として下記の点がある。

1) 資料の主題が標数で表現されているので、KW のように言語種を意識することなく検索が可能

2) 主題の体系的・系統的検索が可能であり、また関連主題の階層的検索が可能

　このことから、ユーザが入力した KW を分類標数に変換・生成し MARC-DB を検索するシステムを開発した。具体的には、検索語として利用者が指示する日中それぞれの KW を基に、先ず日本十進分類表（NDC）あるいは中国図書・図書館分類表（CLC）内の分類名辞（図1）を検索し、双方分類標数生成規則に従い分類標数を自動生成し、その分類標数を基に China-MARC-DB あるいは Japan-MARC-DB の検索を行うシステムである。ここで対象とする MARC-DB である Japan-MARC と China-MARC は、どちらも UNIMARC に準拠している。

　一方、図書館における国外の収集資料の蔵書管理は、一般的に各国別の蔵書構成の基に行われている。但し、国内利用者の為に、配架分類は当該図書館利用の分類法に従い行われているのが通常である。このことから日本図書に対し北京図書館おいては、CLC に基づく配架分類標数の作成に、 Jpan-MARC-DB 内の NDC 分類標数を参考に作成している。そこで、CLC に基づく配架分類標数の作成に、当システム内の配架分類標数を自動生成する機能が利用可能となっている。

　以下、次章において開発システム機能の概要を示し、3章において当システムの実利用の為に開発を必要とする課題について述べる。

2 開発システム機能の概要

　本システムは、日本語 KW を用いて China-MARC を、中国語 KW を用いて Japan-MARC を検索することを目的とする。本システムに必要な機能は以下の5つの機能と NDC と CLC の間の相互対照表のデータである(図2)。

1. 日中の KW よりシソーラス展開済み NDC もしくは CLC 分類標数を検索・抽出する機能

2. 検索した分類標数と同一概念をあらわす分類標数を対照表を用いて変換する機能

3. 分類標数生成規則に基づいて配架分類標数を自動生成する機能

4. 生成された分類標数を用いて MARC-DB を検索する機能

5. 表示のため検索された MARC データ中の文字コードである JIS コードと GB コードを変換する機能

以下で、上の5つの機能について述べる。

2.1 分類標数の検索と変換

2.1.1 KW が日本語の場合

検索指示 KW が日本語の場合、シソーラス展開済みの NDC 内の語に対し検索する。NDC 分類標数が複数検索された場合、利用者が一意の分類標数を選択する(図3)。選択された分類標数を基に、対照表(図 4)を用いて同一概念を表す CLC 分類標数に変換する。以下の手順により、日本語 KW から CLC の分類標数へと変換する。

(Step 1) 検索指示日本語 KW を基にシソーラス展開済みの NDC 分類名辞を前方一致により検索する

(Step 2) 検索された名辞に対応する NDC 分類標数を抽出する

(Step 3) 利用者が選択した NDC 分類標数を基に対照表を検索し、CLC 分類標数を認識する

検索される NDC 分類標数は1つとは限らない。そこで、利用者は Step 2 の検索結果に対し一意の NDC 分類標数を選択する。また、NDC 分類標数と CLC 分類標数は必ずしも 1 対 1 に対応するとは限らない。したがって、Step 3 で認識された CLC 分類標数が複数である可能性がある。

2.1.2 KW が中国語の場合

検索指示 KW が中国語の場合、シソーラス展開済みの CLC 内の語に対し検索する。CLC 分類標数が複数検索された場合、利用者が一意の分類標数を選択する(図3)。選択された分類標数を基に、対照表(図4)を用いて同一概念を表す CLC 分類標数に変換する。以下の手順により、中国語 KW から NDC 分類標数へと変換する。

(Step 1) 検索指示中国語 KW を基に CLC 分類名辞展開シソーラスを前方一致により検索する

(Step 2) 検索された名辞に対応する分類標数を抽出する

(Step 3) 利用者が選択した CLC 分類標数を基に対照表を検索し、 NDC 分類標数を認識する

検索される CLC 分類標数は 1 つとは限らない。そこで、利用者は Step 2 の検索結果に対し一意の CLC 分類標数を選択する。また、CLC 分類標数と NDC 分類標数は必ずしも 1 対 1 に対応するとは限らない。したがって、Step 3 で認識された NDC 分類標数が複数である可能性がある。

2.2 分類標数の生成

　分類標数は、資料の主題をあらわす「主題標数」と資料の形態などをあらわす「補助標数」とを組み合わせて生成する。

すなわち、 {主題標数}+{補助標数} で構成する。

例として「情報科学辞典」という NDC 分類標数を生成してみる。主題をあらわす KW は「情報科学」で、形態をあわらす KW は「辞典」である。NDC においては「情報科学」には"007"という主題標数が与えられており、「辞典」には補助標数の 1 つである形式区分標数"033" が与えられている。両者の分類標数を生成規則に従って生成すると、007.033"となる (主題標数と補助標数の間にピリオドを打つ)。

CLC の標数は、英数字と数種類の記号で構成されている。「情報学辞典」という CLC 分類標数を生成してみる。「情報科学」に相当する「情報学」には"G350" という主題標数が与えられており、「辞典」には補助標数の 1 つである総記再区分標数"-61" が与えられている。両者の分類標数を生成規則に従い生成すると"G350-61" となる(図5)。

このように、分類標数の構造はおよび分類標数の組合せ規則は、分類表のよって異なる。したがって、分類標数を生成するためにはそれぞれの分類表の分類標数生成規則に従わなければならない。このため、分類標数の生成には分類標数生成規則に関する専門的な知識が必要となる。

そこで、ユーザが分類標数の生成規則に専門的な知識を持たなくても分類標数を生成できるよう、それぞれの生成規則に必要な注記情報を抽出し、分類標数を自動的に生成する機能化を試みた。

2.3 MARC-DB の検索

　Japan-MARC には NDC の分類標数のためのサブフィールド(タグ＝"677")が設けてあり、ほとんどのレコードに NDC の分類標数が付与されている。また、China-MARC にも CLC の分類標数のためのサブフィールド(タグ＝"690")が設けてあり、ほとんどのレコードに CLC の分類標数が付与されている。

　そこで、ユーザが入力した KW に基づいて生成された分類標数と MARC に付与されている分類標数との比較によって検索を行う(図6)。

2.4 文字コードの変換

本システムでは、検索の際に日本語と中国語の入力を行うことが求められる。また、日中 MARC データはそれぞれの国の標準文字コードである JIS もしくは GB で記述されている。利用者は、入力を日本語もしくは中国語でおこなう。したがって、MARC 検索の結果を表示するときには、日本語入力に対する表示は日本語で、中国語入力に対する表示は中国語で行なうことが必要である。逆に出力結果は日中の文字変換を行なう必要がある。したがって、文字コードの変換のためのシステム[4]を組み込み文字コードの変換を行なうことで表示を行なうこととした。

以上のシステム機能により、日本語 KW で China-MARC を、中国語 KW で Japan-MARC を検索できるシステムを実現した。

3 おわりに

　前章で示した当システム機能に対し、分類表および Japan/China-MARC の一部デ－タをテスト・デ－タとしてシステムに搭載し、実際に北京図書館にてシステム説明を行った結果、十分利用価値あるものとの判断を得た。しかし、実利用に供するには、主に下記4点の実整備が必要になる。

1)NDC/CLC 分類標数の相互参照デ－タの完成

　資料管理を目的とする分類表に、国際十進分類表 (UDC) があるが、図書館の蔵書管理には、各国固有の文化等を基に各国において作成されている分類表が実際には利用されている。この結果、分類体系は各分類表において微妙に異なっている。日中の図書館においても NDC と CLC が利用されており、双方の分類体系が異なることから、日中 KW による分類標数の相互検索の為に、双方個々の分類標数に対する相互参照デ－タの作成が必要になる。

2) 分類名辞のシソ－ラス展開

　分類標数に対する分類名辞は、個々の分類標数の概念範疇を呈示する役割を持ち、通常、代表的な KW あるいはキ－フレイズ（句）、もしくは語例により呈示されている。現行の分類表 (図1)は、人間（分類標数作成者）が使用することを前提に作成されており、その数は十分でなく、指示 KW に対し過不足の状態にある。そこで、今回作成した NDC 分類名辞展開シソーラス(図7)は、NDC の機械可読データである NDC・MRDF8[4]の分類表本表中の分類名辞を中心に、分類名辞と完全一致した JICST シソーラスの見だし語(図8)、および分類表付属の相関索引(図9)をもとに、シソーラス展開を行なった。このように、検索率を補償する為には、全ての分類名辞に対して、少なくとも十分な同義語展開が必要になるのと同時に、図書館における同義語更新を可能とするシステム機能の提供が必要になる。

3) 分類標数自動生成機能の完全化

　配架分類標数は、資料の配架上、基本的には資料の主題標数と形態標数の組み合わせによって構成することになっている。当組み合わせ（分類標数生成）規則は、主題特性および形態特性に基づき、各分類表内の分類標数に、必要に応じ個々に注記として記述されている。分類標数の生成には、当注記を理解し生成する必要があり、システム化には当機能の完全化が必要になる。

4) 分類標数生成規則の更新機能化

　分類標数生成規則は、上記のように分類表別に制定されているが、それは標準的なものであり、通常、各図書館の特性の基に、各図書館固有の運用規則にて修正し、利用している。そこで、当システム提供の標準的な分類標数生成規則に対して、各図書館において分類標数生成規則を修正できるシステム機能の提供が必要になる。

参考文献

[1] 三日市紀子, 石川徹也 . 電子図書館における専門用語の課題－検索インタ－フェイスとしての複合語生成・翻訳システム－. 専門用語研究, pp. 3-10, 1995.

[2] T. Ishikawa. The Man-Machine Interface Aspect of an Automatic Classification Numbering System in a Computerized Library System. J. Information Procesing, Vol. 3, pp. 119-205, 1988.

[3] T. Ishikawa, T. Nakamura, and Y. Nakamura. UDC Number Automatic Combination System (UDC-AUTCS). Proceedings of the 3rd International ISKO Coference, pp. 328-333, 1994.

[4] 日本図書館協会編. NDC・MRDF8. 日本図書館協会, 1989.

[5] 安岡孝一, 一谷素子 . GB 漢字 ←→ JIS 漢字相互変換ツールの開発. 開発研究論文集 / 全国共同利用大型計算機センター, Vol. 16, pp. 67-74, 1994.

[6] http://www.ifcss.org/ftp-pub/software/x-win/cxterm/.