海外利用者のための日本語OPAC

藤田岳久, 前田亮, 阪口哲男, 杉本重雄, 田畑孝一
図書館情報大学
〒305 茨城県つくば市春日1-2
Tel: 0298-52-0511 Fax: 0298-52-4326
E-mail: {take, maeda, saka, sugimoto, tabata}@ulis.ac.jp

概要

我々の開発した海外利用者のための日本語OPAC(MOPAC)は、日本語環境を持たない WWWブラウザから日本語資料の検索を行うためのOPACである。 MOPACは、我々が開発したワークステーションベースのOPACを基に、我々の提案している多言語HTMLに基づくMHTMLエンコーダおよびMHTMLブラウザと EDR電子化辞書により構成される。 MOPACの利用者は、ローマ字または英単語からの検索が可能であり、英単語は電子化辞書により日本語単語に翻訳されて検索が行われる。今後、電子化辞書を利用して、ローマ字漢字変換機能、類義語検索などの拡張を行う。

キーワード

OPAC, 多言語環境, 電子化辞書, WWW

Japanese OPAC for Overseas Users

Takehisa Fujita, Akira Maeda, Tetsuo Sakaguchi, Shigeo Sugimoto, Koichi Tabata
University of Library and Information Science
1-2 Kasuga, Tsukuba, Ibaraki, 305, JAPAN
Phone: +81-298-52-0511 Fax: +81-298-52-4326
E-mail: {take, maeda, saka, sugimoto, tabata}@ulis.ac.jp

Abstract

Japanese OPAC for overseas users, called MOPAC, is a WWW-based OPAC system which doesn't require the Japanese browsing environment. MOPAC consists of the OPAC system we have developed on workstations, MHTML encoder and browser based on the Multi-lingual HTML we have proposed, and the EDR Electronic Dictionary. MOPAC users can use ``roma-ji'' words and English words as retrieval terms, and English words are translated into Japanese words before retrieval. We are planning to incorporate ``roma-ji to kanji'' translation function and related term retrival function into MOPAC, using the EDR Electronic Dictionary.

Keywords

OPAC, Multi-lingual environment, electronic dictionary, WWW

1. はじめに

インターネットによるOPACの公開は、米国では以前からごく普通に行われてきており、最近日本でも多数の図書館がOPACの公開を行うようになってきた。また、WWWによる公開も見られるようになってきた[1]。

図書館においては一般的に、収集する資料の使用言語の制限は行っていない。よって、OPACも様々な言語に対応することが望ましい。しかし、WWWブラウザで表示できる文字はクライアントマシンの持つフォントに依存しており、ほとんどのマシンが自国語以外にはASCIIのフォントしか持っていないという現状では、WWWサーバが様々な言語によるOPACを提供したとしても対応するフォントがない言語は正しく表示されない。また、フォントセットに含まれない文字、例えば「秘」という字を丸で囲んで「まるひ」と読ませるような「合字」はサーバで提供することができない。

我々の開発した「海外利用者のための日本語OPAC」(以下MOPAC)は、多言語対応OPACへのアプローチの第一歩として、日本語環境を持たないWWWブラウザからの利用を可能としたOPACである。 MOPACは、我々の提案しているMHTMLおよびMHTMLブラウザ[2][3][4]を利用して、多言語表示を可能としている。ローマ字による日本語資料の検索が可能なので、日本語入力環境を持たないマシンでも利用することができる。さらに、英和辞典を内蔵することにより入力した英語の単語や句を日本語単語や句に翻訳して検索することができ、日本語能力が十分でなく英語を解する外国人利用者でも「意味のわかる言葉」からの日本語資料の検索を行うことができる。

本稿では、MOPACの構成および利用について述べる。

2. MOPACの構成

MOPACは、我々が開発したワークステーションベースのOPAC[5][6](以下XOPAC)のデータベースと検索エンジンを核に、 WWWサーバ、MHTMLエンコーダ、外字フォントサーバ、 EDR電子化辞書[7][8]によって構成している。また、利用の際はWWWブラウザ(Mosaic)とMHTMLブラウザを用いる。 XOPACのデータベースと検索エンジンには一切手を加えていない。

図1にMOPACの構成を示す。 WWWブラウザから発せられた検索/翻訳要求はWWWサーバから MOPACインタフェースに渡される。検索要求ならばXOPACにアクセスし、翻訳要求ならば電子化辞書にアクセスする。いずれの場合も結果はMHTMLエンコーダで変換される。 MHTMLエンコーダは必要に応じて外字フォントサーバにアクセスする。 WWWブラウザは、返されたMHTML文書をMHTMLビューアによって表示する。

以下、各構成要素について解説する。

XOPAC

大型計算機上のOPACをワークステーションに移植したものである。大型計算機からダンプしたデータをフォーマット変換してワークステーションに転送し、 SONY MediaFinderによってデータベース化した。漢字、カタカナによる読み、ローマ字(訓令式、ヘボン式)による読み、アルファベットによる検索が可能である。また、X-Windowによる専用のグラフィカルユーザインタフェースを持つ (今回は使用していない)。

MHTMLエンコーダと外字フォントサーバ

MHTMLエンコーダは、データベースから検索された書誌記述をMHTML文書に変換する。書誌記述が前述の合字のような「外字」を含んでいる場合は、外字フォントサーバからフォントデータを得てMHTML文書を構成する。

我々は既に汎用のMHTMLエンコーダ(MHTMLゲートウェイ[4])を開発しているが、 MOPACにおいては変換するデータの構造(タイトル、著者名などの書誌事項)を意識する必要があり、また、外字フォントサーバとやりとりをする必要があるため、 MOPACのためのエンコーダを新たに開発した。

MHTMLビューア

MHTML文書は、テキストデータとそれを表示するためのフォントデータを含んでおり、読むためには専用のビューアが必要である。今回は、我々が既に開発したMHTMLビューアをそのまま利用した。

EDR電子化辞書

(株)日本電子化辞書研究所がコンピュータによる言語処理のために開発した大規模な機械可読辞書である。日英それぞれの単語辞書、日英・英日対訳辞書、言葉の係り受けの関係を収めた共起辞書、単語辞書中で定義した概念の類義を記述する概念辞書(シソーラス)、辞書記述の典拠としてのコーパスデータベース(例文集)から成る。今回は、英日対訳辞書を利用した。本辞書はプレーンテキスト形式で提供されているので、 UNIX標準の簡易DBMSであるNDBMを利用してデータベース化した。

3. MOPACの利用

利用者がWWWブラウザを用いてMOPACに検索要求を発すると、 MOPACはデータベースの検索を行い、結果MHTML形式で返す。 WWWブラウザはMHTML文書を受けとるとMHTMLビューアを起動し表示する。また、利用者が英単語を与えて翻訳を指示すると、 MOPACは辞書を用いて日本語単語をリストアップする。利用者がいずれかの日本語単語を選択するとその単語によってOPACを検索する。

図2にMOPACの検索語入力ページの様子を示す。ローマ字による検索語を入力し、検索範囲(Title, Authorなど)を指定して検索を開始すると、図3のようにMHTMLビューアによってタイトルと著者名のみの簡略結果表示を行う。いずれかを選択すれば、図4のように詳細表示を行う。なお、図4の詳細表示には、外字フォントサーバに収められた文字 (「知」という字を丸で囲んだ字)の表示が含まれている。

検索語入力の際に英語単語を入力し、``Translate into Japanese''をクリックして検索を開始すると、図5のように日本語単語をリストアップする。いずれかをクリックするとその語によって検索を行い、結果の簡略表示を行う。

4. おわりに

MOPACはローマ字からの日本語資料の検索を可能としているが、これには「同音異義語による検索精度の低下」という問題が残る。 EDR電子化辞書の日本語単語辞書は各単語の読みを収めているので、「ローマ字漢字変換機能」をサーバに持たせれば (例えば、MOPACの翻訳機能と同様に、「koukou」と入力し漢字変換を指示すると「高校」「孝行」「航行」などの候補一覧を表示し、利用者がいずれかを選択するとその語によって検索を行う)、この問題は解決できる。また、EDR電子化辞書の持つ概念辞書を利用すれば、検索語の類義語・上位概念語・下位概念語による検索が可能となり、網羅的な検索を行うことができる。いずれも今後実現の予定である。

参考ドキュメント

[1] 林賢紀. 日本国内図書館OPACリスト Ver 13.0. http://ss.cc.affrc.go.jp/ric/opac/opac.html

[2] 前田亮他. 組み込みフォントを必要としないWWWのための多言語ブラウザ. ディジタル図書館. No. 4, p.21-25(1995) (http://www.dl.ulis.ac.jp/DLjournal/No_4/maeda/maeda.html)

[3] A. Maeda; et al. A Multilingual Browser for WWW without Preloaded Fonts. Proceedings of 1995 International Symposium on Digital Libraries. p.269-270, 1995.

[4] T. Sakaguchi; et al. A Brouwsing Tool for Multi-lingual Documents for Users without Multi-lingual Fonts. (1996年3月に米国Maryland州Bethesdaで行われるDigital Library '96にて発表予定。http://fox.cs.vt.edu/DL96/ を参照)

[5] 藤田岳久他. 分散環境を利用したCD-ROMオンラインカタログシステム. 情報処理学会研究報告, Vol.93, No.39, p.43-50, 1993. (情報学基礎研究会FI-29)

[6] T. Fujita; et al. Transporting an Online Public Access Catalog from Mainframe to Distributed Environment. Proceedings of 47th FID Conference, p.444-448, 1994.

[7] EDRとEDR電子化辞書. http://www.iijnet.or.jp/edr/Intro.html

[8] EDR電子化辞書仕様説明書. http://www.iijnet.or.jp/edr/TG.html