オープンソースソフトウェアGreenstoneによる 古いマニュスクリプトコレクションの開発 - Jawi語(マレーシア国立図書館)と日本語のケーススタディ -

北村啓子
国文学研究資料館
〒140-8585 品川区豊町1-46-10
Tel: 03-3785-7131 Fax: 03-3785-4456
keiko@nijl.ac.jp
ワイカト大学
マラヤ大学

概要

オープンソースのデジタルライブラリソフトウェア Greenstoneに焦点をあて る。古い言語で書かれたマニュスクリプトの調査・研究を目的としたコレクショ ンを、非計算機専門家である"end-user"自身が作ることを目指して、 Greenstoneの適用、評価を行う。具体的に、マレーシアの古い母国語である Jawi語のマニュスクリプト(マレーシア国立図書館所蔵)と日本語のマニュ スクリプトを使った開発事例を紹介する。ここで出てきた問題ならびに今後の 取り組みについて述べる。

キーワード

オープンソースソフトウェア、デジタルライブラリ、Greenstone、マニュスクリプト、Jawi,マレーシア国立図書館、日本語

Ancient manuscript collection on Greenstone open source system - case study of Jawi at National Library of Malaysia and Japanese -

Keiko Kitamura
National Institute of Japanese Literature
1-16-10 Yutaka-cho, Shinagawa-ku, Tokyo 142-8585
Tel: +813-3785-7131 Fax: +813-3785-4456
keiko@nijl.ac.jp
University of Waikato, New Zealand
University of Malaya, Malaysia

Abstract

In this paper it is discussed what is feature of manuscript in ancient language, and what is necessary function for ancient manuscript in Digital Library system. Then as case study it is reported development of Jawi manuscript collection owned by National Library of Malaysia and ancient Japanese manuscript collection. We used "Greenstone" open source to proof ability of multilingual use, multimedia, customizing and enhancing system. And also to evaluate usability and productivity by librarians.

Keywords

open source software, Digital Library, Greenstone, ancient Manuscript, Jawi, National Library of Malaysia, old Japanese

1.はじめに

オープンソースのデジタルライブラリソフトウェアが開発され実用的なものに 進化してきている。代表的なものとして Greenstone(University of Waikato) [1], Dspace(MIT University), Fedora(University of Virginia)があげられ る。オープンソースソフトウェアの大きなメリットは、実用的な現実問題に適 用した結果のフィードバックがユーザから開発者に戻りより良いものに改良さ れていく点、またユーザが自分達の要求に合わせて自由に改変することが可能 である点である。中でもGreenstoneは軽装な計算機環境で稼動が可能な実用的 なシステムであり、かつ"end-user building"を目的にした非計算機専門家も 容易に使えるインタフェース(GLI: Greenstone Librarian Interface)[2][3][4]を提供している。

古い言語で書かれたマニュスクリプトの調査、研究を目的としたコレクション を個人や小グループの(非計算機専門家の)end-user自身が作ることを目指し、 Greenstoneを利用することにする。本稿では事例としてJawi語と日本語のマニュ スクリプトコレクションの開発報告を行う。

2.Greenstoneとは

GreenstoneはGNU General Public Licenseの下に配布されている デジタルライブラリを構築、サービスするオープンソースソフトウェアである。

構築システムとサービスシステム、構築システムを簡便に使うためのインタフェー スGLIからなる。構築システムはPerlで開発され、ドキュメント種類に応じた 処理コンポーネントであるPlugin群、高速インデックスMGを作成するコマン ド群、コレクションデータを生成するコマンド群からなる。サービスシステム はC++で開発され、汎用のWeb Serverを使ったCGIプログラムとして実現されて いる。GLIはJavaで開発され、コレクション作成の指定をビジュアルに行うこ とが可能で、設定変更を即座に反映しrebuild&previewを繰り返し効率的に開 発できる。ユーザの技術力に合わせ4段階のモードが準備され、ソースドキュ メントの指定だけで自動的に標準的なコレクションが生成される初心者用から 複雑なドキュメントの構造に合わせた詳細なoptionを指定できるexpert用まで 使い分けが可能である。

主な機能を紹介する。

ドキュメント種類毎にPluginが準備されており、ソースドキュメントのコレク ション内部形式(XML形式)への変換、メタデータの自動抽出が行われる。各ド キュメントの記述能力に合わせてoptionが多く準備され、様々なコレクション のアクセス構造を作成することが可能。end-user向けに、ソースドキュメント の種類、構造に合わせた標準的なコレクションのアクセス構造を自動的に生成 する(標準設定)強力な機能がサーポートされている。

<Pluginの種類>

BibTexPlug BookPlug EMAILPlug ExcelPlug FoxPlug HBPlug HTMLPlug ImagePlug IndexPlug ISISPlug LaTeXPlug MARCROPPlug MARCPlug METSPlug MP3Plug OAIPlug OggVorbisPlug PagedImgPlug PDFPlug PPTPlug ProCitePlug PSPlug RecPlug ReferPlug RogPlug RTFPlug SRCPlug TEXTPlug UnkownPlug W3ImgPlug WordPlug ZIPPlug

フルテキストサーチ(全ドキュメントまたは部分ドキュメント内)とフィール ドサーチ(メタデータ)の機能を持つ。ギガバイトを超えるドキュメントを扱 えるindexingとcompressionアルゴリズム"MG"[6]を使用し、高速を実現して いる。

ドキュメントを分類したビューからのアクセス方法をサポート、階層構造を持 つ分類も可能。標準のTitleだけでなくType, Organization, Subjectなど metadataによる分類も可能。

コレクションを表示する検索結果ビュー、分類ビューなどの表示フォーマット の定義。ドキュメント種類、構造やClassifierの指定に従って自動的に標準フォー マットが生成されるのでend-userはそのまま実行可能。フォーマットはHTMLタ グ形式で記述されているので、表示項目、レイアウティング、装飾的表示など 容易に変更可能。

の3 setが用意されている。他のsetも拡張定義可能。外部ファイルのimport, GLIでの定義、データ入力の両方とも可能。

特徴を列挙しておく。

demo            Greenstone demo
dls-e           Development Library Subset collection
wrdpdf-e        MSWord and PDF demonstration
gsarch-e        Greenstone Archives collection
cltbib-e        Bibliography collection
cltext-e        Bibliography supplement
MARC-e          MARC example
oai-e           OAI demo
image-e         Simple image collection
authen-e        Formatting and authentication demo
garish          Garish version of demo collection
isis-e          CDS/ISIS example

3.Jawiコレクションの開発事例

3.1.Jawiコレクションとは

Jawiは古いマレーシアの母国語であり(現代のマレーシア語はJawiをローマ字 表記にしたもの)、Jawi言語で書かれた文学的、歴史的、文化的、宗教的な遺 産が多く現存する。マレーシア国立図書館(PNM: Perpustakaan Negara Malaysia)の Centre for Malay Manuscripts では、約3,000タイトルのオリジ ナル本と約2,500点のマイクロフィルムを収集、保存している。既に画像デジ タル化を終了し、一部ユーザへの試行サービスを行っている。 http://digiserver.pnm.my/manuskrip/

GreenstonのJawi Manuscriptへの適用事例として、PNM所蔵画像を使用する機 会を得た。PNMはGreenstoneでのユーザサービスを検討しており、両者で評価 するここととなった。PNMは前頁スキャンニングした画像にコンテンツリスト (章立て)を付与し、冊子単位でPDFファイルに変換している。別に書誌情報 を作成し、SQLベースの検索システムを開発している。

 書誌情報の項目リストと例
----
Titles  :       HikadatafromZaffdinbymailyat Bulan Berbelah        
Type    :       Literature         
Author/Corp.    :       -          
Subject Keyword :       Nabi Muhammad s.a.w.       
Subject (LCSH)  :       Islamic literature Malay literature        
Collation       :       -          
Note    :       -          
Abstract/Summary        :       -          
Call Manuscript Number  :       MSS 681 (E)        
Copyist :       -          
Year Written*   :       -          
Year Copied*    :       -          
Content :       C
-------
 * ancient manuscript固有の書誌情報(言語を問わず)

3.2.試行版の開発手順


fig. Conversion from archives in SQLServer to greenstone

1. Extract pdf and metadata from RDBMS

We extract pdf files consist of all page images for each manuscript books and bibliographic information data in ascii text.

2.Convert metadata(.rtf) into dublin core xml

We developed convertor program "dcgen.pl" that convert metadata from original bibliographic information data to dublin core xml.

変換後のmetadata.xml
----- converted by 'dcgen.pl'
<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE GreenstoneDirectoryMetadata SYSTEM "http://greenstone.org/dtd/GreenstoneDirectoryMetadata/1.0/GreenstoneDirectoryMetadata.dtd"><GreenstoneDirectoryMetadata>
     <FileSet>
         <FileName>.*681(E).*</FileName>
         <Description>
             <Metadata name="dc.titles">HikadatafromZaffdinbymailyat Bulan Berbelah</Metadata>
             <Metadata name="dc.type">Literature</Metadata>
             <Metadata name="dc.creator">-</Metadata>
             <Metadata name="dc.subject">Nabi Muhammad s.a.w.</Metadata>
             <Metadata name="dc.subjectLCSH">Islamic literature Malay literature</Metadata>
             <Metadata name="dc.description">-</Metadata>
             <Metadata name="dc.identifire">MSS 681 (E)</Metadata>
             <Metadata name="dc.rights">-</Metadata>
             <Metadata name="dc.YearWritten">-</Metadata>
             <Metadata name="dc.YearCopied">-</Metadata>
         </Description>
     </FileSet>
     .......
--------

3.Greenstone: convert pdf into html

4.GLI: Design indexing, classifying, formatting

There are 4 ways to find information in this collection:

 search for particular words 
 access publications by title ordered a-z (default)
 access publications by dc.type ordered a-z 
 access publications by dc.LCSH ordered a-z 


fig. GLI画面

5.Greenstone: building collection



fig. ブラウジング画面

New Zealand Digital Libraryプロジェクト(http://nzdl.org/) のデモコレク ションへの登録を準備中である。

4.日本語コレクションの開発事例

古い言語のmanuscriptではそこに描かれている文字情報も重要なデータであり、 両者を共に扱えるインタフェースが必要である。古い本の場合容易に理解でき るインタフェースは各頁ごとに手書き画像と翻刻されてテキストが同一頁内に 並べて表示され、同期して頁めくりができるものである[7]。

Greenstoneプロジェクトの開発メンバと検討し、画像とテキストのペアを同一 頁に表示するPlugin: PagedImgPlugを準備した(Greenstone release2.6以降バ ンドルされている)。このPluginを使った例を紹介する。

著者の所属する機関所蔵の好色一代男をデジタルカメラ撮影したjpeg画像34 ファイルと書籍デジタル化委員会電子図書館公開の翻刻テキストを使用した。 Plugin用に各頁に分割したテキスト、ならびに画像ファイル名とテキストの対 応テーブルを準備する必要がある。プレ処理として、翻刻テキストに画像に合 わせた改頁コードを入力すれば、頁毎にテキストをファイル分割し、対応テー ブルを生成するプログラムを作成した。


fig. ブラウジング画面

本稿では詳細に触れないが、日本語ドキュメントに対してword単位でのindex 作成をするよう奈良先端大学院大学で開発された茶筅'Chasen'の組み込みを行っ た。非分かち書き言語として中国語には取り組まれていた[8]。

5.おわりに

今回は本稿で報告した画像とテキストのペアを同一頁に表示するPluginの汎用 的な仕様に合わせて、画像ごとに分割した翻刻テキストファイルを準備した。 翻刻テキストの場合、頁単の対応が明確なので、テキスト中に改頁をマークアッ プし、メタデータとして定義してPluginで頁単位、頁対応の処理をするよう Pluginを改造の予定である。

日本語のマニュスクリプトコレクションを一見してわかるように、日本語の縦 書き書法とテキスト表示は一致していない。固有のソフトウェアでは縦書き/ 縦表示を実現しているものがある(著者開発[7])が、マニュスクリプトのオ リジナル画像との両用を想定すると汎用のWeb Browserで実現したい。

University of WaikatoのGreenstoneプロジェクトはユーザサポートに大きな 力を注いでいる。特に発展途上国での情報発信を支えることを目標にしており、 UNESCOのサポートも受けている。システム開発費や高価な計算機、潤沢なエン ジニアスタッフがなくとも、end-user自身が情報を整理、発信できるよう多く の支援を行っている。Greenstoneスタッフがトレーニングコースを作成し指導 に出向いたり、MLによる技術的、操作的アドバイス、またそこから要求を吸収 しGreenstone自身の頻繁な改造を日々継続している。

 日本国内でもend-user自身で情報発信をしたいと考えている人には非常に有 益なソフトェウアと言える。先に述べた日本語形態素解析'Chasen'を組み込ん だ版を日本語版として配布をし(Greenstoneプロジェクトとしては辞書のデー タサイズの問題があるため本体に組み込みではなく別に日本語版としてのCD配 布が現実的と考えている)、国内ユーザの技術サポートにあたる準備をしてい る。

 UNICODEの普及、Web browserのUTF-8対応によりこのコードを使うだけでユー ザ環境を考慮することなく容易にマルチリンガル対応が可能になった。多くの デジタルライブラリシステムでもUTF-8を採用することによりマルチリンガル 対応済みと理解していると思われる。しかしながら実際には優れたデジタルラ イブラリシステムを生み出している技術先進国の多くがローマンアルファベッ ト言語圏であり、検索インデックスで致命的な問題を抱えていることは意外に 認識されていない。Greenstoneでの経験を生かし、今後も優れたオープンソー スソフトウェアの日本語対応にも取り組みたい。

Jawi Manuscriptの事例では、研究者によって翻刻された現代マレーシア語 (Bahasa Melayu)のテキストはPNMが所有するが電子化されていないので画像デー タのみのコレクションとした。現在マレーシアは国を挙げてJawi復興が必要と 考え初等学校教育を始め、計算機利用を前提とした表記の統一、電子辞書作成 にも力を入れている。近いうち分かち書きの問題が出てくる可能性がある。現 代語でも中国語、韓国語、タイ語など特にアジアには非分かち書き言語が多く あり、共有しうる技術基盤の可能性がないか探りたい。

References

[1] Witten, I.H., McNab, R.J., Boddie, S.J., and Bainbridge, D. (2000) "Greenstone: A comprehensive open-source digital library software system" Proc Digital Libraries 2000, 113-121, San Antonio, Texas, June.

[2] Witten, I.H. (2004) "Creating and Customizing Digital Library Collections with the Greenstone Librarian Interface." International Symposium on Digital Libraries and Knowledge Communities in Networked Information Society, University of Tsukuba, Tokyo.

[3] Witten, I.H., Bainbridge, D., and Boddie, S.J. (2001) "Power to the people: end-user building of digital library collections" Proceedings Joint Conference on Digital Libraries, 94-103, Roanoke, VA, June.

[4] Witten, I.H. and Bainbridge, D. (2003). How to Build a Digital Library. Morgan Kaufmann, San Francisco, CA.

[5] Witten, I.H., Bainbridge, D., Paynter, G. W. and Boddie, S. (2002) "The Greenstone plugin architecture." Proceedings Joint Conference on Digital Libraries, 285-286. Portland, Oregon.

[6] Witten, I.H., Moffat, A., and Bell, T.C. (1994) Managing gigabytes: compressing and indexing documents and images. Van Nostrand Reinhold, New York.

[7] K.Kitamura, J. Leggett : Representing Ancient Books for Human Science ResearchBased on a Hypermedia Model., Proc. of 29th HICSS, Vol.?U:8(147-154)(1996)

[8] Teahan, W.J., Wen, Y., McNab, R., and Witten, I.H. (2000) "A compression-based algorithm for Chinese word segmentation" Computational Linguistics, 26 (3) 375-393, September.