オープンソースソフトウェアGreenstoneによる古いマニュスクリプトコレクションの開発 - Jawi語（マレーシア国立図書館）と日本語のケーススタディ -

北村啓子
国文学研究資料館
〒140-8585 品川区豊町1-46-10
Tel: 03-3785-7131 Fax: 03-3785-4456
keiko@nijl.ac.jp
ワイカト大学
マラヤ大学

概要

オープンソースのデジタルライブラリソフトウェア Greenstoneに焦点をあてる。古い言語で書かれたマニュスクリプトの調査・研究を目的としたコレクションを、非計算機専門家である"end-user"自身が作ることを目指して、 Greenstoneの適用、評価を行う。具体的に、マレーシアの古い母国語である Jawi語のマニュスクリプト（マレーシア国立図書館所蔵）と日本語のマニュスクリプトを使った開発事例を紹介する。ここで出てきた問題ならびに今後の取り組みについて述べる。

キーワード

オープンソースソフトウェア、デジタルライブラリ、Greenstone、マニュスクリプト、Jawi,マレーシア国立図書館、日本語

Ancient manuscript collection on Greenstone open source system - case study of Jawi at National Library of Malaysia and Japanese -

Keiko Kitamura
National Institute of Japanese Literature
1-16-10 Yutaka-cho, Shinagawa-ku, Tokyo 142-8585
Tel: +813-3785-7131 Fax: +813-3785-4456
keiko@nijl.ac.jp
University of Waikato, New Zealand
University of Malaya, Malaysia

Abstract

In this paper it is discussed what is feature of manuscript in ancient language, and what is necessary function for ancient manuscript in Digital Library system. Then as case study it is reported development of Jawi manuscript collection owned by National Library of Malaysia and ancient Japanese manuscript collection. We used "Greenstone" open source to proof ability of multilingual use, multimedia, customizing and enhancing system. And also to evaluate usability and productivity by librarians.

Keywords

open source software, Digital Library, Greenstone, ancient Manuscript, Jawi, National Library of Malaysia, old Japanese

１．はじめに

オープンソースのデジタルライブラリソフトウェアが開発され実用的なものに進化してきている。代表的なものとして Greenstone(University of Waikato) [1], Dspace(MIT University), Fedora(University of Virginia)があげられる。オープンソースソフトウェアの大きなメリットは、実用的な現実問題に適用した結果のフィードバックがユーザから開発者に戻りより良いものに改良されていく点、またユーザが自分達の要求に合わせて自由に改変することが可能である点である。中でもGreenstoneは軽装な計算機環境で稼動が可能な実用的なシステムであり、かつ"end-user building"を目的にした非計算機専門家も容易に使えるインタフェース（GLI: Greenstone Librarian Interface)[2][3][4]を提供している。

古い言語で書かれたマニュスクリプトの調査、研究を目的としたコレクションを個人や小グループの（非計算機専門家の）end-user自身が作ることを目指し、 Greenstoneを利用することにする。本稿では事例としてJawi語と日本語のマニュスクリプトコレクションの開発報告を行う。

２．Greenstoneとは

GreenstoneはGNU General Public Licenseの下に配布されているデジタルライブラリを構築、サービスするオープンソースソフトウェアである。

構築システムとサービスシステム、構築システムを簡便に使うためのインタフェースGLIからなる。構築システムはPerlで開発され、ドキュメント種類に応じた処理コンポーネントであるPlugin群、高速インデックスＭＧを作成するコマンド群、コレクションデータを生成するコマンド群からなる。サービスシステムはC++で開発され、汎用のWeb Serverを使ったCGIプログラムとして実現されている。GLIはJavaで開発され、コレクション作成の指定をビジュアルに行うことが可能で、設定変更を即座に反映しrebuild&previewを繰り返し効率的に開発できる。ユーザの技術力に合わせ４段階のモードが準備され、ソースドキュメントの指定だけで自動的に標準的なコレクションが生成される初心者用から複雑なドキュメントの構造に合わせた詳細なoptionを指定できるexpert用まで使い分けが可能である。

主な機能を紹介する。

Plugin[5]

ドキュメント種類毎にPluginが準備されており、ソースドキュメントのコレクション内部形式（XML形式)への変換、メタデータの自動抽出が行われる。各ドキュメントの記述能力に合わせてoptionが多く準備され、様々なコレクションのアクセス構造を作成することが可能。end-user向けに、ソースドキュメントの種類、構造に合わせた標準的なコレクションのアクセス構造を自動的に生成する（標準設定）強力な機能がサーポートされている。

<Pluginの種類>

BibTexPlug BookPlug EMAILPlug ExcelPlug FoxPlug HBPlug HTMLPlug ImagePlug IndexPlug ISISPlug LaTeXPlug MARCROPPlug MARCPlug METSPlug MP3Plug OAIPlug OggVorbisPlug PagedImgPlug PDFPlug PPTPlug ProCitePlug PSPlug RecPlug ReferPlug RogPlug RTFPlug SRCPlug TEXTPlug UnkownPlug W3ImgPlug WordPlug ZIPPlug

Indexing

フルテキストサーチ（全ドキュメントまたは部分ドキュメント内）とフィールドサーチ（メタデータ）の機能を持つ。ギガバイトを超えるドキュメントを扱えるindexingとcompressionアルゴリズム"ＭＧ"[6]を使用し、高速を実現している。

Classify

ドキュメントを分類したビューからのアクセス方法をサポート、階層構造を持つ分類も可能。標準のTitleだけでなくType, Organization, Subjectなど metadataによる分類も可能。

format

コレクションを表示する検索結果ビュー、分類ビューなどの表示フォーマットの定義。ドキュメント種類、構造やClassifierの指定に従って自動的に標準フォーマットが生成されるのでend-userはそのまま実行可能。フォーマットはHTMLタグ形式で記述されているので、表示項目、レイアウティング、装飾的表示など容易に変更可能。

metadata
Greenstoneで準備されているDevelopment Library Subset(dls.)
Dublin Core Metadata Element Set(dc.)
Pluginで自動抽出されるExtracted Greenstone(ex.)

の3 setが用意されている。他のsetも拡張定義可能。外部ファイルのimport, GLIでの定義、データ入力の両方とも可能。

特徴を列挙しておく。

標準Web Server(Greenstone自身のserver機能も使用可）を使ったサービスシステム
Web browserでacceess可能
マルチ言語対応　Unicode(UFT-8)を採用することにより、マルチ言語の対象ドキュメントを扱うことが可能
マルチメディアドキュメント対応　text, pictures, audio, and video
マルチ言語インタフェース　38カ国語対応の言語パッケージを提供
マルチプラットフォーム対応(Windows Unix MacOSX)
個人用stand alone環境からシステム管理者を含む共同作業用のサーバ環境
コレクションの追加、修正を独立にシステム止めることなく行えるまで運用形態が可能
コレクション毎にソースドキュメント、configration fileが独立していて、他の環境でもそのまま再構築、実行できる高いポータビリティー
構築されたコレクション（データ、インデックスなど）はファイルシステムとして格納されていて、他のプラットフォームでもそのまま実行可能る
デモコレクション：　多種言語、多種分野、多種コンテンツを New Zealand Digital Libraryプロジェクトのサイト（http://nzdl.org）とCD-ROM distributionに収録している
ドキュメント事例コレクション：　Greenstone distribution(download, CD-ROMとも）にはドキュメン種類ごとごとのサンプルコレクションが添付されている。サービングのイメージだけでなく、GLIでサンプルを見ることにより初心者もコレクション構築時の詳細設定の仕方を自習(シミュレーション）することができる。

demo            Greenstone demo
dls-e           Development Library Subset collection
wrdpdf-e        MSWord and PDF demonstration
gsarch-e        Greenstone Archives collection
cltbib-e        Bibliography collection
cltext-e        Bibliography supplement
MARC-e          MARC example
oai-e           OAI demo
image-e         Simple image collection
authen-e        Formatting and authentication demo
garish          Garish version of demo collection
isis-e          CDS/ISIS example

３．Jawiコレクションの開発事例

３．１．Jawiコレクションとは

Jawiは古いマレーシアの母国語であり（現代のマレーシア語はJawiをローマ字表記にしたもの）、Jawi言語で書かれた文学的、歴史的、文化的、宗教的な遺産が多く現存する。マレーシア国立図書館(PNM: Perpustakaan Negara Malaysia)の Centre for Malay Manuscripts では、約3,000タイトルのオリジナル本と約2,500点のマイクロフィルムを収集、保存している。既に画像デジタル化を終了し、一部ユーザへの試行サービスを行っている。 http://digiserver.pnm.my/manuskrip/

GreenstonのJawi Manuscriptへの適用事例として、PNM所蔵画像を使用する機会を得た。PNMはGreenstoneでのユーザサービスを検討しており、両者で評価するここととなった。PNMは前頁スキャンニングした画像にコンテンツリスト（章立て）を付与し、冊子単位でPDFファイルに変換している。別に書誌情報を作成し、SQLベースの検索システムを開発している。

　書誌情報の項目リストと例
----
Titles  :       HikadatafromZaffdinbymailyat Bulan Berbelah        
Type    :       Literature         
Author/Corp.    :       -          
Subject Keyword :       Nabi Muhammad s.a.w.       
Subject (LCSH)  :       Islamic literature Malay literature        
Collation       :       -          
Note    :       -          
Abstract/Summary        :       -          
Call Manuscript Number  :       MSS 681 (E)        
Copyist :       -          
Year Written*   :       -          
Year Copied*    :       -          
Content :       C
-------
 * ancient manuscript固有の書誌情報(言語を問わず）

３．２．試行版の開発手順

fig. Conversion from archives in SQLServer to greenstone

1. Extract pdf and metadata from RDBMS

We extract pdf files consist of all page images for each manuscript books and bibliographic information data in ascii text.

2.Convert metadata(.rtf) into dublin core xml

We developed convertor program "dcgen.pl" that convert metadata from original bibliographic information data to dublin core xml.

変換後のmetadata.xml
----- converted by 'dcgen.pl'
<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE GreenstoneDirectoryMetadata SYSTEM "http://greenstone.org/dtd/GreenstoneDirectoryMetadata/1.0/GreenstoneDirectoryMetadata.dtd"><GreenstoneDirectoryMetadata>
     <FileSet>
         <FileName>.*681(E).*</FileName>
         <Description>
             <Metadata name="dc.titles">HikadatafromZaffdinbymailyat Bulan Berbelah</Metadata>
             <Metadata name="dc.type">Literature</Metadata>
             <Metadata name="dc.creator">-</Metadata>
             <Metadata name="dc.subject">Nabi Muhammad s.a.w.</Metadata>
             <Metadata name="dc.subjectLCSH">Islamic literature Malay literature</Metadata>
             <Metadata name="dc.description">-</Metadata>
             <Metadata name="dc.identifire">MSS 681 (E)</Metadata>
             <Metadata name="dc.rights">-</Metadata>
             <Metadata name="dc.YearWritten">-</Metadata>
             <Metadata name="dc.YearCopied">-</Metadata>
         </Description>
     </FileSet>
     .......
--------

3.Greenstone: convert pdf into html

4.GLI: Design indexing, classifying, formatting

keyword search by MG for all metadata: including extracted metadata from image data
Classify & order: title, type.LCSH a-z-order… for all metadata available & more complicated classify
Paging on web browser
Source pdf browse also avilable

There are 4 ways to find information in this collection:

 search for particular words 
 access publications by title ordered a-z (default)
 access publications by dc.type ordered a-z 
 access publications by dc.LCSH ordered a-z

fig. GLI画面

5.Greenstone: building collection

fig. ブラウジング画面

New Zealand Digital Libraryプロジェクト(http://nzdl.org/) のデモコレクションへの登録を準備中である。

４．日本語コレクションの開発事例

古い言語のmanuscriptではそこに描かれている文字情報も重要なデータであり、両者を共に扱えるインタフェースが必要である。古い本の場合容易に理解できるインタフェースは各頁ごとに手書き画像と翻刻されてテキストが同一頁内に並べて表示され、同期して頁めくりができるものである[7]。

Greenstoneプロジェクトの開発メンバと検討し、画像とテキストのペアを同一頁に表示するPlugin: PagedImgPlugを準備した(Greenstone release2.6以降バンドルされている）。このPluginを使った例を紹介する。

著者の所属する機関所蔵の好色一代男をデジタルカメラ撮影したjpeg画像３４ファイルと書籍デジタル化委員会電子図書館公開の翻刻テキストを使用した。 Plugin用に各頁に分割したテキスト、ならびに画像ファイル名とテキストの対応テーブルを準備する必要がある。プレ処理として、翻刻テキストに画像に合わせた改頁コードを入力すれば、頁毎にテキストをファイル分割し、対応テーブルを生成するプログラムを作成した。

fig. ブラウジング画面

本稿では詳細に触れないが、日本語ドキュメントに対してword単位でのindex 作成をするよう奈良先端大学院大学で開発された茶筅'Chasen'の組み込みを行った。非分かち書き言語として中国語には取り組まれていた[8]。

５．おわりに

今回は本稿で報告した画像とテキストのペアを同一頁に表示するPluginの汎用的な仕様に合わせて、画像ごとに分割した翻刻テキストファイルを準備した。翻刻テキストの場合、頁単の対応が明確なので、テキスト中に改頁をマークアップし、メタデータとして定義してPluginで頁単位、頁対応の処理をするよう Pluginを改造の予定である。

日本語のマニュスクリプトコレクションを一見してわかるように、日本語の縦書き書法とテキスト表示は一致していない。固有のソフトウェアでは縦書き／縦表示を実現しているものがある（著者開発[7]）が、マニュスクリプトのオリジナル画像との両用を想定すると汎用のWeb Browserで実現したい。

University of WaikatoのGreenstoneプロジェクトはユーザサポートに大きな力を注いでいる。特に発展途上国での情報発信を支えることを目標にしており、 UNESCOのサポートも受けている。システム開発費や高価な計算機、潤沢なエンジニアスタッフがなくとも、end-user自身が情報を整理、発信できるよう多くの支援を行っている。Greenstoneスタッフがトレーニングコースを作成し指導に出向いたり、MLによる技術的、操作的アドバイス、またそこから要求を吸収しGreenstone自身の頻繁な改造を日々継続している。

　日本国内でもend-user自身で情報発信をしたいと考えている人には非常に有益なソフトェウアと言える。先に述べた日本語形態素解析'Chasen'を組み込んだ版を日本語版として配布をし（Greenstoneプロジェクトとしては辞書のデータサイズの問題があるため本体に組み込みではなく別に日本語版としてのCD配布が現実的と考えている）、国内ユーザの技術サポートにあたる準備をしている。

　UNICODEの普及、Web browserのUTF-8対応によりこのコードを使うだけでユーザ環境を考慮することなく容易にマルチリンガル対応が可能になった。多くのデジタルライブラリシステムでもUTF-8を採用することによりマルチリンガル対応済みと理解していると思われる。しかしながら実際には優れたデジタルライブラリシステムを生み出している技術先進国の多くがローマンアルファベット言語圏であり、検索インデックスで致命的な問題を抱えていることは意外に認識されていない。Greenstoneでの経験を生かし、今後も優れたオープンソースソフトウェアの日本語対応にも取り組みたい。

Jawi Manuscriptの事例では、研究者によって翻刻された現代マレーシア語 (Bahasa Melayu)のテキストはPNMが所有するが電子化されていないので画像データのみのコレクションとした。現在マレーシアは国を挙げてJawi復興が必要と考え初等学校教育を始め、計算機利用を前提とした表記の統一、電子辞書作成にも力を入れている。近いうち分かち書きの問題が出てくる可能性がある。現代語でも中国語、韓国語、タイ語など特にアジアには非分かち書き言語が多くあり、共有しうる技術基盤の可能性がないか探りたい。

References

[1] Witten, I.H., McNab, R.J., Boddie, S.J., and Bainbridge, D. (2000) "Greenstone: A comprehensive open-source digital library software system" Proc Digital Libraries 2000, 113-121, San Antonio, Texas, June.

[2] Witten, I.H. (2004) "Creating and Customizing Digital Library Collections with the Greenstone Librarian Interface." International Symposium on Digital Libraries and Knowledge Communities in Networked Information Society, University of Tsukuba, Tokyo.

[3] Witten, I.H., Bainbridge, D., and Boddie, S.J. (2001) "Power to the people: end-user building of digital library collections" Proceedings Joint Conference on Digital Libraries, 94-103, Roanoke, VA, June.

[4] Witten, I.H. and Bainbridge, D. (2003). How to Build a Digital Library. Morgan Kaufmann, San Francisco, CA.

[5] Witten, I.H., Bainbridge, D., Paynter, G. W. and Boddie, S. (2002) "The Greenstone plugin architecture." Proceedings Joint Conference on Digital Libraries, 285-286. Portland, Oregon.

[6] Witten, I.H., Moffat, A., and Bell, T.C. (1994) Managing gigabytes: compressing and indexing documents and images. Van Nostrand Reinhold, New York.

[7] K.Kitamura, J. Leggett : Representing Ancient Books for Human Science ResearchBased on a Hypermedia Model., Proc. of 29th HICSS, Vol.?U：8(147-154)(1996)

[8] Teahan, W.J., Wen, Y., McNab, R., and Witten, I.H. (2000) "A compression-based algorithm for Chinese word segmentation" Computational Linguistics, 26 (3) 375-393, September.

オープンソースソフトウェアGreenstoneによる 古いマニュスクリプトコレクションの開発 - Jawi語（マレーシア国立図書館）と日本語のケーススタディ -

概要