古い言語で書かれたマニュスクリプトの調査、研究を目的としたコレクション を個人や小グループの(非計算機専門家の)end-user自身が作ることを目指し、 Greenstoneを利用することにする。本稿では事例としてJawi語と日本語のマニュ スクリプトコレクションの開発報告を行う。
構築システムとサービスシステム、構築システムを簡便に使うためのインタフェー スGLIからなる。構築システムはPerlで開発され、ドキュメント種類に応じた 処理コンポーネントであるPlugin群、高速インデックスMGを作成するコマン ド群、コレクションデータを生成するコマンド群からなる。サービスシステム はC++で開発され、汎用のWeb Serverを使ったCGIプログラムとして実現されて いる。GLIはJavaで開発され、コレクション作成の指定をビジュアルに行うこ とが可能で、設定変更を即座に反映しrebuild&previewを繰り返し効率的に開 発できる。ユーザの技術力に合わせ4段階のモードが準備され、ソースドキュ メントの指定だけで自動的に標準的なコレクションが生成される初心者用から 複雑なドキュメントの構造に合わせた詳細なoptionを指定できるexpert用まで 使い分けが可能である。
主な機能を紹介する。
ドキュメント種類毎にPluginが準備されており、ソースドキュメントのコレク ション内部形式(XML形式)への変換、メタデータの自動抽出が行われる。各ド キュメントの記述能力に合わせてoptionが多く準備され、様々なコレクション のアクセス構造を作成することが可能。end-user向けに、ソースドキュメント の種類、構造に合わせた標準的なコレクションのアクセス構造を自動的に生成 する(標準設定)強力な機能がサーポートされている。
<Pluginの種類>
BibTexPlug BookPlug EMAILPlug ExcelPlug FoxPlug HBPlug HTMLPlug ImagePlug IndexPlug ISISPlug LaTeXPlug MARCROPPlug MARCPlug METSPlug MP3Plug OAIPlug OggVorbisPlug PagedImgPlug PDFPlug PPTPlug ProCitePlug PSPlug RecPlug ReferPlug RogPlug RTFPlug SRCPlug TEXTPlug UnkownPlug W3ImgPlug WordPlug ZIPPlug
フルテキストサーチ(全ドキュメントまたは部分ドキュメント内)とフィール ドサーチ(メタデータ)の機能を持つ。ギガバイトを超えるドキュメントを扱 えるindexingとcompressionアルゴリズム"MG"[6]を使用し、高速を実現して いる。
ドキュメントを分類したビューからのアクセス方法をサポート、階層構造を持 つ分類も可能。標準のTitleだけでなくType, Organization, Subjectなど metadataによる分類も可能。
コレクションを表示する検索結果ビュー、分類ビューなどの表示フォーマット の定義。ドキュメント種類、構造やClassifierの指定に従って自動的に標準フォー マットが生成されるのでend-userはそのまま実行可能。フォーマットはHTMLタ グ形式で記述されているので、表示項目、レイアウティング、装飾的表示など 容易に変更可能。
の3 setが用意されている。他のsetも拡張定義可能。外部ファイルのimport, GLIでの定義、データ入力の両方とも可能。
特徴を列挙しておく。
demo Greenstone demo dls-e Development Library Subset collection wrdpdf-e MSWord and PDF demonstration gsarch-e Greenstone Archives collection cltbib-e Bibliography collection cltext-e Bibliography supplement MARC-e MARC example oai-e OAI demo image-e Simple image collection authen-e Formatting and authentication demo garish Garish version of demo collection isis-e CDS/ISIS example
GreenstonのJawi Manuscriptへの適用事例として、PNM所蔵画像を使用する機 会を得た。PNMはGreenstoneでのユーザサービスを検討しており、両者で評価 するここととなった。PNMは前頁スキャンニングした画像にコンテンツリスト (章立て)を付与し、冊子単位でPDFファイルに変換している。別に書誌情報 を作成し、SQLベースの検索システムを開発している。
書誌情報の項目リストと例 ---- Titles : HikadatafromZaffdinbymailyat Bulan Berbelah Type : Literature Author/Corp. : - Subject Keyword : Nabi Muhammad s.a.w. Subject (LCSH) : Islamic literature Malay literature Collation : - Note : - Abstract/Summary : - Call Manuscript Number : MSS 681 (E) Copyist : - Year Written* : - Year Copied* : - Content : C ------- * ancient manuscript固有の書誌情報(言語を問わず)
fig. Conversion from archives in SQLServer to greenstone
1. Extract pdf and metadata from RDBMS
We extract pdf files consist of all page images for each manuscript books and bibliographic information data in ascii text.
2.Convert metadata(.rtf) into dublin core xml
We developed convertor program "dcgen.pl" that convert metadata from original bibliographic information data to dublin core xml.
変換後のmetadata.xml ----- converted by 'dcgen.pl' <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE GreenstoneDirectoryMetadata SYSTEM "http://greenstone.org/dtd/GreenstoneDirectoryMetadata/1.0/GreenstoneDirectoryMetadata.dtd"><GreenstoneDirectoryMetadata> <FileSet> <FileName>.*681(E).*</FileName> <Description> <Metadata name="dc.titles">HikadatafromZaffdinbymailyat Bulan Berbelah</Metadata> <Metadata name="dc.type">Literature</Metadata> <Metadata name="dc.creator">-</Metadata> <Metadata name="dc.subject">Nabi Muhammad s.a.w.</Metadata> <Metadata name="dc.subjectLCSH">Islamic literature Malay literature</Metadata> <Metadata name="dc.description">-</Metadata> <Metadata name="dc.identifire">MSS 681 (E)</Metadata> <Metadata name="dc.rights">-</Metadata> <Metadata name="dc.YearWritten">-</Metadata> <Metadata name="dc.YearCopied">-</Metadata> </Description> </FileSet> ....... --------
3.Greenstone: convert pdf into html
4.GLI: Design indexing, classifying, formatting
There are 4 ways to find information in this collection:
search for particular words access publications by title ordered a-z (default) access publications by dc.type ordered a-z access publications by dc.LCSH ordered a-z
fig. GLI画面
5.Greenstone: building collection
fig. ブラウジング画面
New Zealand Digital Libraryプロジェクト(http://nzdl.org/) のデモコレク ションへの登録を準備中である。
Greenstoneプロジェクトの開発メンバと検討し、画像とテキストのペアを同一 頁に表示するPlugin: PagedImgPlugを準備した(Greenstone release2.6以降バ ンドルされている)。このPluginを使った例を紹介する。
著者の所属する機関所蔵の好色一代男をデジタルカメラ撮影したjpeg画像34 ファイルと書籍デジタル化委員会電子図書館公開の翻刻テキストを使用した。 Plugin用に各頁に分割したテキスト、ならびに画像ファイル名とテキストの対 応テーブルを準備する必要がある。プレ処理として、翻刻テキストに画像に合 わせた改頁コードを入力すれば、頁毎にテキストをファイル分割し、対応テー ブルを生成するプログラムを作成した。
fig. ブラウジング画面
本稿では詳細に触れないが、日本語ドキュメントに対してword単位でのindex 作成をするよう奈良先端大学院大学で開発された茶筅'Chasen'の組み込みを行っ た。非分かち書き言語として中国語には取り組まれていた[8]。
日本語のマニュスクリプトコレクションを一見してわかるように、日本語の縦 書き書法とテキスト表示は一致していない。固有のソフトウェアでは縦書き/ 縦表示を実現しているものがある(著者開発[7])が、マニュスクリプトのオ リジナル画像との両用を想定すると汎用のWeb Browserで実現したい。
University of WaikatoのGreenstoneプロジェクトはユーザサポートに大きな 力を注いでいる。特に発展途上国での情報発信を支えることを目標にしており、 UNESCOのサポートも受けている。システム開発費や高価な計算機、潤沢なエン ジニアスタッフがなくとも、end-user自身が情報を整理、発信できるよう多く の支援を行っている。Greenstoneスタッフがトレーニングコースを作成し指導 に出向いたり、MLによる技術的、操作的アドバイス、またそこから要求を吸収 しGreenstone自身の頻繁な改造を日々継続している。
日本国内でもend-user自身で情報発信をしたいと考えている人には非常に有 益なソフトェウアと言える。先に述べた日本語形態素解析'Chasen'を組み込ん だ版を日本語版として配布をし(Greenstoneプロジェクトとしては辞書のデー タサイズの問題があるため本体に組み込みではなく別に日本語版としてのCD配 布が現実的と考えている)、国内ユーザの技術サポートにあたる準備をしてい る。
UNICODEの普及、Web browserのUTF-8対応によりこのコードを使うだけでユー ザ環境を考慮することなく容易にマルチリンガル対応が可能になった。多くの デジタルライブラリシステムでもUTF-8を採用することによりマルチリンガル 対応済みと理解していると思われる。しかしながら実際には優れたデジタルラ イブラリシステムを生み出している技術先進国の多くがローマンアルファベッ ト言語圏であり、検索インデックスで致命的な問題を抱えていることは意外に 認識されていない。Greenstoneでの経験を生かし、今後も優れたオープンソー スソフトウェアの日本語対応にも取り組みたい。
Jawi Manuscriptの事例では、研究者によって翻刻された現代マレーシア語 (Bahasa Melayu)のテキストはPNMが所有するが電子化されていないので画像デー タのみのコレクションとした。現在マレーシアは国を挙げてJawi復興が必要と 考え初等学校教育を始め、計算機利用を前提とした表記の統一、電子辞書作成 にも力を入れている。近いうち分かち書きの問題が出てくる可能性がある。現 代語でも中国語、韓国語、タイ語など特にアジアには非分かち書き言語が多く あり、共有しうる技術基盤の可能性がないか探りたい。
[2] Witten, I.H. (2004) "Creating and Customizing Digital Library Collections with the Greenstone Librarian Interface." International Symposium on Digital Libraries and Knowledge Communities in Networked Information Society, University of Tsukuba, Tokyo.
[3] Witten, I.H., Bainbridge, D., and Boddie, S.J. (2001) "Power to the people: end-user building of digital library collections" Proceedings Joint Conference on Digital Libraries, 94-103, Roanoke, VA, June.
[4] Witten, I.H. and Bainbridge, D. (2003). How to Build a Digital Library. Morgan Kaufmann, San Francisco, CA.
[5] Witten, I.H., Bainbridge, D., Paynter, G. W. and Boddie, S. (2002) "The Greenstone plugin architecture." Proceedings Joint Conference on Digital Libraries, 285-286. Portland, Oregon.
[6] Witten, I.H., Moffat, A., and Bell, T.C. (1994) Managing gigabytes: compressing and indexing documents and images. Van Nostrand Reinhold, New York.
[7] K.Kitamura, J. Leggett : Representing Ancient Books for Human Science ResearchBased on a Hypermedia Model., Proc. of 29th HICSS, Vol.?U:8(147-154)(1996)
[8] Teahan, W.J., Wen, Y., McNab, R., and Witten, I.H. (2000) "A compression-based algorithm for Chinese word segmentation" Computational Linguistics, 26 (3) 375-393, September.