バージニア大学・ピッツバーグ大学
日本語テキストイニシャチブ

野口 幸生
ピッツバーグ大学・東アジア図書館
Tel.:+1-412-648-8842, Fax: +1-412-648-7683, E-mail: noguchi+@pitt.edu

概要

「バージニア大学 / ピッツバーグ大学 日本語テキストイニシャチブ」は日本の古典 文学の全文テキストをWorld Wide Web (www)を通じて提供しようする、二大学図書館 による協同の試みである。その第一作は「小倉百人一首」であり、1995 年12月 5日に インターネットで公開した。この日本語古典エレクトロニック・テキスト協同プロジェ クトの発展の経緯、沿革、公開以後の反響、日本語テキスト作成の問題点、そして今後 の計画などについて述べる。

キーワード

電子図書館、全文データベース、エレクトロニック・テキスト、日本語エレクトロニッ ク・テキスト、SGML、情報検索、百人一首、小倉百人一首、歌かるた、和歌

University of Virginia / University of Pittsburgh
Japanese Text Initiative

Sachie Noguchi
East Asian Library
264 Hillman
University of Pittsburgh
Pittsburgh, PA 15260 U.S.A.
Tel:+1-412-648-8842,Fax:+1-412-648-7683,E-mail:noguchi+@pitt.edu

Abstract:

The University of Virginia Electronic Text Center and the University of Pittsburgh East Asian Library combined their strengths and started the Japanese Text Initiative; collaborative efforts to make texts of classical Japanese literature available on the World Wide Web (WWW). The Web site was open to the public on December 5, 1995. The first text of this joint initiative was Ogura Hyakunin Isshu = 100 Poems by 100 Poets. This project includes Japanese texts of all 100 poems, romanized transliterationof Japanese texts, English translation by MacCauley, images of the cards of woodblock print published in 1867, and the Uta Karuta game. Each text (Japanese, romanization, and English) is fully searchable by using its respective script.

This paper is the first formal progress report of this project, focusing on its development, problems encountered, impacts, benefits of the collaborative project, and future plan.

Keywords:

Digital Library, Fulltext Databases, Electronic Texts, Japanese Language Electronic Texts, SGML, WWW, Information Retrieval, Hyakunin Isshu, Ogura Hyakunin Isshu, 100 Poems by 100 Poets, Uta Karuta Game, Waka

はじめに

1995年12月 5日、バージニア大学図書館エレクトロニック・テキスト・センターと ピッツバーグ大学東アジア図書館はWorld Wide Web (www)を通じてのその「日本語テ キストイニシャチブ」のサイトがオープンしたこと、その第一作は「小倉百人一首」で あることをインターネット上で公表した。(URL http://etext.lib.virginia.edu/japanese/) 以後、1997年 1月 1ヶ月の間だけでも、このサイトにのべ16,906回、その内、2,138が 日本から、アクセスしている。本稿ではこの二大学による日本語古典エレクトロニック テキスト協同プロジェクトの発展の経緯、沿革、公開以後の反響、協同プロジェクト の意義、そして今後の計画などについて述べる。

I. エレクロニック・テキスト・センター と 日本語テキスト

バージニア大学 ライブラリー・エレクロニック・テキスト・センターはコンピュー タを利用してのテキスト研究とそれに関連するテクノロジー、新しい教育や 、研究の ためのサーヴィスを提供する施設として1992年8月オープンした。センターは エレク ロニック・テキストはリモート・アクセスが可能であり、統一された、独占的 (nonprorpietary)でない方法でのコード化がされていること、そして全てのオンライン データはサーチとディスプレーを一つのソフトウエアで行なえなければならないなどの 基本的な原則に基づき設立された。センターにはイギリスの全古典、種々の版による シェクスピアの作品、イマヌエル・カントの著作、ペルセウス(ギリシャ語のテキスト とイメージ)など今日までかなりの量のStandard General Markup Language(SGML)- Text Encoding Initiative(TEI)でタグされたエレクロニック・テキストが蓄積、利用に供 されている。

1995年春、エレクロニック・テキスト・プロジェクトを始めようとしていたピッツ バーグ大学図書館の著者を含めるプロジェクトチームはこの分野ですでに経験、実績、 そして名声のあるバージニア大学 図書館エレクロニック・テキスト・センターの見学 に訪れた。この訪問の際、著者はバージニア大学 がすでに入手していた日本語のエレ クトロニック・テキスト、「百人一首」と「源氏物語」、を見せられた。そして、この 「バージニア大学・ピッツバーグ大学日本語テキスト・イニシャチブ」の協力計画が提 案された。日本研究を専門とするライブラリアンのいないバージニア大学 ライブラ リーとエレクトロニック・テキストの専門技術も経験も浅いピッツバーグ大学図書館に とり、このプロジェクトはお互いに資するところ大と思われた。ちなみに当時SGMLで タグつけされた日本語のテキストをWorld Wide Webで公開しているサイトはひとつも 無かった。

日本語テキストイニシャチブに採用する日本語のテキストも、エレクロニック・テ キスト・センターの他の言語のエレクロニック・テキストについての基本的な理念に基 づきセンターのサーヴィスに加えられる。つまり、日本の古典、たとえば目下作業の進 んでいる能テキストは、シェクスピアの作品と同じようにSGML-TEIでタグ付けされ、 ディスプレーされ、検索、分析、その他の研究を可能にする。言語が異なるだけで東洋 の古典も西洋の古典も、古典の全てが研究の資料としての、エレクロニック・テキスト として同じ環境で同等に扱われる。

II. 日本語テキスト第一作: 「小倉百人一首」

II.1 日本語テキスト

1993年春までに、バージニア大学 はすでに「百人一首」と「源氏物語」の日本語の テキストを入手していた。「小倉百人一首」の文学的価値、文化的な日本社会への浸透 の深さ、また子供の時、祖母を詠み人とし、従兄弟たちと競った「百人一首」歌かるた の著者の思いでと逸話の影響、そして実際的なテキストの短かさなどの要因から、「小 倉百人一首」を日本語テキストイニシャチブの第一作とすることに決まった。

すでに入手していたテキストはその典拠が明らかで無く、典拠とすべき著作権の切 れたテキストの探索からまず開始した。1920年以前に出版された「小倉百人一首」の テキストの所蔵は両大学図書館とも無いが、アメリカの図書館の幾館が所蔵しているこ とが分かり、図書館相互貸借で借りようとした。ところが、結局どこからも借用するこ とができず、種々のテキストを参照してすべて新たに入力した。この典拠とすべき著作 権の切れた、1920年以前出版の図書資料の相互貸借による入手は思ったよりも困難な 事がわかった。理由としては蔵書の紛失、蔵書の傷み、などが考えられる。

新たに入力するテキストはできるだけ典拠とするテキストに忠実に従うことを原則 とするが、1920年以前に出版されたテキストには、今日のワードプロセサーでは採用 されていないような活字に直面することはしばしばだ。たとえば、目下プロセス中の能 のテキストは、「謡曲評釈」(著者 大和田健樹、東京 :博文館、明治40 [1907])を典 拠としているが、「青」は「 」が用いられている。このような場合、ワードプロセ サーで使用できる文字、「青」で妥協をせざるを得ない。

II. 2 SGML タグづけ

日本語テキストイニシャチブで採用するテキストはエレクロニック・テキスト・セ ンターの他の言語のエレクトロニック・テキストと同様に、SGML-TEIでタグ付けされ る。SGML、記述的マークアップ、はテキストの論理的構造に焦点を置くので、研究者 にとりより利用価値がたかい。つまり統計的な手法をもちいてのパターン(形式)の検 索とかスタイル的な分析を可能にする。

II.3 日本語テキストの読み・振り仮名

日本語テキストイニシャチブで採用するテキストはおもに教育、研究を目的として いる。そして、利用の対象者は英語を母国語とする人々で、必ずしも日本語に堪能でな い学生などであることも考慮した。テキストはその言語を問わず全文のサーチが可能な ので、全文の読みも入れる事にした。「小倉百人一首」については、英訳を採用した Clay MacCauleyのローマナイゼーションに基づき、米議会図書館 ( Library of Congress)や研究社の「和英大辞典」の採用する「修正ヘボン式」を用いて、米議会 図書館の分ち書きに従い修正した。その際、文法上の説明など高校の教科書として使用 した高木東一著、「小倉百人一首」 (東京 :光風館、昭和33 [1958])を参考にした 。 しかしながら、長音のマクロンは本来なら"entity references" に従いタグ付けすべきで あろうが、ディスプレーおよび、特に、サーチの問題から、使用しなかった。歌の作者 については、「日本古典文学大辞典」(岩波書店)と「國史大辭典」(吉川弘文館)を 典拠とした。

II.4 英語翻訳

ローマネイゼーションによる読みの他、日本語テキストイニシャチブの利用の対象 者は、英語を母国語とする人々なので、Clay MacCauleyの訳にに基づき近代化した、 全文の英語訳も採用し、日本語、ローマ字読み、英訳が同時に一頁にディスプレーされ るようにした。 MacCauleyの原訳も別に見られるようにしてある。

II.5 イメージ

日本語についてはテキストはWorld Wide Web で日本語をディスプレー、そして検 索のために入力するための、ソフトウエアが必要だが、ソフトウエアを持たない利用者 のために、日本語のテキストをイメージとしたディスプレーも用意した。「百人一首」 の図版も北斉をはじめいくつか検証したが、慶応2[1867]年大阪で出版された版画によ る歌かるたの図版、「女寿小倉色紙」は草書の歌と作者のイラストレーション、源氏香 のシンボルなどが一枚の図版として印刷されていて、著作権も切れているので、イメー ジとして収録し、それぞれの歌とリンクした。

II.6 歌かるたゲーム

「小倉百人一首」は文学、和歌として愛誦されて来ただけでなく、歌かるたとして 楽しまれ日本社会、文化に深く浸透して来た。この歌かるたとしての「小倉百人一首」 の側面を、World Wide Webの上で何とか実現できないかと考えていた。もちろん小さ なモニターの上に百枚のカードを一度に広げることなど現実的でない。この側面は 上の句、下の句の構造とバージニア大学 のプログラマーの知恵により乱数を当用して 実現した。つまり、ゲームのスタートをクリックすると上の句だけがランダム、つまり 何の順序にもよらず、ディスプレーされる。下の句を確認したければ、下の句をクリッ クすれば、当該の下の句がディスプレーされる。

II.7 歌かるたの音声

歌かるたの詠みかたには、独特な節まわしがあり、マルチメディアの見地から、こ の音声を入れることも検討した。まず「小倉百人一首」の詠みの録音が存在するのかど うかもわからず、全日本かるた協会に問い合わせた。協会からは2種類のコンパクト ディスク(CD)をご照会頂き、さらに徳間ジャパンからでている「百人一首」のテー プのダビングしたものを参考にお送りいただいた。協会から送られてきた資料により読 手には「段」も有ることがわかり、「百人一首」の奥の深さを改めて認識させられた。 テープもCDも著作権があり、1995 年12月の日本のお正月に間にあわせてのサイトの オープンまでには、音声を入れることはできなかった。詠みを入れることができたら、 より興味深いサイトになったのに、と残念に思っている。

III. JTI の公開と反響

1995年 12月 5日、バージニア大学・ピッツバーグ大学はその日本語テキストイニ シャチブをWWWでの公開をアナウンスした。最初の感想は日本からで、ポジティブな 反応だった。その後、サイトを訪れた、文字通り世界中の人々から好意的な反応が寄せ られた。その中では、文学・詩歌の研究者や愛好者が一つのグループで、「百人一首」 の歌を楽しんだという簡単な感想から、日本文学についての研究の動向を把握し、知 識・研鑚を重ねるための、日本文学に関する他のWeb サイトや、リストサーバーの照 会まである。別のグループとしては、我々と同じようになんらかの形で、日本語エレク トロニック・テキストの作成に携わっている、または、その計画を持つ人々で、お互い の経験や、仕事の重複を避けるための将来の計画に関する情報の交換が行なえた。色々 な層の人々がそれぞれの興味と目的のために、JTI サイトを使っていることが解かっ た。

ニューヨークのクイーンズ・カレッジで文学の教鞭をとる ルイス・クック (Lewis Cook)先生もJTIサイトを使われて、協力を申し出てくださった。クック先生にはJTI のアドヴァイザーになって頂いた。先生のアドヴァイスの下に、「古今集」のエレクト ロニク・テキストとしての公開のための作業がバージニア大学で進められている。

AAS (Association for Asian Studies, アジア学会)に属するCouncil on East Asian Libraries (CEAL)がその月に評価したWeb サイトの中で最も優れていると思われるサイ トを "the Site of the Month"として選び、発表する。JTI は、WWWで公開して間もなく その "the Site of the Month" に選ばれた。

JTIは文献にも引用され始めた。ペンシルバニア大学の古典学の教授、ジェームス・ オドネル(James J. O'Donnell)先生は、"The New Liberal Arts" という記事のなかで、 "Resource-based Learning" の資料としてJTIを紹介している。この記事は最初、 Ideas from the National Humanities Center (vol. 3, no. 2, 1995)に出版され、1996年春 ILiberal Education (vol. 82, no. 2) に再録された。

IV 協力プロジェクトの意義

最大の利点は、単独ではおそらく成し得なかった事業が、協力によって短時日のう ちに実現できたことであろう。よって日本文学の日本語によるエレクトロニック・テキ ストがWWWを通じて、世界中のどこでも利用できるようになったことはいうまでもな い。当時、日本研究を専門とするライブラリアンのいないバージニア大学図書館にとっ ても、エレクトロニック・テキストの専門技術も経験も浅いピッツバーグ大学図書館に とっても、日本語のエレクトロニック・テキストは将来の計画に入っていた、として も、プライオリティーは極めて低く、実現までには多くの日時を要したことだろう。今 後はこれまでに蓄積したテキストを基に、増大・拡張していくことはそう難しい事では あるまい。

北米のAssociation for Research Libraries (ARL, 研究図書館協会)に属する二つの研 究図書館がこのようなイニシャチブを取ったことも、研究図書館としては意味のある協 力と考えられる。更に、すでにピッツバーグ大学と協力関係にあった日本の図書館情報 大学、その他にバージニア大学図書館エレクトロニック・テキスト・センター、そし て、JTIを紹介することにより、ディジタル・ライブラリーやエレクトロニック・テキ ストに携わる人々のネットワークを構築し、さらなる研鑚、協力の機会を拡大できたこ ともその意義に入れて良いだろう。

上記のような機関としての意義、利益のほかに、バージニア大学 のガイダンスの下 にこのプロジェクトに携わった著者は、著者ひとりでは考えられなかったプロジェクト が達成でき、個人的にも、プロフェッショナルとしても、学ぶところ多大で、有意義で 豊かな経験を持つという、めったにない恩恵を蒙ることができた。

V. 日本語エレクトロニック・テキスト作成の問題点

まず、著作権の問題があろう。JTI のような教育的目的の事業は、商業目的の事業と は異なり、著作権の切れていない文献を典拠として使用しようとすると、高価な著作権 料を支払う予算がない。従って使用料を払わないで済む、著作権の切れている文献を典 拠として利用するが、75年前と現在では言語そのもの、文字、表記、仮名使い、出版 の形態など、種々の面で今日とは大分異なる。古いテキストそのものに教育の機会があ るというメリットはもちろん有るが、このような背景を理解しなければ、なぜ現実離れ した文献をエレクトロニック・テキストとして使用するのか疑問も持たれよう。更に、 著作権の切れた古い文献を入手することが、日本国外ではそう簡単な事では無い。第2 作の13の能テキストは「謡曲評釈」(著者 大和田健樹、東京 :博文館、明治40 [1907]) を典拠としているが、このテキストを入手するために、二つの大学(UCLAとワシント ン大学-シアトル)の図書館の協力を得た。

同じ問題は英語の翻訳についてもいえる。著作権の切れた古い訳は、英語としても 適当でないことがある。ときに、同じ作品の新訳が出版されていても、著作権料の問題 があり、採用できないというフラストレーションに遭遇する。此の意味では、JTIの第2 作、13の能テキストのうち、「野宮」と「關寺小町」にドナルド・キーン先生の訳を 使用する許可を、著作権保持者のコロンビア大学出版会が許可下さった事は、作成する 我々にとっても、将来の利用者にとっても幸運な事で、感謝するとともに、特記に値し よう。

新たに入力するテキストはできるだけ典拠とするテキストに忠実に従うことを原則 とするが、1920年以前に出版されたテキストには、今日の日本語の使用とは、大分異 なる。テキストは日本語ワードプロセサーで処理しているが、現在では採用されていな い活字、記号、に直面する。それと、典拠とするテキストは縦書きだが、エレクトロ ニック・テキストの環境は横書きで、たとえば、たとえば繰り返し記号などは、まず文 字が無く、有ってもそのまま使用すると、誤解を招いたり、不明瞭になる。目下プロセ ス中の能のテキストでは、繰り返し記号が有るときは、文章をそのまま繰り返して入力 した。このように典拠とするテキストが在っても、臨機応変の処置が必要となろう。

JTIでは、使用するワープロでサポートされていない文字、フォントは使用できるも ので代用したが、外字は今後入力するエレクトロニック・テキストの数が増えるにした がって、頭の痛い問題と成ろう。1996年のアジア学会でのエレクロトニック・テキス トについてのセッションの折りに、国文学資料館の方が、国文テキストを公開できない 要因の大きなひとつが外字にある、つまりたとえばインターネットで送っても受け手の 普通のモニターでみると、意味をなさない変な記号が出てきてしまうという。図書館情 報大学で開発した 多言語HTMLブラウザー のようなサーバーの側からフォントを送る というようなシステムがもっと開発、実用化されて、より多くの日本語エレクトロニッ ク・テキストが研究のために用いられるようになることを期待する。

JTIの利用の対象者は英語を母国語とする人々で、採用するテキストはおもに教育、 研究を目的としている。日本語を勉強中の学生などの利用を考慮し、またテキストはそ の言語を問わず全文のサーチが可能なので、読み方も入れる事にした。「小倉百人一 首」については、全文の「修正ヘボン式」ローマジ字による読みを用いた。しかしなが ら、長音のマクロンは本来なら"entity references" に従いタグ付けすべきであろうが、 ディスプレーおよび、特に、サーチの問題から、使用しなかった。その意味では正確な 読みとはいえない。TEIのディスカッショングループ、リストサーバーでも、マクロン についての一連の討議も検討したが、決定的な解決策は今の所みあたらない。

第2作、13の能テキストでは、漢字と旧仮名使いをひらがな、新仮名使いで読みをつ けた。この読みを加えたために、SGMLのタグ付けがとても複雑になり、作業の荷重 が増大した。実際にテキストがWebで公開され、用いられるようになってから、読み についてはどの方法が効果的なのか検討する必要がある。

SGMLタグ付けに関しては、読みを付け加える事による複雑化の他に、SGML- TEIのガイドブックは英語で書かれていて、そこに引用されている例もほとんど西洋語 で書かれた文献だけだ。このガイドラインを日本語で書かれた、日本の文献に応用する のはいわば、手探りでタグ付けをしているような状況で、種々の判断しにくい問題が出 て来る。例えば、能のテキストには"Drama"のタグセットを応用したわけだが、能の 「中入」や「神舞」をどうタグ付けするのか、苦労が多かった。

VI. 今後の計画

1995年 12月 5日、JTIのWWWでの公開のアナウンス後、世界の人々から好意的な反 応が寄せられた。感想の中では、文学・詩歌の研究者や愛好者から、また日本語エレク トロニック・テキストの作成に携わっている、または、その計画を持つ人々が、仕事の 重複を避けるために、JTIの将来の計画に関する問い合わせが多かった。そこで、比較 的早い時期にJTIの将来計画は決定された。アドヴァイザーのひとりであるトーマス・ ライマー (Thomas J. Rimer) 先生の著書、A Reader's Guide to Japanese Literature (Tokyo and New York : Kodansha International, 1988) に引用されている20の古典の全 て、つまり、古事記、万葉集、古今集、伊勢物語、源氏物語、更級日記、枕の草紙、今 昔物語、方丈記、然々草、平家物語、能、好色五人女、奥の細道、心中天の網島、忠臣 蔵、雨月物語、良寛の詩、おらが春、を含めることを目標とする、また八代集に含まれ る歌集についてもできるだけ収録する、などの計画が決まった。さらに先には、現代文 学も加える意向である。

将来ある程度のテキストが蓄積された段階で、ピッツバーグ大学にJTIのミラーサイ トを設置する予定である。

終わりに

我々のJTIの将来計画は長大だが、これらの全てを我々だけでしようとすれば、我々 の現役のうちに達成できるかどうかは、はなはだ疑問だ。というのは、日本語エレクト ロニック・テキストを作成し、アップロードするまでには、調査を含め、かなりの時間 と労力を必要とする。だから、我々だけでなく、多くの人々の参加を呼びかけたい。

昨年夏、バージニア大学で能テキストのタグ付けをしているとき、その複雑な作業 に夕方耳鳴りがしてきた。それでもJTIで収録するテキストはたった13作に過ぎない。 能のテキストは全部で二千余在るという。そのうち現在でも上演される作品は約250ほ どといわれている。その内たった13篇しかなくて、一体研究・調査に資することがで きるのか、と少々空しくなった。でもひとつも無いよりは ... 、と指摘されて、これは ひとりでする事業ではなく、多くの人々の協力と参加が不可欠と思った。多くの人と機 関の参加・協力により、ある程度のSGML-TEIでマークされた文献の蓄積を果たせば、 本格的な日本語エレクトロニック・テキストの研究・調査が可能になろう。日進月歩の テクノロジーもこの分野への応用でも進歩を遂げるかもしれない。文字通り本家日本の この分野での活躍を期待する。

参考文献

Special Issue : Electronic Texts : Where Next? Information Technology and Libraries 13(1)(March 1994)