The Electronic Archive of Early American Fiction at the University of Virginia
バージニア大学における初期アメリカ小説の電子アーカイブ

David Seaman
Director, Electronic Text Center
Alderman Library
University of Virginia
Charlottesville, VA 22903, U.S.A.
Tel.: 804-924-3230 Fax: 804-924-1431
E-mail: etext@virginia.edu
URL: http://etext.lib.virginia.edu

Kendon Stubbs
Associate University Librarian
Alderman Library
University of Virginia
Charlottesville, VA 22903, U.S.A.
804-924-3026 Fax: 804-924-1431
E-mail: kstubbs@virginia.edu

(訳:杉本重雄・図書館情報大学)

概要

バージニア大学図書館は、先頃Andrew W. Mellon財団より400,000ドルの助成を受け、 558点に登る初期アメリカ小説の貴重書をディジタル化し、WWW上で利用できるように するとともに、ディジタル化された貴重書の経済性の研究を進めることとなった。 これは2年間のプロジェクトで、Early American Fiction (EAF)プロジェクトと呼ば れている。 このプロジェクトではJames Fenimore CooperのThe Last of the Mohicans、Edgar Allan PoeのTales of the Grotesque and Arabesque、Nathaniel Hawthorneの Scarlet Letter他の長編や短編の小説が含まれている。 ここでは、TEIに合致したSGMLテキスト(訳者注)と初版のページのカラーイメージ (全部で118,000ページに達する)の2種類のテキストを作成する予定である。 このプロジェクトは、貴重書の原版と電子テキスト版の利用に関する経済性の評価 も含め1998年に終了する予定である。

本論文は、このプロジェクトに関する初めての経過報告(Progress Report)であり、 破損しやすい貴重書を電子形態に変換することへの挑戦とそこから得られる利益に ついて述べる。

(訳者注:Text Encoding Initiative (TEI)が作成するSGMLテキストのためのガイ ドラインに合致したテキスト)

キーワード

ディジタル図書館、全文データベース、ディジタル・イメージ、電子テキスト、 TIFF、 JPEG、SGML、WWW、情報検索、研究助成、貴重書

   

バージニア大学図書館(UVA)では1996年から1998年までの2年間に渡って、貴重書の 電子テキストを作成し、貴重書の電子テキストと冊子体原本の利用性とコストを 比較するプロジェクトを開始した。このプロジェクトはEarly American Fiction (初期アメリカの小説)プロジェクトと呼ばれ、アメリカの小説に関する二つの 標準的書誌から選ばれた初期のアメリカ小説の明確に定義され、かつ網羅的な コレクションの電子テキストに焦点をあてている。このプロジェクトが目的とする 成果には以下のようなものがある。

合衆国およびカナダの大規摸な図書館には100万冊以上の貴重書が所蔵されている。 古代エジプトのAlexandria図書館から現代に至るまで希少で貴重な図書を保存する ことは研究図書館の存在理由であると考えられてきた。しかしながら、貴重書を 持つという役割は、図書館が果たす役割の中でもコストのかかる部分である。 バージニア大学においては、ここ数年は通常の市販図書に比べて貴重書の購入に 1冊あたり平均8倍ものコストがかかっている。さらに安全と保存のために貴重書の 維持管理には他の図書に比べて3倍もの費用がかかっている。安全ということは、 必然的に貴重書への物理的なアクセスが制限されることを意味している。 その結果、貴重書コレクションの中で使用された貴重書の割合は.03であった。 一方、一般図書の使用割合は.23であり、学部生図書館(undergraduate library)では 1.18であった。平均すると貴重書のコレクションのうち3%しか使用されていないのに 対して、学部生図書館の本は1度以上利用されていることになる。そして、利用者の 立場に立ってみると、 貴重書を利用しようとする利用者は図書が物理的に置かれている所にまで出向か なければならず、これは2000年昔にかのAlexandria図書館でなされていたこと と変わっていない。

WWWは電子化された貴重書へのアクセス可能性を大きく拡大した。電子化された図書には 貴重書の中の全ての語が索引付けられ検索できるといった付加的価値がある。 初期アメリカの小説のオンライン・コレクションの場合も、例えば 「freedom」という単語の小説の中での意味を研究するために、ほんの数秒で 小説中に現われる全ての「freedom」という単語を見つけだすことができる。 もしこの作業を原本を使って行なえば何年もかかるであろうことは間違いない。 また、貴重書のページの画像イメージを用意するだけであれば、ページイメージは 実物としての貴重書を見せることにしか役立たないが、検索可能な電子テキストと 高精度カラーイメージを組み合わせることで、詳細に見たり またいろいろな見方をしたりできるように、教師にも研究者にも貴重書を提供することが できる。

UVAの初期アメリカ小説(Early American Project, EAF)プロジェクトは、 貴重書原本と計算機上に模造された図書が研究者にとってどのように利 用されるのかを比較し、貴重書の電子テキストが研究者にとってどの程度 役に立つのかを見極めることを目的としている。そのため、我々は、 オンライン・コレクションを構築し、大学教員と学生がそれらをどのように 利用するかに注目することで、電子テキストと貴重書原本の利用性の比較のために 有用なデータを得ることができると考えている。

本稿は、開始後半年たったEAFプロジェクトにおける最初の正式な報告書である。 本稿では、以下の3点を中心としてEAFプロジェクトについて述べる。

1. 初期アメリカ小説コレクションの所蔵

2. 貴重書のディジタルイメージの作成

3. SGMLテキストの作成

最後に、EAFプロジェクトの将来の方向について述べる。

初期アメリカ小説コレクション(The Early American Fiction Collection)

1776年、上田秋成によるエレガントで洗練された名作、雨月物語が出版された。 これは、伊勢物語や源氏物語から秋成の時代に至るまでの800年に渡る日本の小説 の伝統の中におけるものであった。一方、1776年はアメリカが独立宣言をし、 アメリカの最も初期の小説が出版されようとしていた時でもあった。 その後の1850年までの75年間に、James Fenimore CooperのThe Last of the Mohicans、 Edgar Allan PoeのTales of the Grotesque and Arabesque、Nathaniel Hawthorne のScarlet Letterといった長編、短編の代表作が発表された。こうした有名作品に 加えて、現在は忘れられているが当時はよく知られていた数多くの作品がある。 こうした作品も合衆国初期の時代に光を当てるものであり、合衆国がまだ若かった 時代の考え方を知る上で研究する価値のあるものである。

アメリカの古い文学作品に関して下記の二つの書誌目録がある。

幸運なことにバージニア大学図書館にはBarrettコレクション、Taylorコレクションと いう世界的に著名な貴重書の初版本のコレクションがある。このコレクションには WrightとBALにあるほとんどの初版本が含まれている。また、これらの内いくつかは現存 するものが非常に少なく、バージニア大学図書館にのみ所蔵されているものも含まれている。 EAFプロジェクトでは本図書館の所蔵資料から、下記の条件に合うものを選んで 利用している。

この要件を満たすものとして、81人の著者によって書かれた421タイトル、558冊、 118,000ページがEAFプロジェクトで利用されることとなった。

貴重書のディジタルイメージの作成

初期アメリカ小説の電子アーカイブを作る上での主要な作業は、第一に558冊 の各々の本の全ページのディジタルイメージを作り、続いてこのページイメージから SGML形式でタグ付けしたASCIIテキストを作ることである。最終的に 作り上げられるものはプロジェクトで扱う全ての本のディジタルイメージと 検索可能なタグ付けされたテキストである。

一般図書であればフラットベッド・スキャナで入力し、場合によっては OCRを使ってASCIIテキストを作ることもできる。しかしながら、貴重書の場合 本そのものの取扱いに十分な注意が必要である。貴重書の場合、本の背やページを 傷つけることがあるので、フラットベッド・スキャナでの入力を行なうことは 多くの場合不可能である。貴重書の中には非常に壊れやすいものがあり120°以上 開くことができないものもある。そのため、破損しやすい資料のための大規摸な ディジタルイメージ作成方法の開発が本プロジェクトの主要点の一つになっている。 これに関してはバージニア大学図書館のSpecial Collections Digital Centerで 進めることになっている。

資料のディジタル化の作業には照明付きのテーブルにセットしたディジタルカメラ を用いている。カメラに装着するディジタル・カメラバックはPhase One社製の Phase One PhotoPhase Plusを用いている。 このカメラバックは24bitカラーで5000x7000 pixelまでの高精度の映像が得られ、 カメラを制御するためのソフトウェアも用意されている。 カメラバックを装着するカメラはTarsia Technical Industries製Prisma 45の (フィルムサイズ)4"x5"カメラを用いており、またカメラバックは TTI Repro-Graphic Workstationに取り付けられている。 この作業台にはBogen製ライトスタンドに付けたLowel Tita製の500ワット ハロゲンランプを取り付けてある。このようなカメラを用いることで、 カメラバックを取り外すことなく、被写体を見て、焦点を合わせ、撮影することが できる。 図書の保護のため、John Riser氏の設計した貴重書のための特別製の台を 使っている。カメラはApple Power Macによって制御され、そこでイメージの処理を 行なう。

Special Collections Digital Centerの隣に置かれたEAFプロジェクトの部屋では 2台のPhase Oneカメラを使っている。プロジェクトを計画どおり進めるため、 専任の責任者1名と何人かのパートタイムの学生によりカメラは1日中稼働されてい る。 1997年1月の第1週から作業を始め1998年6月までに118,000ページのディジタルイ メージを 作成することになっている。これは、1日8時間、週あたり5日として、カメラ1台に つき時間あたり約20枚、すなわち3分に1枚のディジタルイメージを撮影しなければ ならないことを意味する。現在までの経験によると、平均1枚あたり4分かかってい る。 もちろん、これは平均であって、図書の種類、その他の条件によってディジタル イメージ化の速度は異なる。たとえば、きつく綴じられた本や、非常に破損しやすい ものからのイメージ取り込みは、大きく広げられる本に比べて長くかかる。 我々は、経験を積むにつれディジタル化のスピードは上がってくると考えている。

EAFプロジェクトの目的の一つはディジタル化された貴重書が、貴重書原本の代わり としてどのように役立つかを確かめることであるので、我々は全ての本の全ての部 分、 すなわち背、前表紙、裏表紙および空白ページをも含む全てのページのイメージを 系統的に作成している。各々の本について、色比較のためのKodac社のグレースケー ルおよびカラーの短冊と目盛を添えて表紙の写真を撮り、テストシートを作ってい る。これはEAFで作成した貴重書のディジタル版から元の図書の全ての部分がどのよ うに見えるのかを把握できるようにしなければならないためである。将来、こ こで作成したイメージから貴重書の仮想現実イメージを作り出せるようになること を期待している。

本のページは24ビットカラー、500dpiの精度で入力されている。イメージファイル はTIFF(Tagged Image File Format)形式で蓄積されている。TIFFイメージは Photoshop4.0を利用して高品質なJPEG(Joint Photographic Experts Group)形式の イメージとWWW上での表示用のやや小さいサイズのJPEGイメージに変換されている。 なお、TIFFもJPEGもディジタルイメージの記録と送信のための形式の標準として認 められているものである。各ページイメージのTIFFファイルのサイズは20MByte以上 ある。各JPEGイメージは元のTIFFイメージから作ったもの、WWW用の小さなものそれ ぞれおよそ300KByteと100KByteである。したがって、このプロジェクトでは1冊あた り少なくとも、TIFFイメージに4.2GByte、大きいJPEGファイルに 63MByte(300KByte版)、WWW用の小さいJPEGファイル(100KByte版)に21MByte必要であ る。558冊のコレクション全体ではTIFFファイルと高品質JPEGはそれぞれ2,400GByte、 37GByteよりやや少なく、小JPEGファイルはおよそ12GByteである。

TIFF、JPEGイメージともに書き込み型のCD-ROMに蓄積される。TIFF CD-ROMは取り込 んだイメージのアーカイブ用に用いる。また、安全のためTIFF CD-ROMのバックアッ プ用にEXABYTEテープを利用している。

このプロジェクトで最初にディジタル化が完成したのはCharles Brockden Brownの Wielandである。

SGMLでタグ付けした電子テキストの作成

前節までに述べたように、558冊の貴重書からなるコレクションは高品質のカラーイ メージとして構成され、さらに高品質TIFFイメージから実際の利用のためのJPEG ファイルが作られる。こうして作られるイメージから業者に依託してテキストを キーボード入力する。この方法は我々自身でテキスト作成するよりも安価であり、 かつできあがるのも早い。この仕事は海外の専門のタイピング業者によって行われ、 また実際商用の電子テキスト作成プロジェクトはそのようにして行われている。本 プロジェクトにおけるこの部分に関しては、バージニア大学・電子テキストセンター が監督することになっている。

印刷物から計算機読み取りの可能な形式に変換するには、光学的文字認識(OCR)も キーボード入力もそれぞれに有用であり、また信頼性も高い。EAFプロジェクトにおいて 専門のキーボード入力業者に依託した実際的な理由は、貴重書という素材の物理的 性質とその量のためである。

OCRはページイメージを取り込み、そこに印刷されたものの形を解釈し、そしてイ メージからASCII文字を作り出す。OCRは現代のタイプフェースにはよく適合し、 19世紀後半の印刷物にもかなりうまく適合する。しかしながら、古いものになるほ ど効率が下がっていく。OCRにとって問題なのは、インクが均等になっていないこと やタイプ文字の破損等、文字の形をくるわす印刷上の乱れであり、こうしたことは 古い印刷物には多く見られることである。タイプフェースとOCRの結果の例に関して は以下のWebサイトを参考にされたい。

http://etext.lib.virginia.edu/helpsheets/scan-train.html

現代のきれいに印刷されたものでも、OCRにはページあたり1ないし2個の読み取りエ ラーがある。これは小規模な入力で、さらにスペルチェッカーを使って修正ができ るような場合であれば問題ない。しかし、EAFプロジェクトの場合、入力量も多くま た20世紀のものではないスペルを対象とするので修正作業は非常に面倒であり、ま たタイプ文字の違いにより現代の印刷物に比べてかなり読み取り精度が悪い。

電子テキストセンターはSpecial Collections CenterからCD-ROMに格納したページ イメージを受け取り、SGMLのタグ付きテキストを作成・納入するする業者にそれを 渡す。電子テキストセンターでは納入されたテキストをチェックし、目録のための ヘッダを付け、電子テキストセンターのWebサイトに載せる。

電子テキストを作成するためのワークフローは以下のとおりである。

本ワークショップの我々のもう一つの論文"The Electronic Center in the University of Virginia Library(バージニア大学図書館における電子テキストセ ンター)”で述べた電子テキストセンターのWebサイトの他のテキストと同様に、完 成された電子テキストは検索可能である。

EAFプロジェクトのホームページは下記に作られている。

http://etext.lib.virginia.edu/eaf

EAFプロジェクトの将来の方向

EAFプロジェクトによってオンラインテキストができあがると、プロジェクトに対す るコストの回収、およびテキストの利用性と利点の評価という2点に焦点が当てられる ことになるであろう。

我々は既に、テキストの出版に関して出版社との打ち合わせを始め、コスト回収に 関する問題点の検討を始めている。我々は、Chadwyck-Healey Inc.とThe Early American Fiction Collection(初期アメリカ小説コレクション)のCD-ROMによる出 版とWWW上で同社のWebサービスLiterature Online (LiOn)を通じて利用可能にする ことについて契約している。オンラインデータはUVAの電子テキストセンターのサー バ上に置かれることになる。このようにして、より多くのテキスト、おそらく 1851年から1900年に出版されたアメリカ小説の電子テキストの作成のための資金を 得るため、コストを一部ではあっても回収しようと考えている。

EAFプロジェクトの重要な部分は、貴重書原本の利用性とコストと比べたコストと利 用性の評価である。我々は大多数の利用者にとって、高品質の電子テキストとディ ジタルイメージが貴重書原本の代わりを十分に果たすという仮説を確かめようと考 えている。

EAF利用者について調べるため、1998年春にはWWW上に調査用のフォームを置くこと を予定している。オンラインのアメリカ小説の読者に関して利用者数統計、知識、傾 向、および行動を調べるための質問をオンラインで行うことになろう。たとえば、 読者行動に関する質問には、図書のページイメージと検索可能な電子テキストの利 用といったことがある。ほかに、利用する際の認識のしやすさに関してオンライン テキストと原本を比較した情報を得るための質問が考えられる。EAFコレクションの 利用者にはこの質問に答えてもらうようにお願いすることになる。質問調査の後、 調査結果を信頼でき、かつ有効なものにするため、無返答の利用者に対する追跡調 査など、標準的な手続きを行うことになろう。

こうして集められたデータを1998年春にUVAおよび他の図書館の貴重書原本の利用者 から得るデータと比較する。我々は、ここでも利用者数統計、知識、傾向、および行動 に関して利用者のサンプル調査を行う。ここで行う質問はオンライン利用者に対す る質問を反映したものになる。たとえば、利用者はオンラインテキストに慣れてい るか、オンラインテキストが要求を満足するかといった質問である。利用者数の統計 に関する質問によって原本を利用するために旅行する距離といったトピックについ ての情報を得ることができ、また、これによってコストに関する結論を導くことが できるであろう。

プロジェクトで行う評価から利用当たりのコストを検討するためのデータを得る必 要がある。コストを検討する際には、利用者は貴重書があるところまで旅行し、 図書館の中で貴重書を見るという、貴重書を読むための伝統的な方法についても 考慮にいれておかねばならない。すなわち、アクセスコストは利用者個人によって 支払われてきたのである。しかしながら、一方で、研究図書館、とくに古くから あり大規模な図書館は、貴重書を維持管理していくことには特に手間とコストを 費やしてもいる。

たとえば、1994年から1995年における合衆国の大学図書館が購入した単行本のコス トは1冊あたり$45.07であった。同じ年に、バージニア大学図書館は貴重書に1冊あ たり$373をかけていた。したがって、典型的な貴重書には一般書の8倍ものコストが かかっている。さらに、この初期コストの違いはその後もずっとそれらの図書に関 わるコストに関係する。(Terry Balanglar教授によると)貴重書を図書館に置き、 維持していくコストは一般書に比べ3倍かかるというのが一般的に知られているそう である。そのため、cost-per-useモデルに基づくと、1冊あたりの購入と維持管理コ ストを等しくするには、貴重書は一般書に比べて3倍から8倍使われねばならないこ とになる。しかし現実には、貴重書1冊あたりの利用頻度は一般書に比べて化なり低 い。その結果、貴重書の収集、維持、提供にかかるコストは研究図書館にとっては 不相応に高いものであり、また利用者にとっては貴重書の利用に関するコストの格 差を生じている。

貴重書の電子テキストを作成する際の初期コストは高いが、電子テキストは遠隔地 の利用者にとってはアクセスのための大きな機会をもたらすものであり、1度の利用 にかかるコストを低減するものである。利用者の観点から、The Scarlet Letterの 初版本を見るためにバージニア大学図書館まで来ることにかかるコストは、オンラ インバージョンが利用できることによって不要になるであろう。また、コストが高 くて原本にアクセスできなかったいろいろな利用者にとってもオンラインテキストは 有用なものである。重要な点は、EAFプロジェクトでオンライン利用可能になる図 書の70%が現在印刷されておらず、少数の大学図書館にのみ所蔵されているものであ るという点である。

以上のように、EAFプロジェクトはディジタル図書館の基本的な考え方が非常に伝統 的なLibrarianshipの領域、すなわち貴重書やスペシャルコレクションといった領域 に対しても適用できることを確かめるよい機会を提供するものである。我々は、EAFプ ロジェクトのはじめてのレポートを作る機会を与えてくださった図書館情報大学に 感謝の意を表する。

参考文献

1. Lyle H. Wright. American Fiction 1774-1850: A Contribution Toward a Bibliography. SanMarino, CA: Huntington Library, 1969. Second revised edition.

2. Bibliography of American Literature, compiled by Jacob Blanck for the Bibliographical Society of America. New Haven: Yale University Press, 1955-1990. 9 volumes.

3. Brown, Charles Brockden. Wieland; or, the Transformation. New York: T. & J. Swords, for H. Caritat, 1798. 1 volume. Wright: 426; BAL: 1496 .

4. ARL Statistics 1994-95. Washington: Association of Research Libraries, 1996. Page 46.