2003年10月、国際連合教育科学文化機関(UNESCO: United Nations Educational, Scientific and Cultural Organization)は、「デジタル遺産の保護に関する憲章」を採択した[1]。「憲章」では、インターネット情報を含め、現代社会において重要な電子情報の保存が保証されていない状況にかんがみ、各国政府において、問題意識の喚起と保存のための取り組みが必要であることを宣言している。
国立国会図書館(National Diet Library、以下NDLとする)においても平成14年度より調査研究を開始した。NDLでは、平成12年10月1日の国立国会図書館法の一部改正法施行に伴い、パッケージ系電子出版物を納本対象として受け入れるようになった[2]が、その以前から購入などによって収集した資料も所蔵している。NDLが収集し後世に遺す出版物は紙媒体に限定されるものではなく、電子出版物も貴重な文化遺産である。また、NDLでは明治時代以前の図書の電子化[3,4]やネットワーク系電子出版物の収集[5]など、電子情報の収集、保存、提供に関する様々な事業を進めており、所蔵する電子情報は今後急増していくことが予想される。電子情報の長期的保存と将来にわたる情報アクセスの保証は重要な問題である。
本稿では、平成16年度の調査結果を中心として報告する[6]。
利用が不可能となる原因は、次のように大別される。
(1) OSの不適合
調査において、資料が利用できなかった最大の理由は、OS(Operating System、基本ソフトウェア)に関係するものである。異常終了、一部機能の不作動、インストールの失敗などの問題が発生した。電子資料を再生する場合、機器と再生用のアプリケーションソフトウェア(その電子資料自体が再生対象のアプリケーションソフトウェアであることも多い)を必要とするが、通常、アプリケーションソフトウェアは特定のOSでのみ動作が保証されている。新しい種類やバージョンのOSが登場すれば、新しいアプリケーションソフトウェアも続々と登場する。その一方で、市場での競争力を失い旧式化していくOSも存在する。OSの不適合が原因で利用不可となる電子資料は、新規OSの増加に伴って今後増加することが予想される。
(2) アプリケーションプログラムに関する問題
電子書籍用のプログラムや、古いバージョンのアプリケーションプログラムが必要であるため、標準的なパーソナルコンピュータの環境では利用できない資料も多くあった。この場合、必要とするアプリケーションプログラムをインストールすれば利用が可能であると予想されるが、旧式化したアプリケーションプログラムを入手することは困難である。永続的な文書保存に適しているとされるファイル形式もあるが、対応するアプリケーションプログラムが供給され続ける保証はない。
(3) 媒体とハードウェアの旧式化
記録媒体関連の問題により利用できない電子資料もあった。その大半が5インチフロッピーディスクであり、対応ドライブ機器を用意できないために読み取りができなかった。ドライブ機器が対応しているはずの3.5インチフロッピーディスクとCD-ROMについても読み取れないものがあった。
電子媒体に新たな規格が出現して普及すると、旧式の電子媒体の利用が急激に困難になる。例えば、8インチ及び5インチのフロッピーディスクドライブ、生産を中止したゲーム機用の媒体などは、読み出し装置の入手が難しいため、利用は困難である。仮に読み出し装置を入手できたとしても、媒体・装置のどちらかが耐久年限を過ぎてしまえば、利用できない。
さらに、媒体そのものの劣化も問題である。特に、近年では光ディスクの耐久性について注目が高まっている。開発当初は「半永久的な保存メディア」とされていたCDであっても、数十年程度で使用が不可能なほど劣化するという調査結果もある。[7]
マイグレーションには様々な手法が含まれるが、ここでは次のように分類する。
(1) 同種の新しい媒体に移し替えること
(2) 異種の媒体に移し替えること
(3) データ形式を変換すること
(4) プログラムやシステムを新規環境に移行すること
(1)(2)は、電子情報自体を長期的に保存するための行為、(3)(4)は、電子情報へのアクセス手段を確保するための行為ということができる。
(1)(2)は作業としては容易といえるが、所蔵資料の規模に応じて作業量が増大する。また、個々の電子出版物を大規模記憶装置に移行して集約しない限り、非常にコストのかかる作業になる。しかも、媒体に記録されている情報に確実にアクセスできる段階で次の媒体に移さなくてはならないため、媒体寿命といわれる年数より短い間隔で作業を繰り返さざるを得ない。(3)は、JPEGをJPEG2000に変換する、RTFをPDFに変換するなどのデータ形式の変換作業である。変換先データ形式が標準的なものであって、今後も広く使われつづけると思われる形式であれば、再生は確保できる。しかし、原本性が損なわれるという問題が伴う。(4)は、仕様書や設計書、ソースプログラム一式を揃え、必要個所の修正を行い、プログラムを再作成することである。商用ソフトウェアの必要物一式の入手は困難なので、適用対象は組織内部で作成したプログラム等に限定されると思われる。マイグレーションというカテゴリーに含めているものの、他の方法と比べ、作業内容も、必要とされる技術レベルも大きく異なる。
電子資料を再生するためには、そのための環境、すなわち特定のハードウェアとソフトウェアが必要である。しかし、ハードウェアの寿命は短く、動作可能な状態で保持し続けていくことは現実的でない。エミュレータはアプリケーションソフトウェアの位置にあって、擬似的に、旧式ソフトウェアが必要としている機能を再現する。ハードウェアやOSが移り変わっても、エミュレータのみ作成すればそれまでのアプリケーションソフトウェアやOSを利用することができる。このようなエミュレータは多数作成され、頒布されている。しかし、独自に作成するためには高度な技術が必要であり、また完全に旧式環境を再現できるとは限らない。
その結果、全体の7割の資料で、再生時に何らかの問題が発生した。図3は、電子資料が必要とするOSごとの結果である。
(1) Windows 98
エミュレータ上にWindows 98をインストールし、12点の電子資料について動作確認を行った。今回の調査の中では比較的新しいOSであり、音声の再生を正しく行えなかった媒体が1点あったが、残りは再生に問題がなかった。
(2) Windows 95
エミュレータ上にWindows 95をインストールし、55点の電子資料について動作確認を行った。このうち再生が可能なものは16点に留まった。一部の再生が不可能なものについては、ほとんどが音声の問題(雑音、再生速度の乱れ)であった。
(3) Windows 3.1 及び DOS
エミュレータ上にDOS(J6.1/V)とWindows 3.1をインストールし、Windows 3.1用電子資料31点、DOS用電子資料2点について動作確認を行った。Windows 3.1上で必要とされる音声用ドライバが入手できなかったこと、画面サイズの不適合などの原因により、再生が可能なものは2点のみであった。
4.1においてマイグレーションを行った352点の中から、データのみを含む資料を100点抽出し、ファイル形式変換調査用のサンプルとした。サンプルの内容は、次のように大別される。(図4)
(1) 素材集など
多種多様なファイル形式を含むが、それぞれのファイルに関連性がなく、個別に再生するもの。電子資料に含まれる多数のファイルから、利用したい1ファイルを取り出して使用する。
(2) ブラウザで再生するHTML文書
HTML形式のファイルは、様々な形式のデータファイルが関連付けされて再生される。複数のHTML形式ファイルの組み合わせによる関連付けの他にも、静止画・動画・音声・その他アプリケーションのデータが文書内に埋め込まれている場合が多い。
(3) 電子書籍・辞書
電子書籍類は、データ本体とその制御情報によって構成されている。付随する制御情報によって、データの内容に合わせた表現が行われたり、データの検索を行えるようになっている。例えば、文字情報に音声情報を連携させることによって、辞書に描かれた動物の挿絵をクリックすると鳴き声が流れる、といった表現が実現されている。EPWINGフォーマット(JIS X4081「日本語電子出版検索データ構造」)などがこれに該当する。
(4) その他
上記いずれにも当てはまらないもの、例えば、PDF形式のファイルに動画のファイルが付随しているものなどがあった。
一般的なファイル形式変換ソフトウェアでは、変換が1ファイルごとに行われる。そのため、(2)に該当するファイルについて変換を行うと、連携している他のファイルとの関連性が失われてしまうために、元のコンテンツを一体的に再生することができなくなる。また、(3)に該当するファイルも、制御情報を用いてデータが連携されているために、個別にファイルを取り出して利用することができない。そのため、(2)や(3)についてファイル形式変換を行うことは、現状では困難である。
本調査では、(1)・(4)に該当する電子資料39点のうち、ISOによって規格化されているものなど、ソフトウェアベンダーに依存しない形式のファイルのみによって構成されている資料が24点あった。これらは長期的に利用保証することが比較的容易であると考え、残りの15点について、市販のファイル形式変換ソフトウェアを用い、より規格化された形式に変換することを試みた。変換作業の例を表3に示す。
その結果、ファイル形式の変換に成功したのは2点のみであった。内訳は、DOC(Microsoft Word文書)形式からPDF(Adobe)形式、XLS(Microsoft Excel文書)形式からPDF形式が各1点である。
今回の調査の結果を踏まえ、電子資料への長期的アクセスを確保するためには、エミュレータは、以下の要件を備えていることが必要であると考えられる。
しかし、通常はエミュレータ自体も特定のOSで動作するために、そのままでは長期的に使い続けることはできない。このため、エミュレータ上で旧式のエミュレータを動作させることや、多くのハードウェア上で比較的容易に実装可能な仮想マシン上で動作可能なエミュレータを開発することなどが必要と思われる。
(1) 長期保存と利用のためのシステム構築
長期保存を行うためには、それを可能とするためのシステムを構築しなくてはならない。デジタル情報の長期保存のための指針としてOAIS参照モデル[8]が提案されているが、長期保存と長期的な利用を可能とするシステムとして具体化することは容易ではない。また、OSのバージョンアップの頻度、技術進歩にシステム全体を適合させることを考慮すれば、4〜5年毎に全面的なシステムの更新を行いつづけなくてはならない。このような非常に移ろいやすい基盤の上に、「永続的な長期保存システム」を構築せざるを得ないため、システムの構築以上に、システムが備えるべき永続的な特質についての検討や、システムを状況に適応させ続けていくための戦略が重要である。
(2) 技術動向の把握
コンピュータとその関連技術が進歩するに伴い、NDLが受け入れる電子出版物も多種多様になっている。ハードウェア・ソフトウェア・通信・出版技術等、常に最新の情報を基にして、新たな種類の電子媒体に対しても確実に対応する必要がある。「気付かぬうちに技術的環境に変化が起こり、大量の電子資料が読み取れなくなってしまった」という事態は避けなければならない。
(3) 協力関係の確立
コピープロテクトの解除、エミュレータの作成等、図書館が単独で行うには困難な作業が多く、パッケージ系電子出版物の著作者や技術提供者に問題を周知し、適切な協力を得る必要がある。また、国内および世界各国で同様の研究を行っている国立図書館との連携も重要である。
NDLは、2004年2月に「電子図書館中期計画2004」を策定し、目標の一つとしてデジタル・アーカイブの構築を挙げている[9]。電子図書館事業の基盤技術の一つとして、今後も調査研究を進めると共に、具体的な長期保存の取り組みのための枠組みを構築していきたい。
(注) パッケージ系出版物は、下記の3種に分類される。
このうち、電子資料について調査を行った。
[2] 国立国会図書館: 納本制度とは http://www.ndl.go.jp/jp/aboutus/deposit_01what.html [last access: 2006.2.13]
[3] 国立国会図書館: 近代デジタルライブラリー http://kindai.ndl.go.jp/ [last access: 2006.2.13]
[4] 国立国会図書館: 貴重書画像データベース http://rarebook.ndl.go.jp/ [last access: 2006.2.13]
[5] 国立国会図書館: インターネット資源蓄積実験事業(WARP) http://warp.ndl.go.jp/ [last access: 2006.2.13]
[6] 国立国会図書館: 電子情報の長期的な保存と利用 http://www.ndl.go.jp/jp/aboutus/preservation.html [last access: 2006.2.13]
[7] これまでに様々な調査機関が結果を提示している。例として、
Fred R. Byers: "Care and Handling of CDs and DVDs -A Guide for Librarians and Archivists", NIST Special Publication 500-252, National Institute of Standards and Technology and Council on Library and Information Resources, 2003. http://www.itl.nist.gov/div895/carefordisc/CDandDVDCareandHandlingGuide.pdf
C. Shahani: "Compact disc service life: an investigation of the estimated SERVICE life of prerecorded compact discs (CD-ROM)", Preservation Research and Testing Series, no. 10, Preservation Directorate Library of Congress, 2005.
[8] "Reference Model for an Open Archival Information System (OAIS). Blue Book, Issue 1.", CCSDS 650.0-B-1, Consultative Committee for Space Data Systems, 2002. http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCSDS-650.0-B-1.pdf [last access: 2006.2.13]
[9] 国立国会図書館:電子図書館中期計画2004 http://www.ndl.go.jp/jp/aboutus/elib_plan2004.html [last access: 2006.2.13]