現在の筆者の立場は、経済学の研究者ではなくデータ処理を担当する一員である。具体 的には、以下のようなデータを扱っている。
これらは、最近1〜2年前までは大学の設備が大型計算機が現役だったことが多く、配布 元でも媒体として磁気テープを長年利用してきた経緯もあり、筆者の勤務先も含めてそれ ぞれ独自のアプリケーションソフトウェアを使って処理をしてきた。経済統計データをめ ぐる全体の流れとして、各大学では大型計算機からワークステーション、パソコンへと設 備の変化があり、さらに配布元でもCD-ROMだけの配布にする場合が増えてきた。例えば、 OECDは1998年頃から、IMFは1999年春からCD-ROMだけで発行している。殊にIMFの場 合は、2000年問題の解決という目的も含んで[2]、従来の磁気テープ配布の形態がCD-ROM と添付ソフトウェアの配布という形態に変更されている。今後もさまざまなデータベース 提供者が、便利なソフトウェアを添付してデータベースを配布する傾向が続くと思われる。
本論文では、日本経済のヒストリカルデータのうち、日本国内の経済系の学部を持つ大 学では購入率の高いデータである日経NEEDSに焦点を当て、それに対する独自の統計処理 システムについての情報共有化について議論する。徐々に少なくなりつつあるがまだ複数 の大学では、独自ソフトウェアを用いているところがある。おそらく、企業等でも大型計 算機や磁気テープデバイスなどの設備・資産のある所は多いので、同じような形態のとこ ろは多いと思われるが、情報共有という面では、その利害関係が少ないだろうという仮定 のもと、まず学術機関のみでノウハウ共有をはかれるのではないかと考えている。
筆者の勤務先でも、大型計算機の時代とワークステーションの時代では、ソフトウェア の構成はまるで異なり、ソフトウェア資産の移行は一切なされなかった。さらに、他大学 で既に開発されていたソフトウェアの調査もなされていなかった。このような状態は他の 大学でも起こっているようである。つまり、互いに開発・運用情報の共有ができていない といえる。
今回筆者は、既に約半年、インターネットの検索エンジンなどで得られた情報を元に、 電子メールの交換や対面インタビューなどを通じて他大学との情報交換をしたり、メーリ ングリストを通じて情報共有を図っている。以下では、今までの実践報告をするとともに、 今後、大学のソフトウェア開発情報がディジタル図書館とどのように関わるかについても 議論する。
本論文でNEEDSとは、日本経済新聞社が提供しているデータベースサービスNEEDSのう ち、日経QUICK情報株式会社[3]が配布している商品NEEDS-MTを指すことにする。NEEDS は、従来その名称の通り磁気テープでの配布が主流だったが、近年は8mmテープなど他の 媒体でも配布している。NEEDSは、素データを収録したデータベースである。それぞれの 大学では、独自の抽出用ソフトウェアをつくってデータを利用している。NEEDSにはいろ いろなデータファイルが用意されているが、総合経済ファイルなどはたいていの顧客機関 が購入しているものと思われる。
ただし、NEEDSがどの大学でどのように使われているか、あるいはどのような統計を使 っているかは明らかでない。より明らかにするためには、ベンダーである日経QUICK情報 から情報を得るか、当該の機関にあたるしかない。例えば、CD-ROMで供給されるNEEDS- CD-ROMという商品は、日経が提供するWindowsベースの抽出用ソフトウェアを添付して いるので、たとえ自作ソフトウェアがなくとも、一般利用者が簡単に利用できるという利 点をもっている。NEEDSを購入していた大学のうち、設備変更を機会に購入をやめる場合 もあったり、ソフトウェアつきであるNEEDS-CD-ROMへの切り替えや併用をしているとこ ろは増えていると思われる。反面、NEEDS-CD-ROMは、独自フォーマットによるデータ格 納がなされているため、添付ソフトウェアが不可欠であるし、価格も割高になっている。
また、他のデータベースやソフトウェアのベンダーと同様、動向はつかめないところは あるが、NEEDSの将来は磁気テープという媒体のままの配布が継続されるか、素データだ けの商品を購入しつづけることは可能か、ということが問題となる。
分野によっては、大学間での連携が取れている場合もあると思われるが、この経済統計 の分野ではある程度できており、ある程度できていないといえる。つまり、経済統計学を やっている人は情報交換ができているが、そうでないひとは難しいかもしれないと筆者は 考える。経済統計学を専攻する人たちの集まりとしては、福井県立大学佐野一雄講師が主 宰するecostat[4]というメーリングリストを利用しているし、後述するNEEDS用のシス テムであるXCAMPUSのユーザ用メーリングリストも存在している。これらの存在につきあ たることができれば、何らかの情報交換は可能であろう。ただし、筆者がインタビューし たNEEDS検索システムの関係者は、これらには参加していない模様である。これらの議論 や情報交換をするグループから外れてしまう人たちがいるということである。また、検索 システムをせっかく作っても、論文あるいは使用の手引きがそろっていない場合も多い。 ドキュメントをさらに充実し、目につく形で公表されていると、各研究者にとって開発や 研究の時間が短縮できる場合もあるのではないかと思われる。
ところで、教育機関で開発されたソフトウェアやデータベースについてもディレクトリ が存在している。初等・中等教育の現場で作られたソフトウェアに関しては国立教育会館 のデータベース[7]がある。大学等におけるデータベース開発・運用については学術情報 センターのディレクトリ[8]がある。これは、データベース開発事例、データベース作成 事例、データベース運用事例がうまく場合わけできていない感がある。実際筆者も今年の アンケートで内容を是正したが、アンケート項目が現状とうまくかみ合わず記入が難しか った事も申し添える。それから、メディア教育開発センターの事例データベース[9]も公 開された。
このように、それぞれの分野で開発されたソフトウェアやデータベースに関する事例デ ータベースが構築される傾向にあると思われる。
図1 日経 NEEDS 検索システム開発事例
まず、NEEDS用検索システムとして、とくに授業で統計を使う教員に今一番支持されて いるシステムとして神戸商科大学経済研究所の斎藤清教授が開発したXCAMPUS[10]がある。大 型計算機から、UNIX、Linuxまで連綿と開発が続けられている。関連論文は多数存在する が、一般利用者はWWWで得られる使用例や構文解説などを参照すれば十分な情報が得られ ると思われる。さらに、桃山学院大学経済学部の荒木英一教授[11]のシステムや、麗澤大 学国際経済学部の高辻秀興教授のREISTAT[12]はソースプログラムも公開されており、関 連論文も発表されている。他にもいくつかの開発事例があるが、今から開発をする場合に はXCAMPUSのような配布サービスを受けたり、ソースプログラムを開発しているところか ら情報を得ることによって、開発時間を削減できるものと思われる。
このメーリングリストでは、ディスカッションというほどの議論は行われないが、それ ぞれから新しい情報が得られている。参加しているのは、大学のシステム開発者や、購入 担当者である。NEEDS-MTという商品はいくつかの媒体で提供されているとか、検索シス テムは大型計算機の時代には、大阪大学の伴金美教授作成のFORTRANシステムが作ったシ ステムやそれを当時筑波大学(現新潟大学)の和合肇教授が改良したものを使っているとい うところがかなりあった、ということがわかった。さらに、CD-ROM版以外にNEEDS-MTの 媒体の1つとしてCD-Rもあり、これはCD-ROM版という契約ではないからこれにソフトウ ェアはついてこないということなどを確認した。
このメーリングリストでも一番の話題になっているのは、コードブックの電子化という 問題である。日経コードと呼ばれる項目コードや会社コードを参照するには、冊子体のコ ードブックを手元にもっていないと不便である。ただし、素データだけのNEEDS-MTを購 入した場合には、電子化された情報が得られないために、スキャナとOCRという手作業で 生成している大学もあった。ただし、CD-ROM版では、電子化されているが、メニュー形 式になっており、コードからの検索は不便であるし、冊子体のコードブックは添付されな い。CD-ROMのコードブックと冊子体のコードブックは、イコールでないという事も分か った。
また、開発元への要望をまとめて伝えたいという意見もあったが、小人数であるのもあ りうまくまとまっていない。さらに、CD-ROM版に乗り換えたりすることによって、それ ぞれ不満が解消されている可能性があると考えられる。
今後は、とくに財務データについて、会計制度の変更に伴う項目変更等のデータフォー マットの変更があるために、各大学ともに独自システムを続けるかどうかなどについての 議論が行われると考えている。
ここで、資料形態の違いによって、閲覧場所を変えるという事例を考えてみる。雑誌、 マイクロ資料、ビデオテープ、CD-ROMといった形態別のサービスが想定される。マイク ロ資料は、図書館で専用のリーダを利用者自らが使うのが、情報にたどり着く近道である 可能性があるが、CD-ROMの場合は、利用許諾条件が許せば学内LANなどを利用して、図 書館に行かずとも利用できるのである。
CD-ROM資料としては、統計データ以外にも、外国語学習資料や辞典・事典類が存在す る。しかし、いずれもCD-ROMサーバ経由で専用ソフトウェアをも利用したり、専用ソフ トウェアを手元のパソコンにインストールするだけで、データだけを遠隔利用することも 技術的には可能である。統計データについてもIMFが発行しているIFS(International Financial Statistics)のCD-ROMは、ネットワーク契約をすれば、CD-ROMサーバを学内 LAN経由で遠隔利用ができる。現に国内でも大学図書館のCD-ROMサーバで実現されてい る例はある。このように、統計データベースと統計書を継続購入するならば、「経済学部 が購入したデータを情報処理センターで処理する」という形態以外にも、「図書館で購入 した図書をCDに代える、今後も図書館の資料として管理・運営していく」という選択肢 が考えられる。今後、図書館の運営形態の問題や、ディジタル図書館としてCD-ROM資料 をどのように収集・提供するか、という問題でこの問題も含んで議論されることになろう。
ディジタル図書館が含むべき一つのシステムとして、データベースに関する著作権の処 理システムが確立されるように望む。依然として、「データは無料であるから自分のホー ムページで自由に再編成して公開したい」という感覚を持っている人がおり、今回のよう なNEEDSデータの抽出結果を再利用したいという希望を持っている人はいると聞いている。 NEEDSデータは、もともと官公庁発表の月次データなどが元になっていて、それを編集し たものを購入しているのであるが、このような場合にも「元のデータは無料だった」とか 「購入したものをどう利用しようと勝手だ」という考えが浮かぶらしい。これを是正しな ければデータベース産業は成長しないと思われる。翻って学術機関にとっては、どんなデ ータもたやすく安価で、できれば無料で手に入れたいという願望があるのは明白であるの で、議論の前途はまだまだ多難であるといえる。
まず、購入しているファイルの名前については、それぞれのファイルによって資料の内 容としてもレコードフォーマットとしても異なるので、かなり重要な項目であり、開発者 ならば必要とする項目に間違いないが、これについては非公式ながらも、ベンダー側から 公開をしない方がよい旨いわれている。これもプライバシーであるという拡大解釈は可能 であるが、今後議論を必要とするであろう。
次に、担当者の勤務先情報は、筆者もWWWから入手できる事もあるが、基本的には、 WWWでは現在匿名の管理者あてにメールが届くように案内しているサイトが多く、この匿 名管理者メールIDが実際は、管理者用メールエイリアスや管理者用メーリングリストと して実現されている場合があるようである。実際、今回の調査の場合も、返答が「メーリ ングリストを代表して」とか、「担当者に転送します」という趣旨の場合が多い。一方、 筆者のメールが内部的にどのように扱われたのか想像しかできないが、おそらく見ず知ら ずのものからの不審なメールとして処理されたのか、受け取ったかどうかのメールが来な いという場合も多かった。今後もホームページに情報を載せる事による不利益を避ける工 夫と情報公開をするべきかという問題が残ると思われるが、中心となる機関がある基準を もったディレクトリをつくることによって、信頼性の問題も解決すると思われる。
最後にソフトウェアを外注した場合の発注先企業名が、インタビューの結果分かってい る。ただし、事務手続のノウハウ等も含み、複雑な事項であると判断したために今回の公 開を避けた。ソフトウェアの開発については、大学でも今後は外注や委託を導入する場合 は多くなり、特にシステムの運用・管理も含めてのソフトウェアの修正・変更をどのよう に依頼するかなどの、あまり公にしにくいノウハウを共有するためにはメーリングリスト などを利用したインフォーマルなコミュニティの形成で解決できるかもしれないと想像す る。
という問題が含まれる。ただし、一番目の問題以外は努力次第で改善は可能であると思わ れる。そして、ソフトウェア特有の問題として、
という問題が含まれる。特に、開発者がいなくなった後に、運用者だけになってしまうと OS依存か否かはわからない場合が見受けられた。開発言語もわからない場合も多い。よ って、開発する時点からドキュメントを作成する習慣は不可欠であるといえる。これは、 商用ソフトウェアの開発チームの中では、至極当然であるが、大学関係者にはまだまだ開 発情報を共有したり、ソフトウェアの公開をする習慣が少ないので、ソフトウェア修正情 報などもきちんと整備されていない。
[2] International Monetary Fund. IMF Statistical Publications - Year 2000 Compliance. http://www.imf.org/external/pubs/pubs/Y2kpub.htm
[3] 日経QUICK情報. http://www.nqi.co.jp/
[4] ecostat. http://157.6.32.3/ecostat.html
[5] 窓の杜. http://www.forest.impress.co.jp/
[6] Vector. http://www.vector.co.jp/
[7] 国立教育会館. ソフトウェアライブラリ総合センター. http://www.naec.go.jp/joho/slc.html
[8] 学術情報センター. DBDR. http://www.nacsis.ac.jp/ir/dbdr/dbdr.html
[9] メディア教育開発センター. データベースの種類. http://sirius.nime.ac.jp/syurui.html
[10] XCAMPUS. http://xcsv.kobeuc.ac.jp/xcampus/default.htm
[11] Araki's Homepage. http://rio.andrew.ac.jp/araki/index.html
[12] REISTAT. http://www.reitaku-u.ac.jp/tak/reistat_demo.html
[13] Ivation Data Systems. http://data.beyond2020.com/
[14] C.データベースからのデータ抽出行為への法的対応等について. 日本情報処理 開発協会 産学官研究開発コミュニティ. http://www.gip.jipdec.or.jp/policy/infopoli/intelle-prop/intelle-prop-C.html
注:WWWのURLについては、平成11年10月25日現在のものである。