SGMLによる『情報管理』誌の冊子体・電子版同時作成の開始と全文検索の試み

新名真紀子*1,森田歌子*1,高木徹*2,木谷強*2
*1 科学技術振興事業団科学技術情報事業本部「情報管理」編集事務局
〒102-0081 千代田区四番町5-3
Tel:03-5214-8415,Fax:03-5214-8417,E-mail:editor@johokanri.jst.go.jp
*2 (株)NTTデータ情報科学研究所
〒210-0913  川崎市幸区堀川町66-2
Tel:044-548-4606,Fax:044-548-4693,E-mail:{takaki,tkitani}@lit.rd.nttdata.co.jp

「概要」

 SGMLによる文書作成・文書処理・編集・印刷の一貫システムを実現する『情報管理』誌SGML編集システムについて,実際の動作を中心に紹介する。このシステムは,『情報管理』誌1999年4月号の編集・印刷作業から運用を開始する。また,4月号発行時より,冊子体と電子ジャーナルの同時提供を予定している。全文DBについては,96年4月号より冊子体発行後にSGML文書として蓄積しており,現在,全文検索の試みを行っているので,併せて紹介する。

「キーワード」

SGML,編集システム,全文検索

Parallel Publishing of Printed and Electronic Form of "JOHO KANRI" Using SGML, and a Tentative Full-text Search

SHIMMYO Makiko*1, MORITA Utako*1, TAKAKI Toru*2, KITANI Tsuyoshi*2
*1 Japan Science and Technology Corporation, Information Center for Science and Technology, Editorial Office Journal of Information Processing and Management
5-3, Yonban-cho, Chiyoda-ku, Tokyo, 102-0081
Phone:+81-3-5214-8415, Fax:+81-3-5214-8417, E-mail:editor@johokanri.jst.go.jp
*2 Laboratory for Information Technology, NTT Data Corporation
66-2, Horikawa-cho, Saiwai-ku, Kawasaki-shi, 210-0913
Phone:+81-44-548-4606, Fax:+81-44-548-4693, E-mail:{takaki,tkitani}@lit.rd.nttdata.co.jp

「Abstract」

We introduce the workflow of "JOHO KANRI" publishing system which realizes SGML publishing system, straight line system of document production, document processing, editing, and printing. This system starts operation with the publication of "JOHO KANRI" April, 1999 issue that is supposed to be published both in printed form and electronic journal. We introduce a tentative full-text search system, since "JOHO KANRI" has stored up its full-text DB from April, 1996 issue in SGML document format.

「Keywords」

SGML, publishing system, full-text search

1.はじめに

 科学技術振興事業団(JST)は,SGML(Standard Generalized Markup Language)による情報の標準化の役割が重要であるとの見地から,1996年にJICST-SGML文書処理システムを開発した。『情報管理』誌では,このシステムを編集・印刷へ応用する試みとして,商用の組版ソフトウエアInterleaf5<SGML>で組版の試作を行い,96年10月の第8回「ディジタル図書館」ワークショップにおいて報告した[1]。

 その後,SGMLによる文書作成・文書処理・編集・印刷の一貫システムを実現する『情報管理』誌SGML編集システムを開発したので,本稿では実際の動作を中心に紹介する。

 このシステムは,1999年4月号の編集・印刷作業から運用を開始する。また,4月号発行時より,冊子体と電子ジャーナルの同時提供を予定している。当初からの目的であった全文DBについては,96年4月号より冊子体発行後にSGML文書として蓄積しており,現在,全文検索の試みを行っているので,併せて紹介する。

2.『情報管理』誌SGML編集システム

 このシステムは,JICST-SGML文書処理システムと,今回開発した『情報管理』誌SGML編集システムの二つから構成されている。システムの全体構成を図1に示す。

SGML文書による編集・印刷の流れ
図1 SGML文書による編集・印刷の流れ

2.1 SGML移行の目的

 SGML移行の目的は以下のとおりである。

(1)学術論文流通の標準化

(2)データの一元的管理:冊子体の編集・発行工程で作成したデータを,全文DB,電子ジャーナルなどに展開する(冊子体,全文DB,電子ジャーナルの同時作成)。

(3)JICST-SGML文書処理システムの実用化

(4)編集・印刷工程の作業量軽減・期間短縮:レイアウト,校正の繰り返しを減らし,校正ゲラの出力回数を減らすことで物理的な「もの」と「ひと」の動きを少なくする。これは印刷経費の削減にもつながる。

(5)経費の節減:冊子体作成経費の節減を図るとともに,データの同時作成を行うことにより,全文DB,電子ジャーナルの作成に関わる経費を最低限に抑える。

2.2 『情報管理』誌の編集・印刷に必要な組版ソフトウエアの機能

 『情報管理』誌の編集・印刷に必要な組版ソフトウエアの機能を分析した結果,以下のような機能が必要であることが明らかになった。

(1)データ作成の同時性:著者校正やレイアウトの変更などの編集・印刷データの修正を,元のSGMLデータに反映させることができること。

(2)レイアウト機能:二段組みと一段組みの混在が可能で,図表のレイアウトが自由にできること。

(3)柱,脚注が扱えること。

(4)コラムごとに異なったレイアウトデザインに対応可能なこと。

(5)日本語の学術文献に合ったフォントを使用できること。

(6)イメージデータのみのページが混在できること。

 以上の六つの機能について,SGMLデータ対応の日本語組版ソフトウエアを,調査・検討した結果,編集・印刷の基本的な条件に適応できるものとして,Interleaf5<SGML>を導入した。

2.3 『情報管理』誌SGML編集システムの機能概要

 『情報管理』誌SGML編集システムは,WS(ワークステーション)上で動作するInterleaf5の制御言語であるInterleaf Lispで構築したシステムである。また,開発にはInterleaf5<SGML ToolKit>を利用している。ソフトウエア構成は,システム構築のために導入した市販ソフトウエアと,JICST−DTDに対応するために開発したソフトウエアからなる。導入ソフトウエア一覧を表1に,開発ソフトウエア一覧を表2に示す。

 このシステムの機能としては,次の三つがある。

(1)Import機能:JICST−DTDに沿ったSGML文書(DTDの規約に基づいて記述されたSGMLインスタンス)から,Interleaf5<SGML>文書(Interleaf5文書にSGMLタグ情報が埋め込まれている)に変換する機能。

(2)カタログによるフォーマット変換機能:ImportしたInterleaf5<SGML>文書を,記事の種類別に書式情報を変換する機能。このシステムでは,「論文用」,「その他の記事用」,「奥付け用(編集後記)」,「目次用」の4種類のレイアウト用カタログを作成した。

(3)Export機能:Interleaf5<SGML>文書を,JICST−DTDに沿ったSGML文書に変換する機能。

導入ソフト一覧
表1 導入ソフト一覧

開発ソフト一覧
表2 開発ソフト一覧

2.4 編集作業の流れ

 編集作業は,以下のような流れで進められる。

(1)PCで作成した1号分のSGML文書を,Interleaf5の編集システムで利用するために,編集作業用のWSに集める(PCからのファイル転送,FDなど補助記憶装置の利用等)。

(2)SGML文書を1号単位に管理するため,発行月のフォルダを作成し,その中に記事単位のフォルダを作成する(図2)。

(3)記事単位にImport処理を行い,SGML文書をInterleaf5文書に変換する。

(4)記事単位に記事の種類別のカタログによるフォーマット変換をし,レイアウト・編集を行う(図3)。

(5)著者校正用に,レイアウト・編集したものを出力し,著者校正を依頼する。

(6)記事単位に,Interleaf5<SGML>の基本編集機能を使い,著者校正の赤字や図表等の変更,レイアウトの変更などの修正を行う。

(7)最終版下データ管理のための版下用フォルダを新たに作成し,編集作業がすべて終わった記事を,このフォルダに集める。ここで台割(雑誌1号分の記事配置)を行う。

(8)Interleaf5の基本編集機能を使い,表紙,奥付け,目次を作成する。これで印刷用版下のデータ作成は終了する(図4)。

(9)編集工程での文字修正等を,元のSGML文書に反映させるため,記事単位にExportを行う。この処理を行うことにより,冊子体と同一のSGMLデータができ,重複した修正作業を行うことなく,全文DB・電子ジャーナルとして利用できる。

 以上の編集作業はすべてWS上で行うが,その作業画面の一部の例を紹介する。図2は,1号分の記事単位のSGML文書を格納したフォルダの内容を示す画面,図3は,一記事のレイアウト編集作業を行っている画面,図4は,1号分の編集が終了した版下用フォルダの内容を示す画面である。

1号分の各記事単位のSGML文書
図2 1号分の各記事単位のSGML文書

レイアウト画面
図3 レイアウト画面

1号分の編集が終了した版下
図4 1号分の編集が終了した版下

3. 『情報管理』誌全文検索プロトタイプシステム

 SGML編集システムで作成した冊子体と同一のSGMLデータに対して全文検索プロトタイプシステムを構築した。この『情報管理』誌全文検索プロトタイプシステムは,全文検索エンジンとしてOpenTextを使用し,Wedサーバを経由して全文検索機能を実現している。

3.1 全文検索システム構築の前提条件

 SGMLデータへの移行の目的として,データの一元管理がある。本システムも,文書作成からの一連のデータ処理で全文検索を実現できることを念頭に開発した。本開発の前提条件は次のとおりである。

(1)JICST-DTDで定義された文書構造に基づく検索が可能なこと。

(2)編集過程で生成されたSGMLデータを加工することなく検索に使用すること。

3.2 全文検索システムの開発

 SGMLデータのファイル構成は,図5に示すように発行年月,文献ごとに階層化された構造になっている。また,各文献ファイルは,SGMLデータ(拡張子sgm),一太郎ファイル(同jbw),図表などのtiff形式のイメージファイル(同tif)から構成されている。

「情報管理」誌SGMLデータのファイル構成
図5 「情報管理」誌SGMLデータのファイル構成

 本システムでは,『情報管理』誌2年分(1996〜1997年度発行分)の304文献を検索対象とした。システム構築に用いた文献データは,SGMLデータとtiff形式のイメージデータを用いた。304文献のデータサイズは,SGMLデータが5.0MB(304ファイル),イメージファイルが281.9MB(1,006ファイル)である。

 全文検索エンジンOpenTextにより全文検索用のインデックスを作成した。インデックス生成はSGMLデータのみを対象とし,次の二つのステップで実施した。

(a)文字単位のインデックス生成

 テキストの文字情報を高速に検索するためにインデックスを作成する。

(b)DTDの構造のインデックス生成

 DTD内に定義されている文書構造を自動的にインデックスに反映させ,(a)でインデックスしたテキストが,文書構造のどの部分に出現しているかという情報もインデックスとして保持する。

 (a)と(b)のインデックスを生成することにより,文書構造を考慮した検索が可能となる。なお,本システムのインデックス作成時間は,(a)20秒,(b)16秒の合計36秒であった(SUN Enterprise3500,メモリ1GBを使用)。また,作成されたインデックスのサイズは10.7MBである。

 検索時はcgiプログラムからOpenTextをコールし,生成された全文インデックスを検索することで全文検索を実現した。なお,テキスト表示時にはインデックス前のSGMLデータを参照する。図6に本システムの全文DBデータの構成を示す。

全文DB検索システムのデータ構成
図6 全文DB検索システムのデータ構成

3.3 全文検索システム機能

 本システムは,以下の検索機能を実現している。

(1)書誌情報や,文書内の構造を指定した全文検索

 検索項目として,「タイトル」,「本文」などを文書の構造単位で指定でき,その部分に出現する単語を指定することで,条件に適合する文献を検索する。

 (例) タイトル中に検索語「情報検索」を含む文献を検索する。

(2)SGMLタグに付与されている属性に対する検索

 『情報管理』誌では,論文の種別がpaperタグ内の属性typeに記述されている。

 (例) 論文種別が「講演」である文献のうち,検索語「電子新聞」を含む文献を検索する。

(3)検索論理条件を指定した検索

 和(OR),積(AND),差(NOT)の各論理演算を実現した。

(4)図表等のイメージファイルとのリンク

 SGMLデータ内に記述されているイメージデータのファイル名を用いて,本文表示時にダイナミックにイメージファイルとリンクさせ表示を可能としている。

 図7に本プロトタイプシステムの検索指示画面イメージ,図8に検索結果の表示画面イメージを示す。

全文検索プロトタイプシステムの画面(検索条件入力)
図7 全文検索プロトタイプシステムの画面(検索条件入力)

全文検索プロトタイプシステムの画面(検索結果一覧,本文表示)
図8 全文検索プロトタイプシステムの画面(検索結果一覧,本文表示)

3.4 検討課題

 プロトタイプシステムの開発の中で明らかになった検討課題を述べる。

(1)発行年月と巻号データの欠落

 発行年月と巻号がJICST-DTD定義になく,SGMLデータに記述されていない。編集段階では,文献の発行年月は決定されるので,DTD定義を追加する方法や,自動的にSGML格納ディレクトリ名からデータを生成し,SGMLデータに追加することで実現可能である。

(2)異なる複数のDTDによるSGMLデータの,同一システムでの検索

 JICST-DTDも,今回用いた「基本ドキュメントDTD」のほか,「二次情報DTD」「雑誌DTD」「予稿集DTD」がある。一般的に,異なるDTDによるSGMLデータを横断的に検索する場合,文書構造の規定が異なるため,特定のDTDには存在しない情報があったり,論理的には同一の情報であっても異なるSGMLタグ名が付与されている場合がある。その場合,異なるDTD間のタグ名対応テーブルを作成するなどの対処が必要となる。

(3)全角(2バイト)文字・半角(1バイト)文字の混在

 現状の「情報管理」誌SGMLデータでは,英単語の記述が1バイト文字と2バイト文字の場合がそれぞれあり,その使い分け方法が統一されていない。英数字の2バイト文字は,1バイト文字として全文検索用のインデックスを作成することにより,検索漏れは防ぐことができる。その際,検索語に2バイトの英数文字列が入力された場合,1バイト文字に変換する必要がある。

4.今後の課題

 『情報管理』誌SGML編集システムの運用を開始することで,編集者は作業量の軽減と期間の短縮になり,充実した誌面作りに多くの時間と労力を注ぐことができるようになる。原稿を執筆する著者にとっても,システム変更に対する抵抗がないよう,できるだけ簡単な執筆規定を作ることを考えている。

 またSGML編集・印刷の移行に伴い,印刷所の作業も大きく変化する。従来の,紙の原稿をもとにした写植,表組み,トレース,校正等の作業は,電子データを使ったコンピュータ上でのオペレーション作業になる。印刷した校正ゲラのやりとりもなくなり,ネットワークを介してデータを共有しながら工程を進めることになる。その変化に対応できるよう,印刷業界への啓蒙・普及を図ることが大きな課題である。

 我が国におけるSGML化の取り組みが,国レベルで検討されている状況から見ても,システムの一層のレベルアップと操作の簡便性を向上させることも重要である。今後,実際に『情報管理』誌SGML編集システムにより本誌の編集・発行を行いつつ,これらの課題に対処していきたい。

参考文献

[1]森田歌子,新名真紀子,鈴木政彦,石黒裕康.論文執筆と編集のためのツールとしてのSGML−『情報管理』冊子体と全文DBの同時発行に向けて.ディジタル図書館.No.8,33-43 (1996)

[2]石黒裕康,千葉博,森田歌子.SGML文書作成プロトタイプシステム.第33回情報科学技術研究集会発表論文集.p.153-162 (1997)

[3]森田歌子,石黒裕康,千葉吉一.『情報管理』誌SGML編集システム−冊子体,全文DB・電子ジャーナルの同時作成−.情報管理.41(6)445-459(1998)

[4]木谷強,相原理,高木徹.全文データベースの事例紹介.情報管理.41(6)460-470(1998)