その後,SGMLによる文書作成・文書処理・編集・印刷の一貫システムを実現する『情報管理』誌SGML編集システムを開発したので,本稿では実際の動作を中心に紹介する。
このシステムは,1999年4月号の編集・印刷作業から運用を開始する。また,4月号発行時より,冊子体と電子ジャーナルの同時提供を予定している。当初からの目的であった全文DBについては,96年4月号より冊子体発行後にSGML文書として蓄積しており,現在,全文検索の試みを行っているので,併せて紹介する。
図1 SGML文書による編集・印刷の流れ
(1)学術論文流通の標準化
(2)データの一元的管理:冊子体の編集・発行工程で作成したデータを,全文DB,電子ジャーナルなどに展開する(冊子体,全文DB,電子ジャーナルの同時作成)。
(3)JICST-SGML文書処理システムの実用化
(4)編集・印刷工程の作業量軽減・期間短縮:レイアウト,校正の繰り返しを減らし,校正ゲラの出力回数を減らすことで物理的な「もの」と「ひと」の動きを少なくする。これは印刷経費の削減にもつながる。
(5)経費の節減:冊子体作成経費の節減を図るとともに,データの同時作成を行うことにより,全文DB,電子ジャーナルの作成に関わる経費を最低限に抑える。
(1)データ作成の同時性:著者校正やレイアウトの変更などの編集・印刷データの修正を,元のSGMLデータに反映させることができること。
(2)レイアウト機能:二段組みと一段組みの混在が可能で,図表のレイアウトが自由にできること。
(3)柱,脚注が扱えること。
(4)コラムごとに異なったレイアウトデザインに対応可能なこと。
(5)日本語の学術文献に合ったフォントを使用できること。
(6)イメージデータのみのページが混在できること。
以上の六つの機能について,SGMLデータ対応の日本語組版ソフトウエアを,調査・検討した結果,編集・印刷の基本的な条件に適応できるものとして,Interleaf5<SGML>を導入した。
このシステムの機能としては,次の三つがある。
(1)Import機能:JICST−DTDに沿ったSGML文書(DTDの規約に基づいて記述されたSGMLインスタンス)から,Interleaf5<SGML>文書(Interleaf5文書にSGMLタグ情報が埋め込まれている)に変換する機能。
(2)カタログによるフォーマット変換機能:ImportしたInterleaf5<SGML>文書を,記事の種類別に書式情報を変換する機能。このシステムでは,「論文用」,「その他の記事用」,「奥付け用(編集後記)」,「目次用」の4種類のレイアウト用カタログを作成した。
(3)Export機能:Interleaf5<SGML>文書を,JICST−DTDに沿ったSGML文書に変換する機能。
表1 導入ソフト一覧
表2 開発ソフト一覧
(1)PCで作成した1号分のSGML文書を,Interleaf5の編集システムで利用するために,編集作業用のWSに集める(PCからのファイル転送,FDなど補助記憶装置の利用等)。
(2)SGML文書を1号単位に管理するため,発行月のフォルダを作成し,その中に記事単位のフォルダを作成する(図2)。
(3)記事単位にImport処理を行い,SGML文書をInterleaf5文書に変換する。
(4)記事単位に記事の種類別のカタログによるフォーマット変換をし,レイアウト・編集を行う(図3)。
(5)著者校正用に,レイアウト・編集したものを出力し,著者校正を依頼する。
(6)記事単位に,Interleaf5<SGML>の基本編集機能を使い,著者校正の赤字や図表等の変更,レイアウトの変更などの修正を行う。
(7)最終版下データ管理のための版下用フォルダを新たに作成し,編集作業がすべて終わった記事を,このフォルダに集める。ここで台割(雑誌1号分の記事配置)を行う。
(8)Interleaf5の基本編集機能を使い,表紙,奥付け,目次を作成する。これで印刷用版下のデータ作成は終了する(図4)。
(9)編集工程での文字修正等を,元のSGML文書に反映させるため,記事単位にExportを行う。この処理を行うことにより,冊子体と同一のSGMLデータができ,重複した修正作業を行うことなく,全文DB・電子ジャーナルとして利用できる。
以上の編集作業はすべてWS上で行うが,その作業画面の一部の例を紹介する。図2は,1号分の記事単位のSGML文書を格納したフォルダの内容を示す画面,図3は,一記事のレイアウト編集作業を行っている画面,図4は,1号分の編集が終了した版下用フォルダの内容を示す画面である。
図2 1号分の各記事単位のSGML文書
図3 レイアウト画面
図4 1号分の編集が終了した版下
(1)JICST-DTDで定義された文書構造に基づく検索が可能なこと。
(2)編集過程で生成されたSGMLデータを加工することなく検索に使用すること。
図5 「情報管理」誌SGMLデータのファイル構成
本システムでは,『情報管理』誌2年分(1996〜1997年度発行分)の304文献を検索対象とした。システム構築に用いた文献データは,SGMLデータとtiff形式のイメージデータを用いた。304文献のデータサイズは,SGMLデータが5.0MB(304ファイル),イメージファイルが281.9MB(1,006ファイル)である。
全文検索エンジンOpenTextにより全文検索用のインデックスを作成した。インデックス生成はSGMLデータのみを対象とし,次の二つのステップで実施した。
(a)文字単位のインデックス生成
テキストの文字情報を高速に検索するためにインデックスを作成する。
(b)DTDの構造のインデックス生成
DTD内に定義されている文書構造を自動的にインデックスに反映させ,(a)でインデックスしたテキストが,文書構造のどの部分に出現しているかという情報もインデックスとして保持する。
(a)と(b)のインデックスを生成することにより,文書構造を考慮した検索が可能となる。なお,本システムのインデックス作成時間は,(a)20秒,(b)16秒の合計36秒であった(SUN Enterprise3500,メモリ1GBを使用)。また,作成されたインデックスのサイズは10.7MBである。
検索時はcgiプログラムからOpenTextをコールし,生成された全文インデックスを検索することで全文検索を実現した。なお,テキスト表示時にはインデックス前のSGMLデータを参照する。図6に本システムの全文DBデータの構成を示す。
図6 全文DB検索システムのデータ構成
(1)書誌情報や,文書内の構造を指定した全文検索
検索項目として,「タイトル」,「本文」などを文書の構造単位で指定でき,その部分に出現する単語を指定することで,条件に適合する文献を検索する。
(例) タイトル中に検索語「情報検索」を含む文献を検索する。
(2)SGMLタグに付与されている属性に対する検索
『情報管理』誌では,論文の種別がpaperタグ内の属性typeに記述されている。
(例) 論文種別が「講演」である文献のうち,検索語「電子新聞」を含む文献を検索する。
(3)検索論理条件を指定した検索
和(OR),積(AND),差(NOT)の各論理演算を実現した。
(4)図表等のイメージファイルとのリンク
SGMLデータ内に記述されているイメージデータのファイル名を用いて,本文表示時にダイナミックにイメージファイルとリンクさせ表示を可能としている。
図7に本プロトタイプシステムの検索指示画面イメージ,図8に検索結果の表示画面イメージを示す。
図7 全文検索プロトタイプシステムの画面(検索条件入力)
図8 全文検索プロトタイプシステムの画面(検索結果一覧,本文表示)
(1)発行年月と巻号データの欠落
発行年月と巻号がJICST-DTD定義になく,SGMLデータに記述されていない。編集段階では,文献の発行年月は決定されるので,DTD定義を追加する方法や,自動的にSGML格納ディレクトリ名からデータを生成し,SGMLデータに追加することで実現可能である。
(2)異なる複数のDTDによるSGMLデータの,同一システムでの検索
JICST-DTDも,今回用いた「基本ドキュメントDTD」のほか,「二次情報DTD」「雑誌DTD」「予稿集DTD」がある。一般的に,異なるDTDによるSGMLデータを横断的に検索する場合,文書構造の規定が異なるため,特定のDTDには存在しない情報があったり,論理的には同一の情報であっても異なるSGMLタグ名が付与されている場合がある。その場合,異なるDTD間のタグ名対応テーブルを作成するなどの対処が必要となる。
(3)全角(2バイト)文字・半角(1バイト)文字の混在
現状の「情報管理」誌SGMLデータでは,英単語の記述が1バイト文字と2バイト文字の場合がそれぞれあり,その使い分け方法が統一されていない。英数字の2バイト文字は,1バイト文字として全文検索用のインデックスを作成することにより,検索漏れは防ぐことができる。その際,検索語に2バイトの英数文字列が入力された場合,1バイト文字に変換する必要がある。
またSGML編集・印刷の移行に伴い,印刷所の作業も大きく変化する。従来の,紙の原稿をもとにした写植,表組み,トレース,校正等の作業は,電子データを使ったコンピュータ上でのオペレーション作業になる。印刷した校正ゲラのやりとりもなくなり,ネットワークを介してデータを共有しながら工程を進めることになる。その変化に対応できるよう,印刷業界への啓蒙・普及を図ることが大きな課題である。
我が国におけるSGML化の取り組みが,国レベルで検討されている状況から見ても,システムの一層のレベルアップと操作の簡便性を向上させることも重要である。今後,実際に『情報管理』誌SGML編集システムにより本誌の編集・発行を行いつつ,これらの課題に対処していきたい。
[2]石黒裕康,千葉博,森田歌子.SGML文書作成プロトタイプシステム.第33回情報科学技術研究集会発表論文集.p.153-162 (1997)
[3]森田歌子,石黒裕康,千葉吉一.『情報管理』誌SGML編集システム−冊子体,全文DB・電子ジャーナルの同時作成−.情報管理.41(6)445-459(1998)
[4]木谷強,相原理,高木徹.全文データベースの事例紹介.情報管理.41(6)460-470(1998)