組み込みフォントを必要としないWWWのための多言語ブラウザ
前田亮,藤田岳久,リー スエイチュー,阪口哲男,杉本重雄,田畑孝一
図書館情報大学
〒305 茨城県つくば市春日1-2
Tel: 0298-52-0511 Fax: 0298-52-4326
E-mail: {maeda, take, lee, saka, sugimoto, tabata}@ulis.ac.jp
概要
World-Wide Web(以下WWW)は様々な国で使われ,様々な言語のドキュメントが提供
されている.
MosaicやNetscapeなどのWWWブラウザでは,フォントを用意すれば様々な言語で
書かれたドキュメントを表示することが可能であるが,現状では多言語で書かれた
ドキュメントを表示することはできない.
また,ユーザが外国語のドキュメントを読むために必要なフォントをすべて用意する
のは現実的でないと思われる.
本稿では,WWW環境において多言語を表示するために開発した簡易ブラウザ,
およびそれを実現するための記述方式であるMHTMLについて述べる.
このブラウザと記述方式を用いることによって,クライアント側の組み込みフォントを
用いずに容易に多言語のHTMLドキュメントを表示することが可能となる.
キーワード
インターネット,WWW,HTML,多言語ブラウザ,国際化
A Multilingual Browser for WWW without Preloaded Fonts
Akira Maeda, Takehisa Fujita, Lee Swee Choo, Tetsuo Sakaguchi, Shigeo Sugimoto, Koichi Tabata
University of Library and Information Science
1-2, Kasuga, Tsukuba, Ibaraki, 305, JAPAN
Phone: +81-298-52-0511 Fax: +81-298-52-4326
E-mail: {maeda, take, lee, saka, sugimoto, tabata}@ulis.ac.jp
Abstract
The World-Wide Web (WWW) provides us with documents produced in various
countries. Conventional WWW browsers such as Mosaic and Netscape have
facilities to browse a document written not only in English but also in
other languages, e.g., Japanese, Korean, Chinese and French.
However, those browsers are not useful for a document which is written in
more than one language, e.g., Rosetta stone. In addition, it is not feasible
for users to make all fonts required to browse foreign documents available in
their machines.
This paper describes a light-weight browser for multilingual documents in
the WWW environment. The browser displays HTML text written in a foreign
language but requires no preloaded fonts for that language. This paper
presents a document description scheme for multilingual documents called
MHTML. It also shows a prototype MHTML browser and its performance.
Keywords
Internet, WWW, HTML, multilingual browser, internationalization
1. はじめに
現在WWWは世界中の様々な国で広く使われているが,真の国際的なドキュメント流通
環境を実現しているとは言い難い面がある.
これには大きく分けて2つの理由があろう.
1つは,現在のHTMLの仕様[1]では文字セットとしてASCIIおよびISO-8859-1
(西ヨーロッパの主要言語)の使用しか規定しておらず,それ以外の文字セットの使用に
関しては独自に取り決めを行なう必要があることである.
もう1つは,外国語のドキュメントを読む時に必要なすべてのフォントをローカルな
計算機上に事前に揃えておくのは現実的でないということがある.
自国語以外にはASCIIやISO-8859-1などのフォントしか持っていないことが多いのが
現状であろう.
そのため,例えば日本で中国語のドキュメントを読もうとしてもフォントがなくて読む
ことができない,といったことが起こる.
ディジタル図書館という観点からみても,蓄積・提供するドキュメントの言語を制限
することはふさわしくなく,この点からもこの問題を解決する必要があると思われる.
MHTMLのドキュメントは,HTMLで記述された文章とそれを表示するのに必要な
フォントの集合から構成される.
MHTMLのブラウザを用いれば,クライアント側に組み込みフォントを用意しておく必要
がないため,外国のWWWサーバにアクセスするために必要なフォントを探してきたり
組み込んだりする手間がなくなる.
図1にMHTMLによる方法の概要を示す.
2. MHTMLの構成
MHTMLドキュメントは通常のHTMLドキュメントから生成する.
MHTMLドキュメントはヘッダ部,フォント部,テキスト部の3つの部分から構成される.
ヘッダには,フォント部とテキスト部の先頭へのオフセットが格納される.
フォントは,元となる各言語ごとのフォントファイルから文字ごとに抽出される.
テキスト部分は,ASCIIコードセットおよびドキュメント依存のコードセットの2つの
コードセットによって符号化される.
ドキュメント依存のコードセットは,そのドキュメントに含まれる文字のみから構成
される.
つまり,変換の手順はまず元となるHTMLドキュメントを読み,そのドキュメントに
含まれる文字の集合を調べ,それぞれの文字にコードを割り当て,その文字のフォント
をフォントファイルから抽出し,それを元にMHTMLファイルを出力する.
現在の実装では,HTMLのタグのみにASCIIコードセットを用い,それ以外の部分は
すべてドキュメント依存のコードセットを用いている.
3. MHTMLブラウザの試作
上で述べたMHTMLに基づくブラウザを試作した.
これにはHTMLからMHTMLへの変換機能(サーバ部分)とMHTMLドキュメントを表示する
ビューア機能(クライアント部分)が含まれる.
ビューア機能はMosaicの外部ビューアとして起動することができる.
Mosaicがファイルの拡張子が``.mhtml''であるMHTMLドキュメントを受け取ると
ビューアが起動され,そのドキュメントが表示される.
ビューアではクライアント側にあるフォントを一切用いずに,MHTMLドキュメントに
含まれるフォントのみを用いて表示を行なう.
図2に英語,日本語および韓国語を含んだドキュメントを表示している様子を示す.
アンカー(ハイパテキストリンク)の部分はMosaicなどと同様に下線が引かれている.
アンカー部分をクリックすると,ビューアはMosaicに対して指定されたファイルを
表示するように要求する.
4. 評価
4.1 ドキュメントの大きさ
MHTMLのドキュメントはテキスト部分に加えフォントを含んでいるため,元のHTML
ドキュメントよりも大きくなる.
幾つかのドキュメントについて調べたところ,MHTMLと元のHTMLの大きさ(バイト数)の
比(MHTML/HTML)は約1.7から5.0であり,ドキュメントが大きくなるに従って比は小さく
なる傾向がある.
元のテキストに含まれる全文字数をLとし,互いに異なる文字数をCとすると,
MHTML/HTMLは次の式で与えられる.
MHTML 2L + C × α
------ = --------------- (α=32)
HTML 2L
C α
= 1 + --- × ---
L 2
ここでαは16×16ドットの日本語文字1文字に必要なバイト数である.
ただし実際のMHTMLでは,8×16ドットの英文字や,フォントを含まないタグも含まれる
ため,この式とは異なる.
元のテキストが長くなるに従ってC/Lが小さくなるのは明らかである.
英語の文章の場合,Cの上限はASCIIの全文字数であるが,日本語の文章の場合は実際の
Cの上限はJISの全文字数よりかなり小さくなると考えられる.
例えば,5,368文字と16,615文字の2つの日本語のドキュメントについて調べたところ,
C/Lはそれぞれ0.11と0.05であった.
4.2 他の方法との比較
WWW上で,組み込みフォントを使用しないで多言語のHTMLドキュメントの表示を実現
する方法として,他にも次のようなものが考えられる.
-
イメージマップ: HTMLドキュメントをイメージ(クリッカブル)マップに変換して
クライアントに送る.
-
文字毎のインラインイメージ: HTMLドキュメントに含まれる各文字をインライン
イメージとしてクライアントに送る[2][3].
MHTMLによる方法との比較のため,1つのHTMLドキュメントをこれらの方法により
変換したものを用意し,実験を行なった.
この結果を表1に示す.
5. おわりに
MHTMLおよびブラウザの今後の課題として,次のようなものが挙げられる.
-
様々な大きさのフォント,およびプロポーショナルなフォントへの対応.
-
データ量を減らすため,MHTMLドキュメントの圧縮.
-
MHTMLビューアにおける入力機能(カットアンドペースト,formによる入力など)の
実現.
-
Proxy機能[4]による他のサーバのHTMLドキュメントのMHTMLへの自動変換.
-
多言語ドキュメントの編集機能.
多言語に対応したブラウザは今後の``wall-less''な(壁のない)ディジタル図書館に
とって必須のツールとなるであろう.
しかし,インターネット上での多言語環境はまだ一般的でないのが現状である.
MHTMLによる方法は単純ではあるが,多言語環境を実現するための現実的な方法として
有効であると思われる.
参考文献
[1] Berners-Lee, T., Connolly, D., HyperText Markup Language -- 2.0, Internet Draft, 71p, 1995.
[2] Shopov, V., Character to Inline Image Conversion Library (CIILIB), 1995.
<URL:http://baka.aubg.bg/readme.cii>
[3] Sato, Y., What is the DeleGate ?, 1995.
<URL:http://www.etl.go.jp:8080/etl/People/ysato@etl.go.jp/DeleGate/>
[4] Luotonen, A., Altis, K., World-Wide Web Proxies, WWW'94 Conference, 8p, 1994.
<URL:http://www.w3.org/hypertext/WWW/Proxies/>