一方、近年急速に普及したコンピュータ上での漢字処理は、文字コードに基づいている。文字コード上で別々のコードポイントが与えられた漢字は、「国/國」のように同音・同義であっても別の文字であると処理される。このことが、日本語情報処理の中で、小さくない障碍となってきている。
人間が知識と経験に基づいてごく自然に行っている同一視作業を、コンピュータ上で行おうとすると、どの漢字とどの漢字が同一視できるのかという情報を用意してやらなければならない。本研究では、JIS X 0208:1997とJIS X 0212-1990に含まれる12,156字を対象に、漢字同一視のためのシソーラスを構築した。
一例を挙げれば「国」と「國」がそうである。この両字は相互に同じ字であると解釈され、通常どちらで書かれていても区別されることはない。しかし、文字コード上では両字には別々のコードポイントが与えられており、処理上は別字として扱われている。このことがもたらす最も典型的な問題を、本学のULIS OPACに見出すことができる[図1,2]。検索キーとして「柳田國男」を与えた場合と「柳田国男」を与えた場合では、得られる検索結果が全く違う。利用者側の立場からすると、「柳田國男」でも「柳田国男」でも同じ結果が返って来るように、「国」と「國」は同一視して欲しい。しかし文字コード上からだけでは、これらの異形字を同一視するための情報を得ることは不可能である。これらの同一視のためには、異形字情報を別途用意する必要がある。
本研究では、JIS X 0208:1997とJIS X 0212-1990の計12,156字を対象として、異形字関係を記載したシソーラスを構築した。
異形字の発生過程は多種多様であり一概に分類することは難しく、またその総数も判然としない。我々に最も身近な異形字としては「常用漢字体」と「旧字体」が挙げられるが、常用漢字表1,945字の中ですら355字について357字の異形字が示されている。しかもこれは草冠やしんにょうなどの差異を除いた数である。また、この表に記載されていない異形字も存在する。特殊なものではあるが無視できない例としては、人名・地名などの固有名詞に使われる異形字が挙げられる。「齊」や「邉」などはその典型例であるが、戸籍上の字とは別に、日常は略字や新字などの異形字を用いているという人も少なくない。日常的によく使用する異形字もあれば、辞書を引かないとまず分からないものまで、異形字には実に多くの種類が存在する。
最も利用されている日本語文字コード規格・JIS X 0208:1997は、漢字だけで6,355字を規格化している。その符号化は字体を拠り所としており、基本的に同一視される異形字であったとしても、字の形が違えば別字として別のコードポイントを付与している。この結果、JIS X 0208:1997の中には、相互に異形字となる関係を持った漢字が、少なくとも600対1,300字以上別字として収録されている。
たとえ同字と看做される異形字であったとしても、規格上で別のコードポイントが与えられてしまえば、処理上は別字として扱われる。また、異形字相互の句点番号になんらの規則性もないので、単純に文字コードだけを見て異形字関係を判別することもできない。そのため多くの処理系では、異形字の同一視といった処理は行われず、末端利用者に押し付ける形になってしまっている。現行文字コードでは、異形字の同一視処理を行うためには、文字コードとは別に異形字情報が必要とされる。
この問題に比較的早くから対応を試みていたのが国立国会図書館である。JAPAN MARCの編纂に際し「漢字等の字種採用の基準」[2]を打ち立て、異形字によって発生する発生する問題の回避を試みた。具体的な方法としては、JIS C 6226-1978(現、JIS X 0208)の中に定められた漢字の中に、使わない文字を設定したのである。なんらかの異形字を規格内に持つ漢字については、その相互に異形字関係を持つ漢字の中から代表一字のみを統制字として用い、他の字は用いないようにする。規格外字については、諸橋大漢和番号を付与するというものである。しかしこの方法でも、末端利用者が異形字を全く考慮しないで済むわけではなく、数ある異形字の中で、どの字が統制字として採用されているかを意識していなければならない。日常良く使う異形字ならばともかく、異形字であることを知らなかった場合、全く検索結果を得られないこともあり得る。
現在進行している電子図書館計画に於いては、より一層、問題となることが予測できる。目録だけではなく、全文を電子化して蓄積する電子図書館に於いて、全文検索を実行したときに、その中に現れる異形字は膨大な数になる。人文科学分野に於いては特に、歴史文献からの引用など、異形字を用いる機会が多い。しかし必ずしも全ての局面で異形字を入力できるとは限らないし、どの異形字が用いられていたかを正確に記憶しているわけでもない。引用時に常用漢字体に置き換えてしまう場合もある。
こういった文字コードだけでは対処できない状況を打開するためにも、異形字情報の整備が望まれるのである。
異形字情報を記載したものとしては、これまで漢和辞典、漢字字書が通用してきている。しかし、これらの辞典・字書は異形字情報を知るのが第一義ではない。異形字の情報は記載されてはいるが、相互の異形字関係を総覧するのにはあまり向いていない。また、電子化も余り進行しておらず、電子化されているものも、専用アプリケーションを介して利用するものが殆どであり、その情報を二次利用するには制限がある。
電子的な異形字情報に求められる情報は、ある漢字について、異形字関係にある漢字を網羅し、相互に参照を可能とするものである。そして二次利用が容易であることが望まれる。
そういった要求への一つの回答として、シソーラスという形での情報提供が行われてきた。
この研究の中心的人物であった田嶋一夫氏(現、いわき明星大学教授)らの手によるこのシソーラス(以下“田嶋シソーラス”と呼称)は、見出し字として当時のJIS C 6226-1978を立て、関連字の調査範囲は大漢和、新字源に及んでいる。
しかし残念なことに、現在一般に目にすることができる田嶋シソーラスはこの〔試作版〕のみであり、フォントの都合からか随所に欠字が見られ、実際の利用に際しては、新字源と大漢和辞典を用意する必要がある。一般に公開されているのが紙媒体のみであるという点も、利用を困難にしている。
またこれは田嶋シソーラス自体の問題ではないが、田嶋シソーラス編纂後、JIS C 6226は83年、90年、97年と改定されており、その間に字体の変更(29字)、文字の入れ替え(26組)、文字の追加(6字)が行われている。そのため、当時の規格と現行規格の間に小さくない差異があり、そのことが更に田嶋シソーラスの利用を困難にしている。
特に第二点については、フリーのものとしては国内では唯一である。
シソーラスを実際に編纂するに当たっては、このシソーラスで異形字と看做す文字の基準を以下のように立てた。
1) 常用漢字表に掲げられている、所謂“旧字” 2) JIS X 0208:1997に於いて参考として示されている参照字 3) JIS X 0212-1990に於いて参考として示されている同義漢字 4) 上記以外で、字書に於いて異形字関係が指摘されているもの
1)〜3)については現行の法令・規格を参照した。4)については、法令ならびに規格票には記載されていないものの中で、明らかに異形字と看做せるものや、異形字と看做した方が適切であるものについて、追加を行った。
JIS区点番号はJIS規格によって振られた番号で、Unicode番号はUnicode 1.1に基づくコードポイントである。
見出し番号は見出し字に対して振られる通し番号である。
部首番号は、清朝に編纂された『康煕字典』で立てられた214部首に、1から214まで順につけられた番号である。
部首内画数は、その部首の中での画数を表す。部首番号と部首内画数は、主として排列のために用いる。
総画数は言うまでもなく、漢字の総画数である。
そして見出し字がディスクリプタの場合は異形字集合の要素が、非ディスクリプタの場合は対応するディスクリプタの見出し字と見出し番号が参照先として示される。ディスクリプタは、第一に常用漢字体とし、集合内に常用漢字体がない場合は、句点番号が一番若いものとする。
〈環境1〉 OS: Microsoft Window95 Tools: Gnu Awk (gawk) 2.15, patchlevel 6 + multi-byte extension 1.04 GNU sed version 1.18 + multi-byte extension 1.03 〈環境2〉 OS: Personal Media Corporation B-right/V R.2.010 (超漢字) Tools: Microscript MicroCard
Windows環境は主にJIS X 0208領域の作業をしていたときに、超漢字環境はJIS X 0212領域での作業に使用した。
また、各種漢字情報については、以下の二つを主に利用した。
a) JIS X0208-1983「情報交換漢字用符号系」の為の漢字字書[4]
b) 最新JIS漢字辞典[5]
なお、上記の情報だけでは不足と思われた場合は、適宜、漢和辞典を当たって勘案した。
最終的に完成したデータは、TRONコードによるCSV形式のものと、それをeuc-jpに変換したものの二つである。
「一」と「壱」、「二」と「弐」は、一般的には異形字として認識されているが、今回のシソーラスではそれぞれ異形字とはされていない。これは、典拠にした資料類において別字であるとされており、常用漢字表にも別々に記載されていることに鑑みた。しかし実用上は異形字として扱う局面が多い。
また国字については、異形字としての記述にかなりばらつきがあった。ある資料では異形字として記載されていても、別の資料では別字となっていたりした。
元異形字と言うべきものも、存在していた。かつては同じ意味の字であったにもかかわらず、歴史の中で片方の字の意味が変わってしまったものである。これは、対象資料によって異形字とするか否か、判断を分けねばなるまい。
こういった同定基準の問題は、思想的な部分を少なからず含むので、突き詰め始めると水掛け論に陥りやすい。よって、シソーラスの利用者が利用状況を勘案して、適宜異形字を追加、あるいは削除するのが望ましい。
これが異形字のみを対象に包摂が行われていれば問題はなかったのだが、JIS X 0208に於いては、別字に対しての包摂が規格上で行われている。有名な所では柿とこけら(図3)の問題が挙げられる。JIS X 0208ではこの柿とこけらについては、同字と看做している。しかし、本来この二つの漢字は、姿形こそ似ているが別字であり、またJIS X 0212には独立した一字として句点番号が与えられているのである。JIS X 0208とJIS X 0212の間の包摂基準の不一致が、混乱を生んでいる。
図3
これらの文字については、今回はJIS X 0208の包摂を敢えて無視し、JIS X 0212の字を別字としている。しかし、用法によっては、このような“同形異義字”をシソーラスで吸収する必要が生まれるかもしれない。
これはより一般的なシソーラスの守備範囲となるべきものなのだが、略語字とでも言うべき字が、存在する。「図書館」という単語に対して図4という字が、「貝多羅」という単語に対して図5がそれぞれ存在し、略語字として利用されている。将来的に異形字シソーラスを拡張し、漢語シソーラスとして整備することがあれば、外せない項目であろう。
図4
図5
逆に、今回のような単漢字シソーラスで吸収できるであろう問題としては、「置き換え」語が挙げられる。「置き換え」語は、當用漢字制定後、国内各方面で法令用語や学術用語などが當用漢字表内字で置き換えられたものである。一般に異形字で置き換えられたものは大きな問題はないが、音借で書き換えられたものは注意が必要である。例を挙げれば「雇傭」は「雇用」に、「国際聯合」は「国際連合」に、一律に置き換えられた。これらは確かに同じ語として用いられているが、置き換えられた文字同士が同じ意味だったことを示してはいない。しかしこれらを敢えて同一視したい場合は、各置き換え字をも異形字に含めるようにシソーラスに追加することで、対処が可能である。
また、漢字以外では、変体仮名や平仮名/片仮名の同一視、アルファベットの大小の同一視などが挙げられる。これらについても、シソーラスの収録基準を変更し、追加登録することによって実現が可能である。
この研究の為に利用した、様々な字書、辞書、ツール類を編纂執筆作成した先人達に深く感謝の念を捧げる。この研究は到底私一人の力で成し得るものではなく、先達の研究の成果がなかりせば、開始直後に挫折していた事だろう。改めて、畏敬の念を深くした。とりわけ、『今昔文字鏡』と文字鏡研究会には、公私共にお世話になった。また、国文学研究資料館の原正一郎先生には完成前のシソーラスを見て頂き、貴重な意見を頂いた。
弥縫したい所や、今後への課題はいくつか遺したものの、12,156字中、1,255組2,760字の異形字を集成し、一つの区切りとしたい。
今後後進には、このシソーラスを用いて、より良い日本語情報環境を獲得することを期待する。
[2] 国立国会図書館.漢字等の字種採用の基準, 1992, http://www.ndl.go.jp/librarian/wtnews/kanzi.html
国立国会図書館.文字種の取り扱い基準の変更について, 1998, http://www.ndl.go.jp/librarian/wtnews/mojishu.html
[3] 山中光一, 田嶋一夫.データ処理システムの為の漢字シソーラス〔試作版〕.「計算機による日本語文字システムの実用的処理」班, 1980
[4] 豊島正之, 金水敏, 古田啓.JIS X0208-1983「情報交換漢字用符号系」の為の漢字字書, ftp://fan.shinshu-u.ac.jp/pub/kanjidic/ydic.lzh
[5] 田嶋一夫 監修 日本規格協会 編集協力.最新JIS漢字辞典.東京, 講談社, 1990, (ISBN4-06-123264-9)