図書データや事務的文書は構造化文書の形式をとることが多いが,構造化文書の検索にお いては検索結果を多面的に見ることが求められる.部分構造ごとの検索結果が一覧できる と検索効率が上がると考えられる.通常の検索システムでは検索結果をリスティング,ラ ンキング, ディレクトリあるいはクラスタリング形式で表示するが,これらは検索結果を 一面的に表示しているにすぎない.半構造化文書の検索例であるXML検索では,構造と内 容の両方の観点からの検索方式,あるいはランキング技術との融合について研究されてい る[3,5].また,複数の項目から絞り込みを行うために,複数の独立したカテゴリ体系を 設定するファセット分類が近年注目されており,たとえば検索結果のナビゲーションに利 用されている[1,4].
多次元マトリックス法は,検索結果をユーザが任意に選ぶ2つの観点でクラスタリングし ,その分布を2次元マトリックス表示する手法である.2次元表示の例として,関連性の ある検索結果のページ群を近くにまとめて可視化するシステム KartOO [2] があるが,そ のまとまりや位置関係の解釈は十分に与えられていない.これに対し,本手法では各クラ スタの特徴語を自動抽出するため,検索結果の全体像を視覚的にも意味的にも概観できる .そして,通常の検索エンジンでは検索過程で発見した新たなキーワードを使って絞り込 みを行うのに対し,本手法では注目するセルに対する行と列の特徴語群を見るだけで絞り 込みを実現する.
すでに筆者らは,本手法を大学の教員データに対して実装し[9],病院の評判情報におけ る品詞の分析に利用している[10].本稿では,電子ジャーナルである日本動物学会学会誌
Zoological Science [6] のアブストラクトのページ(全部で1065件)にある複数項目を 対象とする多次元マトリックス法の実装とそれを用いた検索とその分析を通じた定性的評 価について述べる.
本稿でいうマトリックス表示は,検索結果をユーザが任意に選択した2つの項目からクラ スタリングを行い,その分布状況を文書リストあるいは文書数として表示することを指す .表示にあたって検索結果の意味的な構造を認識できるようにするため,クラスタリング の際に各クラスタに属する文書群から特徴語を抽出する.これにより各クラスタの意味内 容が与えられ,ユーザは各クラスタの特徴語を見て所望のセルを選択し,その結果を見る ことになる.さらに,そのセルに属する数が多い場合,ズーミングによりさらなる絞り込 みを行う.
また,これらのことは複数の観点からの分析も可能にする.2つの項目に出現する特徴語 の比較を通じて,特徴語が2つの項目に共通して現れるのでそのセルは○○について強い 関わりがありそうであるとか,この項目から見るとあるセルはちょっと異質であるといっ た分析ができる.あるいは,当初予想していなかった特徴語が示されることで新たな発見 があるかもしれない.また,クラスタリングで生成されるクラスタ数 (以下,分割数) を 変えたり,ズーミングしたりすることによって,あるセル (あるいはクラスタ) をより詳 細に分析できる.例えば,特徴語を見ると明らかに異なるカテゴリに属するものが混在し ているが,これらの操作を通じて混在していたものが別々のカテゴリに分離できると考え られる.
データは多次元インデックス法により作成される.今回扱う Zoological Science の場合 ,各論文からなるファイル集合を用意し,それらのデータについて作成したいインデック スの項目ごとに切り分ける.各論文はすべて同じ構造を持っているが,今回はタイトル, 概要,著者,参考文献,発行年,全項目などの複数項目からなる多次元インデックスを作 成する.そしてクラスタリング計算が行えるように,項目ごとに各文書に各単語が何回出 現するか記した頻度ファイルを作成する(図1).
本システムは次のように利用される.ユーザは検索要求を入力し,検索対象項目そして得 られた検索結果をクラスタリングする2つの項目とそれぞれの分割数を選択する(図2). そして,これらの情報を送信するとマトリックスが生成される(図3).
マトリックス生成の際,内部では以下の処理を行っている(図4).まず,検索要求からユ ーザが選択した項目で検索し,検索結果である文書リストを得る.次に,この文書リスト を,ユーザが選択した2つの項目でそれぞれ指定した数にクラスタリングし,あわせて特 徴語を抽出する.なお,本システムでは完全リンク法,単一リンク法,群平均法,重心法 の4つのクラスタリング計算方式から選択し,特徴語はイエーツの補正公式,カイ2乗値 ,コサイン,ダイス係数,自己相互情報量,対数尤度比,頻度,補完類似度の8つの抽出 方式 [7] から選択した方式に基づいて抽出された10語を表示する.ある文書のクラスタ リング結果がそれぞれクラスタi,jに属するとき,その文書はマトリックスのi行j列セル の要素となる.これを検索された文書リストすべてに対して行うと,セル内にそのセルに 含まれる文書リストならびに文書数を記した2つのマトリックスが出力される.そして所 望のセルをクリックすると,そのセルに含まれる文書リストについて同じ条件でマトリッ クスを生成するズーミングを行う.
(phylogeny, phylogenetic) という語では論文の主題が生物多様性なのか,生物に共通 する機能なのか判断できない状況が生じている.一方,系統関係は本質的に生物の多様性 を対象としているため,生物名や遺伝子名を指定してしまうと対象となる論文が著しく制 約されてしまう.生物種の類縁関係を調べる際に広く用いられる遺伝子はリボソーム遺伝 子やミトコンドリア遺伝子などある程度は決まってはいるが,それらの遺伝子機能の多様 性に関する研究も排除できない.そこで,これらの判別を本手法によりどの程度支援でき るかについて検討した.
検索語としては phylogeny と phylogenetic が考えられるが,全 1065 論文中 OR 検索 で 253 件,AND 検索で 135 件,phylogeny のみで 49 件,phylogenetic のみで 69 件 であった.本稿では少なくとも一方を含む論文 253 件を対象とした.このうち,広く用 いられる遺伝子との関係ではミトコンドリア遺伝子への言及があるもの108件,リボソー ム遺伝子への言及があるもの61件であった.仮にこれらが生物種の類縁関係を主題とする 論文であったとすると,系統学的な論文の43% (ミトコンドリア遺伝子のみ) ないし67%
(ミトコンドリア遺伝子とリボゾーム遺伝子) がこれに相当するが,種間関係の推定に複 数遺伝子を用いることはしばしば行われるので67%ということはないと考えられる.一方 ,生物個体群 (population) に言及している論文は 102 件であるので,これもあわせて 考えれば概ね半分程度が生物多様性を主題とする論文ではないかと予想された.ここまで は通常の検索表示でも得られる情報である.
本システムで phylogeny OR phylogenetic を検索要求とし,タイトルと概要で2×2表 示 (クラスタリングは完全リンク法,特徴語抽出方法はコサイン) した結果を表5 (括弧 内の数字は小計を表す.以下同様) に示す.2行2列セルは 0 である (以下,このよう なセルを「空セル」と呼ぶ) から,2行および2列の解釈は容易である.2行の特徴語, すなわちタイトルの特徴語に 16 という数字があり,これは 16S リボゾーム RNA 遺伝子 であることがわかる.この行の特徴語としてミトコンドリア,チトクロムも挙げられてお り,これらのことから生物種の系統を主題とする性粒多様性関連の論文であろうと推定さ れた.実際にこれら 29 論文のタイトルを調べると,種群内でのミトコンドリア遺伝子導 入という極めてユニークな現象に関する論文(DOI:10.2108/zsj.21.795)1報以外は全て生 物種の系統に関する論文であった.一方,2列の特徴語にある clade は系統的に単一の 分岐に帰属される生物群を表す語であり,PCR-RFLP という多様性解析に用いられる手法 とあわせ,このクラスタも生物多様性に関する論文と推測され,また実際その通りであっ た.ここまでで,合計 31 文献が生物種の系統に関する論文であることがわかった.上記 のユニークな論文は分子機能に関するものでもないので,生物多様性,生物機能に加え「 その他」というカテゴリが必要である.
残る1行1列セルの 221 件を分析しようとすると,従来の手法では他のクラスタを排除 する検索条件を考え出す必要があった.しかし,本手法ではそのような手間をかけること なく,分割数の増加による細粒化,221件を含むセル,行,列に対するズーミングという 複数手法による分析が可能である.特に,ワンクリックでのズーミングは直観的でわかり やすい.以下,これらの手法を比較していく.
分割数の増加による細粒化は,特に本システムが階層的クラスタリングを採用しているこ とから,細粒化前後の解釈がスムーズに接続できるという特徴がある.しかし,2次元で の分割数の変更に伴うクラスタの分割は必ずしも直観的に分かるものではない.1次元で の細分はクラスタの分割を意味し,分割数を1増やせばどれか1つのクラスタが2つに分 割されるだけなので,分割の追跡と解釈は容易である.ところが,2次元での細分を行う と1つのセルが最大 4 つのセルに分割される.一般に m×n 表示を (m+1)×(n+1) 表示 にしたとき,前者のうち (m+n-1) 個のセルが 2(m+n) 個のセルに分割されることになる ので,この多重分割の解釈は容易でない.また,この分割は既に分析したクラスタについ ても当然起こり得るので,分析済みクラスタの追跡は必須であるが,これは分割数の増加 による細粒化の最大の難点である.
分割数の増加による細粒化について具体的に見ていく.表5で示した2×2表示を3×3 表示に細粒化した結果を表6に示す.表6の小計欄を見ると,1行の 210 と3行の 14 の和が 224 であり,これは表5の1行の小計欄の値と一致するので,表5の1行が表6 の1行と3行に分割されたと判断できる.同様にして表5の1列が表6の1列と2列に分 割されたことが分かる.しかし,このような判断は一般に容易ではなく,特に分割数が多 い場合には困難である.さて,表5の1行1列セルの 221 件が表6で細分されてできた 1行1列,1行2列,3行1列,3行2列の4セルについて分析する.3行1列セルの 6件はすべて生物多様性に関する論文であったが,3行2列セルの 6 件のうち 3 件が生 物多様性に関する論文で,残り 3 件が機能発現に関する論文であった.1行2列の 40 件について詳細に見ると,生物機能に関する論文が 23 件,生物多様性に関するものが 12 件,その他が 5 件であった.さらに細分化していくことはもちろん可能であるが,そ れは必ずしも適当ではない.特に,件数の多いクラスタが頑強な場合は,分割数を増やし てもごく少数あるいは空のセルがいたずらに増えるばかりである.一つの目安としては, セルの半分近くが空セルになった時点で分割数の増加以外の方法を考えるべきである.
一般的に本手法でのズーミングは,ユーザが興味の対象を選んでクリックするだけであり ,その解釈はユーザ自身が直観的に行うことになる.ズーミングは一つのセル,一つの行 または一つの列のいずれに対しても可能であり,どれが良いかは状況に依存する.ズーミ ングにおける分割数は以前の値を引き継ぐので,たとえば表5をズーミングする場合は得 られる結果もまた2×2表示されることになる.
ではズーミングについて具体的に見ていく.表5の1行1列セルの 221 件,1行の 224 件および1列の 250 件をズーミングした結果をそれぞれ図7 (a), (b), (c) に示す.こ の例では列に対するズーミング (c) が最も密かつ均質であり有望であるが,分割数を増 加させてみると5×5表示程度がマトリックス利用効率上の限界であり,4×4表示でセ ル群が二つのクラスタに分かれていることが見てとれる.幸いこの場合は一方のクラスタ が1列だけでできているので列ズーミングを繰り返してある程度の詳細化は可能であるが ,効率がよいとはいえなかった.セルに対するズーミング結果 (a) では,2列の特徴語 として酵素名の一部,基質や遺伝子名と思われる語が挙がっていた.タイトルを見るとこ れらは全て遺伝子発現 (遺伝子が実際に機能すること) に関する論文であり,カテゴリと しては生物の機能に関する論文である.これら 4 論文のタイトルには expression (発現 ) という語が共通して現れていた.さらに同じ行にある 27 件について詳細を調べると, カエルの生態に関する1報(DOI:10.2108/zsj.18.605),ギボシムシ(DOI:10.2108/zsj.18.57) およびナマコ(DOI:10.2108/zsj.19.1113)での形態形成にかかわる遺伝子発現について の論文以外は生物種の系統に関するものであった.なお,このうちの 1 報 (DOI:10.2108/zsj.21.473) はエゾジカの個体群自体に関する論文であり,その他に分類できなくもな い.また,上記ギボシムシ及びナマコについての論文は進化的意義に着目して研究材料を 選択したものでもある.カテゴライズの際にはこれらの扱いにやや恣意性があり得る.タ イトルの特徴語には expression があったが,実際には 27 論文中 2 論文で主題であっ たのみであり,注意が必要であるし,普通の検索では見落とすかもしれない.ただ,これ は先述のように2列にある4件の論文のタイトルに expression が現れていたことが影響 していると考えられる.
そこで,ズーミング結果図7 (a) の1列,すなわち上記 4 件を除いた残り 217 件につ いて再度ズーミングを行うと,2×2表示では全てのセルに文献が割り当てられる.分析 を簡単にするため分割数を増やした.4 分割以上では空セルが増えるのみなので,空セル が全セルの半分以下となるように3×3表示としたが,その結果を図8に示す.1行3列 セルの5件のうち1件は先述のエゾジカに関するものであり,他は生物多様性を主題とする 論文であった.3行1列セルの3件及び2行2列セルの1件は生物多様性に関するものであ り,2行1列セルの4件中1件は系統に関する論文,残り3件は新種記載であり,いずれも 生物多様性を主題としていた.適当な分割数は対象によって異なるが,適応的な分割は可 能であろう.また,クラスタリング手法についても検討を加えることで,より分析しやす い分割が可能かもしれない.分割とクラスタリングについては更なる検討が必要である.
一方,分割数増加による細粒化やズーミングを繰り返すよりは,検索式を洗練した方が効 率がよい場合もある.特に,大きめの頑強なクラスタがある場合にはその方がよい.検索 式の洗練にあたっては排除すべき特徴語を発見するのは一つの手段であるが,実は先述の 分割数変更とズーミングを併用するとこのような語を比較的容易に発見できる.例えば, 先述の expression などは生物多様性に注目するならば排除してよい単語だと推測される が,事前に思い付く特徴語ではなく,マトリックスで示されてはじめて「なるほど」と思 う類の語である.実際,系統と遺伝子発現の組合せはたとえば「○○という生物は系統上 ユニークな位置を占めており,その形態形成メカニズムを知ることは重要である.そこで ,本研究では○○の形態形成で発現している遺伝子について調べた」といった内容の概要 にしばしば現れていた.こうした弱い関係にある特徴語をクラスタリングによってあぶり 出せる本手法は,必ずしも自明ではない隠された特徴語を示唆する有効な手法であると考 えられる.
さて,実際に (phylogeny OR phylogenetic) NOT expression で検索すると 194 件の検 索結果が得られる.これらについて分割数を変えたり,ズーミングしたりして調べると, 全てではないがほとんどが生物多様性にかかわる論文であった.また,expression を含 むものについて同様の検索を行うと,生物多様性にかかわる論文は皆無ではないがほとん ど含まれなかった.この事実を踏まえると,phylogeny, phylogenetic, expression の OR 検索を行ったときに,マトリックスで対角的分離が可能なように思われる.実際にタイ トル,アブストラクト,全項目を対象とする2×2表示を調べてみると,それぞれ表9 (a), (b), (c) のようになり,明らかにタイトルを対象とした検索が対角的であることが 分かる.さらに,phylogeny と expression の中間的なクラスタが形成されることを期待 して3×3表示も試みたが,いずれにおいても第三対角成分は 0 であった.このことか ら,分離にはタイトルを対象とする検索が有効であること,phylogeny と expression の 組合せでは中間的な論文はほとんど存在しないことが示唆された.
大まかな見積もりとして 253 件中 194 件が生物多様性に関する論文であるとすると,phylogeny または phylogenetic という語を含む論文の77%に相当する.これはミトコンド リアやリボソームという語からの見積もりよりも多いが,系統関係は遺伝子以外に形態等 によっても推定され得ることから説明可能である.
各種クラスタリング方法や適切な特徴語抽出方法に関する検討が評価実験以前から予想し ていた課題であったが,新たに分析しやすい分割数や分析のための細粒化やズーミングの 手法に関する検討も課題であることが分かった.その上で提案手法による検索の効率につ いての定量的な評価実験を行いたい.また,他の電子ジャーナルや図書館のメタデータを 利用した実験も検討している.
[2] KartOO. http://www.kartoo.com/
[3] L.Guo, F.Shao, C.Botev, J.Shanmugasundaram. "XRANK: Ranked Keyword Search over XML Documents", SIGMOD2003, 2003
[4] Y.Tzitzikas, N.Spyratos, P.Constantopoulos, A.Analyti. "Extended Faceted Taxonomies for Web Catalogs", WISE'2002, 2002
[5] C.Yu, H.Qi, H.V.Jagadish. "Integration of IR into an XML Database", INEX Workshop 2002, 2002
[6] Zoological Science. http://wwwsoc.nii.ac.jp/zsj/zs/zs_index.html
[7] 中條清美,内山将夫,長谷川修治.統計的指標を利用した時事英語資料の特徴語選定 に関する研究,英語コーパス研究第12号,pp. 19-35, 2005
[8] 汎用連想計算エンジン(GETA). http://geta.ex.nii.ac.jp/
[9] 廣川佐千男,関 隆宏,安元裕司,山田泰寛.教員データに対する多面的検索システ ム,情報処理学会研究報告 2005-DBS-137,pp.665-672, 2005
[10] 安元裕司,和多太樹,関 隆宏,廣川佐千男.病院評判情報の多面的解析,人工知能 学会研究会資料 SIG-KBS-A501,pp.1-4,2005