〒812-8581 福岡市東区箱崎6-10-1
Tel:092-642-4037, Fax:092-642-3844
*2 九州大学理学部物理学科情報理学コース
*3 メディア教育開発センター
著者らはWeb 上のシラバスを収集・統合した教育情報ライブラリの構築を目指 している.本稿では,著者らが進めているWeb シラバス統合システムについて 述べる.自己開発のトピッククローラーにより,388 ドメイン(大学) から約 18 万のシラバス文書ファイルを収集した.集めたシラバス文書のうち,HTML で記述されたファイルから具体的なシラバスのテキストを抽出・統合するシス テムを試作した.また簡単なキーワード検索を行なうシステムも試作した.
更に集めたシラバス数について,統計的な分析を行なった.収集ファイル数は, ほぼZipf の法則に従っていることが分かった.ファイル数上位の大学は,大 学全体でシラバスDB を構築しており,全ての学部学科の授業情報をそのDB で 提供していることがわかった.また,ファイル数が100 個程度の場合は学部単 位であり,20 個程度の場合は学科単位であることも分かった.
Hakozaki 6-10-1, Higashi-ku, Fukuoka, 812-8581, Japan.
Phone: +81-92-623-4037, Fax: +81-92-642-3844
*2 Faculty of Science, Kyushu University.
*3 National Institute of Multimedia Education
The authors are constructing educational knowledge library by web syllabi integration. They developed a prototype of web syllabi integration system and also constructed a simple keyword search engine for integrated syllabi data.
They applied frequency analysis for number of colleced web-syllabi, and found that number of web-syllabi follows zipf’s law. They also studied correlation analysis between number of web-syllabi and the number of lectures, and students.
Web ページを文書とみなし,多数の文書から知識を得るWeb マイニングについ ても様々な研究されている.また,ページ群をデータベースのように用いる, データ統合技術についても研究されている.Web 上には,データを扱う際のルー ルや記述様式が定まっていないWeb ページが大量に存在している.そういった ページをデータベースのように統合できれば,多様な知識ベースを構築できる.
教育分野においても,情報技術の利用が進んでいる.e ラーニングなどの電子 教材や,Web シラバスなど,多くの高等教育機関でWeb を介した情報提供が行 なわれるようになってきている[11].メディア教育開発センター(NIME) では, 電子教材に関するポータルサイト[5] を作成し,電子化教材の公開と普及を行 なっている.また,教育情報ナショナルセンター(NICER) [8] では,様々な教 育情報を収集・公開している.
各大学の自発的な教育情報の公開も進んでいる.米国マサチューセッツ工科大 学(MIT) が始めたOCW(Open Course Ware) が始めた教育内容の公開は,日本に も波及しており,日本OCW 連絡会(http://www.jocw.jp/) では現在7 つの大学 が教育内容の公開を行なっている.JOCW 加盟の大学数は徐々に増加すると思 われる.
OCW では教材を電子的に公開することもある.様々な大学が,多数の電子教材 を公開すれば,それを集めることで大学の電子教材を蓄積した教育情報ライブ ラリになるだろう.現在の図書館では,具体的な教育内容を蓄積しているわけ ではない.今後,電子教材が普及すれば,教材の蓄積は進むと考えられ,その 教材にはメタデータが付与されることになるだろう.教育の具体的な内容をコ ンテンツとすれば,コンテンツに対するメタデータの一部がシラバスとなるだ ろう.
また,一つの教育機関のシラバス群は,その機関が提供する教育全体も表して いる.大学評価や大学改革では,大学が提供する教育内容についての情報が重 要である.シラバスは,大学の教育内容を表す資料であり,大学評価や単位認 定の場合には重要な根拠資料となる.また,各大学の教育内容の特徴比較にも 用いることができる.更には,日本全国のシラバスを収集できれば,その中に は現代日本の大学で行なわれている学術知識全体が保持されることになるだろ う.
本稿では,Web 上に公開されている大学のシラバスを統合した,教育情報ライ ブラリ構築について述べる.次節で,統合に際しての問題点と,関連研究につ いて述べる.
まず最初に,Web シラバスの特徴分析を行なった.Google 等の一般検索サイ トを用いて数十サイトからWeb シラバス群を収集する.収集したページを分析 し,シラバスの特徴を現す単語(特徴語)を抽出した.次に,抽出した特徴語 を用い,与えたページがシラバスであるかどうかを判定する,判定関数を作成 した.
次に,クローリングによりWeb シラバスの収集を行った.教育機関のWeb サイ トをクロールし,集めたページがシラバスであるかどうかを前述の判定関数に より判定した.クローリングの開始URL は,文部科学省のリンク集ページ*1に ある,国立大学,公立大学,国公私立短期大学,私立大学,国立高等専門学校 のサイトへのリンク集ページを用いた. これらには国内高等教育機関1,230 校 へのリンクが存在している.
なお,現在の所HTML 文書とPDF 文書だけを収集対象にしている.MS-Word や 一太郎といった形式の文書は対象としていない.これは,シラバスの判定で用 いている文書解析プログラムの都合からである.Word や一太郎の内部データ 形式を解釈し,内部の文字列を扱うことができるならば,シラバス判定関数は 適用可能である.
(*1 http://www.mext.go.jp/b menu/link/main b12.htm)
Web 上で公開されていシラバスは,各大学,学部,学科など各組織がそれぞれ 個別に作成したものである.シラバスは,大まかな記述様式は存在しているも のの,詳細な部分については統一されていない.そのため,ただ集めてキーワー ド検索を行なうだけでは,系統的な利用は困難である.系統的に利用するため には,各組織が独自に作成したWeb 上のシラバス文書群を収集し,科目名,科 目概要,教科書などの項目を指定検索が可能であるように統合する必要がある. そこで,抽出したシラバスをNIAD シラバスXML スキーマ[12] へ統合すること の研究も試みている[6].様々な様式で書かれたシラバスを,一つの特定の様 式に統合することで,検索や統計といった知識抽出のための処理が容易になる.
簡単な検索システムに続いて,統計的な処理をおこなう検索システムを考える. 教育に関する調査・分析をしている研究者からは,国際関係について教育して いる組織の数を調べたい,電子教材を公開している組織の数を調べたい,といっ たの具体的な要求を聞いている.これらにの要求を実現する検索システムが必 要である.
他にも,知識発見を行う検索システムも開発する.我々は,「Matrix 検索」 と名づけた多面的分析システムを開発している.また,「概念グラフ」と名づ けた,文書群からの知識発見システムを研究開発している.これらを用いるこ とで,大量の文書群からの知識発見が可能になると考えている.
シリーズ型文書群からのレコード抽出については,梅原,岩沼らが行なってい る[13, 14].梅原,岩沼らは,シリーズ型文書における構造の類似性を利用し て,シリーズ型のHTML 文書群からレコード部分を抽出する手法について研究 している.シリーズ型文書の特徴の一つに,記述様式(テンプレート) の類似 がある.同一組織のシラバス文書は,一つの記述様式にそって作成されている. そのため,シラバス文書群からのレコード抽出については,シリーズ型文書の 特徴である記述様式の一意性を利用して行なっている.
シラバスの統合については,いくつかの研究が行なわれている.井田,野澤ら は,大学評価や教育内容の分析に用いるために,シラバスの統合とそこからの 知識発見について研究している[17, 7].また,シラバスを記述するためのXML スキーマを開発し[7],大学評価・学位授与機構(NIAD) から公開している.ま た,青野らも,内容が類似している半構造化データ群の統合についての研究を 行っており,その例としてシラバスの統合を検討している[15, 16].
図1: システム全体像
最初の手法として,URL の文字列だけを見て,グループに分類する方法を行なっ た.その方法を述べる.静的なHTML ページのURL は, http://HOST/PATH/FILE.htm といった形をしている.HOST とPATH の部分が同 一で,FILE の部分のみ異なるURL は,同じグループのファイルだと考えられ る.
CGI プログラム等により生成される動的なHTML ページは, http://HOST/PATH/cgi file?k1= v1&k2=v2… といった形をしている.’?’ 以降の文字列は,キーk1 に対する値がv1, キーk2 に対する値がv2, という意 味を表しており,出現順序は関係しない.そこで,キーの文字列で並べ,その 後,http://HOST/PATH/cgi file/v1/v2 のように値のみを並べた文字列に変更 した.こうすることで,静的なHTML ページのURL 群を分類した方法で同様に 分類できる.
上記の簡単な手法での分類した結果は,「同一テンプレートを持つ集団」をグ ループと定義しての分類結果となった.分類した結果を表2 に示す.
抽出したレコードは,グループ単位で一つのCSV ファイルにまとめている.図 2 は,抽出により生成したCSV ファイルをエクセルで表示した様子を示してい る.
図2: 抽出レコード
図3: 検索システム
図4 にグループ毎のファイル数を,図5 にドメイン毎のファイル数をプロット した図を示す.どちらの図も,ほぼZipf の法則に従っていることを示してい る.
図4: グループ毎のシラバスファイル数
図5: ドメイン毎のシラバスファイル数
上位4 つのグループについては,一位の大学(東海大学) は過去6 年分のシラ バスが含まれていることがわかった.その他の3 つは,その他は大規模な大学 の一年分のシラバスであった.学部や学科などに分けることなく,大学で提供 されているシラバスは,全て一つのサイトから提供されていることになる.
1000 個程度のグループについても,すべて大学の一年分のシラバスであった. この場合も,学部や学科などに分けることなく,大学で提供されているシラバ スは,全て一つのサイトから提供されていた.
500 個程度のグループについては,学部学科など,一大学とは行かないまでも 比較的大きな組織の一年分のシラバスであった.100 個程度のグループについ ては,学部や学科,専攻など,500 個程度のグループよりは小さな組織の1 年 分のシラバスであった.20 個程度のグループについては,学科や専攻など, 100 個程度のグループよりもさらに小さな組織の1 年分のシラバスであった.
なお,1 グループあたり5URL 以下のグループについては,担当教官ごとに分 かれているものが多かった.10 個前後のグループについては,特徴が分から なかった.20 個以上のグループは,組織の規模の違いはあれ,ほぼ確実に組 織ごとに分けられていた.
図6 にシラバスファイル数と教員数をプロットした図を示す.(a) の方は図5 に教員数の点もプロットしたものである.(b) の方では,一つの点は一つのド メイン(大学) に対応している.(x,y) 座標の値を,(シラバスファイル数, 教 員数) として点をプロットしている.図7 も同様に,学生数を用いてプロット をしたものである.
図6: シラバスファイル数と教員数
図7: シラバスファイル数と学生数
図6 と図7 のどちらも,顕著な相関関係を示していない.何らかの特徴を見出 すには,より詳細な分析が必要であろう.
集めたシラバスのファイル数について,統計的な分析を行なった.収集ファイ ル数は,ほぼZipf の法則に従っていることが分かった.ファイル数上位の大 学は,大学全体でシラバスDB を構築しており,全ての学部学科の授業情報を そのDB で提供していることがわかった.また,ファイル数が100 個程度の場 合は学部単位であり,20 個程度の場合は学科単位であることも分かった.
今後は,まずWeb シラバス統合システムを完成させる予定である.また,検索 方法について検討を行なう予定である.今回の試作システムでは簡単なキーワー ド検索しか行なっていない.項目名を指定しての検索,例えば科目名に含まれ る文字列での検索など,を実現する予定である.また,作成したシステムを公 開する予定である.
[1] Aggarwal, C. C., Al-Garawi, F. and Yu, P. S.: Intelligent Crawling on the World Wide Web with Arbitrary Predicates, Proc. WWW2001 (2001). http://www10.org/cdrom/papers/pdf/p110.pdf.
[2] Chakrabarti, S., Punera, K. and Subramanyam, M.: Accelerated Focused Crawling through Online Relevance Feedback, Proc. WWW2002 (2002). http://www2002.org/CDROM/refereed/336/index.html.
[3] Hirokawa, S., Itoh, E. and Miyahara, T.: Semi-Automatic Construction of Metadata from A Series of Web Documents, LNAI 2903, Proc. of AI2003, pp. 942.953 (2003).
[4] Kuboyama, T., Miyahara, T., Hirokawa, S. and Itoh, E.: Information Extraction from Web Pages Using Semi-Structured Data Alignment, Proc. 9th World Multi-Conference on Systemics, Cybernetics and Informatics (2005).
[5] メディア教育開発センター:教育メディアポータルサイト. http://www.ps.nime.ac.jp/.
[6] 伊東栄典,竇ギョク峰,廣川佐千男:情報処理学会マルチメディア,分散,協調とモバイル(DICOMO 2004) シンポジウム論文集,pp. 345.348 (2004).
[7] 井田正明,野澤孝之,芳鐘冬樹,宮崎和光, 喜多一:シラバスデータベースシステムの構築と専門教育課程の比較分析への応用,大学評価・学位研究, No. 2, pp. 87.97 (2005).
[8] 教育情報ナショナルセンター(NICER):http://www.nicer.go.jp/.
[9] 山田信太郎,松永吉広,伊東栄典,廣川佐千男:Web シラバス情報収集エージェントの試作,電子情報通信学会和文論文誌D-II, Vol. J86, No. 8, pp. 566.574 (2003).
[10] 篠原正典,地蔵真作:Web 上の高等教育に役立つコンテンツの自動収集・抽出−授業シラバスの自動抽出―,JSiSE 第30 周年記念全国大会講演論文集,pp. 247.248 (2005).
[11] 先端学習基盤協会情報処理振興事業協会:e ラーニング白書2002/2003 年版,オーム社(2002). (ISBN4-274-06480-8).
[12] 大学評価・学位授与機構:“Syllabus XML schema Ver.1.0” (2003). http://svrrd2.niad.ac.jp/syllabus/10/syllabus10.xsd.
[13] 梅原雅之,岩沼宏治,永井宏和:事例に基づくHTML 文書からXML 文書への半自動変換,人工知能学会論文誌, Vol. 16, No. 5, pp. 408.416 (2001).
[14] 梅原雅之,岩沼宏治,永井宏和:事例に基づくシリーズ型HTML 文書の意味論理構造の自動認識,人工知能学会論文誌, Vol. 17, No. 6, pp. 690.698 (2002).
[15] 平野健太郎,青野雅樹:DTD マッチングによる大学シラバスの相互変換,第67 回情報処理学会全国大会(2005).
[16] 平野健太郎,青野雅樹:情報系科目を用いたHTML シラバスのXML 変換と内容分析,電子情報通信学会SIG Notes WI2-2005-28〜49,pp. 83.88 (2005).
[17] 野澤孝之,井田正明,芳鐘冬樹,宮崎和光, 喜多一:シラバスの文書クラスタリングに基づくカリキュラム分析システムの構築,情報処理学会論文誌, Vol. 46, No. 1, pp. 289.300 (2005).