Transcript PPT - 常磐大学
情報資源組織演習A 第14回 ネットワーク情報資源の主題検索 2013年7月13日(土) 第4時限 R002教室 検索エンジンのカテゴリー検索 • 1994年、スタンフォード大学のジェリー・ヤン とデビッド・ファイロがウェブ・ページをカテゴリ ー別に整理したディレクトリを作成、評判とな る→Yahoo!の創立(検索エンジンの始まり) • 以後、検索エンジンはロボット型(自動プログ ラムによる索引作成)とディレクトリ型(人手に よるカテゴリー分け、整理)に大別されてきた が、最近では人手によるページ収集・整理は 困難になっている メタデータ • データについてのデータ • すなわち、ウェブ・ページなどの情報資源(デー タ)のタイトル、作成者、主題、作成日などの情 報 • 図書館の蔵書目録データも、図書や雑誌をデー タとみなせば、メタデータと言える • ウェブ・ページ自体あるいはデータベースに記録 • 検索等に有効活用するためには標準規定が必 要 HTMLによるメタデータの記述例 (常磐大学・常磐短期大学ホームページ) <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja"> <head> <title>常磐大学・常磐短期大学</title> <meta name="description" content="常磐大学・常磐短期大 学の総合情報をご覧いただけます。" /> <meta name="keywords" content="常磐大学,常磐短期大学, 常磐大学大学院,茨城,水戸,心理,教育,人間,国際,キャリア,幼 児,保育,就職,地域連携,生涯学習" /> <meta name="copyright" content="常磐大学・常磐短期大学" /> (以下略) ダブリン・コア • メタデータ記述の語彙を定めた国際標準 • Dublin Core Metadata Initiative (DCMI)という 組織が開発、維持管理 • 15の基本要素(DCMES)、それらを拡張した DCMIメタデータ語彙 (DCMI Metadata Terms) を定義 • 主題は subject という要素(プロパティ)で記述 – 値の記述には、LCSH, MeSH, DDC, LCCなど既存 の件名標目表、分類表を使用 – 日本ではBSH, NDLSH, NDC, NDLCなども使用 RDFとXML • ダブリン・コアが「何を」記述するかを規定してい るのに対し、「どのように」記述するかを規定する のがRDFとXML • RDFはメタデータを主語、述語、目的語の3要素 で表現 – 情報資源(主語):常磐大学ホームページ – プロパティ(述語):主題 (dc:subject) – プロパティの値(目的語): NDC:377 • XMLはタグにより文書の構造を記述するマーク アップ(タグ付け)言語 RDF/XMLによる主題の記述例 (国立国会図書館ダブリンコアメタデータ記述による) <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xml:lang="ja"> <rdf:Description rdf:about="http://www.tokiwa.ac.jp/"> <dc:title>常磐大学・常磐短期大学</dc:title> <dc:subject rdf:datatype="http://ndl.go.jp/dcndl/terms/NDC">377</dc: subject> </rdf:Description> </rdf:RDF> グーグルのページランク • グーグルはウェブ・ページの重要度をリンク 関係から計算して判定 – 多くのページからリンクされたページは重要 – 重要なページからリンクされたページは重要 – 一種の人気投票 • 重要度の高いページから先に表示 →利用者の求めるページによく合致 • 学術論文の引用索引の手法に似ている 引用索引 Citation Index • 学術論文の引用文献をデータベース化したもの – ユージン・ガーフィールドが実用化 – 現在、”Web of Knowledge”という商品になっている • ある文献の引用文献は同じ主題を扱っている – 引用文献に引用されている文献も関連性が高い – 引用文献の引用文献の引用文献も… – 芋づる式に関連文献を収集できる • 多く引用されている文献は重要 – 重要な文献から引用されている文献は重要 – 研究者や雑誌の評価にも使われる 芋づる方式の応用 • レコメンド(推薦)サービス – この商品を買った人はこんな商品も買っています – amazon.comが開始し、有名に – 図書館の目録でも同様のサービス 「この本を借りた人はこんな本も借りています」 • 連想検索 – 国立情報学研究所のWebcat Plusで採用 – 文書と文書の言葉の重なり具合をもとに、ある文 書(検索条件)に近い文書(検索結果)を探し出す 検索技術 全文検索によるランク付け • メタデータではなく文書の全文を検索して主題等 を判定 – 一番単純な方法:各単語の出現頻度をカウント – キーワード抽出、文書の類似性判定等にも用いられる • tf-idf (term frequency - inverse document frequency) – tf = ある文書におけるある単語の出現回数 – idf = 全文書数をその単語が出現する文書数で割った 値の対数 – tf×idf でその文書のポイントを表す – 特殊な語が多く出現する文書ほどtf-idfの値は大きくな る フォークソノミーとタグ・クラウド • フォークソノミー(folksonomy) – folks(民衆)とtaxonomy(分類法)の合成語 • トーマス・ヴァンダーワル(Thomas Vander Wal) の造語 – ウェブ・ページの閲覧者がタグと呼ばれる属性情 報を自由に付与できるシステム • タグ・クラウド – タグ(キーワード)を集めて視覚的に表示したもの – 多く与えられたタグほど大きな文字で表示 – 例)カレントアウェアネス・ポータル メタデータ不要論(?) • 人手によるメタデータ付与は必要か? – ページ・ランクやtf-idfなど自動的に関連性の高い情 報資源を検索する技法が発展 →機械的な処理で十分では? • 統制語彙、専門家によるメタデータ付与は必要 か? – フォークソノミーのように不特定多数がメタデータを付 与できる仕組みができている – 膨大なインターネット上の情報資源すべてに専門家 がメタデータを付与するのは不可能 • しかし、精細なメタデータ規定の動きは継続中 第14回のまとめ • 検索エンジンは人手によるカテゴリー分けか らロボットによる索引作成へ • メタデータ語彙を定めたダブリン・コアと記述 法・構文を定めるRDF/XML • ページランク、引用索引、レコメンド・サービス、 連想検索など芋づる式検索の応用が成功 • 利用者がタグ付けするフォークソノミーとタグ・ クラウド • メタデータ不要論もあるが、精細なメタデータ 規定の動きは継続