Transcript Web
Webから作る人工知能 ダヌシカ・ボッレーガラ 東京大学大学院情報理工学系研究科石塚研究室 日本学術振興会特別研究員 自己紹介 氏名:ダヌシカ・ボッレーガラ (スリランカ出身) 所属:東京大学大学院情報理工学系研究科石塚研究室 日本学術振興会特別研究員(PD) 2009年9月東京大学博士課程修了 Webからentity対間の属性類似性と関係類似性計測 情報理工学系研究科では初となる課程博士の短縮修了 これまでのWebマイニングに関する研究 属性類似性: WWW 2007, NAACL 2007 関係類似性: WWW 2009, WSDM 2009, ECAI 2008 同姓同名分類: ECAI 2006 別名抽出: GoTAL 2008 One Web - Two Views RIVAL_OF CEO_OF CEO_OF ACQUIRED_BY ACQUIRED_BY Entityが関係で繋がれた ページ(サイト)がリンクで繋がれた ネットワークとしてのWeb ネットワークとしてのWeb 人工知能としてWeb 人工知能の永遠の課題: 知識ベースをつくる 人間がもつ知識をどのように計算機に教えるか 持っている知識を使ってどのように推論、予測するか プロが作る (例:Cyc Project, YAGO Ontology) 皆で作る (例:Wikipedia, freebase, delicious, flickr) 自動的に作る(例: SOFIE, Entity Cube, SPYSEE) 上記の組み合わせ (例:YAGO+SOFIE) Semantic Web Entityがもつ属性とEntity間の関係を表現 (RDF, OWL) 検索と推論 (SPARQL) 例:FOAF, DBpedia Webから関係抽出の課題 非構造的データが多い(自然言語で書かれた文書) 矛盾する知識が存在する、一貫性がない データのノイズ (スペルミス、新語、俗語、punctuationの誤り) 膨大なデータ量、全て処理できない! Webから関係抽出の課題 Jim Clark 複数のentityが同一の名称で参照される(同姓同名問題) D. Bollegala, Y. Matsuo, M. Ishizuka, Disambiguating Personal Names on the Web using Automatically Extracted Keyphrases, ECAI 2006 Netscape創業者 F1チャンピオン Webから関係抽出の課題 Godzilla 松井秀喜 ゴジラ 松井秀 同一のentityが複数の名称で参照される(別名問題) Hideki Matsui D. Bollegala, T. Honma, Y. Matsuo, M. Ishizuka, Automatic Extraction of Personal Name Aliases from the Web, GoTAL 2008 Webから関係抽出ー対策 検索エンジン ページ数(≈共起) スニペット (Apple, Computer) D. Bollegala, Y. Matsuo and M. Ishizuka Measuring Semantic Similarity between Words using Web Search Engines, In proc. of WWW 2007 Entityの類似性と関係の類似性 属性類似性 関係類似性 猫 ジャガー (X,Y) (ダチョウ、鳥) (ライオン、猫) Xは最大のYである 肉 食 動 物 哺 4本足 乳 類 肉 食 動 物 哺 乳 類 4本足 二つのentityの属性がどれくらい似ているか 二つのentity対の間で成り立つ 関係がどれくらい似ているか 関係類似性の計測 (ダチョウ、鳥) (ライオン、猫) スニペットから パターン抽出 語彙パターン クラスター Mahalanobis 距離の学習 Step 1 • entity対をWeb検索で検索しそれらが出現する文脈(スニペット)をダウンロードする。 Step 2 • スニペットから関係を表す語彙パターンを抽出する。(例:Xは最大なYである) Step 3 • 同一関係を表す異なる語彙パターンをクラスタリングする。 Step 4 • パターンクラスターから特徴量を計算しMahalanobis距離を学習する D. Bollegala, Y. Matsuo and M. Ishizuka Measuring Similarity between Implicit Semantic Relations from the Web, In proc. of WWW 2009 関係類似性の応用 類推問題を解く(米国大学入学試験SAT問題) (ダチョウ,鳥)と関係が似ているのは次のうちどれでしょう? (ガチョウ,群) (メシダ、羊) (熊の子、熊) (霊長類、猿) (ライオン、猫) 人間の正解率(SAT試験)=57% 計算機の正解率(Turney, 2006. LRA法)=56% 関係検索 (Relational Search) (クリスト教、聖書),(イスラム教、?) ?=コーラン 今後の研究動向 Document RetrievalからObject Retrievalへ ユーザーが求めている情報は複数のサイトに分散している。 ユーザーはdocumentではなく何らかのobjectを検索している。 オブジェクト検索サイト:clusty.com, renlifang.msra.cn 研究例: Entity Cube by マイクロソフトリサーチ Correlator by Yahooリサーチ 人工知能の実現に向けて! Web = 知識ベース (関係抽出により可能?) 検索 = 推論メカニズム? (どうモデル化、実現できるか) THANK YOU Danushka Bollegala (ボッレーガラ ダヌシカ) contact: [email protected] http://www.miv.t.u-tokyo.ac.jp/danushka