advertisement

Building Evaluation Sets for Textual Entailment Recognition

100 %
0 %
advertisement
Information about Building Evaluation Sets for Textual Entailment Recognition
Technology

Published on March 12, 2014

Author: jnlp

Source: slideshare.net

advertisement

1 語彙知識を用いたテキスト含意認識の 評価セット構築と認識実験 07319483 村松 祐希 山本研究室 Building Evaluation Sets for Textual Entailment Recognition Using Lexical Knowledge and Recognition Experiments

2 Outline • 研究背景と目的 • 関連研究 • 提案手法 • 実験と考察 • まとめ

3 Outline • 研究背景と目的 • 関連研究 • 提案手法 • 実験と考察 • まとめ

4 研究背景 • 自然言語処理には数多くの応用技術 が存在する中、共通する基本問題が 未解決 • テキスト間における論理の共通と差 異部分の認識が困難 テキスト含意認識に可能性

5 テキスト含意認識(必要性) 私はペンを持っている。僕は筆を持っている。 I have a pen. 機械翻訳の例 機械翻訳 正解データ 翻訳対象 テキスト含意認識によって同一と認識

6 テキスト含意認識(実際の例) テキスト 「世界最大のトウモロコシ生産国であるアメ リカは、2006年にバイオエタノールの生産 量でも世界のトップに立った」 仮説 「アメリカは世界最大のトウモロコシ生産国 である」 含意判定 真

7 テキスト含意認識(まとめ) • テキスト(T)と仮説(H)を与え、両文が 包含関係であるかを判断するタスク • 質問応答や情報検索などの応用技 術に対し、テキストの内容理解が問 われる部分において貢献

8 目的 テキスト含意認識(RTE)の手法を提案 →より高精度な含意認識の実現 →既存手法の問題点を明らかに 高精度な認識に何が必要であるか?

9 Outline • 研究背景と目的 • 関連研究 • 提案手法 • 実験と考察 • まとめ

10 関連研究 • SVMと文字列類似度を用いたテキスト含意 認識学習 (Prodromosら, 2007) –編集距離、品詞情報、分かち書き –精度は約62% • Recognising Textual Entailment Challenge (Daganら, 2005) –RTEワークショップを開催 –全17のRTE手法を分類

11 問題提起(Daganらの分類から) RTE problem RTEの問題には複数の要因が混在

12 Outline • 研究背景と目的 • テキスト含意認識 • 提案手法 • 実験と考察 • まとめ

13 訓練データ Word Overlap Mutual Information Subpath Set SVM True False T:本文 H:仮説 含意判定 SVM features Resource Processing 提案手法(システム図)

14 訓練データ • 含意する事例(文字列)をスコア化(数値化) –評価事例の含意判定を推定 中高中 低中中 中高高 中中高 手法C手法B手法A 訓練事例 i (含意) 訓練事例 j(含意) 訓練事例 k(含意しない) 評価事例 l (?)

15 訓練データ • 含意する事例(文字列)をスコア化(数値化) –評価データの含意判定を推定 中高中 低中中 中高高 中中高 手法C手法B手法A 訓練事例 i (含意) 訓練事例 j(含意) 訓練事例 k(含意しない) 評価事例 l (含意)

16 訓練データ T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 含意判定: Talw Talw: Hが必ず真であるといえる場合 Tmay :Hが正しいと考えられる場合 Fmay : Hが真である可能性がある程度考えられる場合 Falw : Hが全くの誤りだとわかる場合

17 提案手法(Word Overlap) 1 ( , ) exp( log( ) / ) exp(1 max{1, / }) n i i Bleu A B BP p n BP r c = = = − ∑ BLEUを用いた手法(Perez and Alfonseca, 2005) をベースとしたWord Overlapを使用 – A,B : 文 – pi : n-gramの被覆率 – n : n-gram. – c : 文Aの長さ – r : 文Bの長さ

18 提案手法(Word Overlap) T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 BLEU ? 単語の重なりが高いほど含意

19 提案手法(Word Overlap) T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 BLEU 0.5 単語の重なりが高いほど含意 強:計算結果が人間に分かり易い 弱:似ている語に対応できない

20 提案手法(Mutual Information) , 1 ( 1| ) max ( , ) ( ) ( , ) log ( ) ( ) V tu h u v u v P Trh t lep u v p n lep u v p n p u ∈∈ = = ≈ − ⋅ ∏u – u : 仮説中の単語, v : テキスト中の単語 – P(nu) : 単語uの出現確率 – P(nv) : 単語vの出現確率 – P(nu,v) :単語uとvの共起確率 Glickmanら(Glickmanら, 2005)の手法をベースとした 相互情報量を使用

21 提案手法(Mutual Information) T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 MI ? 相互情報量が高いほど含意

22 提案手法(Mutual Information) T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 MI = I(トヨタ:レクサス)×I(レクサス:高級車) 相互情報量が高いほど含意

23 提案手法(Mutual Information) T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 MI 0.6 相互情報量が高いほど含意 強:似ている語にも統計から計算可 弱:同じ文が最大値にならない

24 提案手法(Subpath Set) • Herreraらはテキストと仮説の構文類似度か ら含意判定を行う手法を提案 (Herreraら, 2005) – 構文解析結果が日本語に対して適用が困難 • 市川らはTree Kernel法をベースとした構文 類似度を提案 – 構文木のノードの被覆度を計算

25 Outline • 研究背景と目的 • テキスト含意認識 • 提案手法 • 実験と考察 • まとめ

26 実験条件(認識手法) • 評価方法は平均適合率をベースとした CWSを使用 (Daganら., 2005) • オープンテスト – 10分割交差検定(one leave out) • 訓練データ –真データ Talw:924,Tmay: 662 –偽データ Fmay:262 ,Falw:624

27 認識手法の実験結果(オープンテスト) 64.1%61.9%49.9%SVM 61.1%59.7%45.0%Subpath Set 67.4%55.6%53.4%Mutual Informaition 59.3%60.2%39.0%Word Overlap Talw and TmayTmayTalw CWS

28 考察 T:大潮は、満月と新月の時に起こる。 H:大潮には、太陽と月の引力が関係している。 含意判定:真 T:あの木の下に立っている人はA子です。 H:あの木の下に立っている人は、女性です。 含意判定:真 WO 誤、MI 正、SVM 正 WO 正、MI 誤、SVM 正

29 考察 • 正解条件によって組み合わせの有効性が 変わる? – 訓練データの汎化(分離超平面)に違いがある – 境界条件に近い訓練事例がより多くの貢献 • SVMに用いた素性の有効性は? – 素性を組み合わせを変えて実験 – 本手法の3つの素性から2つを選択し、比較

30 考察 64.1%61.9%49.9%WO+MI+SS 62.2%60.9%48.6%SS+WO 63.4%59.8%55.2%MI+SS 65.3%61.5%41.2%WO+MI Talw and TmayTmayTalw CWS

31 考察(分離平面のイメージ Tmay使用) 含意度 高 含意度 低

32 考察 (分離平面のイメージ Talw使用)

33 Outline • 研究背景と目的 • テキスト含意認識 • 提案手法 • 実験と考察 • まとめ

34 おわりに • テキスト含意認識の高精度な手法を検討 – 含意認識に貢献可能な素性を調べて実験 • 一部の評価セットに対して有効性を確認 – 訓練データによって分離超平面に変化 – 分離超平面付近の訓練データがより貢献 • 分離超平面に近い事例の傾向 – Tmayの中から言語的な調査が必要

Add a comment

Comments

100%品質Ì | 06/06/15
過去記事| 良い縁起の良いのために| おかげありがとうございます。それ実際 た アミューズメントそれを占めています。 ルック 複雑あなたから快い| 導入 よりはるかに! ちなみに、可能性が 通信? [url=http://addtoperson.com]100%品質保障[/url]
バーゲン | 08/06/15
こんにちはすべてに、どのようにすべて、私は一人一人がこのからよりなっていると思いますが、ウェブサイトとあなたの意見人のユーザ新しいをサポートするために 良い素敵です。 [url=http://www.steppinituppickens.org]バーゲンSALE[/url]
100%品質Ì | 08/06/15
、ここではすべての人が ノウハウ 共有している こんにちは 、そう ブログはウェブサイトこれを読み、私は訪問するために使用されるこのウェブページ 毎日。 [url=http://www.istanbulkraft.com]100%品質保障[/url]
保障付き | 09/06/15
いくつかの | 学ぶ読み 優れたここのものを| 私が持っている私がしました。 確か 値再検討のためのブックマーク。 I 不思議どの多く 努力 あなたが置く 作るのこのタイプ 素晴らしい有益サイト。 [url=http://www.elt-nilufer.org]保障付きの高品質製品[/url]
激安通販 | 11/06/15
そんなにhavinで書かれたコンテンツ | 侵害違反 plagorismや著作権の問題問題あなたが任意に実行できますか?私自身、または外部委託 が、思わ私はどちらかしたコンテンツブログ をたくさん持っていることの多くはあります私なし| インターネットウェブすべての上にそれをポップアップ。あなたが知っていますであることから、コンテンツを助けるために ?私は本当にと思い、それを感謝しています。 [url=http://www.ilkisikgroup.com]激安通販店です[/url]
国内 正規 | 11/06/15
私は、こんにちは たいこのためにサブスクライブするには 取る 最新の更新は、したがって、ここで、私にできること、それは支援助けます。 [url=http://etdc.tums.ac.ir/index.asp]国内 正規品[/url]

Related presentations

Presentación que realice en el Evento Nacional de Gobierno Abierto, realizado los ...

In this presentation we will describe our experience developing with a highly dyna...

Presentation to the LITA Forum 7th November 2014 Albuquerque, NM

Un recorrido por los cambios que nos generará el wearabletech en el futuro

Um paralelo entre as novidades & mercado em Wearable Computing e Tecnologias Assis...

Microsoft finally joins the smartwatch and fitness tracker game by introducing the...

Related pages

Building Evaluation Sets for Textual Entailment ...

Building Evaluation Sets for Textual Entailment Recognition Using Lexical ... 3 Recognizing Textual Entailment 6 4 Building Evaluation Sets 8
Read more

Building Evaluation Sets for Textual Entailment ...

Building Evaluation Sets for Textual ... Knowledge and Recognition Experiments. 2 Outline ... Set SVM True False T: ...
Read more

Building Japanese Textual Entailment Specialized Data Sets ...

Building Japanese Textual Entailment Specialized Data Sets ... the recognition accuracy by using the data sets ... 4.2 Evaluation of Accuracy in BSR
Read more

Textual Entailment Recognition using Word Overlap, Mutual ...

Textual Entailment Recognition using Word ... an original RTE evaluation set of reading ... Building data of japanese Text Entailment and recognition ...
Read more

Building Textual Entailment Specialized Data Sets: a ...

Publication » Building Textual Entailment ... textual entailment data sets called ... and qualitative evaluation of Textual Entailment ...
Read more

Chinese Textual Entailment Recognition Enhanced with Word ...

Chinese Textual Entailment Recognition ... (b, rj), referring to a set of entailment ... 4.1 Data and Evaluation Measures Our textual entailment ...
Read more

Czech paraphrasing and entailment generation

Building Evaluation Dataset for Textual Entailment ... keywords = {textual entailment; evaluation data set; ... Data for Textual Entailment Recognition.
Read more

Semantic Annotation for Textual Entailment Recognition ...

Semantic Annotation for Textual Entailment Recognition. Assaf Toledo Affiliated with Utrecht University, Sophia Katrenko Affiliated with Utrecht University
Read more

Textual Entailment Resource Pool - ACL Wiki

... shared task community initiated a new activity for building this Textual Entailment ... Textual Entailment Specialized Data Sets ... evaluation ...
Read more