ymym3412 / acl-papers Goto Github PK

View Code? Open in Web Editor NEW

184.0 37.0 10.0 4 KB

paper summary of Association for Computational Linguistics

nlp paper research acl summary arxivtimes

acl-papers's People

Contributors

Stargazers

Watchers

Forkers

jjaggung yclinyimeng metalrt mylv1222 thinkerboy hanfeijp shunonoda terumiyokose kuri54

acl-papers's Issues

Vector space models for evaluating semantic fluency in autism

0. 論文

Vector space models for evaluating semantic fluency in autism
Emily Prud'hommeaux; Jan van Santen; Douglas Gliner

1. どんなもの？

Semantic fluency test(Verbal fluency test)の結果の評価は自動で行う手法を提案

2. 先行研究と比べてどこがすごい？

人手で行っていた評価をLSAやword2vecといったベクトル空間を用いるモデルで自動的に行う手法を提案した

3. 技術や手法のキモはどこ？

LSAやword2vecといった手法に加えて、意味の近さを測る方法などのバリエーションも用意し、どういった手法の組み合わせがうまく結果を評価できるか実験している

4. どうやって有効だと検証した？

定型発達と自閉スペクトラム症の子供に実施してもらったSemantic fluency testの結果を使い、2つの群の有意差を発見できるかで検証した。
すると既存の人手での評価では2群間の有意差を捉えることができておらず、提案手法では有意差を発見することができた。

5. 議論はある？

提案手法の結果を見るとturkeyを含むデータとcountryを含むデータの類似度がbirdのものより優位に出てしまっている

6. 次に読むべき論文は？

A computational linguistic measure of clustering behavior on semantic verbal fluency task predicts risk of future dementia in the nun study
Serguei V.S. Pakhomov and Laura S. Hemmy

The State of the Art in Semantic Representation

0. 論文

The State of the Art in Semantic Representation
Omri Abend; Ari Rappoport

1. どんなもの？

Semantic Representationに関するSurvey論文

2. 先行研究と比べてどこがすごい？

Survey論文なので新規性はなし。

3. 技術や手法のキモはどこ？

AMR,UCCA,CCGとSemantic Schemeを解説している。
Semantic Schemeといってもひとくくりにすることはできず、例えば述語項構造(Predicates Argument Structure)や深層格におけるCore/Non-Core、述語論理(Predcate Logic)といった意味を扱うコンテンツがあり、このどれを扱うスキーマなのかで区別することができる。
また構文情報(syntax)を扱うか扱わないかでも区別でき構文情報が意味に及ぼす影響にも触れている。

4. どうやって有効だと検証した？

特になし

5. 議論はある？

特になし

6. 次に読むべき論文は？

CCGとAMRには興味がある。

CCG
Weakly Supervised Learning of Semantic Parsers for Mapping Instructions to Actions
Yoav Artzi and Luke Zettlemoyer

AMR
Not an Interlingua, But Close: Comparison of English AMRs to Chinese and Czech
Nianwen Xue, Odrej Bojar, Jan Hajic, Martha Palmer, Zdenka Uresova, and Xiuhong Zhang

Supervised Learning of Automatic Pyramid for Optimization-Based Multi-Document Summarization

0. 論文

Supervised Learning of Automatic Pyramid for Optimization-Based Multi-Document Summarization
Maxime Peyrard; Judith Eckle-Kohler

1. どんなもの？

Pyramid scoreを使って学習を行う抽出型要約のシステム

2. 先行研究と比べてどこがすごい？

各特徴量を使ってPyramid scoreを線形に予測するモデルのため、解釈が容易かつ整数計画問題を解くアルゴリズムを使って効率的に要約を抽出できる。
また要約システムの評価に使われるROUGEとPyramid scoreの比較による分析も行っている。

3. 技術や手法のキモはどこ？

各特徴量をもとにPyramid scoreを回帰で予測し、教師データのPyramid scoreとの二乗誤差を最小化するように学習を行う。
各文の特徴量として「文長」「タイトル文とのジャカード係数」「Propostionの重心」といったものを使い、各文のスコアの和と選んだ文の同士の一貫性、冗長性のスコアの差し引きが教師データに近くなるように学習する。
要約文の長さを制限しつつPyramid scoreが最大の要約文をを抽出するために整数計画問題を解くアルゴリズムを用いる。

4. どうやって有効だと検証した？

TAC-2009のデータセットを使い、既存のモデルとROUGE及びPyramid scoreで比較を行った。
提案手法はPyramid scoreでは最もよい数値を記録した。

5. 議論はある？

ROUGEとPyramid scoreの相関を3種類の相関係数(Pearson/Spearman/NDCG)を使って分析したところ、PeasonとSpearmanでは0.3程度の弱い相関にとどまり、ROUGEとPyramid scoreでは要約の別の側面を評価しているとしている。

6. 次に読むべき論文は？

Pyramid Evaluation via Automated Knowledge Extraction
Qian Yang, Rebecca J. Passonneau, Gerard de Melo

A General Optimization Framework for Multi-Document Summarization Using Genetic Algorithms and Swarm Intelligence
Maxime Peyrard and Judith Eckle-Kohler

Obtaining referential word meanings from visual and distributional information: Experiments on object naming

0. 論文

Obtaining referential word meanings from visual and distributional information: Experiments on object naming
Sina Zarrieß; David Schlangen

1. どんなもの？

画像中の物体の名称を単語で出力するモデル

2. 先行研究と比べてどこがすごい？

先行研究では「car」「van」「street」という単語をビジュアル的な違いや単語間の関係性を無視して意味空間上で近い位置に配置してしまうが、提案手法では単語毎に予測器を用意することで解決しzero-shot learningにも有効であることを検証した。

3. 技術や手法のキモはどこ？

「画像から特徴を抽出してベクトル空間の点に変換し、最近傍の単語を出力するモデル(transfer)」「単語毎に２値分類の予測器を作り、物体の名称はその単語かどうかを1つずつ予測するモデル(wac)」「2つを組み合わせたモデル(sim-wap)」を用意し、これをzero-shot learningにも適用した。

4. どうやって有効だと検証した？

通常のタスクではAccuracy@1/@2/@5においてwacが最もよい数値を記録。
zero-shot learningではAccuracyにおいて最もよい数値を記録している

5. 議論はある？

特になし

6. 次に読むべき論文は？

Is this a Child, a Girl or a Car? Exploring the Contribution of Distributional Similarity to Learning Referential Word Meanings
Sina Zarrieß and David Schlangen

Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision

0. 論文

Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision
Chen Liang; Jonathan Berant; Quoc Le; Kenneth D. Forbus; Ni Lao

1. どんなもの？

特徴量設計やドメイン固有の知識なしに、生の自然言語のQAから学習するモデル。
自然言語の文をseq2seqモデルでシンボル(コード)に変換し、それをLisp Intepreterが解釈して計算し答えを出力する。

2. 先行研究と比べてどこがすごい？

少ない教師データから学習を行える手法(weak supervision)を採用している。
またweak supervisionを採用すると、ラベルなしデータからの検索部分が微分不可能となり逆伝搬ができなくなるが、その部分の学習を強化学習で行うことで克服した。

3. 技術や手法のキモはどこ？

自然言語の文の意味の構成を表現するためにseq2seqモデルにkey-variableタイプのメモリ機構を付与したモデルを考案。このモデルが自然言語の質問をシンボルに変換する。
シンボルをもとに処理(計算)をするところはニューラルネットが行うと正確性に欠けるため、Lispの処理をシンボルとして出力しそれをLisp Interpreterに解釈させて計算を行っている。
全体の計算を微分可能な関数として表現できないため、学習部分は強化学習によって行う。

4. どうやって有効だと検証した？

weak supervisionによる学習においてSOTAであるモデル(STAGG: http://anthology.aclweb.org/P16-2033)と比較し、Precision,Recall,F1,Accuracyの全てにおいて数値を上回った。

5. 議論はある？

出力されるLispコードが2つ以上(2 or 3)の場合においてF1スコアに大きな差がある。具体的には2が低い。
2の場合は多様な表現を利用し、3は制限された表現しか使用しておらずそれがスコアに影響を与えている可能性がある。

6. 次に読むべき論文は？

Semantic Parsing on Freebase from Question-Answer Pairs
onathan Berant, Andrew Chou, Roy Frostig, and
Percy Liang

7. 補足

weak supervision(distant supervison)についての記事
情報抽出タスクで流行りの distant supervision について調べてみた

Aggregating and Predicting Sequence Labels from Crowd Annotations

0. 論文

Aggregating and Predicting Sequence Labels from Crowd Annotations
An Thanh Nguyen; Byron Wallace; Junyi Jessy Li; Ani Nenkova; Matthew Lease

1. どんなもの？

クラウドソーシングで集めたノイズの乗ったラベルの付いたデータを集計して正しいラベルを付与するモデルと、そのデータをもとに系列ラベリングを行うモデル

2. 先行研究と比べてどこがすごい？

系列データのアノテーションタスクのためにクラウドソーシングで集めたデータを集計する手法を考案した

3. 技術や手法のキモはどこ？

クラウドソーシングで集めたノイズの乗ったラベルから正しいラベルをつける手法として、クラウドワーカーのつけるラベルの分布を考慮に入れた隠れマルコフモデルを考案した。
そして上記手法で付与したラベル付きデータを使ってLSTMとCRFを使ってラベル付けを行う。その際にワーカーをベクトルとして表現しモデルの入力とし、各ワーカーによるノイズもモデルの計算に組み込む

4. どうやって有効だと検証した？

固有表現抽出と生体医学データの情報抽出の2つのタスクで既存手法と比較し、提案手法が最もよいF値を記録した

5. 議論はある？

特になし

6. 次に読むべき論文は？

Sequence labeling with multiple annotators
Filipe Rodrigues, Francisco Pereira, and Bernardete
Ribeiro

Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors

0. 論文

Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors
Xuepeng Wang; Kang Liu; Jun Zhao

1. どんなもの？

レストランやホテルのレビューがスパム(意図的に評価が高く/低くされているレビュー)を検出するモデル

2. 先行研究と比べてどこがすごい？

スパムユーザーの情報が少ない状態(Cold-Start Problem)でもスパム検出器を学習できる。

3. 技術や手法のキモはどこ？

レビューのテキスト情報を扱うためにCNNを使いスパムかどうかのラベルを使って学習させる。
またレビューのテキスト情報だけでなく、レビュアーの振る舞い情報が重要なことは過去の研究で分かっているため、レビュアーもベクトル化する。
具体的にはTransE(Bordes et al.)というモデルを使いレビュー対象とレビュアーのグラフ構造から教師なしでベクトルを学習する。
そして商品とレビュアー、レビューのベクトルが学習データにある正しい組については距離を近く、正しくない組については距離を遠くするように学習させる。
レビュー文のベクトルについては、レビュー点数もベクトル化しこれとの距離も学習させる。

4. どうやって有効だと検証した？

HodelとRestaurantのレビュー情報が含まれるYelpデータセットを使って、既存の手法とPrecision.Recall,F1値,Accuracyの4つで比較を行い、Hotel/Restaurantともに最も高いF1値、Accuracyを達成した。

5. 議論はある？

テキストのエンコードについて、RNNではなくCNNを使っている理由としてCNNはレビューの異なる側面を捉えることができるからだとしている。
先行研究を引き合いに出しているが詳細は不明。

6. 次に読むべき論文は？

TransEの論文
Translating Embeddings for Modeling Multi-relational Data
Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko.

議論のところの先行研究
Deceptive opinion spam detection using neural network
Yafeng Ren and Yue Zhang

Evaluating Compound Splitters Extrinsically with Textual Entailment

0. 論文

Evaluating Compound Splitters Extrinsically with Textual Entailment
Glorianna Jagfeld; Patrick Ziering; Lonneke van der Plas

1. どんなもの？

Compound Splittingの手法を外的に評価する方法としてRecognizing Textual Entailment(テキストの含意関係認識, RTE)タスクを用いようという論文

2. 先行研究と比べてどこがすごい？

今ままで使用されていた統計的機械翻訳タスクや情報検索、音声認識のタスクと違いメソッド同士の比較を行える

3. 技術や手法のキモはどこ？

RTEではlexical Overlap Hypothesis(LOH)という考えがあり、含意関係を調べる2文の間でマッチする単語の多さが含意に影響があるというものである。
よって適切にSplitすることができれば正しく含意関係を見抜くことができる割合が増加するはずである。
この考えより、3つのCompound Splitting手法で前処理を行ってから学習を行い、RTEタスクの結果を比較することでアルゴリズムの評価を行えるとしている。

4. どうやって有効だと検証した？

Compound Splitなしと比べると、事前にSplitした方が性能があがることが分かりCompound Splittingの手法を評価する外部タスクとしてRTEは有効であるとした。

5. 議論はある？

認識に失敗したものを分析すると、2文の間に語彙のオーバーラップがないものが多く、LOHの考え方はある程度妥当であるといえる。

6. 次に読むべき論文は？

Compound Splittingの外部評価として統計的機械翻訳を使用している先行研究
Empirical Methods for Compound Splitting
Philipp Koehn and Kevin Knight

Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix

0. 論文

Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
Bingfeng Luo; Yansong Feng; Zheng Wang; Zhanxing Zhu; Songfang Huang; Rui Yan; Dongyan Zhao

1. どんなもの？

Distant supervisionで発生してしまうノイズをモデリングした上で学習するRelation Extractionのモデル

2. 先行研究と比べてどこがすごい？

ノイズを考慮した学習を行えるところ

3. 技術や手法のキモはどこ？

「文のエンコード」「Relationの分布(predicted dist)の計算」「ノイズのモデリング(transition matrixの計算)」「観測している実際の分布(observed dist)の計算」の4つのステップからなる。
ノイズの乗ったデータをpredicted distとノイズをモデリングしたtransition matrixの積の計算で表現することでpredicted distはノイズの取り除かれた分布となり、この分布をテスト時には使用する。
ノイズのモデリングを明示的に行うことはできないため、カリキュラム学習を用いる。
最初はノイズの少ないデータを使ってpredicted distを学習させていき、少しずつノイズの乗ったデータを投入してtransition matrixを学習していく。

4. どうやって有効だと検証した？

提案手法をパターン別に分けてPrecision-Recallカーブをプロットし、どのパターンが有効かを検証した。
また既存手法ともPrecisionとRecallで比較し、提案手法が最も良い数値を記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Curriculum learning
Yoshua Bengio, Jer´ ome Louradour, Ronan Collobert, and Jason Weston

0. 論文

Other Topics You May Also Agree or Disagree: Modeling Inter-Topic Preferences using Tweets and Matrix Factorization
Akira Sasaki; Kazuaki Hanawa; Naoaki Okazaki; Kentaro Inui

1. どんなもの？

Tweetデータからそのユーザーがまだ述べていないトピックに対する好みを予測するモデル

2. 先行研究と比べてどこがすごい？

Inter-Topicを直接モデリングした。
※Inter-Topicは複数トピックに潜む共通部分。例えば自衛隊に関する発言を好む人は憲法9条も好む、9条改正を好む人は憲法改正も好む。

3. 技術や手法のキモはどこ？

ラベルなしTweetからハッシュタグの情報を使って、そのユーザーが何のトピックに賛成/反対しているのかを抽出した。
またそのユーザーがまだ発言していないトピックについては好むか好まないかは予測できないため、その欠損をうまく扱いつつユーザーとトピックの潜在空間のベクトルを計算するためにMatrix Factorizationを利用している。

4. どうやって有効だと検証した？

あるユーザーが特定のトピックを好むかどうかを予測するタスクでベースラインと比較したところ提案手法の方がよいAccuracyを記録した。
またユーザーが発言しているトピック数が多くなると、既存モデルではAccuracyが下がっていくのに対して提案手法は上がっていく。

5. 議論はある？

特になし。

6. 次に読むべき論文は？

Matrix Factorizationを使ったrecommendation
The Yahoo! Music Dataset and KDD-Cup’11
Gideon Dror, Noam Koenigstein, Yehuda Koren, and Markus Weimer

Skip-Gram - Zipf + Uniform = Vector Additivity

0. 論文

Skip-Gram - Zipf + Uniform = Vector Additivity
Alex Gittens; Dimitris Achlioptas; Michael W. Mahoney

1. どんなもの？

Skip-gramモデルの学習で得られる単語の加法構成性の理論的な説明を行った。
またSkip-gramモデルとSDR(Sufficient Dimensionality Reduction)モデルの関係性を示した。

2. 先行研究と比べてどこがすごい？

加法構成性に関する理論的な説明を行った

3. 技術や手法のキモはどこ？

Skip-gramで学習したモデルからは2つの定理が導ける。単語の分布が一様分布であると仮定したうえでその定理を使えば単語の加法構成性を理論的に説明できる。しかし単語の頻度はZipf分布に従うのでこの仮定は現実的ではないのだが、Mikolovの先行研究によれば学習データに手を加えて一様分布に近づけることで加法構成性の精度が高まるとしている。
またSkip-gramに単語の頻度情報を加えて少しの修正を加えるだけでSDRの効率的な近似となることを示した。

4. どうやって有効だと検証した？

数式による証明

5. 議論はある？

特になし

6. 次に読むべき論文は？

node2vec: Scalable Feature Learning for Networks
Aditya Grover, Jure Leskovec

A Principled Framework for Evaluating Summarizers: Comparing Models of Summary Quality against Human Judgments

0. 論文

A Principled Framework for Evaluating Summarizers: Comparing Models of Summary Quality against Human Judgments
Maxime Peyrard; Judith Eckle-Kohler

1. どんなもの？

抽出型要約システムを評価する新しい手法「theta evaluation」の提案

2. 先行研究と比べてどこがすごい？

抽出型要約で主流の評価手法「ROUGE」に疑問を呈し、抽出型要約手法の抽象的な表現を導入しそれをもとに評価手法を提案した。

3. 技術や手法のキモはどこ？

抽出型要約手法は要約したいドキュメントの任意の文のサブセット(=要約)から評価値を計算すうθ関数と、そこから最大の評価値の要約を探すオプティマイザーOの2つを使って抽象化できるとした。
そしてこのスコアリングと人手によるスコアリングの相関を取ることで、抽出型要約手法が人手での評価とどれくらい近いかを評価しその手法の性能とする。

4. どうやって有効だと検証した？

TAC-2008/2009の2つのデータセットを使い、主要な抽出型要約手法をtheta evaluationで評価した。
主要な手法のスコアリングと人手のスコアリングを3種類の相関(ピアソン相関係数/スピアマン相関係数/Ndcg)で評価したところ、「全体的に相関係数が低い(ピアソン/スピアマン相関係数だけみると一番高くても0.38程度)」「ROUGEでよいスコアを出している手法がよいスコアを出すわけではない」という2つのことが分かった。

5. 議論はある？

ROUGEでは最もスコアの高い要約1種類しか評価されないため、たまたまスコアが高い要約を見つけることができている可能性がある。

6. 次に読むべき論文は？

Automatically Assessing Machine Summary Content Without a Gold Standard
Annie Louis; Ani Nenkova

Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning

0. 論文

Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning
hizhu He; Cao Liu; Kang Liu; Jun Zhao

1. どんなもの？

質問文に対する答えを出力する際に、質問文やKnowledge Base(KB)上の単語も使って出力するように設計したQAモデル

2. 先行研究と比べてどこがすごい？

回答の単語を入力文からコピーしてくる機構とKBから検索してくる機構を組み合わせて1つのモデルを構築した。

3. 技術や手法のキモはどこ？

seq2seqモデルと出力の際に質問文の単語をコピーする機構とKBから検索してくる機構を組み合わせ、POSタグの情報などは使用せず入力文から出力文を生成するEnd-to-Endなモデルを考案した。

4. どうやって有効だと検証した？

誕生日や性別に関する質問に絞ったクローズドなデータセットと自由な質問があるオープンドメインなデータセットの2つを使って既存モデルとのPrecisionベースの指標で比較を行った。
比較の結果、両データセットで既存モデルを大きく上回る数値を記録した。
また生成された回答の「正確性」「流暢さ」「一貫性」を人手で評価したところ、こちらも既存モデルを上回る結果となった。

5. 議論はある？

質問文からコピーしたりKBから検索してくる機能を持っているため、学習時にはなかったEntityに関するQAに対しても性能を発揮することが実験から分かった。

6. 次に読むべき論文は？

Translating Embeddings for Modeling Multi-relational Data
Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran

FOIL it! Find One mismatch between Image and Language caption

0. 論文

FOIL it! Find One mismatch between Image and Language caption
Ravi Shekhar; Sandro Pezzelle; Yauhen Klimovich; Aurélie Herbelot; Moin Nabi; Enver Sangineto; Raffaella Bernardi

1. どんなもの？

画像についているキャプションを1単語だけ変えて、その間違いをモデルに発見・修正させる実験(FOIL)を行った

2. 先行研究と比べてどこがすごい？

Visual Question Answering(VQA)やImage Caption(IC)といったLanguageとVisonを扱うモデル(LaVi)たちが2つのモーダル情報のやりとりをきちんと把握できているのか検証した

3. 技術や手法のキモはどこ？

MS-COCOをベースに検証用のFOIL-COCOを作成した。
またFOILタスクを「その画像とキャプションが正しいかfoilかの分類(T1)」「キャプションのどの単語がfoil wordかの発見(T2)」「キャプション中のfoil wordの修正(T3)」の3つのタスクに分解し、それぞれに対してモデルを適用し結果を分析した。

4. どうやって有効だと検証した？

FOIL-COCOを使って3つのタスクのAccuracyを計測した。
既存の手法及びベースライン(Blind LSTM/CNN+LSTM)を使い、まだ上限の参考値として人手での結果とも比較した。
タスクが難しくなるにつれ(T1->T2->T3)Accuracyは下がった。またタスク2で画像の情報をもとにどの単語が間違っているかは33.69%(HieCoAttモデル)で正解できるのに、その単語を正しい単語に直すタスク3になると4.21%(同モデル、タスク3でAccuracyが一番高いのはIC-Wangモデルで22.16%)と著しく成績が下がってしまった。
これはモデルがfoil wordを画像中の関連領域にマッピングできないためとしている。

5. 議論はある？

特になし

6. 次に読むべき論文は？

結論部で引用されているテキスト/ビジョンの表現に関する論文
Attentive Explanations: Justifying Decisions and Pointing to the Evidence
Dong Huk Park, Lisa Anne Hendricks, Zeynep Akata, Bernt Schiele, Trevor Darrell, Marcus Rohrbach

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra

A Full Non-Monotonic Transition System for Unrestricted Non-Projective Parsing

0. 論文

A Full Non-Monotonic Transition System for Unrestricted Non-Projective Parsing
Daniel Fernández-González;Carlos Gómez-Rodríguez

1. どんなもの？

係り受け解析器にてよく使われるCovingtonアルゴリズムを改良する方法

2. 先行研究と比べてどこがすごい？

先行研究はprojective解析木しか扱っていないが本研究はnon-projective解析木も扱っている。
また、先行研究はstack-basedとarc-eagerのアルゴリズムを対象したが、本研究でlist-basedのアルゴリズムを対象する

3. 技術や手法のキモはどこ？

元のCovingtonアルゴリズムにてmonotonicな制約を排除し、non-monotonicなアルゴリズムとする。
これにより、過去の段階で誤った割り当てを修正することが可能になる。
すると、もとの各段階の割り当てのための関数(dynamic oracle)は正確に計算することはできなくなった。そのため、dynamic oracle関数を近似する。関数近似による誤差に対しての上界と下界を示し、また特殊なケースにおいてはより厳密な上界を導入できることを示した

4. どうやって有効だと検証した？

CoNLL-XIとCoNLL-Xのデータセット（合計:19言語）に対して係り受け解析を実施し、UAS(Unlabelled Attachement Score)とLAS(Labelled Attachement Score)の精度を評価した

5. 議論はある？

non-monotonicなアルゴリズムは特に長い文に対して価値があると発見された。
（長い文ではエラー伝播が起こりやすいため）

6. 次に読むべき論文は？

A Non-Monotonic Arc-Eager Transition System for Dependency Parsing
Matthew Honnibal; Yoav Goldberg; Mark Johnson

Multi-space Variational Encoder-Decoders for Semi-supervised Labeled Sequence Transduction

0. 論文

Multi-space Variational Encoder-Decoders for Semi-supervised Labeled Sequence Transduction
Chunting Zhou; Graham Neubig

1. どんなもの？

Labeled sequence transductionを行うモデル

2. 先行研究と比べてどこがすごい？

VAEをEncoder-Decoderモデルに拡張し多変数化させたMulti space variational encoder decoder(MSVED)の利用と、半教師あり学習を使ったこと。

3. 技術や手法のキモはどこ？

ソースの単語とターゲットの単語から両者間の潜在変数Zとターゲットの単語のラベルのそれぞれの確率分布を推定するMSVEDを提案した。
また大量のラベルなしデータも用意し、ラベル付きのデータセットと合わせて半教師あり学習を行わせた。

4. どうやって有効だと検証した？

SIGMORPHON 2016のデータセットにある10の言語データセットに対してmorphological inflectionタスクを行う。Encoder-Decoder+Attentionをベースラインとして比較を行い、Accuracyの平均で勝った。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Variational AutoEncoderに関連する論文

Auto-Encoding Variational Bayes
Diederik P Kingma, Max Welling

Auxiliary Deep Generative Models
Lars Maaløe, Casper Kaae Sønderby, Søren Kaae Sønderby, Ole Winther

Variational Neural Machine Translation
Biao Zhang, Deyi Xiong, Jinsong Su, Hong Duan, Min Zhang

Learning attention for historical text normalization by learning to pronounce

0. 論文

Learning attention for historical text normalization by learning to pronounce
Marcel Bollmann; Joachim Bingel; Anders Søgaard

1. どんなもの？

古い言葉(historical text)を現代の言葉に変換するモデル

2. 先行研究と比べてどこがすごい？

学習データの数の少なさを補うためにマルチタスク学習を行う

3. 技術や手法のキモはどこ？

ベースはCharacterレベルのEncoder-Decoderモデル。
また外部ソースを使って書記素(単語か?)を音素に変換するタスクも同時に学習させるマルチタスク学習を行う。
拡張としてビームサーチ、lexical filter(ビームサーチの最中に語彙にない文字列を省く)、Attentionを加えたパターンも検証する。

4. どうやって有効だと検証した？

検証用コーパス(https://www.linguistics.rub.de/anselm/ )を使い、「averaged perceptron」「bi-LSTM」「Norma(ルールベース)」とAccuracyの比較を行い、マルチタスク学習+ビームサーチ+lexical filterのモデルが最もよい数値を記録した。

5. 議論はある？

最も良い数値を記録したマルチタスク学習のモデルにAttentionを加えると精度が劣化した。
これについてマルチタスク学習がAttentionのように入力にフォーカスする機能を獲得しているためではないかと仮説を立ててそれを検証するためにいくつかの実験をしている。
マルチタスク学習モデルとAttentionのモデルの相関を取ったり、出力の比較を行ったり、出力の際に入力のどこにフォーカスしているかを可視化したところ、マルチタスク学習のモデルとAttentionのモデルは近い動きをしていることが分かった。

6. 次に読むべき論文は？

Automatic normalisation of the Swiss German ArchiMob corpus using character-level machine translation
Yves Scherrer and Nikola Ljubešic.

AMR-to-text Generation with Synchronous Node Replacement Grammar

0. 論文

AMR-to-text Generation with Synchronous Node Replacement Grammar
Linfeng Song; Xiaochang Peng; Yue Zhang; Zhiguo Wang; Daniel Gildea

1. どんなもの？

AMRグラフからNode Replacement Grammer(NGR)を使ってテキストを生成するモデル

2. 先行研究と比べてどこがすごい？

graph-tree-stringと変換するモデルやgraph-fragment-stringと変換するモデルと違い、tree構造に変換する際の情報の損失やAMRグラフの階層構造を捉えることができる。

3. 技術や手法のキモはどこ？

NGRはグラフのノードを置き換えながら新しいグラフを構築していく文法である。
学習データに含まれるAMRグラフと文章の対から、最も確率の高い導出規則を生成していく。
検証時はAMRグラフに学習時に生成した導出規則を使って文章を生成しBLEUスコアで評価する。

4. どうやって有効だと検証した？

データセットとしてLDC2015E86を使用して既存のモデルと比較し、BLEUスコアにおいてSOTAを記録した。

5. 議論はある？

Ablation testをしたところ、導出規則を生成する際に用いる3つのルールのうちの1つである「induced rule」を除いた際が最もBLEUスコアが低下した。
もた出来上がった導出規則を見ていくと、1~3程の終端記号しか含んでいないものがほとんどで意味を小さく分解して次のAMRグラフに渡していることが伺える。

6. 次に読むべき論文は？

Neural Headline Generation on Abstract Meaning Representation
Sho Takase, Jun Suzuki, Naoaki Okazaki, Tsutomu Hirao, and Masaaki Nagata.

Neural AMR: Sequence-to-Sequence Models for Parsing and Generation

0. 論文

Neural AMR: Sequence-to-Sequence Models for Parsing and Generation
Ioannis Konstas; Srinivasan Iyer; Mark Yatskar; Yejin Choi; Luke Zettlemoyer

1. どんなもの？

seq2seqをベースにしたtext-to-AMRグラフ(Parser)とAMRグラフ-to-text(Generater)を行うモデル

2. 先行研究と比べてどこがすごい？

AMRのparser/generationタスクではデータの少なさが制約となるため、大規模なラベルなしコーパスで事前学習を行っている。

3. 技術や手法のキモはどこ？

AMR parserをGigawordコーパスを使って事前学習を行った。
また問題の複雑度低減とvocabraryの数ｗの削減のためにAMRグラフに対してグラフの単純化や文中のEntityの匿名化といった前処理を行っている。

4. どうやって有効だと検証した？

pars/generationのタスク(LDC2014T12)を使用して既存のモデルと比較を行った。
parseタスクではベストスコアに迫る数値を、generationタスクではベストスコアを記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

この論文が参考にしたというData Augmentation手法
[Improving Neural Machine Translation Models with Monolingual Data]
Rico Sennrich, Barry Haddow, Alexandra Birch

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

0. 論文

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
Zhe Gan; Chunyuan Li; Changyou Chen; Yunchen Pu; Qinliang Su; Lawrence Carin

1. どんなもの？

RNNのパラメータ最適化に並列計算可能なMCMCを導入したモデル

2. 先行研究と比べてどこがすごい？

パラメータ最適化を並列化可能な勾配降下法である「SG-MCMC」をRNNに初めて導入した

3. 技術や手法のキモはどこ？

予測の確率をS個のモデルの出力の平均で近似することで、並列計算可能とした。
SG-MCMCではパラメータの更新時にノイズを乗せることで局所最適解に陥ることを防ぐ。
後述の検証ではこのSG-MCMCによる最適化とDropoutを組み合わせた手法が良い数値を記録することを示している。
推論時にはS個のモデルのアベレージを取る。

4. どうやって有効だと検証した？

「Language Model」「Image Caption Generation」「Sentence Classification」のタスクについて、SGDやRMSpropといった最適化手法との比較を行い、3つの全てのタスクで提案手法が最もよい数値を記録した。

5. 議論はある？

RMSpropと比べると学習時間及び推論の時間は大幅に延びる。

6. 次に読むべき論文は？

Bayesian learning via stochastic gradient Langevin dynamics
Max Welling; Yee Whye Teh

A Convolutional Encoder Model for Neural Machine Translation

0. 論文

A Convolutional Encoder Model for Neural Machine Translation
Jonas Gehring; Michael Auli; David Grangier; Yann Dauphin

1. どんなもの？

翻訳を行うEncoder-Decoderにおいて、Encoder部分をCNNベースの手法に変更した機械翻訳モデル

2. 先行研究と比べてどこがすごい？

Encoder部分をCNNベースの手法にすることで、性能を落とさずに翻訳生成にかかる時間を短縮した

3. 技術や手法のキモはどこ？

単語のベクトル表現に通常の埋め込みベクトルと単語のポジション情報のベクトルを足し合わせたベクトルを使用している。
また、Attentionを計算するCNNとAttentionの数値を使ってDecoderに渡すベクトルを計算するCNNの2つのモデルをEncoderとして使用している。

4. どうやって有効だと検証した？

IWSLTとWMTの2つの機械翻訳タスクを使ってbi-LSTMや他の論文の手法とBLEUスコアで比較を行った。
bi-LSTMなどは上回り、また他の論文の手法に迫るBLEUスコアを記録した。
また翻訳性背の速度も比較したところ、2層のbi-LSTMと比べて倍近い速さで翻訳を生成することができた。

5. 議論はある？

特になし

6. 次に読むべき論文は？

比較対象にしているRNNベースの手法
Deep Recurrent Models with Fast-Forward Connections for Neural Machine Translation
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, Wei Xu
or
Neural Machine Translation with Recurrent Attention Modeling
Zichao Yang, Zhiting Hu, Yuntian Deng, Chris Dyer, Alex Smola

MORSE: Semantic-ally Drive-n MORpheme SEgment-er

0. 論文

MORSE: Semantic-ally Drive-n MORpheme SEgment-er
Tarek Sakakini; Suma Bhat; Pramod Viswanath

1. どんなもの？

単語を形態素へと分割するフレームワーク

2. 先行研究と比べてどこがすごい？

orthographicの特徴だけでなく、word2vecで得られる意味の表現も形態素解析に利用する

3. 技術や手法のキモはどこ？

Wikipediaのデータを学習に用いる。
初めにprefix/suffixの変化や副詞への変化(+lyなど)のルールとword2vecによる分散表現、及びこれらを使って分割ルールなどのスコアリングを行う。
その後、特定の制約下のもとでスコアを最大化する線形最適化問題として解き、単語を分割していくルールを選択していく。

4. どうやって有効だと検証した？

Morpho Challenge2010(MC)と今回新たに作成したSD17データセットを使って既存手法とprecision/recall/F1で比較を行った。
MCはEnglish/Turkish/Finnishの3言語のデータがあり、English/Turkishでは既存のモデルを上回る数値を記録した。
SD17でも既存モデルを上回る数値を記録した。

5. 議論はある？

MCでFinnishにおけるスコアが低かった理由として、語彙の数は制限されていたため十分な数のルールと質の高い単語の意味表現が得られなかったためだとしている。

6. 次に読むべき論文は？

Unsupervised models for morpheme segmentation and morphology learning
Mathias Creutz and Krista Lagus

Abstractive Document Summarization with a Graph-Based Attentional Neural Model

0. 論文

Abstractive Document Summarization with a Graph-Based Attentional Neural Model
Jiwei Tan; Xiaojun Wan; Jianguo Xiao

1. どんなもの？

グラフベースのアルゴリズムとAttentionを組み合わせた生成型要約を行うモデル。

2. 先行研究と比べてどこがすごい？

Attentionの仕組みにPageRankに代表されるようなグラフのベースの手法を取り入れている。
またDecode時のBeamSearchにも工夫を入れている。

3. 技術や手法のキモはどこ？

入力の各文をノードとするグラフからPageRankなどと同じ手法で各文のスコアを計算し、そのスコアをもとにAttentionのスコアを計算する。
またDecode時にはK-best wordとN-best sentenceを保持し続けるhierarchical beam searchという手法を提案している。

4. どうやって有効だと検証した？

抽出型/生成型要約を行う既存手法に対して2つのデータセットを使ってROUGE-1/2/Lスコアを比較し提案手法が最も高い数値を記録した。
また4つのモデルを「Informative」「Concise」「Coherence」「Fluent」の4つの観点から人手で評価したところ、Coherent以外の項目で最も高いスコアを記録した。

5. 議論はある？

Ablation experimentをしたところ、hierarchical beam searchを除去した場合が最もROUGEスコアが低下した。

6. 次に読むべき論文は？

A Hierarchical Neural Autoencoder for Paragraphs and Documents
Jiwei Li, Minh-Thang Luong, Dan Jurafsky

Get To The Point: Summarization with Pointer-Generator Networks

0. 論文

Get To The Point: Summarization with Pointer-Generator Networks
Abigail See; Peter J. Liu; Christopher D. Manning

1. どんなもの？

seq2seqをベースに、入力単語をコピーする機構とフレーズに繰り返しを防ぐ機構を追加した生成型要約を行うモデル

2. 先行研究と比べてどこがすごい？

seq2seqモデルでは「不正確な情報を出力する」「out-of-vocabulary(OOV)」「同じフレーズを繰り返す」といった問題があった。それを「Pointer-generator Network」という機構と「Coverage Mechanism」という機構で解決した。

3. 技術や手法のキモはどこ？

「Pointer-generator Net」では通常のseq2seq+attentionで出力される単語の分布(Vocabulary Distribution)とAttentionによる入力単語の分布(Attention Distribution)を組み合わせて最終的な出力単語を決めることでvocabularyにない単語を出力でき入力文から正確に情報を取得して出力することができる。
また「Coverage Mechanism」で過去のDecodeのステップで選ばれた単語が再び選ばれることにペナルティロスを課して学習を行うことで、同じ単語やフレーズが出力することを抑制している。

4. どうやって有効だと検証した？

CNN/Daily Mail Datasetを使ってベースラインのモデルとROUGEとROUGE及びMETEORスコアで比較を行ったところ提案手法が最もよい数値を記録した。ただし一部のモデルとは純粋な数値での比較はできないとしている。

5. 議論はある？

データの冒頭3文から単語を抽出して要約を行うモデルとスコアを比較すると、抽出を行うモデルが提案手法と比べて多くの場合は良い数値を記録する。
またROUGEスコアはn-gramの一致度合いを見るため良いいいかえをしていても単語が違うとスコアが下がってしまう。これを防ぐためにMETEORスコアがあるのだが、METEORスコアでも抽出型のモデルに負けているためここの問題を調査することをfuture workとしている。

6. 次に読むべき論文は？

データセットの関連情報
Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
Ramesh Nallapati, Bowen Zhou, Cicero Nogueira dos santos, Caglar Gulcehre, Bing Xiang

Coverage Mechanism
Modeling Coverage for Neural Machine Translation
Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, Hang Li

An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge

0. 論文

An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge
Yanchao Hao; Yuanzhe Zhang; Kang Liu; Shizhu He; Zhanyi Liu; Hua Wu; Jun Zhao

1. どんなもの？

Knowledge Base(KB)を利用したEnd-to-EndなQAモデル

2. 先行研究と比べてどこがすごい？

QuestionとAnswerの双方からAttentionをかけるCross-Attentionとanswer aspectsの素性をモデルに取り込んだ

3. 技術や手法のキモはどこ？

QuestionをもとにKBから回答候補を複数出力し、それぞれに対しanswer entity,answer relation,answer type,answer contextという4つのaspectsを用意する。
Cross-AttentionはAnswer-towards-question(A-Q)とQuestion-towards-answer(Q-A)の2段階のAttentionに分かれており、それぞれ「各aspectsがQuestionのどの単語に注視するかのAttention」と「Questionがどのaspectsに注視するかのAttention」となっている。
またKBのすべての情報を学習時に使用するため、テスト時のout-of-vocabrary(OOB)問題を緩和している。

4. どうやって有効だと検証した？

End-to-Endに学習を行うQAモデルを対象にWeb Questions Datasetを使って検証を行い、Average F1スコアで最もよい数値を記録した。

5. 議論はある？

比較するモデルが少し古い気もする。またWikipedia free textを外部リソースとして使ったモデルを比較対象外としているがそれは正しいのか。

6. 次に読むべき論文は？

Teaching Machines to Read and Comprehend
Karl Moritz Hermann, Tomáš Kočiský, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, Phil Blunsom

Learning Structured Natural Language Representations for Semantic Parsing

0. 論文

Learning Structured Natural Language Representations for Semantic Parsing
Jianpeng Cheng; Siva Reddy; Vijay Saraswat; Mirella Lapata

1. どんなもの？

End-to-Endで学習を行うニューラルネットによる意味パーサ

2. 先行研究と比べてどこがすごい？

自然言語の文章を意味を含んだ中間表現にパースする方法と、中間表現から自然言語を出力するための語彙能力の両方を同時に学習する。
また中間表現が述語項構造をしているため解釈が容易。

3. 技術や手法のキモはどこ？

全体の構成としてはbi-LSTM.stack-LSTM,single-layer Neural Netの組み合わせ。
文章の意味をパースする際にスタックを使って中間表現へと変換するが、このスタックに対する操作(push/pop)及びどんな終端記号(terminal)/非終端記号(variable)をpushするかの学習を行う。
またこの中間表現から正しい自然言語の回答を出力するbi-LSTMの学習も行うことで語彙の表現の獲得を行っている。

4. どうやって有効だと検証した？

4つのデータセット(WEBQUESTIONS/GRAPHQUESTIONS/GEOQUERY/SPADES)を使って既存手法とAccuracyやF1値で比較。SPADES及びGRAPHQUESTIONSではSOTA、他2つでも高い数値を記録した。

5. 議論はある？

このモデルは中間表現及び出力の自然言語が構造的に独立しているとい仮定のもとで構成されている。
これはモデルが中間表現へのパースと語彙へのマッピングに集中できるというメリットがあるが、自然言語の構造をうまく反映させた中間表現ができない(例えば構文解析木)ためモデルの表現が制限されてしまうというデメリットもはらんでいる。

6. 次に読むべき論文は？

他の意味パーサの話

Evaluating Induced CCG Parsers on Grounded Semantic Parsing
Yonatan Bisk, Siva Reddy, John Blitzer, Julia Hockenmaier, Mark Steedman

Transforming Dependency Structures to Logical Forms for Semantic Parsing
Siva Reddy, Oscar Täckström, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata

Learning Cognitive Features from Gaze Data for Sentiment and Sarcasm Classification using Convolutional Neural Network

0. 論文

Learning Cognitive Features from Gaze Data for Sentiment and Sarcasm Classification using Convolutional Neural Network
Abhijit Mishra; Kuntal Dey; Pushpak Bhattacharyya

1. どんなもの？

テキストとアイトラッキングの情報から感情、皮肉の予測を行うモデル

2. 先行研究と比べてどこがすごい？

「アイトラッキング」と「CNN」を組み合わせてモデルを考案したところ

3. 技術や手法のキモはどこ？

テキスト特徴をCNNを使って抽出する「Text component」とアイトラッキングのいくつかの指標から特徴をCNNで抽出する「Gaze component」の2種類のコンポーネントからなる。
テキスト特徴については「埋め込み表現を学習させない(STATICTEXT)」「学習させる(NONSTATICTEXT)」「混在させる(MULTICHANNELTEXT)」の3つ、アイトラッキングについては「ある注視点に留まった時間の長さの系列(FIXATION)」「注視点がどう移り変わっていったかという座標の系列(SACCADE)」「混在させる(MULTICHANNELGAZE)」の3つがあり、3*3の9つのモデルを使って既存手法と比較をしている。

4. どうやって有効だと検証した？

感情分析のデータセット2種と皮肉を特定するタスクのデータセットを使って既存手法と「Precision」「Recall」「F-score」で比較を行った。
感情分析は片方のデータセットでは「NONSTATICTEXT+MULTICHANNELGAZE」が最もよい数値を記録、もう片方のデータセット(movie reviwe)ではSVMや提案手法t同じようにアイトラッキング情報を使ったモデルに数値で勝ることはできなかった。
皮肉を特定するタスクではPrecision及びF値では最もよい数値を記録しtが、RecallではCNNベースのモデルが一番良い数値を記録した。

5. 議論はある？

テキスト特徴では埋め込みの次元を抑えたり、埋め込みを学習させる手法が過学習を防ぐ効果があるとしている。
FIXATIONの特徴については感情分析のタスクでは値の分散が大きすぎてうまく働いていないようだ。

6. 次に読むべき論文は？

アイトラッキング情報を使った先行研究(著者は一部同じ)

Leveraging Cognitive Features for Sentiment Analysis
Abhijit Mishra, Diptesh Kanojia†, Seema Nagar, Kuntal Dey, Pushpak Bhattacharyya

Harnessing Cognitive Features for Sarcasm Detection
Abhijit Mishra, Diptesh Kanojia, Seema Nagar, Kuntal Dey, Pushpak Bhattacharyya

7. 補足

アイトラッキングの参考情報
ランディングページの分析にもおすすめ！アイトラッキングの「AOI分析」をしてみよう

Deep Learning in Semantic Kernel Spaces

0. 論文

Deep Learning in Semantic Kernel Spaces
Danilo Croce; Simone Filice; Giuseppe Castellucci; Roberto Basili

1. どんなもの？

DNNに木構造に対するカーネル計算を行う層を導入したモデル(Kernel-based Deep Architecture: KDA)を提案した。

2. 先行研究と比べてどこがすごい？

カーネルの計算に「Nystrom method」を使うことで木構造を入力としてDNNを学習させることができる。

3. 技術や手法のキモはどこ？

全体の構造は「入力層」「Nystrom層」「非線形変換を行う隠れ層」「出力層」の4種類からなる。
入力として木構造を受け取りそれをNystrom層で低次元の埋め込みベクトルに変換する。そこから先は通常のニューラルネットと同じように順伝搬させていき、学習時は逆伝搬を行う。入力層とNystrom層は最初にカーネル計算用の行列を計算したあとは学習を行わない。
Kernel-SVMでは推論時に入力データと全てのサポートベクターとのカーネル計算を行わなくてはならないが、KDAではカーネル計算はNystrom methodを使って簡単に低次元に埋め込めるため、計算コスト及び並列性が高まっている。

4. どうやって有効だと検証した？

「Question Answering」「Community Question Answering」「Argument Boundary Detection」の3つのタスクでKernel-SVMなどのモデルと比較を行い、計算時間を短縮しつつ精度やF1スコアでよいスコアを記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Convolution Kernels for Natural Language
Michael Collins and Nigel Duffy

Automatically Labeled Data Generation for Large Scale Event Extraction

0. 論文

Automatically Labeled Data Generation for Large Scale Event Extraction
Yubo Chen; Shulin Liu; Xiang Zhang; Kang Liu; Jun Zhao

1. どんなもの？

Event Extractionタスク向けの大規模ラベル付きデータを作成するモデル
(データ例)

2. 先行研究と比べてどこがすごい？

ACEのようなEvent Extractionタスクでは教師あり学習で解くのが主流だが小規模のラベル付きデータしか用意されていないという問題があった。そこで提案手法では大規模なラベル付きデータを自動で生成しそれを学習に使用する。

3. 技術や手法のキモはどこ？

Freebase,Wikipedia,FrameNetといったデータソースを使用してラベル付きデータを自動生成する。
自動生成を「Key Argument Detection」「Trigger Word Detection」「Trigger Word Filtering and Expansion」「Automatically Labeled Data Generation」の4つのフェーズに分けてそれぞれでデータソースを使用していく。
自動生成されるデータは以下のようなもの。

4. どうやって有効だと検証した？

ACEタスクを使用して既存モデルと比較を行った。
ACEタスクで用意されているデータのみで学習を行った既存手法と、自動生成したデータセットやそれとACEのデータセットを組み合わせた学習データを使ったモデルで比較を行い、すべての評価項目で既存手法を上回るF値を記録した。

5. 議論はある？

データを自動生成する際にKeyRate(KR)、TriggerRate(TR)といった指標を使ってデータを選別していったが、それらを使用しない場合と比較すると使用しない場合ではF1値が下がることが確認できKRやTRの有効性が証明された。

6. 次に読むべき論文は？

Distant supervision for relation extraction without labeled data
Mike Mintz, Steven Bills, Rion Snow, and Daniel Jurafsky

Morph-fitting: Fine-Tuning Word Vector Spaces with Simple Language-Specific Rules

0. 論文

Morph-fitting: Fine-Tuning Word Vector Spaces with Simple Language-Specific Rules
Ivan Vulić; Nikola Mrkšić; Roi Reichart; Diarmuid Ó Séaghdha; Steve Young; Anna Korhonen

1. どんなもの？

既存の単語のベクトル表現を同意語/反意語を使って拡張する。

2. 先行研究と比べてどこがすごい？

同意語を使うモデルはあったが、提案手法では反意語も使用している。

3. 技術や手法のキモはどこ？

Skip-gramやGloVeといった単語のベクトル表現を獲得するメソッドに対して自然な拡張を与えることができる。
学習用に同意語のペア、反意語のペアを集める必要があるがこれはシンプルなルールベースの手法で集めることができる。
学習の際は同意語のペアのベクトルは近く、反意語のペアは遠くに配置するように学習していく。

4. どうやって有効だと検証した？

Skip-gram with negative samplingやGloVeといった単語のベクトル表現を学習する10種類のアルゴリズムを提案手法を使って拡張し、単語類似性を測るタスクを解かせた。すると全てのメソッドにおいてスピアマン順位相関係数の向上が見られた。
また対話状態追跡のタスクにも適用したところ、こちらも数値の改善が見られた。

5. 議論はある？

学習の際に最も頻度の高い同意語1つによる学習しか行わない(morph-fix)モデルの場合、対話状態追跡タスクの性能は上がらなかった。様々な語形の変化した語を使って学習を行うことで意味の表現をうまく学習できている可能性がある。

6. 次に読むべき論文は？

Morphological Smoothing and Extrapolation of Word Embeddings
Ryan Cotterell, Hinrich Schütze, and Jason Eisner

Diversity driven attention model for query-based abstractive summarization

0. 論文

Diversity driven attention model for query-based abstractive summarization
Preksha Nema; Mitesh M. Khapra; Anirban Laha; Balaraman Ravindran

1. どんなもの？

クエリベースの生成型要約を行うEncder-Decoder + Attentionをベースにしたモデル

2. 先行研究と比べてどこがすごい？

クエリベースの要約に向けてクエリ及びドキュメントに対してAttentionをかけるモデルを考案した。
またEncoder-Decoderモデルでよく発生する同じ単語/フレーズを繰り返してしまう問題を解決するためにAttentionに工夫を加えた。

3. 技術や手法のキモはどこ？

クエリにAttentionをかけその値をもとにドキュメントに対してAttentionをかけるような設計を行った。
またDecoderが同じ単語/フレーズを生成してしまうときは似たようなベクトルがDecoderに渡されているだろうという仮説のもと、今のContext Vectorと過去にDecoderに渡されたContext Vectorとができるだけ似ないようにするAttention(Diversity based attention)の仕組みを考案した。
Diversity based attentionでは時刻tのContext Vectorが1)1時刻前のベクトルと直交させる 2)過去のDecode時の全てのベクトルと直交させる2パターンと、どれくらい直交させるかをゲーティングで制御する方式を取り入れたものとを組み合わせた2 * 2の4パターンを考案している。

4. どうやって有効だと検証した？

過去にクエリベースの生成型要約を行った研究がないためEncoder-Decoderを一番シンプルなモデルとしてそれにいくつか拡張を加えたモデルを用意して検証を行い、ROUGEスコアで比較を行った。
検証では過去のDecode時の全てのベクトルと直交させかつそれをゲーティングで制御させるモデルが最も高いROUGEスコアを記録した。

5. 議論はある？

一番シンプルなモデルと比べて、「クエリをEncodeに加える」「クエリに対するAttentionを加える」「Diversity based attentionを加える」といったタイミングでROUGEスコアが大きく向上した。

6. 次に読むべき論文は？

単語/フレーズのリピート問題で参照されていた論文
Distraction-Based Neural Networks for Document Summarization
Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang

Adversarial Multi-task Learning for Text Classification

0. 論文

Adversarial Multi-task Learning for Text Classification
Pengfei Liu, Xipeng Qiu, Xuanjing Huang

1. どんなもの？

マルチタスク学習において、タスク共通の特徴とタスク固有の特徴をうまく学習する手法を提案

2. 先行研究と比べてどこがすごい？

既存のマルチタスク学習の手法では、タスク共通の特徴に特定のタスク固有の特徴が混じってしまい結果に悪影響を与えてしまうが、この研究では共通部分とタスク固有の部分をよりきれいに分離できるようにした

3. 技術や手法のキモはどこ？

テキスト分類のためのRNN(LSTM)ベースのマルチタスク学習モデル「Fully-Shared Model(FS-MTL)/Shared-Private Model(SP-MTL)」を提案。
そしてSP-MTLにおいて特徴の分離を目的とし、共通部分の特徴がどのタスク固有の特徴か識別するDとタスク固有の情報を減らしどのタスク固有の特徴か分からなくするGとを競い合わせるGANの手法を取り入れたASP-MTLを提案した

4. どうやって有効だと検証した？

16個のタスクを使用し、Error Rateをシングルタスクのモデル及びほかのマルチタスクのモデルと比較した。
16個のタスクの平均Error Rateにおいて、ASP-MTLが最もよい指標を記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Domain Separation Networks
Konstantinos Bousmalis, George Trigeorgis, Nathan Silberman, Dilip Krishnan, Dumitru Erhan

Multimodal Word Distributions

0. 論文

Multimodal Word Distributions
Ben Athiwaratkun; Andrew Wilson

1. どんなもの？

単語の持つ意味をガウス混合分布で表現するモデル
Skip-gramといったモデルは単語の意味をベクトルで表現するが、このモデルは混合ガウス分布を使って表現するように学習する

2. 先行研究と比べてどこがすごい？

単語の意味をガウス分布として表現する先行研究(word2gaussian)では、多義語の持つ複数の意味(「岩」のrockと「ロック音楽」のrockなど)を扱えなかったが、混合ガウス分布を使って表現することで多義語の意味も扱えるようにした。

3. 技術や手法のキモはどこ？

混合ガウスモデルの混合数Kを事前に与え、Skip-gramと同じようにpositive contextとnegative contextを使って学習をしていく。
Skip-gramモデルのようにpositive/negative contextのベクトルペアのコサイン類似度や内積を測るといったことができないため、expected likelihood kernelという手法を使って分布同士の内積(のようなもの)を計算する。単語のスキーマ条件などはword2vecの論文とほぼ同じである。

4. どうやって有効だと検証した？

単語の類似度を測るタスクでSkip-gram、word2gaussianの2つの手法とスピアマン順位相関係数で比較を行ったところ多くのデータセットで最も高い数値を記録した。
またEntailmentタスクでword2gaussianモデルと比較したところ、こちらも提案手法が高い数値を示すことが多かった。

5. 議論はある？

潜在的確率表現(latent probabilistic representation)のモデルが良い結果を残してきたように、確率的な表現モデルが単語の持つ意味をうまく捉えられているのかもしれない。

6. 次に読むべき論文は？

Word Representations via Gaussian Embedding
Luke Vilnis, Andrew McCallum

Translating Neuralese

0. 論文

Translating Neuralese
Jacob Andreas; Anca Dragan; Dan Klein

1. どんなもの？

タスクを解くために複数のエージェントがやりとりするメッセージ(ベクトル)を自然言語に変換する(その逆も行う)モデル

2. 先行研究と比べてどこがすごい？

エージェント同士がやりとりするメッセージやお互いが観測した情報を解釈して自然言語へ変換しているので、ベクトルに含まれている意味の解釈などで応用できる。例えば機械翻訳などで使用されるEncoder-DecoderモデルでEncoderがDecoderに渡すベクトルの解釈などに応用できる。

3. 技術や手法のキモはどこ？

エージェントのメッセージと自然言語の変換だけでなくエージェントが観測した情報も一緒にモデリングすることで、メッセージと自然言語の1対1の変換の確率を最大化するよりよいパフォーマンスを発揮する。

4. どうやって有効だと検証した？

「人間のメッセージを変換してエージェントがタスクを解く場合」と「エージェントのメッセージ変換して人間がタスクを解く場合」の2つについて、「ランダム」「メッセージと自然言語の1対1の変換の確率を最大化」「提案手法」の3つの手法を正解率で比較した。
3つのタスクで比較を行ったところ、いずれにおいても提案手法が最も高い正解率を記録した。

5. 議論はある？

特定のタスク(The colors task)については人間が自然言語でメッセージを伝えてそれを人間が受け取ってタスクを解いた際の正解率よりも、エージェントのメッセージを自然言語に変換して人間がタスクを解いた場合の正解率が上回った。これはエージェントが情報を伝えるより効果的な戦略を見つけている可能性があるとのこと。

6. 次に読むべき論文は？

Deep Communicating Policies関連
Learning to Communicate with Deep Multi-Agent Reinforcement Learning
Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson
or
Learning Multiagent Communication with Backpropagation
Sainbayar Sukhbaatar, Arthur Szlam, Rob Fergus

Alternative Objective Functions for Training MT Evaluation Metrics

0. 論文

Alternative Objective Functions for Training MT Evaluation Metrics
Miloš Stanojević; Khalil Sima'an

1. どんなもの？

機械翻訳システムの評価を目的とした新しい目的関数の導入

2. 先行研究と比べてどこがすごい？

既存の研究では人手での評価との相関をセンテンスレベルでしかチェックしていないが、この研究ではコーパスレベルでの相関も取り入れた。

3. 技術や手法のキモはどこ？

人手での相対ランクをもとに良い翻訳と悪い翻訳に分け、これらの間のスコア差を大きくするように学習を行う。
これをセンテンスレベルとコーパスレベル、そして2つを組み合わせたjointレベルでの目的関数を導入した。

4. どうやって有効だと検証した？

WMTのコーパスを使って検証を行った。
3つのモデルを使って人手での2種類の評価(Relative Ranking/Direct Assessment)との相関を取ったところ、jointモデルが残りの2つのモデルより高い数値を記録し安定していることを確認した。

5. 議論はある？

センテンスレベルとコーパスレベルのモデルを比較すると、RR評価ではコーパスレベルが、DA評価ではセンテンスレベルが数値を上回る。
これはそれぞれの人手の評価の違いが影響しているとしている。

6. 次に読むべき論文は？

Meteor 1.3: Automatic Metric for Reliable Optimization and Evaluation of Machine Translation Systems
Michael Denkowski and Alon Lavie.

Program Induction by Rationale Generation:Learning to Solve and Explain Algebraic Word Problems

0. 論文

Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems
Wang Ling; Dani Yogatama; Chris Dyer; Phil Blunsom

1. どんなもの？

自然言語で記述された代数の問題を読み、与えられた選択肢の中から正しい回答を選ぶタスクを解くモデル

2. 先行研究と比べてどこがすごい？

問題(Question)と選択肢(Options)を入力とし、そこから直接回答根拠(Rationale)と正しい選択肢を見つけるモデルを考案したこと

3. 技術や手法のキモはどこ？

特徴的なのは2点で、入力を潜在変数に変換することと数値情報などを保持しておくメモリ機構を備えていること。
モデルはseq2seqモデルをベースとしており入力文を読み取りながら潜在変数に変換していく。そのなかで数値などの情報はメモリに保持しておく。
そして出力の際にはRationaleを生成していくのだが、その際にメモリが保持している数値情報
を使って潜在変数が計算処理などを行いその情報をもとにRationaleを生成していく。
このモデルは入力長、出力長ともに長くメモリ機構も備えているためBack propの際にメモリが問題になりやすい。そのため1データを分割しそれぞれに対してBack propをかけるStaged Back-propという手法を取っている。

4. どうやって有効だと検証した？

このタスクのためにデータセットを作成し、そのデータセットを使ってseq2seqとその拡張モデルを使って比較を行った。
その結果、Perplexity,BLEU,Accuracyの3つの指標で既存モデルを上回った。

5. 議論はある？

代数の問題をニューラルネットで解けることを示した最初の1歩なので、今回作成したデータセットとモデルをもとに今後も研究が進めば、と述べている。

6. 次に読むべき論文は？

Solving General Arithmetic Word Problems
Subhro Roy, Dan Roth

Neural Relation Extraction with Multi-lingual Attention

0. 論文

Neural Relation Extraction with Multi-lingual Attention
Yankai Lin; Zhiyuan Liu; Maosong Sun

1. どんなもの？

Multi-lingual(英語と**語)の文章を使って2つのエンティティペアの関係を予測するニューラルネットワーク

2. 先行研究と比べてどこがすごい？

1つの言語のデータだけでは数が少ない(情報量が少ない)ため、複数言語を扱い情報量を増やすことで性能が改善されることを示した

3. 技術や手法のキモはどこ？

英語と**語の間には表現の一貫性があり、また相互に補いあうことができる。
そこで両言語の文章を入力とし情報を補い合いつつ、言語を跨いでパターンを抽出するMulti(Cross)-lingual attentionを導入した

4. どうやって有効だと検証した？

precision/recall curveを描き既存モデルと比較したところ、最もよい数値を記録した。
また学習データの数が英語<<<**語だったり**語<<<英語であるようなデータの予測において、Multi-lingual attentionを使って学習したモデルは単一言語のデータのみを使って学習したモデルよりprecisionが大きく上回った。
これよりMulti-lingual attentionを使うことでデータ数の不足を補うことが可能であることが分かった。

5. 議論はある？

言語の構造が近い英語と**語を使ったのがよかったように見える。
性質の近い(≒文法が近い?)言語の選択が重要そうだ。

6. 次に読むべき論文は？

Cross-languageの要約モデル
A Graph-based Approach to Cross-language Multi-document Summarization
Florian Boudin, Stephane Huet, and Juan-Manuel Torres-Moreno

Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths

0. 論文

Classifying Temporal Relations by Bidirectional LSTM over Dependency
Paths
Fei Cheng and Yusuke Miyao

1. どんなもの？

文中のエンティティの時間的関係(Temporal Relations)のクラスを分類するタスクにおいて、アノテーションや外部情報を使わずに既存のSOTAモデルに迫る性能を記録した

2. 先行研究と比べてどこがすごい？

既存の手法はアノテーションやエンティティの属性情報、手書きルールやWordNetといった外部情報を使っているが、提案手法では原文から得られる情報(POS,Dependency Path(DP),Embeddings)のみを使用して同等の性能を記録した

3. 技術や手法のキモはどこ？

67％のエンティティペアは隣接する2文にまたいで出現している。そこで原文を解析すればこのペアには共通するルートがある、という仮説のもと共通するルートからそれぞれのエンティティへのShortest Dependency Path(SDP)を求めそのパス上の単語を入力とした。
解析にはStanford Core NLPを使用し、その際に得られるPOS及びDPの情報を使用する。またこのほかにGigawordコーパスをword2vec with skipgramで初期化したWord Vectorも使用する。
単語の系列を処理するモデルとしてBi-LSTMを採用した

4. どうやって有効だと検証した？

クラス分類におけるF値を算出した結果、既存のSOTAモデルに迫る数値を記録した。

5. 議論はある？

GigawordコーパスによるEmbeddingsの初期化は外部情報なしといってもよいのだろうか

6. 次に読むべき論文は？

On the contribution of word embeddings to temporal relation
classification
Paramita Mirza, Sara Tonelli

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

0. 論文

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents
Corina Florescu; Cornelia Caragea

1. どんなもの？

キーフレーズ抽出を行う教師なしの手法

2. 先行研究と比べてどこがすごい？

教師なしなので大量の正解データを用意しなくてよい

3. 技術や手法のキモはどこ？

基本はPageRankを参考にしたグラフベースの手法。
同じドキュメント内での単語の出現位置(2ndや50th)の逆数(1/2や1/50)を同じ単語に対して全て足し合わせることで単語のポジション情報と頻度を考慮したスコア付けを行った。

4. どうやって有効だと検証した？

3つのデータセットを使い既存モデルとMRR,Precision,Recall,F1-Scoreのperformance@kを計測した。
スコアを比較したところいずれの指標においても既存モデルを上回る数値を記録した。
またt検定も行いMRR,Precision,Recall,F1-Scoreのいずれにおいても5%有意となった。

5. 議論はある？

グラフでエッジを引く際に使用する窓幅wを2~8で変化させても性能に大きな差は出なかった。
また頻度情報を使わず最初の出現位置の逆数のみでスコアリングしたモデル(first-position,fp)と比較すると頻度情報も使用するフルモデルの方が性能で勝った。

6. 次に読むべき論文は？

Automatic Keyphrase Extraction: A Survey of the State of the Art
Kazi Saidul Hasan and Vincent Ng

Selective Encoding for Abstractive Sentence Summarization

0. 論文

Selective Encoding for Abstractive Sentence Summarization
Qingyu Zhou; Nan Yang; Furu Wei; Ming Zhou

1. どんなもの？

生成型の文要約を行うモデル

2. 先行研究と比べてどこがすごい？

生成型の文要約において要約の作成に必要な入力文の単語のハイライトを行う

3. 技術や手法のキモはどこ？

要約の生成に必要な単語をハイライトして選択するためにSelective Mechanismを備えたEncoder-Decoderモデルの拡張を考案した。
Selective MechanismはEncoderのBiGRUのforwardとbackwardの最後のベクトルをsentence vectorとし、それとEncoderの中間層のベクトルを使って、入力の単語に強弱をつけてハイライトする。

4. どうやって有効だと検証した？

「English Gigaword」「DUC 2004」「MSR-ATC」の3つのデータセットを使いROUGE-F1ややROUGE-recallを使って既存モデルと比較した。

5. 議論はある？

提案手法とseq2seq+attentionのモデルを比較すると性能が上回っており、Selective Mechanismがうまく働いているようだ。

6. 次に読むべき論文は？

Visualizing and Understanding Neural Models in NLP
Jiwei Li, Xinlei Chen, Eduard Hovy, Dan Jurafsky

Coarse-to-Fine Question Answering for Long Documents

0. 論文

Coarse-to-Fine Question Answering for Long Documents
Eunsol Choi; Daniel Hewlett; Jakob Uszkoreit; Illia Polosukhin; Alexandre Lacoste; Jonathan Berant

1. どんなもの？

長いドキュメントに対しても高速に動作するQAモデル

2. 先行研究と比べてどこがすごい？

QAモデルではRNNが使われることが多いが、RNNは学習の並列化が難しいため長いドキュメントでは遅いという問題がある。
そこでタスクを2段階に分割したり、BoWやCNNを駆使することで高速に動作するモデルを提案した。

3. 技術や手法のキモはどこ？

長いドキュメントから回答を探すタスクを「質問文をもとに長いドキュメントから回答に必要な文をいくつか選択する」「選択された複数の文から回答を生成する」という2段階に分割した。前者のタスクではBoWモデルやCNNを使用して各文の確率分布を計算しそれをもとにHard/Soft Attentionを使って文を選択する。そして文の数が減った後者のタスクでのみRNNを使用するようにした。
Hard Attentionを使用する場合、誤差を逆伝搬することができないため強化学習によって学習を行う。

4. どうやって有効だと検証した？

既存の最高精度のモデルをベースラインとして速度を比較したところ、強化学習を利用するモデルは3.5~6.7倍もスピードアップした。
また3つのコーパスで精度の検証を行い、1つのコーパスでは既存のモデルを上回る数値、2つのタスクでは既存のモデルに迫るスコアを記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Neural Summarization by Extracting Sentences and Words
Jianpeng Cheng, Mirella Lapata

Automatically Generating Rhythmic Verse with Neural Networks

0. 論文

Automatically Generating Rhythmic Verse with Neural Networks
Jack Hopkins; Douwe Kiela

1. どんなもの？

ューラルネットを使った詩の自動生成

2. 先行研究と比べてどこがすごい？

「詩の意味(content)」と「詩のリズム(format)」の両方の学習を行うモデル

3. 技術や手法のキモはどこ？

最初は韻やリズムをうまく学習させるために発音などの音声情報(?)を使っていたが、同音異義語に弱い、学習データによって長さや韻の踏み方に差があって問題が複雑化しやすいという難点があった。
生成される詩はそれなりにうまくいっていうものの、韻の踏み方などがある程度同質な学習データが必要でこれをそろえるのが困難という問題があった。
そこで様々な詩のデータに頑健なモデルとして文字レベル言語モデルとWeighted Finite State Automaton(WFSA)をカスケード接続したモデルを考案した。
これは文字レベル言語モデルがvocaburaryの問題の解決と単語のprefix/suffixに着目した意味のモデリング、WFSAが韻やリズム感といった部分をモデリングしている

4. どうやって有効だと検証した？

まずモデルが詩のリズムは獲得てきるか検証するためにモデルが生成した詩を人手で読み上げストレスを感じないか調べた。各モデルが50行ほど生成したところ70%ほどの行は特に問題がなかった。
また学習に使ったデータセットについて、テキストから音声情報に変換しそれを再びテキストに戻した際にどれくらいの精度でもとに戻せるか実験したところwordレベルでは65%~85%ほどの数値となった。このことから学習データを翻字する段階での情報の欠落がモデルに影響を与えている可能性があるとしている。
また人を使って「この詩が人が書いたものか機械が書いたものか予想する」実験を行ったところ、とある詩では66%の人間が人によるものと判断した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Better word representations with recursive neural networks for morphology
Minh-Thang Luong. Richard Socher. Christopher D. Manning

An Unsupervised Neural Attention Model for Aspect Extraction

0. 論文

An Unsupervised Neural Attention Model for Aspect Extraction
Ruidan He; Wee Sun Lee; Hwee Tou Ng; Daniel Dahlmeier

1. どんなもの？

aspectを抽出するニューラルネットワークモデル

2. 先行研究と比べてどこがすごい？

主流なLDAベースの手法ではないNNベースの手法で、LDAより一貫したaspectを出力するようになっている。

3. 技術や手法のキモはどこ？

入力単語の埋め込みベクトルにAttentionの重みをかけて足しあわせて分のベクトルを作る「Attention-based encoder」の部分と、文のベクトルzをSoftmaxを計算してaspectの分布(ベクトル)を計算しそこから再度ベクトルrを再構成しrとzの差をできるだけ小さくするようにかつ他のベクトルとの差は大きくするように学習する部分の2点。
zからSoftmaxでspectの分布を出しそこからrを再構成する部分がAutoEncoderに近いことを行っている。

4. どうやって有効だと検証した？

2種類のデータセットを使って既存のモデルと様々な評価指標で比較。例えばaspect identificationのF1スコアなどでは最もよい数値を記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

aspect extractionについて書かれている書籍
Sentiment Analysis and Opinion Mining
Bing Liu

Verb Physics: Relative Physical Knowledge of Actions and Objects

0. 論文

Verb Physics: Relative Physical Knowledge of Actions and Objects
Maxwell Forbes; Yejin Choi

1. どんなもの？

動詞をもとに動作主と被動者の相対的、物理的な包含関係を学習し推定するモデル。

2. 先行研究と比べてどこがすごい？

新しいタスクを作成し、それに合わせてクラウドソーシングを使ってデータセットも作成した。

3. 技術や手法のキモはどこ？

学習データを使ってFactorグラフを構築する。その際に意味の近いノードがエッジで結ばれるように構築する。例えば動詞のFrameが類似している、Object(動作主や被動者)が似ているなど。
そして推論の際にはこのFactorグラフを使い、今扱っている文章の動詞のフレームや動作主・被動者がグラフ上のどんな要素と近いかを計算して包含関係を推定する。

4. どうやって有効だと検証した？

新たに構築したデータセットに対して3種類のベースライン(Radom/Majority/maximum entropy classifier)を用意して精度を比較したところ、提案手法が最もよい数値を記録した。

5. 議論はある？

例えばクラウドソーシングでワーカーが「Person stopped the fly with a swatter」という文章に対して、本来ならPersonとfly、stopped~withの関係をモデリングしたいのにflyとswatterの関係を記述していたりすることがあり、それが精度に影響を与えている可能性がある。

6. 次に読むべき論文は？

Estimating Numerical Attributes by Bringing Together Fragmentary Clues
Hiroya Takamura and Jun’ichi Tsujii

Time Expression Analysis and Recognition Using Syntactic Token Types and General Heuristic Rules

0. 論文

Time Expression Analysis and Recognition Using Syntactic Token Types and General Heuristic Rules
Xiaoshi Zhong; Aixin Sun; Erik Cambria

1. どんなもの？

テキスト中から時間に関する表現を抽出する手法

2. 先行研究と比べてどこがすごい？

リアルタイムでも動かせるほど高速に動作する。また手法がシンプルなので他言語への拡張も容易。

3. 技術や手法のキモはどこ？

POSタグの付与されたテキストに対して「Time Token Identification」「Time Segment Identification」「Time Expression Extraction」の3つの段階を経て時間に関する表現を抽出する。
文章中の時間表現に関する単語のタイプを「Time Token」「Modifier」「Numeral」の3つに分類し、これらの情報から時間を表している単語のまとまりを抽出していく。
3つの単語タイプの抽出ルールは正規表現やヒューリスティックなルールで決めている。このルールを拡張することで他言語にも適用することが可能になる。

4. どうやって有効だと検証した？

TimeBank, WikiWars, Tweetsの3つのデータセットを使って既存手法と比較し良い数値を記録した。

5. 議論はある？

POSタグの付与されたテキストに対して適用する手法であるため、POS Taggerの精度に影響を受けてしまう。

6. 次に読むべき論文は？

先行研究
Context-dependent Semantic Parsing for Time Expressions
Kenton Lee, Yoav Artzi, Jesse Dodge, and Luke Zettlemoyer

7. 参考資料

ACL2017でのプレゼンテーション資料
http://aclweb.org/anthology/attachments/P/P17/P17-1039.Presentation.pdf

Topically Driven Neural Language Model

0. 論文

Topically Driven Neural Language Model
Jey Han Lau; Timothy Baldwin; Trevor Cohn

1. どんなもの？

トピックモデルと言語モデルを同時に学習させるモデル

2. 先行研究と比べてどこがすごい？

トピックモデルと言語モデルを1つのニューラルネットとして同時に学習を行う。
これにより文全体の意味を捉えながら文章の生成が行える。

3. 技術や手法のキモはどこ？

トピックモデルと言語モデルの学習を同時に行うところ。
LDAとLSTMの言語モデルを別々に学習させた後に組み合わせて言語モデルの評価を行う場合と比べるとよい性能を発揮する。

4. どうやって有効だと検証した？

APNEWS,IMDB,BNCの3つのデータセットを使って、言語モデルはperplexity,トピックモデルはtopic coherenceによる評価を行う。
言語モデルでは「vanilla-LSTM」「lclm」「LSTM + LDA」の3つのモデル、トピックモデルでは「LDA」「ntm」の2つのモデルと比較。
言語モデルの検証では提案手法が最も良い数値を記録、トピックモデルの検証ではトピック数とデータセットの種類によっては良い数値を記録することもあるという結果だった。

5. 議論はある？

トピックモデルの出力するベクトルをうまく調節することで、特定のトピックに関する文章を生成できる。

6. 次に読むべき論文は？

トピックモデルの評価で使用されたtopic coherenceの出典元
Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality
Jey Han Lau; David Newman; Timothy Baldwin

Gated Self-Matching Networks for Reading Comprehension and Question Answering

0. 論文

Gated Self-Matching Networks for Reading Comprehension and Question Answering
Wenhui Wang; Nan Yang; Furu Wei; Baobao Chang; Ming Zhou

1. どんなもの？

Stanford Question Answering Dataset(SQuAD)におけるSingleモデル、Ensembleモデルの両方で最高成績を残したモデル

2. 先行研究と比べてどこがすごい？

従来のAttentionベースのRNNでは、QuestionとPassageの間にある答えに結び付く情報をAttentionで注視していた。
しかしこのモデルはPassageの情報を使ってPassageの情報を注視する手法(Self-Matching Attention)を導入した。

3. 技術や手法のキモはどこ？

out-of-vocabrary(OOB)の対策のために、単語レベルと文字レベルのEmbeddingsを使用している。
そして、Answerを出力するのに必要なのはQuestionとAnswer間の情報だけでなくPassage内のContextや語彙の順番といった情報も必要である、と考えPassageの情報を使ってPassageにAttentionをかけるSelf-Matching Attentionを導入したモデルを提案した。

4. どうやって有効だと検証した？

論文投稿時点でのSQuADのlearders boardのSingleモデルとEnsembleモデルにおいて、Exact Match(EM)/F1の両方において最高のスコアを記録している。

5. 議論はある？

Self-Matching Attentionのベクトルを可視化すると答えの出力に必要な情報にAttentionがかかっていることが分かった。
また6W1HのQuestion typeについてスコアを測定するとwhyのスコアが低く、これはwhyの回答が多様で特定のフレーズに制限されることがないためだとしている。

6. 次に読むべき論文は？

SQuADと同じくQAタスクのデータセット
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset
Tri Nguyen, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, Li Deng

A* CCG Parsing with a Supertag and Dependency Factored Model

0. 論文

A* CCG Parsing with a Supertag and Dependency Factored Model
Masashi Yoshikawa; Hiroshi Noji; Yuji Matsumoto

1. どんなもの？

Dependency情報も使ってA*CCGパースを行うモデル

2. 先行研究と比べてどこがすごい？

既存のA*CCGパーサでは解けなかった生成されるCCGツリーの曖昧性(同じCCGのsupertagから異なるCCGツリーが生成される問題)を解消しかつ効率よく動作する。

3. 技術や手法のキモはどこ？

A*CCGパースを行う際にCCGのsupertag情報だけでなくdependency情報も使用してパースを行う。
モデルはbi-LSTMとMulti Layer Perceptron(MLP)を使用する。入力単語の系列x1,...,xnをbi-LSTMに入力し、その出力をtagの分布とdependencyの分布を計算するMLPにそれぞれ入力し、正しいtagとdependencyの確率が高くなるように学習を行う。
CCGツリーからdependencyを抽出する手法は複数あるので(LEWISRULE/HEADFINAL/HEADFIRST)し、それぞれのモデルを使って検証している。
また通常の学習方法に加えて、Tri-trainingと呼ばれる半教師あり学習手法を使った検証も行っている。

4. どうやって有効だと検証した？

英語と日本語のCCGbankのデータを使って既存モデルと比較を行った。
英語データの場合HEADFIRSTモデルをTri-trainingで学習させたものが最も高いF1値を記録した。
日本語データの場合HEADFINALモデルを学習させたものが最も高いF1値を記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

CCGパーシングに関する論文

A ∗ CCG Parsing with a Supertag-factored Model
Mike Lewis and Mark Steedman

LSTM CCG Parsing
Mike Lewis, Kenton Lee, and Luke Zettlemoyer

7. 参考情報

CCGの資料
自然言語処理における構文解析と言語理論の関係
国立情報学研究所宮尾祐介

Neural End-to-End Learning for Computational Argumentation Mining

0. 論文

Neural End-to-End Learning for Computational Argumentation Mining
Steffen Eger; Johannes Daxenberger; Iryna Gurevych

1. どんなもの？

Argumentation Mining(AM)のタスクをDependency parseやSequence Taggingといった別の問題として定式化した

2. 先行研究と比べてどこがすごい？

ニューラルネットによるEnd-to-EndなAMの計算手法を提案した。

3. 技術や手法のキモはどこ？

AMタスクをDependency Parse,Sequence Tagging,Multi-task sequence tagging Learning,sequential and tree-structure modelingの4つのタスクとして定式化した。
そして各タスクで使われているモデルを使ってAMタスクを解き、結果を比較した。

4. どうやって有効だと検証した？

既存のシステムとしてfeature-based ILP modelを使用し、先行論文で使われているタスクの評価指標( http://www.aclweb.org/anthology/N16-1164 )を使って比較した。
いくつかの手法で既存手法を上回る数値を記録した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

先行研究あたりか
End-to-End Argumentation Mining in Student Essays
Isaac Persing and Vincent Ng

Deep Neural Machine Translation with Linear Associative Unit

0. 論文

Deep Neural Machine Translation with Linear Associative Unit
Mingxuan Wang; Zhengdong Lu; Jie Zhou; Qun Liu

1. どんなもの？

GRUを拡張した新しいユニット「linear accociative unit(LAU)」の提案し機械翻訳タスクに適用した

2. 先行研究と比べてどこがすごい？

勾配爆発を防ぎ、層数の多いモデルでもGRUより学習をうまく行える。

3. 技術や手法のキモはどこ？

GRUは入力の非線形変換と見ることができ、LRUではこれに入力の線形変換を組み合わせこれらの割合を制御するゲートを導入した。
入力の線形変換を組み込んだことでResidual接続のような役割を果たし、深い層のモデルでも学習がうまくいくようになっていると思われる。

4. どうやって有効だと検証した？

複数の翻訳タスクにおいてGRUモデルや既存モデルとBLEUスコアの比較を行った。
中英翻訳では一番よいスコアを、独英翻訳ではSOTAモデルに迫るスコアを記録。

5. 議論はある？

層を深くしたDeep GRUとDeep LAUで比較を行った。Deep GRUでは(Encの層数, Decの層数)が(4,4)となったあたりで性能が落ち始めたが、LAUでは(8,6)になっても性能が上がり続けた。
また層数を深くするのと隠れ層のユニット数を多くするのではどちらが性能に与える影響が大きいか検証したところ、層数を深くすることの方が性能に良い影響を与えていた。

6. 次に読むべき論文は？

Deep Recurrent Models with Fast-Forward Connections for Neural Machine Translation
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, Wei Xu