ymym3412 / acl-papers Goto Github PK
View Code? Open in Web Editor NEWpaper summary of Association for Computational Linguistics
paper summary of Association for Computational Linguistics
Vector space models for evaluating semantic fluency in autism
Emily Prud'hommeaux; Jan van Santen; Douglas Gliner
Semantic fluency test(Verbal fluency test)の結果の評価は自動で行う手法を提案
人手で行っていた評価をLSAやword2vecといったベクトル空間を用いるモデルで自動的に行う手法を提案した
LSAやword2vecといった手法に加えて、意味の近さを測る方法などのバリエーションも用意し、どういった手法の組み合わせがうまく結果を評価できるか実験している
定型発達と自閉スペクトラム症の子供に実施してもらったSemantic fluency testの結果を使い、2つの群の有意差を発見できるかで検証した。
すると既存の人手での評価では2群間の有意差を捉えることができておらず、提案手法では有意差を発見することができた。
提案手法の結果を見るとturkeyを含むデータとcountryを含むデータの類似度がbirdのものより優位に出てしまっている
A computational linguistic measure of clustering behavior on semantic verbal fluency task predicts risk of future dementia in the nun study
Serguei V.S. Pakhomov and Laura S. Hemmy
The State of the Art in Semantic Representation
Omri Abend; Ari Rappoport
Semantic Representationに関するSurvey論文
Survey論文なので新規性はなし。
AMR,UCCA,CCGとSemantic Schemeを解説している。
Semantic Schemeといってもひとくくりにすることはできず、例えば述語項構造(Predicates Argument Structure)や深層格におけるCore/Non-Core、述語論理(Predcate Logic)といった意味を扱うコンテンツがあり、このどれを扱うスキーマなのかで区別することができる。
また構文情報(syntax)を扱うか扱わないかでも区別でき構文情報が意味に及ぼす影響にも触れている。
特になし
特になし
CCGとAMRには興味がある。
CCG
Weakly Supervised Learning of Semantic Parsers for Mapping Instructions to Actions
Yoav Artzi and Luke Zettlemoyer
AMR
Not an Interlingua, But Close: Comparison of English AMRs to Chinese and Czech
Nianwen Xue, Odrej Bojar, Jan Hajic, Martha Palmer, Zdenka Uresova, and Xiuhong Zhang
Supervised Learning of Automatic Pyramid for Optimization-Based Multi-Document Summarization
Maxime Peyrard; Judith Eckle-Kohler
Pyramid scoreを使って学習を行う抽出型要約のシステム
各特徴量を使ってPyramid scoreを線形に予測するモデルのため、解釈が容易かつ整数計画問題を解くアルゴリズムを使って効率的に要約を抽出できる。
また要約システムの評価に使われるROUGEとPyramid scoreの比較による分析も行っている。
各特徴量をもとにPyramid scoreを回帰で予測し、教師データのPyramid scoreとの二乗誤差を最小化するように学習を行う。
各文の特徴量として「文長」「タイトル文とのジャカード係数」「Propostionの重心」といったものを使い、各文のスコアの和と選んだ文の同士の一貫性、冗長性のスコアの差し引きが教師データに近くなるように学習する。
要約文の長さを制限しつつPyramid scoreが最大の要約文をを抽出するために整数計画問題を解くアルゴリズムを用いる。
TAC-2009のデータセットを使い、既存のモデルとROUGE及びPyramid scoreで比較を行った。
提案手法はPyramid scoreでは最もよい数値を記録した。
ROUGEとPyramid scoreの相関を3種類の相関係数(Pearson/Spearman/NDCG)を使って分析したところ、PeasonとSpearmanでは0.3程度の弱い相関にとどまり、ROUGEとPyramid scoreでは要約の別の側面を評価しているとしている。
Pyramid Evaluation via Automated Knowledge Extraction
Qian Yang, Rebecca J. Passonneau, Gerard de Melo
A General Optimization Framework for Multi-Document Summarization Using Genetic Algorithms and Swarm Intelligence
Maxime Peyrard and Judith Eckle-Kohler
Obtaining referential word meanings from visual and distributional information: Experiments on object naming
Sina Zarrieß; David Schlangen
画像中の物体の名称を単語で出力するモデル
先行研究では「car」「van」「street」という単語をビジュアル的な違いや単語間の関係性を無視して意味空間上で近い位置に配置してしまうが、提案手法では単語毎に予測器を用意することで解決しzero-shot learningにも有効であることを検証した。
「画像から特徴を抽出してベクトル空間の点に変換し、最近傍の単語を出力するモデル(transfer)」「単語毎に2値分類の予測器を作り、物体の名称はその単語かどうかを1つずつ予測するモデル(wac)」「2つを組み合わせたモデル(sim-wap)」を用意し、これをzero-shot learningにも適用した。
通常のタスクではAccuracy@1/@2/@5においてwacが最もよい数値を記録。
zero-shot learningではAccuracyにおいて最もよい数値を記録している
特になし
Is this a Child, a Girl or a Car? Exploring the Contribution of Distributional Similarity to Learning Referential Word Meanings
Sina Zarrieß and David Schlangen
Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision
Chen Liang; Jonathan Berant; Quoc Le; Kenneth D. Forbus; Ni Lao
特徴量設計やドメイン固有の知識なしに、生の自然言語のQAから学習するモデル。
自然言語の文をseq2seqモデルでシンボル(コード)に変換し、それをLisp Intepreterが解釈して計算し答えを出力する。
少ない教師データから学習を行える手法(weak supervision)を採用している。
またweak supervisionを採用すると、ラベルなしデータからの検索部分が微分不可能となり逆伝搬ができなくなるが、その部分の学習を強化学習で行うことで克服した。
自然言語の文の意味の構成を表現するためにseq2seqモデルにkey-variableタイプのメモリ機構を付与したモデルを考案。このモデルが自然言語の質問をシンボルに変換する。
シンボルをもとに処理(計算)をするところはニューラルネットが行うと正確性に欠けるため、Lispの処理をシンボルとして出力しそれをLisp Interpreterに解釈させて計算を行っている。
全体の計算を微分可能な関数として表現できないため、学習部分は強化学習によって行う。
weak supervisionによる学習においてSOTAであるモデル(STAGG: http://anthology.aclweb.org/P16-2033)と比較し、Precision,Recall,F1,Accuracyの全てにおいて数値を上回った。
出力されるLispコードが2つ以上(2 or 3)の場合においてF1スコアに大きな差がある。具体的には2が低い。
2の場合は多様な表現を利用し、3は制限された表現しか使用しておらずそれがスコアに影響を与えている可能性がある。
Semantic Parsing on Freebase from Question-Answer Pairs
onathan Berant, Andrew Chou, Roy Frostig, and
Percy Liang
weak supervision(distant supervison)についての記事
情報抽出タスクで流行りの distant supervision について調べてみた
Aggregating and Predicting Sequence Labels from Crowd Annotations
An Thanh Nguyen; Byron Wallace; Junyi Jessy Li; Ani Nenkova; Matthew Lease
クラウドソーシングで集めたノイズの乗ったラベルの付いたデータを集計して正しいラベルを付与するモデルと、そのデータをもとに系列ラベリングを行うモデル
系列データのアノテーションタスクのためにクラウドソーシングで集めたデータを集計する手法を考案した
クラウドソーシングで集めたノイズの乗ったラベルから正しいラベルをつける手法として、クラウドワーカーのつけるラベルの分布を考慮に入れた隠れマルコフモデルを考案した。
そして上記手法で付与したラベル付きデータを使ってLSTMとCRFを使ってラベル付けを行う。その際にワーカーをベクトルとして表現しモデルの入力とし、各ワーカーによるノイズもモデルの計算に組み込む
固有表現抽出と生体医学データの情報抽出の2つのタスクで既存手法と比較し、提案手法が最もよいF値を記録した
特になし
Sequence labeling with multiple annotators
Filipe Rodrigues, Francisco Pereira, and Bernardete
Ribeiro
Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors
Xuepeng Wang; Kang Liu; Jun Zhao
レストランやホテルのレビューがスパム(意図的に評価が高く/低くされているレビュー)を検出するモデル
スパムユーザーの情報が少ない状態(Cold-Start Problem)でもスパム検出器を学習できる。
レビューのテキスト情報を扱うためにCNNを使いスパムかどうかのラベルを使って学習させる。
またレビューのテキスト情報だけでなく、レビュアーの振る舞い情報が重要なことは過去の研究で分かっているため、レビュアーもベクトル化する。
具体的にはTransE(Bordes et al.)というモデルを使いレビュー対象とレビュアーのグラフ構造から教師なしでベクトルを学習する。
そして商品とレビュアー、レビューのベクトルが学習データにある正しい組については距離を近く、正しくない組については距離を遠くするように学習させる。
レビュー文のベクトルについては、レビュー点数もベクトル化しこれとの距離も学習させる。
HodelとRestaurantのレビュー情報が含まれるYelpデータセットを使って、既存の手法とPrecision.Recall,F1値,Accuracyの4つで比較を行い、Hotel/Restaurantともに最も高いF1値、Accuracyを達成した。
テキストのエンコードについて、RNNではなくCNNを使っている理由としてCNNはレビューの異なる側面を捉えることができるからだとしている。
先行研究を引き合いに出しているが詳細は不明。
TransEの論文
Translating Embeddings for Modeling Multi-relational Data
Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko.
議論のところの先行研究
Deceptive opinion spam detection using neural network
Yafeng Ren and Yue Zhang
Evaluating Compound Splitters Extrinsically with Textual Entailment
Glorianna Jagfeld; Patrick Ziering; Lonneke van der Plas
Compound Splittingの手法を外的に評価する方法としてRecognizing Textual Entailment(テキストの含意関係認識, RTE)タスクを用いようという論文
今ままで使用されていた統計的機械翻訳タスクや情報検索、音声認識のタスクと違いメソッド同士の比較を行える
RTEではlexical Overlap Hypothesis(LOH)という考えがあり、含意関係を調べる2文の間でマッチする単語の多さが含意に影響があるというものである。
よって適切にSplitすることができれば正しく含意関係を見抜くことができる割合が増加するはずである。
この考えより、3つのCompound Splitting手法で前処理を行ってから学習を行い、RTEタスクの結果を比較することでアルゴリズムの評価を行えるとしている。
Compound Splitなしと比べると、事前にSplitした方が性能があがることが分かりCompound Splittingの手法を評価する外部タスクとしてRTEは有効であるとした。
認識に失敗したものを分析すると、2文の間に語彙のオーバーラップがないものが多く、LOHの考え方はある程度妥当であるといえる。
Compound Splittingの外部評価として統計的機械翻訳を使用している先行研究
Empirical Methods for Compound Splitting
Philipp Koehn and Kevin Knight
Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
Bingfeng Luo; Yansong Feng; Zheng Wang; Zhanxing Zhu; Songfang Huang; Rui Yan; Dongyan Zhao
Distant supervisionで発生してしまうノイズをモデリングした上で学習するRelation Extractionのモデル
ノイズを考慮した学習を行えるところ
「文のエンコード」「Relationの分布(predicted dist)の計算」「ノイズのモデリング(transition matrixの計算)」「観測している実際の分布(observed dist)の計算」の4つのステップからなる。
ノイズの乗ったデータをpredicted distとノイズをモデリングしたtransition matrixの積の計算で表現することでpredicted distはノイズの取り除かれた分布となり、この分布をテスト時には使用する。
ノイズのモデリングを明示的に行うことはできないため、カリキュラム学習を用いる。
最初はノイズの少ないデータを使ってpredicted distを学習させていき、少しずつノイズの乗ったデータを投入してtransition matrixを学習していく。
提案手法をパターン別に分けてPrecision-Recallカーブをプロットし、どのパターンが有効かを検証した。
また既存手法ともPrecisionとRecallで比較し、提案手法が最も良い数値を記録した。
特になし
Curriculum learning
Yoshua Bengio, Jer´ ome Louradour, Ronan Collobert, and Jason Weston
Other Topics You May Also Agree or Disagree: Modeling Inter-Topic Preferences using Tweets and Matrix Factorization
Akira Sasaki; Kazuaki Hanawa; Naoaki Okazaki; Kentaro Inui
Tweetデータからそのユーザーがまだ述べていないトピックに対する好みを予測するモデル
Inter-Topicを直接モデリングした。
※Inter-Topicは複数トピックに潜む共通部分。例えば自衛隊に関する発言を好む人は憲法9条も好む、9条改正を好む人は憲法改正も好む。
ラベルなしTweetからハッシュタグの情報を使って、そのユーザーが何のトピックに賛成/反対しているのかを抽出した。
またそのユーザーがまだ発言していないトピックについては好むか好まないかは予測できないため、その欠損をうまく扱いつつユーザーとトピックの潜在空間のベクトルを計算するためにMatrix Factorizationを利用している。
あるユーザーが特定のトピックを好むかどうかを予測するタスクでベースラインと比較したところ提案手法の方がよいAccuracyを記録した。
またユーザーが発言しているトピック数が多くなると、既存モデルではAccuracyが下がっていくのに対して提案手法は上がっていく。
特になし。
Matrix Factorizationを使ったrecommendation
The Yahoo! Music Dataset and KDD-Cup’11
Gideon Dror, Noam Koenigstein, Yehuda Koren, and Markus Weimer
Skip-Gram - Zipf + Uniform = Vector Additivity
Alex Gittens; Dimitris Achlioptas; Michael W. Mahoney
Skip-gramモデルの学習で得られる単語の加法構成性の理論的な説明を行った。
またSkip-gramモデルとSDR(Sufficient Dimensionality Reduction)モデルの関係性を示した。
加法構成性に関する理論的な説明を行った
Skip-gramで学習したモデルからは2つの定理が導ける。単語の分布が一様分布であると仮定したうえでその定理を使えば単語の加法構成性を理論的に説明できる。しかし単語の頻度はZipf分布に従うのでこの仮定は現実的ではないのだが、Mikolovの先行研究によれば学習データに手を加えて一様分布に近づけることで加法構成性の精度が高まるとしている。
またSkip-gramに単語の頻度情報を加えて少しの修正を加えるだけでSDRの効率的な近似となることを示した。
数式による証明
特になし
node2vec: Scalable Feature Learning for Networks
Aditya Grover, Jure Leskovec
A Principled Framework for Evaluating Summarizers: Comparing Models of Summary Quality against Human Judgments
Maxime Peyrard; Judith Eckle-Kohler
抽出型要約システムを評価する新しい手法「theta evaluation」の提案
抽出型要約で主流の評価手法「ROUGE」に疑問を呈し、抽出型要約手法の抽象的な表現を導入しそれをもとに評価手法を提案した。
抽出型要約手法は要約したいドキュメントの任意の文のサブセット(=要約)から評価値を計算すうθ関数と、そこから最大の評価値の要約を探すオプティマイザーOの2つを使って抽象化できるとした。
そしてこのスコアリングと人手によるスコアリングの相関を取ることで、抽出型要約手法が人手での評価とどれくらい近いかを評価しその手法の性能とする。
TAC-2008/2009の2つのデータセットを使い、主要な抽出型要約手法をtheta evaluationで評価した。
主要な手法のスコアリングと人手のスコアリングを3種類の相関(ピアソン相関係数/スピアマン相関係数/Ndcg)で評価したところ、「全体的に相関係数が低い(ピアソン/スピアマン相関係数だけみると一番高くても0.38程度)」「ROUGEでよいスコアを出している手法がよいスコアを出すわけではない」という2つのことが分かった。
ROUGEでは最もスコアの高い要約1種類しか評価されないため、たまたまスコアが高い要約を見つけることができている可能性がある。
Automatically Assessing Machine Summary Content Without a Gold Standard
Annie Louis; Ani Nenkova
Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning
hizhu He; Cao Liu; Kang Liu; Jun Zhao
質問文に対する答えを出力する際に、質問文やKnowledge Base(KB)上の単語も使って出力するように設計したQAモデル
回答の単語を入力文からコピーしてくる機構とKBから検索してくる機構を組み合わせて1つのモデルを構築した。
seq2seqモデルと出力の際に質問文の単語をコピーする機構とKBから検索してくる機構を組み合わせ、POSタグの情報などは使用せず入力文から出力文を生成するEnd-to-Endなモデルを考案した。
誕生日や性別に関する質問に絞ったクローズドなデータセットと自由な質問があるオープンドメインなデータセットの2つを使って既存モデルとのPrecisionベースの指標で比較を行った。
比較の結果、両データセットで既存モデルを大きく上回る数値を記録した。
また生成された回答の「正確性」「流暢さ」「一貫性」を人手で評価したところ、こちらも既存モデルを上回る結果となった。
質問文からコピーしたりKBから検索してくる機能を持っているため、学習時にはなかったEntityに関するQAに対しても性能を発揮することが実験から分かった。
Translating Embeddings for Modeling Multi-relational Data
Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran
FOIL it! Find One mismatch between Image and Language caption
Ravi Shekhar; Sandro Pezzelle; Yauhen Klimovich; Aurélie Herbelot; Moin Nabi; Enver Sangineto; Raffaella Bernardi
画像についているキャプションを1単語だけ変えて、その間違いをモデルに発見・修正させる実験(FOIL)を行った
Visual Question Answering(VQA)やImage Caption(IC)といったLanguageとVisonを扱うモデル(LaVi)たちが2つのモーダル情報のやりとりをきちんと把握できているのか検証した
MS-COCOをベースに検証用のFOIL-COCOを作成した。
またFOILタスクを「その画像とキャプションが正しいかfoilかの分類(T1)」「キャプションのどの単語がfoil wordかの発見(T2)」「キャプション中のfoil wordの修正(T3)」の3つのタスクに分解し、それぞれに対してモデルを適用し結果を分析した。
FOIL-COCOを使って3つのタスクのAccuracyを計測した。
既存の手法及びベースライン(Blind LSTM/CNN+LSTM)を使い、まだ上限の参考値として人手での結果とも比較した。
タスクが難しくなるにつれ(T1->T2->T3)Accuracyは下がった。またタスク2で画像の情報をもとにどの単語が間違っているかは33.69%(HieCoAttモデル)で正解できるのに、その単語を正しい単語に直すタスク3になると4.21%(同モデル、タスク3でAccuracyが一番高いのはIC-Wangモデルで22.16%)と著しく成績が下がってしまった。
これはモデルがfoil wordを画像中の関連領域にマッピングできないためとしている。
特になし
結論部で引用されているテキスト/ビジョンの表現に関する論文
Attentive Explanations: Justifying Decisions and Pointing to the Evidence
Dong Huk Park, Lisa Anne Hendricks, Zeynep Akata, Bernt Schiele, Trevor Darrell, Marcus Rohrbach
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra
A Full Non-Monotonic Transition System for Unrestricted Non-Projective Parsing
Daniel Fernández-González;Carlos Gómez-Rodríguez
係り受け解析器にてよく使われるCovingtonアルゴリズムを改良する方法
先行研究はprojective解析木しか扱っていないが本研究はnon-projective解析木も扱っている。
また、先行研究はstack-basedとarc-eagerのアルゴリズムを対象したが、本研究でlist-basedのアルゴリズムを対象する
元のCovingtonアルゴリズムにてmonotonicな制約を排除し、non-monotonicなアルゴリズムとする。
これにより、過去の段階で誤った割り当てを修正することが可能になる。
すると、もとの各段階の割り当てのための関数(dynamic oracle)は正確に計算することはできなくなった。そのため、dynamic oracle関数を近似する。関数近似による誤差に対しての上界と下界を示し、また特殊なケースにおいてはより厳密な上界を導入できることを示した
CoNLL-XIとCoNLL-Xのデータセット(合計:19言語)に対して係り受け解析を実施し、UAS(Unlabelled Attachement Score)とLAS(Labelled Attachement Score)の精度を評価した
non-monotonicなアルゴリズムは特に長い文に対して価値があると発見された。
(長い文ではエラー伝播が起こりやすいため)
A Non-Monotonic Arc-Eager Transition System for Dependency Parsing
Matthew Honnibal; Yoav Goldberg; Mark Johnson
Multi-space Variational Encoder-Decoders for Semi-supervised Labeled Sequence Transduction
Chunting Zhou; Graham Neubig
Labeled sequence transductionを行うモデル
VAEをEncoder-Decoderモデルに拡張し多変数化させたMulti space variational encoder decoder(MSVED)の利用と、半教師あり学習を使ったこと。
ソースの単語とターゲットの単語から両者間の潜在変数Zとターゲットの単語のラベルのそれぞれの確率分布を推定するMSVEDを提案した。
また大量のラベルなしデータも用意し、ラベル付きのデータセットと合わせて半教師あり学習を行わせた。
SIGMORPHON 2016のデータセットにある10の言語データセットに対してmorphological inflectionタスクを行う。Encoder-Decoder+Attentionをベースラインとして比較を行い、Accuracyの平均で勝った。
特になし
Variational AutoEncoderに関連する論文
Auto-Encoding Variational Bayes
Diederik P Kingma, Max Welling
Auxiliary Deep Generative Models
Lars Maaløe, Casper Kaae Sønderby, Søren Kaae Sønderby, Ole Winther
Variational Neural Machine Translation
Biao Zhang, Deyi Xiong, Jinsong Su, Hong Duan, Min Zhang
Learning attention for historical text normalization by learning to pronounce
Marcel Bollmann; Joachim Bingel; Anders Søgaard
古い言葉(historical text)を現代の言葉に変換するモデル
学習データの数の少なさを補うためにマルチタスク学習を行う
ベースはCharacterレベルのEncoder-Decoderモデル。
また外部ソースを使って書記素(単語か?)を音素に変換するタスクも同時に学習させるマルチタスク学習を行う。
拡張としてビームサーチ、lexical filter(ビームサーチの最中に語彙にない文字列を省く)、Attentionを加えたパターンも検証する。
検証用コーパス(https://www.linguistics.rub.de/anselm/ )を使い、「averaged perceptron」「bi-LSTM」「Norma(ルールベース)」とAccuracyの比較を行い、マルチタスク学習+ビームサーチ+lexical filterのモデルが最もよい数値を記録した。
最も良い数値を記録したマルチタスク学習のモデルにAttentionを加えると精度が劣化した。
これについてマルチタスク学習がAttentionのように入力にフォーカスする機能を獲得しているためではないかと仮説を立ててそれを検証するためにいくつかの実験をしている。
マルチタスク学習モデルとAttentionのモデルの相関を取ったり、出力の比較を行ったり、出力の際に入力のどこにフォーカスしているかを可視化したところ、マルチタスク学習のモデルとAttentionのモデルは近い動きをしていることが分かった。
Automatic normalisation of the Swiss German ArchiMob corpus using character-level machine translation
Yves Scherrer and Nikola Ljubešic.
AMR-to-text Generation with Synchronous Node Replacement Grammar
Linfeng Song; Xiaochang Peng; Yue Zhang; Zhiguo Wang; Daniel Gildea
AMRグラフからNode Replacement Grammer(NGR)を使ってテキストを生成するモデル
graph-tree-stringと変換するモデルやgraph-fragment-stringと変換するモデルと違い、tree構造に変換する際の情報の損失やAMRグラフの階層構造を捉えることができる。
NGRはグラフのノードを置き換えながら新しいグラフを構築していく文法である。
学習データに含まれるAMRグラフと文章の対から、最も確率の高い導出規則を生成していく。
検証時はAMRグラフに学習時に生成した導出規則を使って文章を生成しBLEUスコアで評価する。
データセットとしてLDC2015E86を使用して既存のモデルと比較し、BLEUスコアにおいてSOTAを記録した。
Ablation testをしたところ、導出規則を生成する際に用いる3つのルールのうちの1つである「induced rule」を除いた際が最もBLEUスコアが低下した。
もた出来上がった導出規則を見ていくと、1~3程の終端記号しか含んでいないものがほとんどで意味を小さく分解して次のAMRグラフに渡していることが伺える。
Neural Headline Generation on Abstract Meaning Representation
Sho Takase, Jun Suzuki, Naoaki Okazaki, Tsutomu Hirao, and Masaaki Nagata.
Neural AMR: Sequence-to-Sequence Models for Parsing and Generation
Ioannis Konstas; Srinivasan Iyer; Mark Yatskar; Yejin Choi; Luke Zettlemoyer
seq2seqをベースにしたtext-to-AMRグラフ(Parser)とAMRグラフ-to-text(Generater)を行うモデル
AMRのparser/generationタスクではデータの少なさが制約となるため、大規模なラベルなしコーパスで事前学習を行っている。
AMR parserをGigawordコーパスを使って事前学習を行った。
また問題の複雑度低減とvocabraryの数wの削減のためにAMRグラフに対してグラフの単純化や文中のEntityの匿名化といった前処理を行っている。
pars/generationのタスク(LDC2014T12)を使用して既存のモデルと比較を行った。
parseタスクではベストスコアに迫る数値を、generationタスクではベストスコアを記録した。
特になし
この論文が参考にしたというData Augmentation手法
[Improving Neural Machine Translation Models with Monolingual Data]
Rico Sennrich, Barry Haddow, Alexandra Birch
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
Zhe Gan; Chunyuan Li; Changyou Chen; Yunchen Pu; Qinliang Su; Lawrence Carin
RNNのパラメータ最適化に並列計算可能なMCMCを導入したモデル
パラメータ最適化を並列化可能な勾配降下法である「SG-MCMC」をRNNに初めて導入した
予測の確率をS個のモデルの出力の平均で近似することで、並列計算可能とした。
SG-MCMCではパラメータの更新時にノイズを乗せることで局所最適解に陥ることを防ぐ。
後述の検証ではこのSG-MCMCによる最適化とDropoutを組み合わせた手法が良い数値を記録することを示している。
推論時にはS個のモデルのアベレージを取る。
「Language Model」「Image Caption Generation」「Sentence Classification」のタスクについて、SGDやRMSpropといった最適化手法との比較を行い、3つの全てのタスクで提案手法が最もよい数値を記録した。
RMSpropと比べると学習時間及び推論の時間は大幅に延びる。
Bayesian learning via stochastic gradient Langevin dynamics
Max Welling; Yee Whye Teh
A Convolutional Encoder Model for Neural Machine Translation
Jonas Gehring; Michael Auli; David Grangier; Yann Dauphin
翻訳を行うEncoder-Decoderにおいて、Encoder部分をCNNベースの手法に変更した機械翻訳モデル
Encoder部分をCNNベースの手法にすることで、性能を落とさずに翻訳生成にかかる時間を短縮した
単語のベクトル表現に通常の埋め込みベクトルと単語のポジション情報のベクトルを足し合わせたベクトルを使用している。
また、Attentionを計算するCNNとAttentionの数値を使ってDecoderに渡すベクトルを計算するCNNの2つのモデルをEncoderとして使用している。
IWSLTとWMTの2つの機械翻訳タスクを使ってbi-LSTMや他の論文の手法とBLEUスコアで比較を行った。
bi-LSTMなどは上回り、また他の論文の手法に迫るBLEUスコアを記録した。
また翻訳性背の速度も比較したところ、2層のbi-LSTMと比べて倍近い速さで翻訳を生成することができた。
特になし
比較対象にしているRNNベースの手法
Deep Recurrent Models with Fast-Forward Connections for Neural Machine Translation
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, Wei Xu
or
Neural Machine Translation with Recurrent Attention Modeling
Zichao Yang, Zhiting Hu, Yuntian Deng, Chris Dyer, Alex Smola
MORSE: Semantic-ally Drive-n MORpheme SEgment-er
Tarek Sakakini; Suma Bhat; Pramod Viswanath
単語を形態素へと分割するフレームワーク
orthographicの特徴だけでなく、word2vecで得られる意味の表現も形態素解析に利用する
Wikipediaのデータを学習に用いる。
初めにprefix/suffixの変化や副詞への変化(+lyなど)のルールとword2vecによる分散表現、及びこれらを使って分割ルールなどのスコアリングを行う。
その後、特定の制約下のもとでスコアを最大化する線形最適化問題として解き、単語を分割していくルールを選択していく。
Morpho Challenge2010(MC)と今回新たに作成したSD17データセットを使って既存手法とprecision/recall/F1で比較を行った。
MCはEnglish/Turkish/Finnishの3言語のデータがあり、English/Turkishでは既存のモデルを上回る数値を記録した。
SD17でも既存モデルを上回る数値を記録した。
MCでFinnishにおけるスコアが低かった理由として、語彙の数は制限されていたため十分な数のルールと質の高い単語の意味表現が得られなかったためだとしている。
Unsupervised models for morpheme segmentation and morphology learning
Mathias Creutz and Krista Lagus
Abstractive Document Summarization with a Graph-Based Attentional Neural Model
Jiwei Tan; Xiaojun Wan; Jianguo Xiao
グラフベースのアルゴリズムとAttentionを組み合わせた生成型要約を行うモデル。
Attentionの仕組みにPageRankに代表されるようなグラフのベースの手法を取り入れている。
またDecode時のBeamSearchにも工夫を入れている。
入力の各文をノードとするグラフからPageRankなどと同じ手法で各文のスコアを計算し、そのスコアをもとにAttentionのスコアを計算する。
またDecode時にはK-best wordとN-best sentenceを保持し続けるhierarchical beam searchという手法を提案している。
抽出型/生成型要約を行う既存手法に対して2つのデータセットを使ってROUGE-1/2/Lスコアを比較し提案手法が最も高い数値を記録した。
また4つのモデルを「Informative」「Concise」「Coherence」「Fluent」の4つの観点から人手で評価したところ、Coherent以外の項目で最も高いスコアを記録した。
Ablation experimentをしたところ、hierarchical beam searchを除去した場合が最もROUGEスコアが低下した。
A Hierarchical Neural Autoencoder for Paragraphs and Documents
Jiwei Li, Minh-Thang Luong, Dan Jurafsky
Get To The Point: Summarization with Pointer-Generator Networks
Abigail See; Peter J. Liu; Christopher D. Manning
seq2seqをベースに、入力単語をコピーする機構とフレーズに繰り返しを防ぐ機構を追加した生成型要約を行うモデル
seq2seqモデルでは「不正確な情報を出力する」「out-of-vocabulary(OOV)」「同じフレーズを繰り返す」といった問題があった。それを「Pointer-generator Network」という機構と「Coverage Mechanism」という機構で解決した。
「Pointer-generator Net」では通常のseq2seq+attentionで出力される単語の分布(Vocabulary Distribution)とAttentionによる入力単語の分布(Attention Distribution)を組み合わせて最終的な出力単語を決めることでvocabularyにない単語を出力でき入力文から正確に情報を取得して出力することができる。
また「Coverage Mechanism」で過去のDecodeのステップで選ばれた単語が再び選ばれることにペナルティロスを課して学習を行うことで、同じ単語やフレーズが出力することを抑制している。
CNN/Daily Mail Datasetを使ってベースラインのモデルとROUGEとROUGE及びMETEORスコアで比較を行ったところ提案手法が最もよい数値を記録した。ただし一部のモデルとは純粋な数値での比較はできないとしている。
データの冒頭3文から単語を抽出して要約を行うモデルとスコアを比較すると、抽出を行うモデルが提案手法と比べて多くの場合は良い数値を記録する。
またROUGEスコアはn-gramの一致度合いを見るため良いいいかえをしていても単語が違うとスコアが下がってしまう。これを防ぐためにMETEORスコアがあるのだが、METEORスコアでも抽出型のモデルに負けているためここの問題を調査することをfuture workとしている。
データセットの関連情報
Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
Ramesh Nallapati, Bowen Zhou, Cicero Nogueira dos santos, Caglar Gulcehre, Bing Xiang
Coverage Mechanism
Modeling Coverage for Neural Machine Translation
Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, Hang Li
An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge
Yanchao Hao; Yuanzhe Zhang; Kang Liu; Shizhu He; Zhanyi Liu; Hua Wu; Jun Zhao
Knowledge Base(KB)を利用したEnd-to-EndなQAモデル
QuestionとAnswerの双方からAttentionをかけるCross-Attentionとanswer aspectsの素性をモデルに取り込んだ
QuestionをもとにKBから回答候補を複数出力し、それぞれに対しanswer entity,answer relation,answer type,answer contextという4つのaspectsを用意する。
Cross-AttentionはAnswer-towards-question(A-Q)とQuestion-towards-answer(Q-A)の2段階のAttentionに分かれており、それぞれ「各aspectsがQuestionのどの単語に注視するかのAttention」と「Questionがどのaspectsに注視するかのAttention」となっている。
またKBのすべての情報を学習時に使用するため、テスト時のout-of-vocabrary(OOB)問題を緩和している。
End-to-Endに学習を行うQAモデルを対象にWeb Questions Datasetを使って検証を行い、Average F1スコアで最もよい数値を記録した。
比較するモデルが少し古い気もする。またWikipedia free textを外部リソースとして使ったモデルを比較対象外としているがそれは正しいのか。
Teaching Machines to Read and Comprehend
Karl Moritz Hermann, Tomáš Kočiský, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, Phil Blunsom
Learning Structured Natural Language Representations for Semantic Parsing
Jianpeng Cheng; Siva Reddy; Vijay Saraswat; Mirella Lapata
End-to-Endで学習を行うニューラルネットによる意味パーサ
自然言語の文章を意味を含んだ中間表現にパースする方法と、中間表現から自然言語を出力するための語彙能力の両方を同時に学習する。
また中間表現が述語項構造をしているため解釈が容易。
全体の構成としてはbi-LSTM.stack-LSTM,single-layer Neural Netの組み合わせ。
文章の意味をパースする際にスタックを使って中間表現へと変換するが、このスタックに対する操作(push/pop)及びどんな終端記号(terminal)/非終端記号(variable)をpushするかの学習を行う。
またこの中間表現から正しい自然言語の回答を出力するbi-LSTMの学習も行うことで語彙の表現の獲得を行っている。
4つのデータセット(WEBQUESTIONS/GRAPHQUESTIONS/GEOQUERY/SPADES)を使って既存手法とAccuracyやF1値で比較。SPADES及びGRAPHQUESTIONSではSOTA、他2つでも高い数値を記録した。
このモデルは中間表現及び出力の自然言語が構造的に独立しているとい仮定のもとで構成されている。
これはモデルが中間表現へのパースと語彙へのマッピングに集中できるというメリットがあるが、自然言語の構造をうまく反映させた中間表現ができない(例えば構文解析木)ためモデルの表現が制限されてしまうというデメリットもはらんでいる。
他の意味パーサの話
Evaluating Induced CCG Parsers on Grounded Semantic Parsing
Yonatan Bisk, Siva Reddy, John Blitzer, Julia Hockenmaier, Mark Steedman
Transforming Dependency Structures to Logical Forms for Semantic Parsing
Siva Reddy, Oscar Täckström, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata
Learning Cognitive Features from Gaze Data for Sentiment and Sarcasm Classification using Convolutional Neural Network
Abhijit Mishra; Kuntal Dey; Pushpak Bhattacharyya
テキストとアイトラッキングの情報から感情、皮肉の予測を行うモデル
「アイトラッキング」と「CNN」を組み合わせてモデルを考案したところ
テキスト特徴をCNNを使って抽出する「Text component」とアイトラッキングのいくつかの指標から特徴をCNNで抽出する「Gaze component」の2種類のコンポーネントからなる。
テキスト特徴については「埋め込み表現を学習させない(STATICTEXT)」「学習させる(NONSTATICTEXT)」「混在させる(MULTICHANNELTEXT)」の3つ、アイトラッキングについては「ある注視点に留まった時間の長さの系列(FIXATION)」「注視点がどう移り変わっていったかという座標の系列(SACCADE)」「混在させる(MULTICHANNELGAZE)」の3つがあり、3*3の9つのモデルを使って既存手法と比較をしている。
感情分析のデータセット2種と皮肉を特定するタスクのデータセットを使って既存手法と「Precision」「Recall」「F-score」で比較を行った。
感情分析は片方のデータセットでは「NONSTATICTEXT+MULTICHANNELGAZE」が最もよい数値を記録、もう片方のデータセット(movie reviwe)ではSVMや提案手法t同じようにアイトラッキング情報を使ったモデルに数値で勝ることはできなかった。
皮肉を特定するタスクではPrecision及びF値では最もよい数値を記録しtが、RecallではCNNベースのモデルが一番良い数値を記録した。
テキスト特徴では埋め込みの次元を抑えたり、埋め込みを学習させる手法が過学習を防ぐ効果があるとしている。
FIXATIONの特徴については感情分析のタスクでは値の分散が大きすぎてうまく働いていないようだ。
アイトラッキング情報を使った先行研究(著者は一部同じ)
Leveraging Cognitive Features for Sentiment Analysis
Abhijit Mishra, Diptesh Kanojia†, Seema Nagar, Kuntal Dey, Pushpak Bhattacharyya
Harnessing Cognitive Features for Sarcasm Detection
Abhijit Mishra, Diptesh Kanojia, Seema Nagar, Kuntal Dey, Pushpak Bhattacharyya
アイトラッキングの参考情報
ランディングページの分析にもおすすめ!アイトラッキングの「AOI分析」をしてみよう
Deep Learning in Semantic Kernel Spaces
Danilo Croce; Simone Filice; Giuseppe Castellucci; Roberto Basili
DNNに木構造に対するカーネル計算を行う層を導入したモデル(Kernel-based Deep Architecture: KDA)を提案した。
カーネルの計算に「Nystrom method」を使うことで木構造を入力としてDNNを学習させることができる。
全体の構造は「入力層」「Nystrom層」「非線形変換を行う隠れ層」「出力層」の4種類からなる。
入力として木構造を受け取りそれをNystrom層で低次元の埋め込みベクトルに変換する。そこから先は通常のニューラルネットと同じように順伝搬させていき、学習時は逆伝搬を行う。入力層とNystrom層は最初にカーネル計算用の行列を計算したあとは学習を行わない。
Kernel-SVMでは推論時に入力データと全てのサポートベクターとのカーネル計算を行わなくてはならないが、KDAではカーネル計算はNystrom methodを使って簡単に低次元に埋め込めるため、計算コスト及び並列性が高まっている。
「Question Answering」「Community Question Answering」「Argument Boundary Detection」の3つのタスクでKernel-SVMなどのモデルと比較を行い、計算時間を短縮しつつ精度やF1スコアでよいスコアを記録した。
特になし
Convolution Kernels for Natural Language
Michael Collins and Nigel Duffy
Automatically Labeled Data Generation for Large Scale Event Extraction
Yubo Chen; Shulin Liu; Xiang Zhang; Kang Liu; Jun Zhao
Event Extractionタスク向けの大規模ラベル付きデータを作成するモデル
(データ例)
ACEのようなEvent Extractionタスクでは教師あり学習で解くのが主流だが小規模のラベル付きデータしか用意されていないという問題があった。そこで提案手法では大規模なラベル付きデータを自動で生成しそれを学習に使用する。
Freebase,Wikipedia,FrameNetといったデータソースを使用してラベル付きデータを自動生成する。
自動生成を「Key Argument Detection」「Trigger Word Detection」「Trigger Word Filtering and Expansion」「Automatically Labeled Data Generation」の4つのフェーズに分けてそれぞれでデータソースを使用していく。
自動生成されるデータは以下のようなもの。
ACEタスクを使用して既存モデルと比較を行った。
ACEタスクで用意されているデータのみで学習を行った既存手法と、自動生成したデータセットやそれとACEのデータセットを組み合わせた学習データを使ったモデルで比較を行い、すべての評価項目で既存手法を上回るF値を記録した。
データを自動生成する際にKeyRate(KR)、TriggerRate(TR)といった指標を使ってデータを選別していったが、それらを使用しない場合と比較すると使用しない場合ではF1値が下がることが確認できKRやTRの有効性が証明された。
Distant supervision for relation extraction without labeled data
Mike Mintz, Steven Bills, Rion Snow, and Daniel Jurafsky
Morph-fitting: Fine-Tuning Word Vector Spaces with Simple Language-Specific Rules
Ivan Vulić; Nikola Mrkšić; Roi Reichart; Diarmuid Ó Séaghdha; Steve Young; Anna Korhonen
既存の単語のベクトル表現を同意語/反意語を使って拡張する。
同意語を使うモデルはあったが、提案手法では反意語も使用している。
Skip-gramやGloVeといった単語のベクトル表現を獲得するメソッドに対して自然な拡張を与えることができる。
学習用に同意語のペア、反意語のペアを集める必要があるがこれはシンプルなルールベースの手法で集めることができる。
学習の際は同意語のペアのベクトルは近く、反意語のペアは遠くに配置するように学習していく。
Skip-gram with negative samplingやGloVeといった単語のベクトル表現を学習する10種類のアルゴリズムを提案手法を使って拡張し、単語類似性を測るタスクを解かせた。すると全てのメソッドにおいてスピアマン順位相関係数の向上が見られた。
また対話状態追跡のタスクにも適用したところ、こちらも数値の改善が見られた。
学習の際に最も頻度の高い同意語1つによる学習しか行わない(morph-fix)モデルの場合、対話状態追跡タスクの性能は上がらなかった。様々な語形の変化した語を使って学習を行うことで意味の表現をうまく学習できている可能性がある。
Morphological Smoothing and Extrapolation of Word Embeddings
Ryan Cotterell, Hinrich Schütze, and Jason Eisner
Diversity driven attention model for query-based abstractive summarization
Preksha Nema; Mitesh M. Khapra; Anirban Laha; Balaraman Ravindran
クエリベースの生成型要約を行うEncder-Decoder + Attentionをベースにしたモデル
クエリベースの要約に向けてクエリ及びドキュメントに対してAttentionをかけるモデルを考案した。
またEncoder-Decoderモデルでよく発生する同じ単語/フレーズを繰り返してしまう問題を解決するためにAttentionに工夫を加えた。
クエリにAttentionをかけその値をもとにドキュメントに対してAttentionをかけるような設計を行った。
またDecoderが同じ単語/フレーズを生成してしまうときは似たようなベクトルがDecoderに渡されているだろうという仮説のもと、今のContext Vectorと過去にDecoderに渡されたContext Vectorとができるだけ似ないようにするAttention(Diversity based attention)の仕組みを考案した。
Diversity based attentionでは時刻tのContext Vectorが1)1時刻前のベクトルと直交させる 2)過去のDecode時の全てのベクトルと直交させる2パターンと、どれくらい直交させるかをゲーティングで制御する方式を取り入れたものとを組み合わせた2 * 2の4パターンを考案している。
過去にクエリベースの生成型要約を行った研究がないためEncoder-Decoderを一番シンプルなモデルとしてそれにいくつか拡張を加えたモデルを用意して検証を行い、ROUGEスコアで比較を行った。
検証では過去のDecode時の全てのベクトルと直交させかつそれをゲーティングで制御させるモデルが最も高いROUGEスコアを記録した。
一番シンプルなモデルと比べて、「クエリをEncodeに加える」「クエリに対するAttentionを加える」「Diversity based attentionを加える」といったタイミングでROUGEスコアが大きく向上した。
単語/フレーズのリピート問題で参照されていた論文
Distraction-Based Neural Networks for Document Summarization
Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang
Adversarial Multi-task Learning for Text Classification
Pengfei Liu, Xipeng Qiu, Xuanjing Huang
マルチタスク学習において、タスク共通の特徴とタスク固有の特徴をうまく学習する手法を提案
既存のマルチタスク学習の手法では、タスク共通の特徴に特定のタスク固有の特徴が混じってしまい結果に悪影響を与えてしまうが、この研究では共通部分とタスク固有の部分をよりきれいに分離できるようにした
テキスト分類のためのRNN(LSTM)ベースのマルチタスク学習モデル「Fully-Shared Model(FS-MTL)/Shared-Private Model(SP-MTL)」を提案。
そしてSP-MTLにおいて特徴の分離を目的とし、共通部分の特徴がどのタスク固有の特徴か識別するDとタスク固有の情報を減らしどのタスク固有の特徴か分からなくするGとを競い合わせるGANの手法を取り入れたASP-MTLを提案した
16個のタスクを使用し、Error Rateをシングルタスクのモデル及びほかのマルチタスクのモデルと比較した。
16個のタスクの平均Error Rateにおいて、ASP-MTLが最もよい指標を記録した。
特になし
Domain Separation Networks
Konstantinos Bousmalis, George Trigeorgis, Nathan Silberman, Dilip Krishnan, Dumitru Erhan
Multimodal Word Distributions
Ben Athiwaratkun; Andrew Wilson
単語の持つ意味をガウス混合分布で表現するモデル
Skip-gramといったモデルは単語の意味をベクトルで表現するが、このモデルは混合ガウス分布を使って表現するように学習する
単語の意味をガウス分布として表現する先行研究(word2gaussian)では、多義語の持つ複数の意味(「岩」のrockと「ロック音楽」のrockなど)を扱えなかったが、混合ガウス分布を使って表現することで多義語の意味も扱えるようにした。
混合ガウスモデルの混合数Kを事前に与え、Skip-gramと同じようにpositive contextとnegative contextを使って学習をしていく。
Skip-gramモデルのようにpositive/negative contextのベクトルペアのコサイン類似度や内積を測るといったことができないため、expected likelihood kernelという手法を使って分布同士の内積(のようなもの)を計算する。単語のスキーマ条件などはword2vecの論文とほぼ同じである。
単語の類似度を測るタスクでSkip-gram、word2gaussianの2つの手法とスピアマン順位相関係数で比較を行ったところ多くのデータセットで最も高い数値を記録した。
またEntailmentタスクでword2gaussianモデルと比較したところ、こちらも提案手法が高い数値を示すことが多かった。
潜在的確率表現(latent probabilistic representation)のモデルが良い結果を残してきたように、確率的な表現モデルが単語の持つ意味をうまく捉えられているのかもしれない。
Word Representations via Gaussian Embedding
Luke Vilnis, Andrew McCallum
Translating Neuralese
Jacob Andreas; Anca Dragan; Dan Klein
タスクを解くために複数のエージェントがやりとりするメッセージ(ベクトル)を自然言語に変換する(その逆も行う)モデル
エージェント同士がやりとりするメッセージやお互いが観測した情報を解釈して自然言語へ変換しているので、ベクトルに含まれている意味の解釈などで応用できる。例えば機械翻訳などで使用されるEncoder-DecoderモデルでEncoderがDecoderに渡すベクトルの解釈などに応用できる。
エージェントのメッセージと自然言語の変換だけでなくエージェントが観測した情報も一緒にモデリングすることで、メッセージと自然言語の1対1の変換の確率を最大化するよりよいパフォーマンスを発揮する。
「人間のメッセージを変換してエージェントがタスクを解く場合」と「エージェントのメッセージ変換して人間がタスクを解く場合」の2つについて、「ランダム」「メッセージと自然言語の1対1の変換の確率を最大化」「提案手法」の3つの手法を正解率で比較した。
3つのタスクで比較を行ったところ、いずれにおいても提案手法が最も高い正解率を記録した。
特定のタスク(The colors task)については人間が自然言語でメッセージを伝えてそれを人間が受け取ってタスクを解いた際の正解率よりも、エージェントのメッセージを自然言語に変換して人間がタスクを解いた場合の正解率が上回った。これはエージェントが情報を伝えるより効果的な戦略を見つけている可能性があるとのこと。
Deep Communicating Policies関連
Learning to Communicate with Deep Multi-Agent Reinforcement Learning
Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson
or
Learning Multiagent Communication with Backpropagation
Sainbayar Sukhbaatar, Arthur Szlam, Rob Fergus
Alternative Objective Functions for Training MT Evaluation Metrics
Miloš Stanojević; Khalil Sima'an
機械翻訳システムの評価を目的とした新しい目的関数の導入
既存の研究では人手での評価との相関をセンテンスレベルでしかチェックしていないが、この研究ではコーパスレベルでの相関も取り入れた。
人手での相対ランクをもとに良い翻訳と悪い翻訳に分け、これらの間のスコア差を大きくするように学習を行う。
これをセンテンスレベルとコーパスレベル、そして2つを組み合わせたjointレベルでの目的関数を導入した。
WMTのコーパスを使って検証を行った。
3つのモデルを使って人手での2種類の評価(Relative Ranking/Direct Assessment)との相関を取ったところ、jointモデルが残りの2つのモデルより高い数値を記録し安定していることを確認した。
センテンスレベルとコーパスレベルのモデルを比較すると、RR評価ではコーパスレベルが、DA評価ではセンテンスレベルが数値を上回る。
これはそれぞれの人手の評価の違いが影響しているとしている。
Meteor 1.3: Automatic Metric for Reliable Optimization and Evaluation of Machine Translation Systems
Michael Denkowski and Alon Lavie.
Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems
Wang Ling; Dani Yogatama; Chris Dyer; Phil Blunsom
自然言語で記述された代数の問題を読み、与えられた選択肢の中から正しい回答を選ぶタスクを解くモデル
問題(Question)と選択肢(Options)を入力とし、そこから直接回答根拠(Rationale)と正しい選択肢を見つけるモデルを考案したこと
特徴的なのは2点で、入力を潜在変数に変換することと数値情報などを保持しておくメモリ機構を備えていること。
モデルはseq2seqモデルをベースとしており入力文を読み取りながら潜在変数に変換していく。そのなかで数値などの情報はメモリに保持しておく。
そして出力の際にはRationaleを生成していくのだが、その際にメモリが保持している数値情報
を使って潜在変数が計算処理などを行いその情報をもとにRationaleを生成していく。
このモデルは入力長、出力長ともに長くメモリ機構も備えているためBack propの際にメモリが問題になりやすい。そのため1データを分割しそれぞれに対してBack propをかけるStaged Back-propという手法を取っている。
このタスクのためにデータセットを作成し、そのデータセットを使ってseq2seqとその拡張モデルを使って比較を行った。
その結果、Perplexity,BLEU,Accuracyの3つの指標で既存モデルを上回った。
代数の問題をニューラルネットで解けることを示した最初の1歩なので、今回作成したデータセットとモデルをもとに今後も研究が進めば、と述べている。
Solving General Arithmetic Word Problems
Subhro Roy, Dan Roth
Neural Relation Extraction with Multi-lingual Attention
Yankai Lin; Zhiyuan Liu; Maosong Sun
Multi-lingual(英語と**語)の文章を使って2つのエンティティペアの関係を予測するニューラルネットワーク
1つの言語のデータだけでは数が少ない(情報量が少ない)ため、複数言語を扱い情報量を増やすことで性能が改善されることを示した
英語と**語の間には表現の一貫性があり、また相互に補いあうことができる。
そこで両言語の文章を入力とし情報を補い合いつつ、言語を跨いでパターンを抽出するMulti(Cross)-lingual attentionを導入した
precision/recall curveを描き既存モデルと比較したところ、最もよい数値を記録した。
また学習データの数が英語<<<**語だったり**語<<<英語であるようなデータの予測において、Multi-lingual attentionを使って学習したモデルは単一言語のデータのみを使って学習したモデルよりprecisionが大きく上回った。
これよりMulti-lingual attentionを使うことでデータ数の不足を補うことが可能であることが分かった。
言語の構造が近い英語と**語を使ったのがよかったように見える。
性質の近い(≒文法が近い?)言語の選択が重要そうだ。
Cross-languageの要約モデル
A Graph-based Approach to Cross-language Multi-document Summarization
Florian Boudin, Stephane Huet, and Juan-Manuel Torres-Moreno
Classifying Temporal Relations by Bidirectional LSTM over Dependency
Paths
Fei Cheng and Yusuke Miyao
文中のエンティティの時間的関係(Temporal Relations)のクラスを分類するタスクにおいて、アノテーションや外部情報を使わずに既存のSOTAモデルに迫る性能を記録した
既存の手法はアノテーションやエンティティの属性情報、手書きルールやWordNetといった外部情報を使っているが、提案手法では原文から得られる情報(POS,Dependency Path(DP),Embeddings)のみを使用して同等の性能を記録した
67%のエンティティペアは隣接する2文にまたいで出現している。そこで原文を解析すればこのペアには共通するルートがある、という仮説のもと共通するルートからそれぞれのエンティティへのShortest Dependency Path(SDP)を求めそのパス上の単語を入力とした。
解析にはStanford Core NLPを使用し、その際に得られるPOS及びDPの情報を使用する。またこのほかにGigawordコーパスをword2vec with skipgramで初期化したWord Vectorも使用する。
単語の系列を処理するモデルとしてBi-LSTMを採用した
クラス分類におけるF値を算出した結果、既存のSOTAモデルに迫る数値を記録した。
GigawordコーパスによるEmbeddingsの初期化は外部情報なしといってもよいのだろうか
On the contribution of word embeddings to temporal relation
classification
Paramita Mirza, Sara Tonelli
PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents
Corina Florescu; Cornelia Caragea
キーフレーズ抽出を行う教師なしの手法
教師なしなので大量の正解データを用意しなくてよい
基本はPageRankを参考にしたグラフベースの手法。
同じドキュメント内での単語の出現位置(2ndや50th)の逆数(1/2や1/50)を同じ単語に対して全て足し合わせることで単語のポジション情報と頻度を考慮したスコア付けを行った。
3つのデータセットを使い既存モデルとMRR,Precision,Recall,F1-Scoreのperformance@kを計測した。
スコアを比較したところいずれの指標においても既存モデルを上回る数値を記録した。
またt検定も行いMRR,Precision,Recall,F1-Scoreのいずれにおいても5%有意となった。
グラフでエッジを引く際に使用する窓幅wを2~8で変化させても性能に大きな差は出なかった。
また頻度情報を使わず最初の出現位置の逆数のみでスコアリングしたモデル(first-position,fp)と比較すると頻度情報も使用するフルモデルの方が性能で勝った。
Automatic Keyphrase Extraction: A Survey of the State of the Art
Kazi Saidul Hasan and Vincent Ng
Selective Encoding for Abstractive Sentence Summarization
Qingyu Zhou; Nan Yang; Furu Wei; Ming Zhou
生成型の文要約を行うモデル
生成型の文要約において要約の作成に必要な入力文の単語のハイライトを行う
要約の生成に必要な単語をハイライトして選択するためにSelective Mechanismを備えたEncoder-Decoderモデルの拡張を考案した。
Selective MechanismはEncoderのBiGRUのforwardとbackwardの最後のベクトルをsentence vectorとし、それとEncoderの中間層のベクトルを使って、入力の単語に強弱をつけてハイライトする。
「English Gigaword」「DUC 2004」「MSR-ATC」の3つのデータセットを使いROUGE-F1ややROUGE-recallを使って既存モデルと比較した。
提案手法とseq2seq+attentionのモデルを比較すると性能が上回っており、Selective Mechanismがうまく働いているようだ。
Visualizing and Understanding Neural Models in NLP
Jiwei Li, Xinlei Chen, Eduard Hovy, Dan Jurafsky
Coarse-to-Fine Question Answering for Long Documents
Eunsol Choi; Daniel Hewlett; Jakob Uszkoreit; Illia Polosukhin; Alexandre Lacoste; Jonathan Berant
長いドキュメントに対しても高速に動作するQAモデル
QAモデルではRNNが使われることが多いが、RNNは学習の並列化が難しいため長いドキュメントでは遅いという問題がある。
そこでタスクを2段階に分割したり、BoWやCNNを駆使することで高速に動作するモデルを提案した。
長いドキュメントから回答を探すタスクを「質問文をもとに長いドキュメントから回答に必要な文をいくつか選択する」「選択された複数の文から回答を生成する」という2段階に分割した。前者のタスクではBoWモデルやCNNを使用して各文の確率分布を計算しそれをもとにHard/Soft Attentionを使って文を選択する。そして文の数が減った後者のタスクでのみRNNを使用するようにした。
Hard Attentionを使用する場合、誤差を逆伝搬することができないため強化学習によって学習を行う。
既存の最高精度のモデルをベースラインとして速度を比較したところ、強化学習を利用するモデルは3.5~6.7倍もスピードアップした。
また3つのコーパスで精度の検証を行い、1つのコーパスでは既存のモデルを上回る数値、2つのタスクでは既存のモデルに迫るスコアを記録した。
特になし
Neural Summarization by Extracting Sentences and Words
Jianpeng Cheng, Mirella Lapata
Automatically Generating Rhythmic Verse with Neural Networks
Jack Hopkins; Douwe Kiela
ューラルネットを使った詩の自動生成
「詩の意味(content)」と「詩のリズム(format)」の両方の学習を行うモデル
最初は韻やリズムをうまく学習させるために発音などの音声情報(?)を使っていたが、同音異義語に弱い、学習データによって長さや韻の踏み方に差があって問題が複雑化しやすいという難点があった。
生成される詩はそれなりにうまくいっていうものの、韻の踏み方などがある程度同質な学習データが必要でこれをそろえるのが困難という問題があった。
そこで様々な詩のデータに頑健なモデルとして文字レベル言語モデルとWeighted Finite State Automaton(WFSA)をカスケード接続したモデルを考案した。
これは文字レベル言語モデルがvocaburaryの問題の解決と単語のprefix/suffixに着目した意味のモデリング、WFSAが韻やリズム感といった部分をモデリングしている
まずモデルが詩のリズムは獲得てきるか検証するためにモデルが生成した詩を人手で読み上げストレスを感じないか調べた。各モデルが50行ほど生成したところ70%ほどの行は特に問題がなかった。
また学習に使ったデータセットについて、テキストから音声情報に変換しそれを再びテキストに戻した際にどれくらいの精度でもとに戻せるか実験したところwordレベルでは65%~85%ほどの数値となった。このことから学習データを翻字する段階での情報の欠落がモデルに影響を与えている可能性があるとしている。
また人を使って「この詩が人が書いたものか機械が書いたものか予想する」実験を行ったところ、とある詩では66%の人間が人によるものと判断した。
特になし
Better word representations with recursive neural networks for morphology
Minh-Thang Luong. Richard Socher. Christopher D. Manning
An Unsupervised Neural Attention Model for Aspect Extraction
Ruidan He; Wee Sun Lee; Hwee Tou Ng; Daniel Dahlmeier
aspectを抽出するニューラルネットワークモデル
主流なLDAベースの手法ではないNNベースの手法で、LDAより一貫したaspectを出力するようになっている。
入力単語の埋め込みベクトルにAttentionの重みをかけて足しあわせて分のベクトルを作る「Attention-based encoder」の部分と、文のベクトルzをSoftmaxを計算してaspectの分布(ベクトル)を計算しそこから再度ベクトルrを再構成しrとzの差をできるだけ小さくするようにかつ他のベクトルとの差は大きくするように学習する部分の2点。
zからSoftmaxでspectの分布を出しそこからrを再構成する部分がAutoEncoderに近いことを行っている。
2種類のデータセットを使って既存のモデルと様々な評価指標で比較。例えばaspect identificationのF1スコアなどでは最もよい数値を記録した。
特になし
aspect extractionについて書かれている書籍
Sentiment Analysis and Opinion Mining
Bing Liu
Verb Physics: Relative Physical Knowledge of Actions and Objects
Maxwell Forbes; Yejin Choi
動詞をもとに動作主と被動者の相対的、物理的な包含関係を学習し推定するモデル。
新しいタスクを作成し、それに合わせてクラウドソーシングを使ってデータセットも作成した。
学習データを使ってFactorグラフを構築する。その際に意味の近いノードがエッジで結ばれるように構築する。例えば動詞のFrameが類似している、Object(動作主や被動者)が似ているなど。
そして推論の際にはこのFactorグラフを使い、今扱っている文章の動詞のフレームや動作主・被動者がグラフ上のどんな要素と近いかを計算して包含関係を推定する。
新たに構築したデータセットに対して3種類のベースライン(Radom/Majority/maximum entropy classifier)を用意して精度を比較したところ、提案手法が最もよい数値を記録した。
例えばクラウドソーシングでワーカーが「Person stopped the fly with a swatter」という文章に対して、本来ならPersonとfly、stopped~withの関係をモデリングしたいのにflyとswatterの関係を記述していたりすることがあり、それが精度に影響を与えている可能性がある。
Estimating Numerical Attributes by Bringing Together Fragmentary Clues
Hiroya Takamura and Jun’ichi Tsujii
Time Expression Analysis and Recognition Using Syntactic Token Types and General Heuristic Rules
Xiaoshi Zhong; Aixin Sun; Erik Cambria
テキスト中から時間に関する表現を抽出する手法
リアルタイムでも動かせるほど高速に動作する。また手法がシンプルなので他言語への拡張も容易。
POSタグの付与されたテキストに対して「Time Token Identification」「Time Segment Identification」「Time Expression Extraction」の3つの段階を経て時間に関する表現を抽出する。
文章中の時間表現に関する単語のタイプを「Time Token」「Modifier」「Numeral」の3つに分類し、これらの情報から時間を表している単語のまとまりを抽出していく。
3つの単語タイプの抽出ルールは正規表現やヒューリスティックなルールで決めている。このルールを拡張することで他言語にも適用することが可能になる。
TimeBank, WikiWars, Tweetsの3つのデータセットを使って既存手法と比較し良い数値を記録した。
POSタグの付与されたテキストに対して適用する手法であるため、POS Taggerの精度に影響を受けてしまう。
先行研究
Context-dependent Semantic Parsing for Time Expressions
Kenton Lee, Yoav Artzi, Jesse Dodge, and Luke Zettlemoyer
ACL2017でのプレゼンテーション資料
http://aclweb.org/anthology/attachments/P/P17/P17-1039.Presentation.pdf
Topically Driven Neural Language Model
Jey Han Lau; Timothy Baldwin; Trevor Cohn
トピックモデルと言語モデルを同時に学習させるモデル
トピックモデルと言語モデルを1つのニューラルネットとして同時に学習を行う。
これにより文全体の意味を捉えながら文章の生成が行える。
トピックモデルと言語モデルの学習を同時に行うところ。
LDAとLSTMの言語モデルを別々に学習させた後に組み合わせて言語モデルの評価を行う場合と比べるとよい性能を発揮する。
APNEWS,IMDB,BNCの3つのデータセットを使って、言語モデルはperplexity,トピックモデルはtopic coherenceによる評価を行う。
言語モデルでは「vanilla-LSTM」「lclm」「LSTM + LDA」の3つのモデル、トピックモデルでは「LDA」「ntm」の2つのモデルと比較。
言語モデルの検証では提案手法が最も良い数値を記録、トピックモデルの検証ではトピック数とデータセットの種類によっては良い数値を記録することもあるという結果だった。
トピックモデルの出力するベクトルをうまく調節することで、特定のトピックに関する文章を生成できる。
トピックモデルの評価で使用されたtopic coherenceの出典元
Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality
Jey Han Lau; David Newman; Timothy Baldwin
Gated Self-Matching Networks for Reading Comprehension and Question Answering
Wenhui Wang; Nan Yang; Furu Wei; Baobao Chang; Ming Zhou
Stanford Question Answering Dataset(SQuAD)におけるSingleモデル、Ensembleモデルの両方で最高成績を残したモデル
従来のAttentionベースのRNNでは、QuestionとPassageの間にある答えに結び付く情報をAttentionで注視していた。
しかしこのモデルはPassageの情報を使ってPassageの情報を注視する手法(Self-Matching Attention)を導入した。
out-of-vocabrary(OOB)の対策のために、単語レベルと文字レベルのEmbeddingsを使用している。
そして、Answerを出力するのに必要なのはQuestionとAnswer間の情報だけでなくPassage内のContextや語彙の順番といった情報も必要である、と考えPassageの情報を使ってPassageにAttentionをかけるSelf-Matching Attentionを導入したモデルを提案した。
論文投稿時点でのSQuADのlearders boardのSingleモデルとEnsembleモデルにおいて、Exact Match(EM)/F1の両方において最高のスコアを記録している。
Self-Matching Attentionのベクトルを可視化すると答えの出力に必要な情報にAttentionがかかっていることが分かった。
また6W1HのQuestion typeについてスコアを測定するとwhyのスコアが低く、これはwhyの回答が多様で特定のフレーズに制限されることがないためだとしている。
SQuADと同じくQAタスクのデータセット
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset
Tri Nguyen, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, Li Deng
A* CCG Parsing with a Supertag and Dependency Factored Model
Masashi Yoshikawa; Hiroshi Noji; Yuji Matsumoto
Dependency情報も使ってA*CCGパースを行うモデル
既存のA*CCGパーサでは解けなかった生成されるCCGツリーの曖昧性(同じCCGのsupertagから異なるCCGツリーが生成される問題)を解消しかつ効率よく動作する。
A*CCGパースを行う際にCCGのsupertag情報だけでなくdependency情報も使用してパースを行う。
モデルはbi-LSTMとMulti Layer Perceptron(MLP)を使用する。入力単語の系列x1,...,xnをbi-LSTMに入力し、その出力をtagの分布とdependencyの分布を計算するMLPにそれぞれ入力し、正しいtagとdependencyの確率が高くなるように学習を行う。
CCGツリーからdependencyを抽出する手法は複数あるので(LEWISRULE/HEADFINAL/HEADFIRST)し、それぞれのモデルを使って検証している。
また通常の学習方法に加えて、Tri-trainingと呼ばれる半教師あり学習手法を使った検証も行っている。
英語と日本語のCCGbankのデータを使って既存モデルと比較を行った。
英語データの場合HEADFIRSTモデルをTri-trainingで学習させたものが最も高いF1値を記録した。
日本語データの場合HEADFINALモデルを学習させたものが最も高いF1値を記録した。
特になし
CCGパーシングに関する論文
A ∗ CCG Parsing with a Supertag-factored Model
Mike Lewis and Mark Steedman
LSTM CCG Parsing
Mike Lewis, Kenton Lee, and Luke Zettlemoyer
CCGの資料
自然言語処理における構文解析と言語理論の関係
国立情報学研究所 宮尾祐介
Neural End-to-End Learning for Computational Argumentation Mining
Steffen Eger; Johannes Daxenberger; Iryna Gurevych
Argumentation Mining(AM)のタスクをDependency parseやSequence Taggingといった別の問題として定式化した
ニューラルネットによるEnd-to-EndなAMの計算手法を提案した。
AMタスクをDependency Parse,Sequence Tagging,Multi-task sequence tagging Learning,sequential and tree-structure modelingの4つのタスクとして定式化した。
そして各タスクで使われているモデルを使ってAMタスクを解き、結果を比較した。
既存のシステムとしてfeature-based ILP modelを使用し、先行論文で使われているタスクの評価指標( http://www.aclweb.org/anthology/N16-1164 )を使って比較した。
いくつかの手法で既存手法を上回る数値を記録した。
特になし
先行研究あたりか
End-to-End Argumentation Mining in Student Essays
Isaac Persing and Vincent Ng
Deep Neural Machine Translation with Linear Associative Unit
Mingxuan Wang; Zhengdong Lu; Jie Zhou; Qun Liu
GRUを拡張した新しいユニット「linear accociative unit(LAU)」の提案し機械翻訳タスクに適用した
勾配爆発を防ぎ、層数の多いモデルでもGRUより学習をうまく行える。
GRUは入力の非線形変換と見ることができ、LRUではこれに入力の線形変換を組み合わせこれらの割合を制御するゲートを導入した。
入力の線形変換を組み込んだことでResidual接続のような役割を果たし、深い層のモデルでも学習がうまくいくようになっていると思われる。
複数の翻訳タスクにおいてGRUモデルや既存モデルとBLEUスコアの比較を行った。
中英翻訳では一番よいスコアを、独英翻訳ではSOTAモデルに迫るスコアを記録。
層を深くしたDeep GRUとDeep LAUで比較を行った。Deep GRUでは(Encの層数, Decの層数)が(4,4)となったあたりで性能が落ち始めたが、LAUでは(8,6)になっても性能が上がり続けた。
また層数を深くするのと隠れ層のユニット数を多くするのではどちらが性能に与える影響が大きいか検証したところ、層数を深くすることの方が性能に良い影響を与えていた。
Deep Recurrent Models with Fast-Forward Connections for Neural Machine Translation
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, Wei Xu
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.