Code Monkey home page Code Monkey logo

paper_memo's Introduction

paper_memo's People

Contributors

ntatsuyag avatar

Watchers

 avatar

paper_memo's Issues

ConveRT: Efficient and Accurate Conversational Representations from Transformers

https://arxiv.org/pdf/1911.03688.pdf

1.論文の概要

BERTは計算量、訓練コスト等の問題があり、実応用には理想的ではないためConveRT (Conversational Representations from Transformers)を提案。応答選択タスクでSOTA
本研究では、検索ベースの応答選択タスクを用いて事前学習を行い、デュアルエンコーダの量子化とサブワードレベルのパラメータ化を効果的に利用して、軽量でメモリとエネルギー効率の高いモデルを構築。また、拡張された対話履歴をコンテキストとして使用することで、さらに性能が向上することを示す。また、提案されたエンコーダからの事前学習された表現をインテント分類タスクに適用することで、3つのデータセットに対して高い性能が得られることを示している。
事前学習済みモデルが公開されている。

2. 問題設定と解決した点(先行研究と比べてどこが凄い?)

これまでも軽量化に関する研究は行われてきたがBERTのようなLM(言語モデル)ベースのモデルの最適化に着目したものが多いが、本研究では応答選択タスクにおいてより適していると思われるDual Encoderベースの事前学習モデルを提案。
BERTの実応用には理想的ではない問題点を解決するため
応答選択タスク、意図分類タスクにおいて軽量化と高速化を可能にした。
また3つの応答選択タスク Ubuntu DSTC7, Amazon QA, Reddit response selectionにおいて最高性能も達成。

3. 技術や手法のキモ

シングルコンテキストモデル
スクリーンショット 2020-05-26 1 37 04
マルチコンテキストモデル
スクリーンショット 2020-05-26 1 39 22

positional emmbeddingはBERTとかとは少し違う方法で学習
絶対的位置ではなく相対的位置の情報を使うことで計算効率を上げた?
埋め込みシーケンスを固定次元ベクトルに変換するためNの平方根削減を使用

量子化
標準的な32ビットのパラメータではなく、すべての埋め込みパラメータは8ビット、その他のネットワークパラメータは16ビットで表現されている。
layer normalization, L2- normalization, softmax in attention layersは32bit

マルチコンテキストでは最大直前10個のコンテキストを利用

4. 主張の有効性検証

サイズ
シングルコンテキスト ConveRT 59MB
マルチコンテキスト ConveRT 73MB,
Dual Encoder 444MB

評価指標はRecall 100@1とMRR

スクリーンショット 2020-05-26 2 15 58
スクリーンショット 2020-05-26 2 17 23

スクリーンショット 2020-05-26 2 17 32
Ablation Study
スクリーンショット 2020-05-26 2 17 56

スクリーンショット 2020-05-26 2 18 21
他タスクでも応用可能でintent classification performance(意図推定タスク)でも性能が高い

5. 議論すべき点

他の軽量化モデル等と比較するとどうなのか?

6. 次に読むべき論文は?

7. 参考文献

8. 補足(Appendix)

USE: Universal Sentence Encoder
POLY AI-DUAL: the best-performing dual-encoder model

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.