teamaidemy / ds-paper-summaries Goto Github PK

View Code? Open in Web Editor NEW

11.0 11.0 0.0 3 KB

株式会社アイデミーのデータサイエンティストによる論文サマリー

License: MIT License

arxivtimes computer-vision machine-learning natural-language-processing respect-arxivtimes

ds-paper-summaries's People

Contributors

Stargazers

Watchers

ds-paper-summaries's Issues

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. “Training language models to follow instructions with human feedback.” arXiv [cs.CL]. https://arxiv.org/abs/2203.02155

InstructGPTという、GPT-3を人間のフィードバックを用いた強化学習でFine-tuningしたモデルを、GPT-3を提案したOpenAIが自ら提案
モデルの学習プロセス（学習アルゴリズムおよびデータセット）に人間のフィードバックを盛り込むことで、パラメーター数をシンプルなGPT-3から1/100に削減しても人間が好む出力ができることを確認
2022年末にリリースされた ChatGPT のベースにもなっている技術
本文だけでも20ページ、Appendixまで含めると68ページの大作

Abstract

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.

(DeepL翻訳)

言語モデルを大きくしても、ユーザーの意図に沿うようになるとは限りません。例えば、大きな言語モデルは、真実味のない、有害な、あるいは単にユーザーにとって役に立たない出力を生成することがあります。言い換えれば、これらのモデルはユーザーと一致していないのである。本論文では、人間のフィードバックを用いて微調整を行うことで、様々なタスクにおいて言語モデルをユーザーの意図に沿うようにする方法を示す。まず、ラベラーが書いたプロンプトとOpenAI APIを通じて送信されたプロンプトのセットから始め、我々はラベラーが望ましいモデルの動作を示すデータセットを収集し、それを用いて教師あり学習を用いてGPT-3の微調整を行う。次に、モデル出力のランキングデータセットを収集し、人間のフィードバックからの強化学習を用いて、この教師ありモデルをさらに微調整するために使用する。このようにして得られたモデルをInstructGPTと呼ぶ．我々のプロンプト分布に対する人間の評価では、パラメータが100倍少ないにもかかわらず、パラメータ1.3BのInstructGPTモデルの出力が、パラメータ175BのGPT-3の出力よりも優先されました。さらに、InstructGPTモデルは、真実性の向上と有害な出力生成の削減を示す一方で、公開されたNLPデータセットに対する性能低下は最小限であることが分かりました。この結果は、人間のフィードバックによる微調整が、言語モデルを人間の意図に沿わせるための有望な方向性であることを示しています。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

GPT-3を始めとする大規模言語モデル (LM; Language Model) は、人間が意図せぬ動作をすることがしばしばある
→ そもそも大規模LMの目的が「人間の意図する動作をすること」になっていない
- 意図せぬ動作の例
  - それっぽい表現で事実のでっちあげ
  - 簡単な質問に対して長々と答える
  - 社会的バイアスや差別などの不適切表現（参考）
  - 個人情報の漏洩（参考）
  - そもそもユーザーの指示に従わない
よりユーザーの意図を汲めるように、モデルの "alignment" が必要
そこで、本論文ではGPT-3のFine-tuning時に、人間のフィードバックを用いた強化学習 (RLHF; Reinforcement Learning from Human Feedback; Paul F. Christiano, et al. 2017) を利用
- 著者らが新規に考案した手法ではなく、もともとロボットの行動学習時などに利用されていた手法
- ただし、2019年頃からテキスト要約モデルのFine-tuningで応用され始めていた
通常のGPT-3と比較して、モデルのパラメータ数が1/100のInstructGPTのほうが、人が見たときに違和感のないテキスト生成が可能だった（詳細は評価指標の項目で説明）

技術・手法のポイント

3ステップで構成される。

ベースはGPT-3。Web上の多様なデータで学習された状態の、いわば「人間が意図せぬ動作」をするモデルがスタート。

Step 1. 教師ありFine-tuning (SFT; Supervised Fine-Tuning)

格好いい名前がついているが、やっていることは事前学習済GPT-3を、少し大規模なFew-shot Fine-tuning（入力プロンプトと出力テキストのペアをモデルに提示）しているだけ
選ばれた人間（以下、アノテーターと呼ぶ）が人力で作った「入力プロンプトと所望の出力文章のペア」データセットを利用。13,000件程度。
- 本研究において、アノテーターに誰を（どういう性質や思考の人間を）選ぶかは非常に重要。そのため、適性を測定するためのスクリーニングを行ったり、他のアノテーター群との比較実験で公平性を確認している (付録B参照)
こうしてできあがったモデルをSFTモデルと呼ぶ

Step 2. 報酬モデルの学習

入力プロンプトに対するSFTモデルの出力文章が $K$ 個（図中だと $K$ = 4）選択肢として提示され、アノテーターは文章の好ましさ順にランキングをつける
このランキングを利用して、入力が（入力プロンプト, 出力文章）のペアワイズのデータ、出力が「文章の好ましさスコア」となるモデルを学習させる
- アノテーターが各文章に対して絶対的・普遍的な好ましさスコアを定量的に与えることが難しいため、相対的なランキングを利用し、ランキング学習 (LTR; Learning To Rank) の枠組みに落とし込んでいる
- モデルの出力が次ステップの強化学習における報酬として用いられるため、このモデルのことを報酬モデル (RM; Reward Model) と呼ぶ
- 報酬モデルはSFTモデルをベースとする。ただし、スカラーで報酬値を出力できるように、最終層のみアーキテクチャーを変更

Step 3. 報酬モデルを使ってSFTモデルを強化学習 (RLHF)

強化学習の枠組みに落とし込んで、RMの出力が最大となるようにSFTモデルをFine-tuningさせる
- このときの学習アルゴリズムとして用いられるのが PPO (Proximal Policy Optimization; Schulman, et al., 2017)
  - PPOのざっくりの特徴として、ポリシー（今回でいうSFTモデル）が過剰に更新されることを抑えながら、安定的に学習を行うことが可能
SFTモデルが学習データにオーバーフィッティングしすぎないように、事前学習データの尤度を加える工夫も追加されている（詳細はここでは割愛）
- ここまでしたバージョンのモデルのことをInstructGPTと呼ぶ
詳細はこちらの記事が理解しやすい

評価指標

3つの観点で評価を実施。以下は図中の用語の説明。

GPT: GPT-3
GPT (prompted): Few-shotのプロンプトでFine-tuningをしたGPT-3
SFT: SFTモデル
PPO: PPOを用いてRLHFしたモデル
PPO-ptx: PPO+事前学習データの尤度を用いてRLHFしたモデル (InstructGPT)

OpenAI Playgroundに公開されているAPIを用いた評価

（APIの詳細は付録A.2参照）

- 縦軸: GPT-3 175BをベースにしたSFTモデルの出力と、比較用の各モデルの出力をアノテーターが比較し、後者が勝っていた（= 好ましい出力をしていた）パーセンテージ
- 結果: RLHFモデル (PPO, PPO-ptx) が他を圧倒
  - GPT-3 175Bよりも、モデルサイズが1/100であるInstructGPT 1.3Bのほうが好ましい出力が可能
- （この図にはないが）データセット作成に携わらなかったアノテーター群を対象に同様の実験を行ったところ、そちらでも同様の傾向が出ることを確認 = 汎化性能あり（アノテーターの特性にオーバーフィットしていない）
- アノテーターによる各モデル出力のリッカート尺度比較 (MIN: 1 ~ MAX: 7)
  - FLAN: 大規模なZero-shot LMの1種である FLAN (Jason Wei, et al., 2021) の学習用データでFine-tuningしたGPT-3 (175B)
  - T0: 大規模なZero-shot LMの1種である T0 (Victor Sanh, et al., 2021) の学習用データでFine-tuningしたGPT-3 (175B)
- 結果: RLHFモデルが圧倒
  - FLANやT0は汎用的な自動評価しやすいタスク（分類、質問応答、要約、翻訳など）を前提に作られている一方で、実際のGPT-3のユースケースとしてはより自由度の高い文章生成が多い（全体の57%はこういった用途）
  - つまり、元々のデータセット自体のターゲットの違いが結果に寄与している可能性がある

公開データセットを用いた評価

Truthfulness（信憑性）
- TruthfulQAデータセットを利用
- - Grayのバーが信憑性のあるテキストの割合、カラーバーが信憑かつ有益なテキストの割合を示す
  - 結果: GPT-3と比較してInstructGPTがわずかに改善
Toxicity（有害性）
- Real Toxicity Prompts Datasetを利用
- - 左図はアノテーターによるマニュアル評価、右図は PerspectiveAPI を通じた自動評価
  - "respectful" と指示された場合とそうでない場合ごとの結果が示されている
  - 結果: 全体的に出力の有害性の低さは GPT-3 < SFT <= InstructGPT
  - （図にはないが）興味深いことに、有害な出力を生成するように明示的に指示した場合、GPT-3よりもInstructGPTのほうが有害な出力をすることが分かった（詳細は残された課題・議論にて）
alignmentした場合の汎用的なNLPタスク性能の変化
- alignmentを追求するトレードオフとして、汎用的なNLPタスクで性能が低下する
  - 論文中ではこのことを "alignment tax" が課されると表現
- DROP, HellaSwag, SQuADv2, BLEU (French → English) などで評価（一覧はTab.14参照）
- 結果
  - RLHFしたモデルは、SFTモデルやGPT-3と比較してほぼ全てのタスクで性能が低下（alignment taxの影響）
  - ただし、InstructGPTではシンプルなPPOモデルよりも性能の低下度合いが軽減されている

定性的評価

InstructGPTのFine-tuningに使用したデータは英語の文章データが中心で、それ以外はごく少数であったにも関わらず、英語以外の言語やプログラミングコードの要約・質問応答も可能という、興味深い結果が得られた。

↑ 同じパラメーター数（175B）のGPT-3ではテキスト生成が全くうまくいっていないが、InstructGPTではうまくいっている例

残された課題・議論

まだまだ単純なミスをする
- 例1: 誤った前提を持つ命令が与えられると、その前提が真であると無理やり仮定してテキストを生成する
- 例2: モデルが過度にリスクヘッジをして、曖昧な言い回しで回答してしまう
- 例3: 指示の成約が厳しい場合（文章数制限など）
- 下図はそれぞれ例1, 2の実例
- 例2の顕著な例（ChatGPTに本論文の要約をさせた結果）
モデルが誰に対して alignment されるかが極めて重要
- 悪意を持った人間が「人間の指示に従順な」InstructGPTの学習を行ったら、普通のGPT-3よりも有害なバイアスがかかったテキストが生成される恐れもある
- こういったテキスト生成のリスクを減少させるために、他のアプローチとの組み合わせが考えうる
  - 事前学習データをフィルタする手法
  - WebGPTのような、モデルの真実性を向上させる手法
- そもそも、利害関係の強い領域（医療診断、保護特性に基づく人々の分類、信用、雇用、住居の適格性の判断、政治的広告の生成、法執行など）ではこういった生成モデルは一切使うべきではない、と著者らは考えている

重要な引用

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
- GPT-3の原著
- 弊社論文サマリー
Paul F. Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. 2017. Deep reinforcement
learning from human preferences. In Proc. NIPS 2017. https://papers.nips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html.
- RLHFが提案されている論文
- OpenAIの公式Blog
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal Policy Optimization Algorithms. arXiv:1707.06347 [cs.CL]. https://arxiv.org/abs/1707.06347.
- PPOが提案されている論文
- これもOpenAI発

参考情報

OpenAIの公式Blog
話題爆発中のAI「ChatGPT」の仕組みにせまる！ (Qiita)
ChatGPT 人間のフィードバックから強化学習した対話AI (slideshare, 主に24ページ以降)
ChatGPTのコア技術RLHF(人間フィードバックによる強化学習)を解説（ステート・オブ・AI ガイド）

Adversarial Random Forests for Density Estimation and Generative Modelling

Watson, David S., Kristin Blesch, Jan Kapar, and Marvin N. Wright. 2022. “Adversarial Random Forests for Density Estimation and Generative Modelling.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/2205.09435.

Adversarial Random Forests (ARF)と呼ばれるテーブルデータに対して密度推定と生成モデリングを行う高速な手法を提案。
生成と識別を交互に繰り返すことでデータの構造的特性を徐々に学習し、元のデータと類似したデータの生成を行うことができる。
軽量なため普通のノートパソコンで実行でき、チューニングもほぼ不要。
個人情報を含まないデータセットの生成や、レコード数が少ないテーブルデータのAugmentationに使えるかもしれない。

Abstract

We propose methods for density estimation and data synthesis using a novel form of unsupervised random forests. Inspired by generative adversarial networks, we implement a recursive procedure in which trees gradually learn structural properties of the data through alternating rounds of generation and discrimination. The method is provably consistent under minimal assumptions. Unlike existing tree-based alternatives, our approach provides smooth unconditional densities and allows for fully synthetic data generation. We achieve comparable or superior performance to state-of-the-art deep learning models on various tabular data benchmarks while executing about two orders of magnitude faster on average. All algorithms are implemented in easy-to-use 𝚁 and Python packages.

(DeepL翻訳)

我々は教師なしランダムフォレストの新しい形式を用いた密度推定とデータ合成の方法を提案する。生成的敵対ネットワークに触発され、木が生成と識別を交互に繰り返すことでデータの構造的特性を徐々に学習する再帰的な手順を実装している。この方法は、最小限の仮定で証明可能な一貫性を持つ。既存の木ベースの代替手法とは異なり、我々のアプローチは滑らかな無条件密度を提供し、完全な合成データの生成を可能にする。様々な表形式データのベンチマークにおいて、平均で約2桁高速に実行しながら、最先端の深層学習モデルと同等以上の性能を達成する。全てのアルゴリズムは、使いやすいRとPythonパッケージで実装されています。

コード

ソースコード
Rではパッケージ 'arf' として利用可
- Python版パッケージは近日公開予定とのこと

解決した課題/先行研究との比較

生成モデリングが画像やテキストで大きな成果を上げている一方、テーブルデータにはあまり適用されてこなかった。
- その背景として、データの分布が複雑であることや高次元データへの対応の難しさなどがあった。
適用されたケースでも大量のデータ＆大規模なチューニングが必要だった。
本稿では "Adversarial Random Forests (ARF)" (敵対的ランダムフォレスト) を提案。一般的なノートパソコンの性能で良い成績を発揮した。
- (と書かれているが、「一般的なノートパソコン」では実験のコンディションの再現は難しそうに思う。)

技術・手法のポイント

敵対的学習 (GAN)とランダムフォレスト (Unsupervised Random Forest, Shi and Horvath, 2006) を組み合わせた。
- 生成器がサンプルを生成し、そのサンプルを使って、本物と偽物のデータを区別する識別器を学習させる。
- この識別器の判定は、ランダムフォレスト内の各サンプルに重みを割り当てるために用いられ、密度推定や生成モデリングに利用することができる。
  - 密度推定を Foests for Density Estimation (FORDE)、生成モデリングを Forests for Generative modeling (FORGE) と命名。この2つを経ることで、元のデータと類似したデータの生成を試みた。
- この決定木が生成と識別を繰り返し、データの構造的特性を徐々に学習する。
※ ARFは厳密にはGANではなく、一般的なGANと異なる点がある。
- ARFでは生成器は学習されず、生成器と識別器は同じパラメータを共有する。
  - すなわち、ARFの生成器は厳密には何も学習しない。識別器が学習したことを利用している。
- ARFが生成するデータは元のデータのブートストラップのようなもの
  - = 全く新しいデータの生成ではない (それが目的ではない)

評価指標

n=2000の3次元データ (上) から密度を推定→その推定密度からデータを生成 (下)。元のデータの分布をおおよそ再現できている (Fig.1)
7つのベンチマークデータセットを用い、元データの再現度合いを比較 (Table.1)
- CTGANとTVAEの実行時間はGPUを用いての時間。FORGEは10 CPU coreを並列に動かしての時間。提案手法は100倍高速。
- 提案手法の精度が多くのベンチマークで最高。
- 提案手法ではモデルのチューニングは行っていない。

残された課題・議論

ARFは画像やテキストなどの構造化データには適応していない。(VAEやGANとは異なる)
生成モデルに共通の課題として、倫理の問題。
- フェイクデータセットが作れてしまう。
- 一方で、提案手法を使えば、個人情報が除かれた元データセットに似たデータセットを作ることができ、プライバシーを保護しながらのデータ分析が行いやすくなるかもしれない。
  - しかしその背景には現実の人がいるわけで。現在の、特にお絵かきAI周りで起こっている、「学習データの権利」をめぐる問題も起こりそう。
  - 最近話題になっている「学習データが復元できてしまう問題」は起こらないのか？
    - ARFの仕組みからして起こりづらい？要検討。
      - 厳密には元のデータ自体を学習しているのではなく、その分布を学習している？
        
        分布がわかれば元のデータを復元したのと実質同じとも考えられる？
レコード数が少ないテーブルデータのAugmentationに使えるかもしれない
- 元のデータのブートストラップに過ぎないので、元データに偏りがある場合はうまく機能しない。
- 出されている例が n = 2000等の世界なので、n = 50 ~ 500程度の「実際の現場で現状困っている」状態にも適用できるかは未知数。
しかし、課題に注意をすれば、「軽量」「テーブルデータ」に適用できるモデルということで、応用の範囲はとても広いと想像される。

重要な引用

Unsupervised Random Forest
- Shi, Tao, and Steve Horvath. 2006. “Unsupervised Learning with Random Forest Predictors.” Journal of Computational and Graphical Statistics 15 (1): 118–38. https://doi.org/10.1198/106186006x94072.
Classification and regression tree
- Leo Breiman, Jerome Friedman, C. J. Stone, and R. A. Olshen. Classification and Regression Trees. Taylor & Francis, Boca Raton, FL, 1984.
- Ram, Parikshit, and Alexander G. Gray. 2011. “Density Estimation Trees.” In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 627–35. KDD ’11. New York, NY, USA: Association for Computing Machinery. https://dl.acm.org/doi/10.1145/2020408.2020507
- Wu, Ke, Kun Zhang, Wei Fan, Andrea Edwards, and Philip S. Yu. 2014. “RS-Forest: A Rapid Density Estimator for Streaming Anomaly Detection.” Proceedings / IEEE International Conference on Data Mining. IEEE International Conference on Data Mining 2014: 600–609. http://dx.doi.org/10.1109/ICDM.2014.45
- Correia, Alvaro, Robert Peharz, and Cassio P. de Campos. 2020. “Joints in Random Forests.” Advances in Neural Information Processing Systems 33: 11404–15. https://proceedings.neurips.cc/paper/2020/hash/8396b14c5dff55d13eea57487bf8ed26-Abstract.html

Clarifying Trust of Materials Property Predictions Using Neural Networks with Distribution-Specific Uncertainty Quantification

Gruich, Cameron, Varun Madhavan, Yixin Wang, and Bryan Goldsmith. 2023. “Clarifying Trust of Materials Property Predictions Using Neural Networks with Distribution-Specific Uncertainty Quantification.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2302.02595.

機械学習を用いた材料開発の効率化には不確実性の適切な評価が重要。
Open Catalyst 2020の触媒データを対象に、ニューラルネットワークによる触媒性質の予測モデルを構築。そして予測の不確実性の定量手法3種を比較。
Evidential regressionが最適と結論。さらにRecalibrationを行うことで不確実性の信頼性が向上。
用いられた評価方法は材料科学に限らず機械学習による予測の信頼性評価に広く応用可能。

雑にまとめると「"k-fold分割してAccuracy見て評価" よりも良いモデルの評価方法がある」というお話。実務のみならずコンペでも生きそう。
「モデルが良い精度のアウトプットを返す」に加え、「その精度がどの程度信頼できるのか」という指標も得られる点が紹介されている手法群の強み。

Abstract

It is critical that machine learning (ML) model predictions be trustworthy for high-throughput catalyst discovery approaches. Uncertainty quantification (UQ) methods allow estimation of the trustworthiness of an ML model, but these methods have not been well explored in the field of heterogeneous catalysis. Herein, we investigate different UQ methods applied to a crystal graph convolutional neural network (CGCNN) to predict adsorption energies of molecules on alloys from the Open Catalyst 2020 (OC20) dataset, the largest existing heterogeneous catalyst dataset. We apply three UQ methods to the adsorption energy predictions, namely k-fold ensembling, Monte Carlo dropout, and evidential regression. The effectiveness of each UQ method is assessed based on accuracy, sharpness, dispersion, calibration, and tightness. Evidential regression is demonstrated to be a powerful approach for rapidly obtaining tunable, competitively trustworthy UQ estimates for heterogeneous catalysis applications when using neural networks. Recalibration of model uncertainties is shown to be essential in practical screening applications of catalysts using uncertainties.

(DeepL翻訳)

ハイスループットな触媒探索を行うためには、機械学習（ML）モデルの予測値が信頼できるものであることが重要である。不確実性定量化（UQ）法は、MLモデルの信頼性を推定することができるが、不均一系触媒の分野ではまだ十分に検討されていない。ここでは、既存の最大規模の不均一系触媒データセットであるOpen Catalyst 2020 (OC20) データセットから、合金への分子の吸着エネルギーを予測するために、結晶グラフ畳み込みニューラルネットワーク (CGCNN) に適用するさまざまなUQ手法を検討する。吸着エネルギー予測には、k-foldアンサンブル、モンテカルロドロップアウト、エビデンス回帰という3つのUQ手法を適用した。各UQ法の有効性は、精度、シャープネス、分散、キャリブレーション、タイトネスに基づいて評価される。エビデンシャル回帰は、ニューラルネットワークを使用した場合、不均一系触媒のアプリケーションにおいて、調整可能で競争上信頼できるUQ推定値を迅速に得るための強力なアプローチであることが実証された。不確実性を利用した触媒の実用的なスクリーニングアプリケーションでは、モデルの不確実性の再キャリブレーションが不可欠であることが示された。

データセット

Open Catalyst 2020

解決した課題/先行研究との比較

機械学習を用いた材料開発の研究・応用が進んでいる。本論文では触媒の開発にフォーカス。
触媒性質予測モデルの開発が進み、予測の高精度化は進んできた。一方で、予測結果がどれほど信頼できるものかは明確にしにくかったり、計算量的に現実的でなかったりといった課題があった。

技術・手法のポイント

本論文ではOpen Catalyst 2020データセットを対象に、以下の3つの手法を比較した。具体的な方法については引用文献参照。
- k-fold ensembling (Cross-validationのようにk分割→k個のモデルの出力をアンサンブル)
- Monte Carlo dropout
- Evidential regression
いずれの手法も予測値が複数出力されるため、それらの平均値μと標準偏差σを求めることができる。
ニューラルネットワーク (Crystal Graph Convolutional Neural Network: CGCNN) をトレーニング→入力データに対する予測値と、その平均値、標準偏差を出力→予測の不確実性を定量評価。

評価指標

以下の項目で不確実性を定量。図はその結果を示す。

Accuracy
- 予測値が実測値とどの程度ずれているかの指標。具体的には、MAE, RMSE, MDAE, MARPD, R^2, Rのこと。
- Evidential Regressionが最も良い
Sharpness/Dispersion
- Sharpness: 論文中の数式(7)。分散の平均の平方根。
- Dispersion: IQR (第3四部位数 - 第1四部位数), 変動係数 (Coefficient of variation: 標準偏差/平均)。
- いずれも予測値にどの程度幅があるかの指標。数字が大きい = 予測結果に幅がある = 人が選ぶ選択肢が増える = 良いこと、と主張。
  - （サマリー作者談：この主張が適切かは自身の目的によるだろう。Materials Informaticsにおいては結果の多様性が重要となるケースも多い。）
- Evidential Regressionが最も良い
Calibration
- 予測結果の発生確率分布と、実際の発生確率分布が、どの程度近いか？
  - Accuracyは"値"の比較、Calibrationは"分布"の比較。
- Reliability diagram plot: 実測値と予測値の平均値の差（をノーマライズしたもの）をプロット。
  - 対角線に沿っている = 予測値と実測値がった点で表されるモデルがよりcalibrateされているといえる。
- "Re-calibration"とは、不確実性の推定を改善するための後処理。
  - scikit-learnに入っているBrent’s methodを使用。
  - The constant was chosen via a black-box optimization algorithm
- Reliability diagram plot (ハイパーパラメータによる差)
  - (a) デフォルトではMC-Dropout がベスト。(b, c) パラメータ調整によりEvidential Regressionがベストに。
- Reliability diagram plot (Re-calibration前後の比較)
  - Recalibrationはいずれの手法にも有効にはたらき、ミスキャリブレーションの問題は小さくなる。
Tightness
- 予測値の幅が必要十分か。
- 不確実区間 (予測値の平均μと標準偏差σから、予測値が正規分布に従うと仮定し導出) を1~99%まで1%刻みで数値化し、「それぞれの幅」と「実測値との距離」の比の対数値をとり、99個の数字の平均をとり、正負逆転させたもの。数値が小さいほど良い。
- Evidential Regressionが最も良い。

ほぼすべての指標で、Evidential regression が最も高精度に不確実性を推定できていた。

残された課題・議論

トレーニングデータがテストデータを代表する (トレーニングデータとテストデータの性質が同じ)と仮定しているため、常に適切な推定ができるとは限らないと指摘している。
小規模なデータセットの場合、信頼性の低い予測が得られる可能性があるとも議論。
- すなわち、一般的な機械学習モデル、Cross-validationに対して言われる話と同じ。

重要な引用

ニューラルネットワークを用いた予測における不確実性の定量に関する総説
- Abdar, Moloud, Farhad Pourpanah, Sadiq Hussain, Dana Rezazadegan, Li Liu, Mohammad Ghavamzadeh, Paul Fieguth, et al. 2020. “A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2011.06225.
MIにおけるニューラルネットワーク予測の不確実性定量手法の先行研究
- Tran, Kevin, Willie Neiswanger, Junwoong Yoon, Qingyang Zhang, Eric Xing, and Zachary W. Ulissi. 2019. “Methods for Comparing Uncertainty Quantifications for Material Property Predictions.” arXiv [cond-Mat.mtrl-Sci]. arXiv. http://arxiv.org/abs/1912.10066.
- Hu, Yuge, Joseph Musielewicz, Zachary Ulissi, and Andrew J. Medford. 2022. “Robust and Scalable Uncertainty Estimation with Conformal Prediction for Machine-Learned Interatomic Potentials.” arXiv [physics.chem-Ph]. arXiv. http://arxiv.org/abs/2208.08337.
k-fold ensemblingについて
- Dietterich, Thomas G. 2000. “Ensemble Methods in Machine Learning.” In Multiple Classifier Systems, 1–15. Springer Berlin Heidelberg.
- Lakshminarayanan, Balaji, Alexander Pritzel, and Charles Blundell. 2017. “Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles.” Advances in neural information processing systems.
- Liu, Jeremiah Zhe, John Paisley, Marianthi-Anna Kioumourtzoglou, and Brent Coull. 2019. “Accurate Uncertainty Estimation and Decomposition in Ensemble Learning.” Advances in neural information processing systems.
Monte Carlo dropoutについて
- Gal, Yarin, and Zoubin Ghahramani. 2015. “Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1506.02142.
Evidential regressionについて
- Amini, Alexander, Wilko Schwarting, Ava Soleimany, and Daniela Rus. 2020. “Deep Evidential Regression.” Advances in neural information processing systems.
- Soleimany, Ava P., Alexander Amini, Samuel Goldman, Daniela Rus, Sangeeta N. Bhatia, and Connor W. Coley. 2021. “Evidential Deep Learning for Guided Molecular Property Prediction and Discovery.” ACS Central Science 7 (8): 1356–67.
Calibrationについて
- Gneiting, Tilmann, Fadoua Balabdaoui, and Adrian E. Raftery. 2007. “Probabilistic Forecasts, Calibration and Sharpness.” Journal of the Royal Statistical Society. Series B, Statistical Methodology 69 (2): 243–68.
- Gneiting, Tilmann, and Matthias Katzfuss. 2014. “Probabilistic Forecasting.” Annual Review of Statistics and Its Application 1 (1): 125–51.
- Guo, Chuan, Geoff Pleiss, Yu Sun, and Kilian Q. Weinberger. 06--11 Aug 2017. “On Calibration of Modern Neural Networks.” In Proceedings of the 34th International Conference on Machine Learning, edited by Doina Precup and Yee Whye Teh, 70:1321–30. Proceedings of Machine Learning Research. PMLR.
- Levi, Dan, Liran Gispan, Niv Giladi, and Ethan Fetaya. 2022. “Evaluating and Calibrating Uncertainty Prediction in Regression Tasks.” Sensors 22 (15). https://doi.org/10.3390/s22155540.
- Pernot, Pascal. 2022. “The Long Road to Calibrated Prediction Uncertainty in Computational Chemistry.” The Journal of Chemical Physics 156 (11): 114109.
Recalibrationについて
- Zhao, Shengjia, Tengyu Ma, and Stefano Ermon. 13--18 Jul 2020. “Individual Calibration with Randomized Forecasting.” In Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, 119:11387–97. Proceedings of Machine Learning Research. PMLR.
- Pedregosa, Fabian. 2011. “Scikit-Learn: Machine Learning in Python.” Journal of Machine Learning Research: JMLR 12: 2825–30.
Tightnessについて
- Gneiting, Tilmann, and Adrian E. Raftery. 2007. “Strictly Proper Scoring Rules, Prediction, and Estimation.” Journal of the American Statistical Association 102 (477): 359–78.

All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text

Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, and Noah A. Smith. 2022. “All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text.” arXiv:2107.00061 [cs.CL]. https://arxiv.org/abs/2107.00061.

言語モデルが生成したテキストの評価を人間が行っているが、そもそもそれ（'Human' Is Gold）でよいのか？と警鐘を鳴らす論文
人間が書いた文章と機械（GPT-2, 3）が書いた文章の識別タスクを評価者に実施してもらった結果、約半数は見分けがつかないことを実証
評価者を訓練すれば区別できるようになるのでは？ → 訓練しても正答率は微増に留まり、統計的な有意差は確認されなかった
だから、そもそも評価方法を再考しようねと提言

Abstract

Human evaluations are typically considered the gold standard in natural language generation, but as models' fluency improves, how well can evaluators detect and judge machine-generated text? We run a study assessing non-experts' ability to distinguish between human- and machine-authored text (GPT2 and GPT3) in three domains (stories, news articles, and recipes). We find that, without training, evaluators distinguished between GPT3- and human-authored text at random chance level. We explore three approaches for quickly training evaluators to better identify GPT3-authored text (detailed instructions, annotated examples, and paired examples) and find that while evaluators' accuracy improved up to 55%, it did not significantly improve across the three domains. Given the inconsistent results across text domains and the often contradictory reasons evaluators gave for their judgments, we examine the role untrained human evaluations play in NLG evaluation and provide recommendations to NLG researchers for improving human evaluations of text generated from state-of-the-art models.

(DeepL翻訳)

自然言語生成において、人間の評価は一般的にゴールドスタンダードと考えられているが、モデルの流暢性が向上するにつれ、評価者は機械が生成したテキストをどれだけ検出し判断できるのだろうか？我々は、3つのドメイン（ストーリー、ニュース記事、レシピ）において、非専門家が人間が作成したテキストと機械が作成したテキスト（GPT2とGPT3）を区別する能力を評価する研究を実施した。その結果、訓練なしでも、評価者はGPT3と人間作成のテキストをランダムな確率レベルで区別することがわかった。また、GPT3が作成したテキストをより適切に識別するために、3つのアプローチ（詳細な説明、注釈付き例、ペア例）を検討し、評価者の精度が最大55%向上するものの、3つのドメインで有意な向上が見られないことを発見しました。テキストドメイン間で一貫性のない結果と、評価者が判断した理由がしばしば矛盾していたことから、訓練されていない人間の評価がNLG評価において果たす役割を検証し、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行う。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

GPT-2, 3 と言語モデルの発展につれて、どんどん流暢な文章が生成可能になってきたが、果たして人間は言語モデルが生成した文章と人間が書いた文章を見分けられるだろうか？という疑問からスタート


あなた自身は、これを人間が書いた文章なのかAIが書いた文章なのか見抜けますか？（正解は本論文のFig.1参照）

人間の言語モデル識別能力に関して調査した以下のような先行研究が存在
- GPT2-L が生成したテキストを、訓練された評価者でも、約30%は「これは人間が書いた」と識別してしまう (Ippolito et al., 2020)
- GPT3-davinci が生成したニュース記事を、評価者は約50%の確率で「これは人間が書いた」と識別してしまう (Brown et al., 2020)
本論文は「評価の設定・データ・参加者を変えて調査してみた」という、上記の派生系の1種としての位置づけ。特にいずれかを否定する趣旨ではない

本論文内で直接解決した課題はなく、今後はこうすべきという提言に留まる（詳細は後述）

評価指標

人間が書いた文章と機械（GPT-2, GPT-3）が書いた文章が（当然、各文章を人間と機械のいずれが書いたかは非公開の状態で）計5つ提示されるので、評価者はそれぞれを4段階で評価 + なぜそう思ったかのコメントを残す
- Definitely human-written
- Possibly human-written
- Possibly machine-generated
- Definitely machine-generated
評価者はAmazon Mechanical Turk (AMT)で収集
- 言語面でのアンバランスが生じないように→米国在住の方に限定
- 雑な評価をしないように→1,000以上のAMTタスクを完了＆95%以上の合格率を持つ方に限定
2つの条件下でそれぞれ実験
- いずれの条件の場合も評価者一人あたりは計30文章を評価する
  - 3ドメイン（①物語、②ニュース記事、③料理のレシピ）
  - 2モデル（GPT-2, GPT-3）
  - 5つの文章が提示される
  - ∴ 3 x 2 x 5 = 30
- 評価前の訓練なし: 130名
- 評価前の訓練あり: 195名（上記130名とは完全に別）


訓練1 インストラクション	訓練2 例示	訓練3 比較

結果

GPT-2の書いた文章と人間の書いた文章の判別: 正答率 57.9%
GPT-3の書いた文章と人間の書いた文章の判別: 正答率 49.9% → 約半数の文章は見分けがついていない
このようにGPT-2→GPT-3にモデルが変わると正答率は10pt近く減少するにも関わらず、「自信を持って回答した率」は有意に減少しない → 生成モデルの能力を過小評価している

appendix tab.5 の和訳。機械が書いた文章に対して「これは人間が書いた文章だ」を思った評価者による、なぜそう思ったかのコメント一覧
訓練ありのとき、訓練なしのときよりも正答率はわずかに向上。しかし、統計的な有意差はナシ
- 一応、3つの訓練の中で最も効果的だったのは、訓練内容②の例示


appendix tab.5 の和訳。機械が書いた文章に対して「これは人間が書いた文章だ」を思った評価者による、なぜそう思ったかのコメント一覧

残された課題・議論

タイトルの通り 'Human' Is Not Gold であることが実証されたため、言語モデルの評価方法を再検討すべきと提言。代替の方法として挙げられているのは以下
- TuringAdvice: 有用なアドバイスを生成する能力で評価 (Zellers et al., 2021)
- RoFT: 評価者に推測ゲームを通して、人間と機械が生成したテキストの境界を決定させる (Dugan et al., 2020)
- 生成されたテキストを用いて物語を書かせて評価 (Clark and Smith, 2021. Akoury et al., 2020.)
- 論文内では上記のどれが推奨等は言及なく、その検討自体は残された課題と言えよう
どうしても本論文と同じような条件下で人間による評価が必要な場合は、評価者を例題で訓練することを推奨
- 評価者が暗黙のうちに持っている評価基準が、研究者の意図するものとずれている可能性があるため
  - 本論文内の実験でも、評価者に対して事前の訓練を施すことで（わずかではあるが）評価精度が向上した
- また、評価者に与えた指示と訓練の詳細を論文に含めることを推奨

参考情報

北海道大学調和系工学研究室平田氏によるサマリー (Slideshare)

Censoring Chemical Data to Mitigate Dual Use Risk

Campbell, Quintina L., et al. “Censoring Chemical Data to Mitigate Dual Use Risk.” arXiv [cs.LG], 20 Apr. 2023, http://arxiv.org/abs/2304.10510. arXiv.

機械学習モデルの悪用を防ぐためにはどうすればよいか？という観点での仕事。
- 例：創薬のための機械学習モデルを悪用すれば毒物も作れてしまう。
センシティブなデータの説明変数にガウシアンノイズを加えることで、センシティブなデータの予測精度を選択的に悪化させることができた。

Abstract

The dual use of machine learning applications, where models can be used for both beneficial and malicious purposes, presents a significant challenge. This has recently become a particular concern in chemistry, where chemical datasets containing sensitive labels (e.g. toxicological information) could be used to develop predictive models that identify novel toxins or chemical warfare agents. To mitigate dual use risks, we propose a model-agnostic method of selectively noising datasets while preserving the utility of the data for training deep neural networks in a beneficial region. We evaluate the effectiveness of the proposed method across least squares, a multilayer perceptron, and a graph neural network. Our findings show selectively noised datasets can induce model variance and bias in predictions for sensitive labels with control, suggesting the safe sharing of datasets containing sensitive information is feasible. We also find omitting sensitive data often increases model variance sufficiently to mitigate dual use. This work is proposed as a foundation for future research on enabling more secure and collaborative data sharing practices and safer machine learning applications in chemistry.

(DeepL翻訳)

機械学習アプリケーションの二重使用は、モデルが有益な目的にも悪意のある目的にも使用される可能性があるため、重要な課題となっている。化学分野では、機密性の高いラベル（毒物学的情報など）を含む化学データセットが、新規毒物や化学兵器を特定する予測モデルの開発に利用される可能性がある。二重使用のリスクを軽減するために、有益な領域でディープニューラルネットワークを学習するためのデータの有用性を維持しながら、データセットを選択的にノイズ化するモデル不可知論的な方法を提案する。提案手法の有効性を最小二乗法、多層パーセプトロン、グラフニューラルネットワークで評価する。我々の知見は、選択的にノイズ化されたデータセットが、制御可能なセンシティブなラベルに対する予測において、モデルの分散とバイアスを誘導できることを示しており、センシティブな情報を含むデータセットの安全な共有が実現可能であることを示唆している。また、センシティブなデータを省略することで、モデルの分散が十分に増加し、二重利用が緩和されることもわかった。この研究は、より安全で協調的なデータ共有の実践と、化学におけるより安全な機械学習アプリケーションを可能にするための将来の研究の基礎として提案される。

コード

https://github.com/ur-whitelab/chem-dual-use

解決した課題/先行研究との比較

機械学習を用いた新規材料や素材の開発が注目を集めている。
機械学習を使うと「理想の物性を持つ物質」を探すことができるが、技術的には悪用することも可能。
- 例：創薬のためのモデルを使って毒物を探索する。
- こうしたリスクを dual-use risks of predictive chemistry (DURPC) と論文では呼称。
DURPCの軽減を目指し様々なアプローチが取られてきたが、十分な成果は挙げられていない。
- 入出力のフィルタリング → オープンソースになるとユーザーがフィルターを外せてしまう。
- センシティブなラベル空間（例えば毒性を持つ物質）の予測精度を下げる仕組みを組み込む → 毒と薬は表裏一体、本来の目的にまで影響が出てしまう。また、ユーザーが悪意を持ったfine-tuningを行えば意味がなくなってしまう。
- モデル学習の際にデータセットからセンシティブなものは除いてしまう → モデルの精度が高くなれば外挿の予測もある程度予測できるようになる。そのためデータからセンシティブなものを除いてもDUPRCの解決にはならない。
本論文ではセンシティブなデータにノイズを加えることでDURPCが緩和されることを示した。

技術・手法のポイント

基本的なアプローチは、センシティブなデータの予測精度を下げること。
センシティブとフラグのついたデータの、説明変数のみに平均0のガウシアンノイズを加え、モデルを学習させた。

評価指標

多層パーセプトロンとグラフ畳み込みネットワークでノイズ付与の効果を検証。
下図は多層パーセプトロンでの結果 (Fig.3)。true labelが正のデータにノイズを付与。
ノイズを説明変数のみに加えたとき (c)、ノイズが加わったデータのMSEが極端に悪化している。

残された課題・議論・感想

センシティブなデータというのは得てして少量データになりがち。提案手法を使えば選択的にDURPCを最小限に押さえながら貴重なデータセットを研究者間で共有しやすい下地を作ることができるかもしれない。
- データを使う人からすると、どのデータにノイズが付与されているのかがわからないため、渡す側は安全に共有しやすい。
手を加えるのはデータのみなので、モデルのアーキテクチャに関係なく可用性がある。
- 本論文ではニューラルネット系以外での検証は行われていないが。

実践的には「センシティブ」ラベルをどう付けるかが課題になりそう。毒性 = 薬効であるため、データセットを作ったときの評価軸で都合の悪いものを一律「センシティブ」としてしまうと、将来「この毒性を薬として活用したい」というニーズが出てきたときに使えないデータセットになることもありえるのではないだろうか。

重要な引用

本論文以外のDURPCの削減に向けた取り組み
- N. Maus, P. Chao, E. Wong, and J. Gardner, “Adversarial prompting for black box foundation models,” arXiv preprint arXiv:2302.04237, 2023.
- J. Rose, “OpenAI’s new chatbot will tell you how to shoplift and make explosives. vice,” 2022.
- A. M. Bran, S. Cox, A. D. White, and P. Schwaller, “Chemcrow: Augmenting large-language models with chemistry tools,” arXiv preprint arXiv:2304.05376, 2023.
- D. A. Boiko, R. MacKnight, and G. Gomes, “Emergent autonomous scientific research capabilities of large language models,” arXiv preprint arXiv:2304.05332, 2023.
- J. Kirchenbauer, J. Geiping, Y. Wen, J. Katz, I. Miers, and T. Goldstein, “A watermark for large language models,” 2023.
- E. Mitchell, P. Henderson, C. D. Manning, D. Jurafsky, and C. Finn, “Self-destructing models: Increasing the costs of harmful dual uses in foundation models,” 2022.
- S. Chen, D. Xue, G. Chuai, Q. Yang, and Q. Liu, “FL-QSAR: a federated learning-based QSAR prototype for collaborative drug discovery,” Bioinformatics, vol. 36, no. 22-23, pp. 5492–5498, 2020.
- F. Urbina, F. Lentzos, C. Invernizzi, and S. Ekins, “Dual use of artificial-intelligence-powered drug discovery,” Nature Machine Intelligence, vol. 4, pp. 189–191, Mar. 2022. Number: 3 Publisher: Nature Publishing Group.

Language Models Are Few-Shot Learners

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.

2020年にOpenAIのチームが発表した仕事、GPT-3。そのインパクトは言わずもがな。
NeurIPS ProceedingsバージョンとarXivバージョンがある。本稿ではNeurIPSバージョンを参照する。
- NeurIPSバージョンはarXivバージョンの短縮版（arXiv: 75ページ → NeurIPS: 25ページ）
- 後半の構成も少し異なる
1750億のパラメータ + 少数の教師データ (Few-shot learning)を用いることで多くのNLPタスクで良い成績を出した
- 教師データが少数で良い (10~100例)ので、汎用的に使いやすい！
すでにGPT-3をベースにした様々な応用が世に出ている
- 簡単なテキストによる指示でプログラミングコードを生成 (OpenAI Codex) → GitHub Copilotの裏側はこれ
- 簡単なテキストによる指示でキャッチコピー生成 (Catchy, Copy.ai)
- などなど、他にも多数: https://gpt3demo.com/

Abstract

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even becoming competitive with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks. We also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora.

(DeepL翻訳)

我々は、言語モデルをスケールアップすることで、タスクにとらわれない少数ショット性能が大幅に向上し、場合によっては、従来の最先端微調整アプローチと競合できることを実証する。具体的には、従来のノンスパース言語モデルの10倍にあたる1750億個のパラメータを持つ自己回帰型言語モデルGPT-3を学習し、その性能を少数点学習でテストします。全てのタスクにおいて、GPT-3は勾配の更新や微調整を行わず、タスクと数ショットのデモは純粋にモデルとのテキスト対話によって指定される。GPT-3は翻訳、質問応答、クロージングタスクを含む多くのNLPデータセットで高い性能を達成する。また、GPT-3のスモールショット学習が苦手とするデータセットや、GPT-3が大規模ウェブコーパスの学習に関する方法論的な問題に直面しているデータセットも確認することができます。

コード

非公開、APIのみ提供

解決した課題/先行研究との比較

自然言語処理技術は、タスクに特化した「表現の学習」や「アーキテクチャの "設計" 」から、タスクに依存しない「事前学習」「アーキテクチャの "使用"」へと移行してきてる。
GPT-2はPre-trainedのモデルに "Translate English to French" のように、実行したいタスクを指示するだけ（= そのタスク用のFine-tuningは一切なし）で、標準的なNLPタスクをある程度の精度で実行できることを実証した。
しかしその性能はほとんどのタスクにおいて、最良の場合でも単純な教師ありベースラインにも遠く及ばないものであった。
本論文の手法「GPT-3」は以下の工夫で、いくつかのタスクにおいてSOTAに匹敵する精度を達成した。

技術・手法のポイント

事前学習アプローチやモデルのアーキテクチャはGPT-2論文 (Radford et al., 2019) と基本的には同じ
GPT-2との違いとして
- データ数が多く、より多様に
- パラメータ数が多い (GPT-2: 1.5B; GPT-3: 175B)
- Few-shot (10~100例) learning

arXiv版Fig.2.1

XXXX-shotのXXXXはモデルに見せるデモンストレーションの数。
- すなわち、難易度的の高さ的には Zero-shot > One-shot > Few-shot
GPT-2はZero-shot, GPT-3はFew-shot
- GPT-2で高い性能が得られなかった要因の一つは、Zero-shotという難易度の高いタスク設計にしていたため
- GPT-2でも少数の例が提示されている？
  - sometimes provide examples of the relevant task in the context
  - この “sometimes” をどう解釈したらよいのかがわからない。
GPT-3は少数の教師データのみで、高い精度でのタスク実行に成功した。

評価指標

Table 3

以下はGPT-3 Few-shotでSOTA

LAMBDA dataset ... GPT-3がSOTAに
TriviaQS ... GPT-3がSOTAに

以下もSOTAでは無いがそこそこ良い

StoryCloze
HellaSwag
WebQS
CoQA
BLEU

ここから下では Fine-tuned などSOTAと割と差がある

NaturalQS
ARC (Easy)
ARC (Challenge)
DROP
SuperGLUE

「そこそこ」「割と」というのは定性的な評価なので、ちゃんと数字でみること。

残された課題・議論

Fine-tuningしたときほどの精度は出ない
同じ意味の文章を繰り返してしまうことがある。
"世の中" に関するコンテキストを欠いている。(See Bisk et al., arXiv 2020)
サイズがものすごく大きいので、広く実用化させるのが難しい。
(GPT-3に限った話ではないが) 差別表現が入ってしまう

重要な引用

GPT-2
- Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
「世の中」に関するコンテキストをどう与えるか
- Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
  - 査読済版：Bisk, Yonatan, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, et al. 2020. “Experience Grounds Language.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8718–35. Online: Association for Computational Linguistics.

参考情報

SlideShare - 深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
SlideShare - ゼロから始める転移学習
楽しみながら理解するAI・機械学習入門 - 【論文解説】OpenAI 「GPT-3」を理解する
Japlo - GPT-3から我々は何を学べばいいのか
Twitter - OpenAI CEOのツイート
Zenn - GPT-3におけるFew-Shot・Zero-Shot
- XXXX-shotという言葉について。同じ機械学習の文脈で、それぞれ別の意味合いで使われる場合があるので注意が必要。

Attention Is All You Need

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.

Google Brainが2017年に報告した仕事
機械翻訳のためのモデルとして報告。
- 従来の主流であったRecurrent層をAttentionに置き換えたアーキテクチャで機械翻訳に挑戦
- 「高速な学習＆推論」が特長
本論文の公開後、翻訳に限らず様々なタスクに応用できることがわかり大流行
- BERT, GPT, DALL-E, Vision Transformer, etc...　
行列の強さを思い知る楽しい論文

Abstract

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

(DeepL翻訳)

配列変換モデルの主流は、エンコーダーとデコーダーの構成による複雑なリカレントニューラルネットワークや畳み込みニューラルネットワークに基づいています。また、最も性能の良いモデルは、注意メカニズムを介してエンコーダとデコーダを接続している。我々は、リカレントや畳み込みを完全に排除し、アテンション機構のみに基づく新しいシンプルなネットワークアーキテクチャ、トランスフォーマーを提案する。2つの機械翻訳タスクで実験した結果、これらのモデルは品質が優れている一方で、より並列化可能であり、学習時間が大幅に短縮されることがわかった。我々のモデルは、WMT 2014英語-ドイツ語翻訳タスクで28.4BLEUを達成し、アンサンブルを含む既存の最良結果を2BLEU以上上回りました。WMT 2014英仏翻訳タスクにおいて、我々のモデルは8GPUで3.5日間学習した後、41.8という新しい単一モデルの最新BLEUスコアを確立し、文献から得られた最良のモデルの学習コストのごく一部であることを示した。我々は、Transformerが他のタスクにうまく一般化することを、大規模および限られた学習データの両方で英語の構成語解析にうまく適用することで示す。

コード

https://paperswithcode.com/paper/attention-is-all-you-need#code

解決した課題/先行研究との比較

機械翻訳タスクにおいて、本論文以前はlong short-term memory (ref. 13) や gated recurrent neural networks (ref. 7) などを用いた再帰的な言語モデルが主流であった → 逐次計算のために並列計算が行えず、計算時間がものすごくかかる
近年、Attention機構が報告され、様々なタスクにて良い成果を出すことが報告されていた (refs. 2, 19)
しかし、多くのAttention機構はリカレントネットワークと組み合わせて使われていた。
本論文はAttention機構をリカレントネットワークから独立させたアーキテクチャ "Transformer" を提案した。

技術・手法のポイント

エンコーダ・デコーダモデル
従来のLSTM, RNN翻訳モデルで主流であったRecurrent層を用いず、Attentionだけで実装。
予測箇所の直前までの単語 (正しくはトークン) を入力として入れて、予測箇所に各単語が入る確率が出力となる。
Attentionという仕組み
- Query (Q), Key (K), Value (V) の組み合わせ。
- Qが入力、Vが出力 (のベース)。
- QとKの類似度（= 内積）に応じた重みをVにかけて出力とする。
- こちらのページの画像がイメージを掴みやすい。
Multi-head attention
- KとVの学習に使うのが、"Multi-head" Attention.
- ここの説明はアイシアさんの説明を見てもらうのが最も雰囲気を掴みやすいと思います。
- 下の図のような構造で使用される。

評価指標

BLEU 英→独翻訳, 英→仏翻訳でstate-of-the-art (SOTA)
構文解析 (WSJ 23 F1) でSOTAに近いスコア
さらに、トレーニングにかかる計算コストも、既存のモデルと比較し4~100倍小さい

残された課題・議論

未知の長さの文章に対してはうまく汎化できない
- 単語 (正しくはトークン) の位置表現の手法として、SHAPE (Kiyono et al., EMNL 2021) などが提唱されている
  参考：より良いTransformerをつくる

重要な引用

Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. 2014. “Neural Machine Translation by Jointly Learning to Align and Translate.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1409.0473.
- Attention機構の初出論文
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. 2014. “Sequence to Sequence Learning with Neural Networks.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1409.3215.
Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. 2015. “Effective Approaches to Attention-Based Neural Machine Translation.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1508.04025.
- AttentionとRNNのあわせ技論文

参考情報

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

Power, Alethea, Yuri Burda, Harri Edwards, Igor Babuschkin, and Vedant Misra. 2022. “Grokking: Generalization beyond Overfitting on Small Algorithmic Datasets.” ArXiv:2201.02177 [Cs], January. http://arxiv.org/abs/2201.02177.
‌

Attentionモデルでは過学習した先にさらに学習を続けることで汎化し始める現象を確認した。本論文では、この汎化性能の獲得のことを「Grokking」と呼んでいる。
データセットが少ないほど、Grokkingするまでの学習回数が増加する。
汎化に有効な手法として確認できたのは、weight_decayの導入と最適化プロセスのノイズ付与。

Abstract

In this paper we propose to study generalization of neural networks on small al- gorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great de- tail. In some situations we show that neural networks learn through a process of “grokking” a pattern in the data, improving generalization performance from random chance level to perfect generalization, and that this improvement in general- ization can happen well past the point of overfitting. We also study generalization as a function of dataset size and find that smaller datasets require increasing amounts of optimization for generalization. We argue that these datasets provide a fertile ground for studying a poorly understood aspect of deep learning: generalization of overparametrized neural networks beyond memorization of the finite training dataset.

(DeepL翻訳)

本論文では、アルゴリズムによって生成された小規模なデータセットにおけるニューラルネットワークの汎化について研究することを提案する。この設定では、データ効率、記憶、汎化、および学習速度に関する問題を非常に詳細に研究することができる。ある状況では、ニューラルネットワークがデータ中のパターンを「把握」するプロセスを通じて学習し、汎化性能をランダムな偶然のレベルから完全な汎化へと改善すること、そしてこの汎化の改善はオーバーフィッティングのポイントをはるかに超えて起こり得ることを示した。また、データセットサイズの関数として汎化を研究し、より小さなデータセットでは、汎化のための最適化量が増加することを発見した。我々は、これらのデータセットが、ディープラーニングの理解されていない側面、すなわち、有限のトレーニングデータセットの記憶を超えたオーバーパラメトリックニューラルネットワークの汎化を研究するための肥沃な土壌を提供すると主張する。

先行研究との比較

学習と汎化における先行研究では、ニューラルネットワークが記号・アルゴリズム推論を行う能力を調べるためにアルゴリズムデータセットが用いられてきた。本論文も同様のテーマで取り組んでいる。

ほとんどの先行研究ではモデルのアーキテクチャの選択による影響に焦点を合わせていたのに対して、本論文ではモデルのアーキテクチャを固定した実験として紹介している。

実験条件

データセット：
以下の配列（テーブル）構造の組み合わせから二項演算の方程式を推定させるデータセットとなっている。

他のマス同士の相関関係から方程式を推定させ、「？」の部分に当てはまる数値を予測させる。

二項演算の方程式のパターンは以下。

モデル：
２レイヤー、４つのAttentionヘッドを持つTransformerを使用（パラメータ数：4*10^5）

実験方法

上記実験条件のもと、モデルのアーキテクチャは変えずに以下の項目を変更しながら学習の汎化までの過程を観察した。

学習回数
データセットの増減

結果

訓練データを完全に記憶することができる点を超えた汎化の変化点（これをGrokkingと呼んでいる）が存在する現象を発見した。

Grokkingの現象を表すグラフを以下に示す。

左図より、赤(train)が急上昇しているタイミングで緑(val)は変化がないところから過学習していることがわかり、更にステップ数を増やしていくとvalの精度が急激に上昇していることがわかる。

また右図は精度が99%を超えるまでにかかるステップ数を縦軸、データセットの大きさを横軸にした相関を示しているが、データセットが小さいほどステップ数が多くなる傾向であることを示している。

汎化に有効な手法に関する発見

様々な汎化手法を試しており、どの汎化手法がGrokkingに効果的か調べた。

上記の結果から、効果的な技術と考えられるものは以下。

weight_decayの導入
最適化プロセスのノイズ付与（ミニバッチ時の勾配ノイズ付与、バッチ処理前後のガウシアンノイズ付与）

残された課題・議論・感想

課題

どの程度汎化できるかを予測するための目安（汎化できるかどうかの尺度）の検証調査

感想

Attentionを持たないDeep learningモデルでも同様の現象が起こるのは不明。
Grokkingに到達するための条件や勘所が不明。（学習回数はどこまでやる？論文内で効果があるもののどれを入れれば良い？etc..）
今回のようなアルゴリズムデータセット以外でも応用が可能なのか？（マルチモーダル化の伏線・・？）

重要な引用

Attention Is All You Need
　- 使用したモデルのベースとなるAttentionに関する論文。
DEEP DOUBLE DESCENT:WHERE BIGGER MODELS AND MORE DATA HURT
　- 学習の汎化に関する先行研究の一例。パラメータ数について言及している論文。

参考情報

Attention is All You NeedはAidemyで既にサマリー発行済み。

Dynamic Visualization of High-Dimensional Data

Sun, Eric D., et al. “Dynamic Visualization of High-Dimensional Data.” bioRxiv, 29 May 2022, p. 2022.05.27.493785, https://doi.org/10.1101/2022.05.27.493785.

本論文はNature Computational Scienceに受理されているが、本サマリーではbioRxiv版を参照している。

t-SNEやUMAPといった次元削減手法をより使いやすくする "DynamicViz" というフレームワークを構築。
ブートストラップサンプリングで一つのデータセットから複数の2次元プロットを作り比較することで、クラスター分類の堅牢性やクラスター間の繋がりの確実性、繋がりの順序やパターンのより厳密な議論を可能にしている。
ハイパーパラメータの最適化や次元削減アルゴリズムの選定などに使える "分散スコア (Variance Score)" という数値指標も提案。

提案手法は、計算時間がネックではあるが、これまでheuristicに行うことが一般的であった部分への数値指標導入や、解釈に至る道筋からの恣意性の削減など、既存の次元削減手法の弱みを上手くカバーしており、実践導入してみたいと思わせるフレームワークとなっている。

Abstract

Dimensionality reduction (DR) is commonly used to project highdimensional data into lower dimensions for visualization, which could then generate new insights and hypotheses. However, DR algorithms necessarily introduce distortions in the visualization and cannot faithfully represent all relations in the data. As such, there is a need for methods to assess the reliability of DR visualizations. Here we present DynamicViz, a framework for generating dynamic visualizations that capture the sensitivity of DR visualizations to perturbations in the data. DynamicVic can be applied to all commonly used DR methods. We show the utility of dynamic visualizations in diagnosing common interpretative pitfalls of static visualizations and extending existing single-cell analyses. We introduce the variance score to quantify the dynamic variability of observations in these visualizations. The variance score characterizes natural variability in the data and can be used to optimize DR algorithm implementations. We have made DynamicViz freely available to assist with the evaluation of DR visualizations.

(DeepL翻訳)

次元削減（DR）は、高次元のデータを低次元に投影して可視化し、新たな知見や仮説を生み出すために一般的に使用されています。しかし、DRのアルゴリズムは、必然的に可視化に歪みをもたらし、データ内のすべての関係を忠実に表現することができません。そのため、DRによる可視化の信頼性を評価する手法が必要とされている。ここでは、データの摂動に対するDR可視化の感度を把握する動的可視化を生成するフレームワークであるDynamicVizを紹介する。DynamicVicは、一般的に使用されているすべてのDR手法に適用することができます。静的可視化の解釈上の落とし穴を診断し、既存のシングルセル解析を拡張する上で、動的可視化の有用性を示す。これらの可視化において、観測値の動的な変動を定量化するために、分散スコアを導入する。分散スコアは、データの自然な変動を特徴付けるもので、DRアルゴリズムの実装を最適化するために使用することができます。DR可視化の評価を支援するために、DynamicVizを自由に利用できるようにしました。

コード

解決した課題/先行研究との比較

次元削減 (Dimensionality Reduction: DR) は高次元データの分析で用いられる。
DR適用の目的の一つにデータ可視化がある。高次元データを2, 3次元に落とせば、人の目でデータの分布を掴めるようになる。
特に代表的なものとして、以下の3つが挙げられる。
- Principal Component Analysis (PCA)
- t-distributed Stochastic Neighbor Embedding (t-SNE. van der Maaten and Hinton, 2008)
- Uniform Manifold Approximation and Projection (UMAP. Mclnnes et al., 2018)
しかしながら、結果や解釈に「歪み」が生じやすい手法でもある。
- 例：t-SNEとUMAPはパラメータ設定でいくらでも見た目を変えられる。
結果として、本来存在しないクラスターやデータ間の関係を見出してしまったり、重要な関係を見落としてしまったりする。
本論文ではデータ可視化フレームワーク "DynamicViz" を紹介。
- 動的な可視化により、静的な（従来の）手法よりもデータを定性・定量の両側面から厳密に考察できる。
- 新しいDR手法ではなく、既存のDR手法の拡張ツールと捉えるべき。
  - 用意されているコードは t-SNE, MDS, LLE, MLLE, Isomap, UMAP に対応している。

技術・手法のポイント

処理の流れとしては以下
- 入力データの形式としては他のDR手法と同じ。 $X$ とする。
- ブートストラップ方式でデータを抽出し、 $X$ と同じ列数のテーブルを $B$ 個作る。
  - 重複を許さないサブサンプリングだったり、ノイズを加えるだったりと言ったオプションも提供されている。
- $B+1$ 個のマトリックスをt-SNEやUMAPなど任意のDR手法に通し、 $B+1$ 個の2次元プロットを作る。
- 元の $X$ から作られた2次元プロットを基準に、同一データ間の距離が最も短くなるように $B$ 個の図を回転させる。
- $B+1$ 個の図を比較したり、スタックしたりして解釈を行う。

この出力から何が得られるの？
- 群間の関係がより正確に掴める
  - 1プロットだと、群間が分離しているのか混ざり合っているのかがわからないことがある → 提案手法でスタックした画像を作ることで、群の分布が明確にできることがある (Fig.1F)。
  - 群は分離していても、それぞれの群が連続的に繋がるものなのか分離したものかがを見ているだけではわからない（恣意的に選んでしまう可能性がある）→ 提案手法では複数のプロットを見比べたり、スタック画像を作ったりすることで、接続の有無や接続順が詳細に考察できる (Fig.1B,C,G)。
  - プロットをするとラベル付けと一致しない新しい群が見つかることがある。提案手法で作られた複数のプロットで同じように独立した群が見つかると、その群は本当に存在する（意味のある）ものだと確信度が高くなる (Fig.1D,E)。
- "Variance Score" という数値指標を提案しており、それを用いることで最適なアルゴリズムやハイパーパラメータを機械的に決めることができる。(Fig.3)

残された課題・議論

計算量。入力データの件数、ブートストラップのサンプリング標本数、回数、それらに比例してDR計算が実行される回数も増える。加えて、Variance Scoreの計算も時間がかかるものになっている。

重要な引用

t-SNE
- van der Maaten, Laurens, and Geoffrey Hinton. “Visualizing Data Using T-SNE.” Journal of Machine Learning Research: JMLR, vol. 9, no. 86, 2008, pp. 2579–605.
UMAP
- McInnes, Leland, et al. “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction.” arXiv [stat.ML], 9 Feb. 2018, http://arxiv.org/abs/1802.03426. arXiv.

Synthetic Data from Diffusion Models Improves ImageNet Classification

Azizi, Shekoofeh, et al. “Synthetic Data from Diffusion Models Improves ImageNet Classification.” arXiv [cs.CV], 17 Apr. 2023, http://arxiv.org/abs/2304.08466. arXiv.

深層生成モデルで生成したデータを学習に用いることで、画像分類の精度が向上したと報告。
生成モデルが data augmentation に使えることを支持する一例。（ただし、あくまで画像分類での話）

Abstract

Deep generative models are becoming increasingly powerful, now generating diverse high fidelity photo-realistic samples given text prompts. Have they reached the point where models of natural images can be used for generative data augmentation, helping to improve challenging discriminative tasks? We show that large-scale text-to image diffusion models can be fine-tuned to produce class conditional models with SOTA FID (1.76 at 256x256 resolution) and Inception Score (239 at 256x256). The model also yields a new SOTA in Classification Accuracy Scores (64.96 for 256x256 generative samples, improving to 69.24 for 1024x1024 samples). Augmenting the ImageNet training set with samples from the resulting models yields significant improvements in ImageNet classification accuracy over strong ResNet and Vision Transformer baselines.

(DeepL翻訳)

深層生成モデルはますます強力になってきており、現在では、テキストプロンプトが与えられると、多様で忠実度の高いフォトリアリスティックサンプルを生成する。自然画像のモデルを生成的データ補強に使用し、困難な識別タスクの改善に役立てることができるところまで来ているのだろうか？我々は、SOTAのFID（256x256の解像度で1.76）とInception Score（256x256で239）を持つクラス条件付きモデルを生成するために、大規模なテキストから画像への拡散モデルを微調整できることを示す。このモデルはまた、分類精度スコアにおいて新しいSOTAをもたらします（256x256の生成サンプルで64.96、1024x1024のサンプルで69.24に改善）。得られたモデルのサンプルでImageNetトレーニングセットを補強することで、強力なResNetとVision TransformerのベースラインよりもImageNetの分類精度が大幅に向上します。

コード

本記事作成時点ではコードは公開されていない。

解決した課題/先行研究との比較

深層生成モデルが作り出す画像のクオリティがどんどん高くなっている。
生成モデルはdata augmentationに使えるほど自然な画像を作り出すことができるのだろうか？ を検証した。

技術・手法のポイント

Text-to-Imageの拡散モデル Imagen をImageNetのデータセットでFine-tuning.
ImageNetに含まれる分類ごとに、分類の割合のバランスを保ちながら画像を生成。
生成された画像をImageNetのデータセットに加え、各種分類モデルに学習させた。

評価指標

生成モデルによるdata augmentation 有り/無しでfine-tuning → 分類タスクを解かせた。
分類精度はFrechet Inception Distance (FID) と Inception Score (IS) で評価。
結果、ResNet, Transformerベースのモデルでは分類精度の向上が見られた (Fig.1)。
生成された画像のサイズが大きいほど、精度改善効果も高い (Fig.6)
一方、学習に追加した生成画像の枚数を増やしすぎると精度が低下しだした (Table 4)。

残された課題・議論・感想

生成画像の枚数を増やしすぎると精度が下がることについては、生成される画像の内容に偏りがあるせいではと議論されている。
- では、どのような生成画像を作り出せばよいか、生成画像を学習させる方法に工夫ができないかというところが今後の課題。

画像以外のタスクで似たようなことをやるとどうなるのかは興味がある。
元のデータに含まれる画像の特徴にオーバーフィッティングしそうな気もするし、それが大きな問題にならないのは画像分類という多少細部が異なっていても許されることの多いタスクだからではないだろうか。
Adversarial Random Forest のようなテーブルデータを生成する手法もあるが、本論文の結果を持って「画像分類以外のタスクでも生成モデルがAugmentationに使える」と結論づけるのは早計だろう。（もちろん、手法の限界を正しく理解して使えば問題ないと思う。）

重要な引用

Imagen
- Saharia, Chitwan, et al. “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding.” arXiv [cs.CV], 23 May 2022, http://arxiv.org/abs/2205.11487. arXiv.

Efficient Estimation of Word Representations in Vector Space

Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Efficient Estimation of Word Representations in Vector Space.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1301.3781.

word2vecを提唱した論文
- 1つのモデルではなく、複数のモデルの総称
- 単語をベクトルで表す・単語の分散表現手法の一つ
- 自然言語処理におけるブレイクスルーの1つであり、単語の分散表現手法のデファクトスタンダードとなった
3部作の2作目。本論文で初めて "word2vec" という名前が与えられた。
- Mikolov, Tomas, Wen-Tau Yih, and Geoffrey Zweig. 2013. “Linguistic Regularities in Continuous Space Word Representations,” June, 746–51.
- Mikolov Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Distributed Representations of Words and Phrases and Their Compositionality.” In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, 3111–19. NIPS’13. Red Hook, NY, USA: Curran Associates Inc.
  - 実用的には3作目が一番大切か。
とても高精度な分散表現が獲得できたため、単語の演算ができるようになった！
- 例： King - man + woman = Queen

Abstract

We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.

(DeepL翻訳)

我々は、非常に大規模なデータセットから単語の連続ベクトル表現を計算するための2つの新しいモデルアーキテクチャを提案する。これらの表現の品質は単語の類似性タスクで測定され、その結果は異なるタイプのニューラルネットワークに基づく、これまでで最も性能の良い技術と比較される。その結果、16億語のデータセットから高品質の単語ベクトルを学習するのに1日もかからず、より低い計算コストで精度が大幅に向上することが確認された。さらに、これらのベクトルは、我々のテストセットにおいて、構文的および意味的な単語の類似性を測定するための最先端の性能を提供することを示す。

コード

https://code.google.com/archive/p/word2vec/

解決した課題/先行研究との比較

単語の分散表現 (単語をベクトルで表すこと) を用いることで自然言語処理のタスクにおいてN-gramモデルよりも高い精度が出ることが報告されていた。
しかし、巨大なデータセットからどのようにクオリティの高い分散表現を作成するかは依然課題が残されていた。
- 大きな課題の一つが学習時の計算量。
本論文は単語の分散表現化手法の一つ word2vec を提案した。
結果として非常に高精度・ハイクオリティな単語の分散表現の獲得に成功し、単語の演算ができるようになった。

技術・手法のポイント

本論文では2つのword2vecモデルを紹介している。
Continuous Bag-of-Words (CBOW) Model: 周囲の単語（文脈）から現在の単語を予測するモデル
- Feedforward 言語モデルNeural Networkに似ているが、投影層をすべての単語に対して共有する。
- 前後n個の単語を入力とする→現在の (**の) 単語の分類を学習・推論させる。
- 特に学習の速さがウリ
Continuous Skip-gram Model: 現在の単語から周囲の単語（文脈）を予測するモデル
- CBOWの逆。現在の単語を入力に、前後で一定の範囲にある単語を予測する。
- これの範囲を広げると得られる単語ベクトルの質も上がるが、計算量も増加する。
- 特に分散表現の精度がウリ
いずれも3層のneural network。隠れ層がないので計算量が激減。
これらのモデルの学習を通して得られる全結合層の重み行列 = 単語の分散表現 = word2vec となる！
- 目の付け方がすごい。
加えて、hierarchical softmaxで高速化。
- CBOW, skip-gram共にsoftmaxの計算が激重。(単語の数だけの分類問題)
- → 2分類問題を繰り返す (= 階層的/hierarchical) 方式に変更し、計算回数が激減。
- 更に高速化→ Mikolov et al., NIPS 2013
単語ベクトルの学習には、Google Newsコーパスを使用。

評価指標

Task Description
- 2つの単語のペアをつなげて、質問リストを作成。例えば、アメリカの都市と州のペア等。
- 加えて、ランダムに2単語を選んだペアを作成。
- この「2単語は、この関係 (e.g., 都市と州、男女、対義語、etc...) がありますか？」→正答率を評価
学習速度。3億2000万語, 8万2千 vocabularyの学習に、
- リカレントニューラルネットワーク言語モデルはシングルCPUで8週間！
- CBOWは1日で終わる。
- Skip-gramモデルは約3日。
Microsoft Sentence Completion Challenge
- 結果はそこそこ。
- リカレントニューラルネットワーク言語モデル (これまでState-of-the-Art: SOTA) と重み付き結合をすることでSOTA更新

残された課題・議論

これ以前に報告されていた手法より計算量が少ないといえど、実用的にはより高速化が必要
- → Mikolov et al., NIPS 2013へと繋がる。
  - 1時間あたり数十億語のオーダー。1000億語以上で学習した140万以上のベクトル。
得られた高品質単語ベクトルの様々な用途への実適用

重要な引用

Mikolov, Tomas, Wen-Tau Yih, and Geoffrey Zweig. 2013. “Linguistic Regularities in Continuous Space Word Representations,” June, 746–51.
- 本稿に先立つ、同著者たちによる論文。このときはまだ手法に名前が与えられていなかったが、単語の演算ができた！と報告。
Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Distributed Representations of Words and Phrases and Their Compositionality.” In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, 3111–19. NIPS’13. Red Hook, NY, USA: Curran Associates Inc.
- 本稿の手法の改良。CBOWとskip-gramを合体させる + negative samplingを適用することで、本稿の手法より速く、1時間あたり数十億単語のオーダーでベクトル化できたという報告。
Mikolov, Tomas, M. Karafiát, L. Burget, J. Cernocký, and S. Khudanpur. 2010. “Recurrent Neural Network Based Language Model.” INTERSPEECH. https://www.semanticscholar.org/paper/9819b600a828a57e1cde047bbe710d3446b30da5.
- リカレントニューラルネットワーク言語モデルを提唱した論文
Morin, Frederic, and Yoshua Bengio. 06--08 Jan 2005. “Hierarchical Probabilistic Neural Network Language Model.” In Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, edited by Robert G. Cowell and Zoubin Ghahramani, R5:246–52. Proceedings of Machine Learning Research. PMLR.
- Hierarchical softmaxの由来

参考情報

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Raffel, Colin, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2019. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1910.10683.

2017年にGoogleのチームが発表した仕事。
Text-to-Text Transfer Transformer, 通称 T5.
学習の入力から出力まで、全てをテキストで扱う (Tex-to-Text) フレームワークを導入。
全てテキスト = タスクごとにモデルの形を変える必要がない = 1個のモデルであらゆるタスクに対応できる！
2019年までに報告されていた有名どころの手法を比較検討。Transformerの総説論文的に読むのも面白い。
- 2020年にリバイズで議論等追加。

ちゃんと他者の論文も引用し、残された課題なども議論している。好き。

Abstract

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has　 emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new ``Colossal Clean Crawled Corpus'', we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.

(DeepL翻訳)

自然言語処理(NLP)において、モデルを事前に学習させ、その後、下流のタスクで微調整を行う「転移学習」は、強力な手法として注目されている。転移学習の有効性は、様々なアプローチ、方法論、実践を生み出してきた。本論文では、全てのテキストベースの言語問題をテキストからテキストに変換する統一的なフレームワークを導入することで、NLPのための転移学習技術の展望を探っている。本論文では、数十の言語理解タスクについて、事前学習の目的、アーキテクチャ、ラベル無しデータセット、転移アプローチ、その他の要素を比較する。また、この研究で得られた知見を規模や新しい「Colossal Clean Crawled Corpus」と組み合わせることで、要約、質問応答、テキスト分類などをカバーする多くのベンチマークで最先端の結果を達成している。今後、自然言語処理における転移学習の研究を促進するために、我々のデータセット、事前学習済みモデル、そしてコードを公開する。

コード

https://github.com/google-research/text-to-text-transfer-transformer

解決した課題/先行研究との比較

Pre-training→Fine-tuningの有用性が示され、広く使われるようになってきた頃。(Vaswani et al., 2017 Transformer; Devlin et al., 2018 BERT; Radford et al., 2018 GPT; etc...)
ラベルなしの教師なし学習を利用してpre-trainingを行う手法が提案されたことから、インターネット上のラベルのないテキストデータが大量に使用できるようになり、転移学習はより力を増してきた。
一方、分野が急激に拡大することで、異なるアルゴリズムの比較や、新しいアルゴリズムの効果を画一的に調べることが困難になってきたという一面も。
本論文では、全てのNLP問題を「テキストからテキストへ (Text-to-text)」問題として扱う、つまり入力もテキスト・出力もテキストとして扱うフレームワークを構築し、全てのタスクに同じモデルを適用できるようにすることで、さまざまな課題に対するさまざまなモデルのパフォーマンスを画一的に比較できるようにする手法を提案している。

技術・手法のポイント

BERT (Devlin et al., 2018) をベースにしている。
- パラメータ数がかなり違う。定量に用いられたモデルでは11 billion.
Text-to-text: モデルは全てのタスクをテキスト入力として受け取り、それを学習し、ターゲットテキストを生成する。様々なタスクで同じモデル、同じ損失関数、同じハイパーパラメータが使用できる。
このアイデアを用いて、有名どころのモデル・手法を比較。
- Pre-trainingの仕方なども、様々な手法を検討。
テキストのトークン化には Sentence Piece (Kudo and Richardson, 2018) を使用。
モデルが実行すべきタスクを指定するために、元の入力シーケンスにタスク固有の接頭辞を付加してからモデルに与える。

評価指標

24中18のタスクでState-of-the-Art!

State-of-the-Art

Abstractive summarization
- CNN/DM (ROUGE-1-F, ROUGE-2-F, ROUGE-L-F)
Sentence acceptability judgement
- CoLA (Matthew's)
Sentiment analysis (感情分析)
- SST-2 (Accuracy)
Paraphrasing/sentence similarit
- STS-B (Pearson, Spearman)
- QQP (F1)
Natural language inference
- MNLI-m (Accuracy)
- MNLI-mm (Accuracy)
- RTE (Accuracy)
- CB (F1, Accuracy)
Coreference resolutio
- WNLI (Accuracy)
- WSC (Accuracy)
Sentence completio
- COPA (Accuracy)
Word sense disambiguation
- WiC (Accuracy)
Question answering
- SQuAD (EM, F1)
- MultiRC (F1a, EM)
ReCoRD (F1, Accuracy)
- BoolQ (Accuracy)

ほぼSOTA

Paraphrasing/sentence similarit
- MRPC (F1, Accuracy)
- QQP (Accuracy)
Natural language inference
- QNLI (Accuracy)
WMT EnDe Translation (SacreBLEU v1.3.0)
WMT EnFr Translation (SacreBLEU v1.3.0)

あまり良くない

WMT EnRo Translation (SacreBLEU v1.3.0) ... 英ルーマニア語翻訳

(24タスクとどうやって数えているのだろう…？GLUE AverageとSuperGLUE Averageそれぞれもカウントしている？)

シンプルなアプローチにも関わらず、タスク固有のアーキテクチャに匹敵するパフォーマンスを獲得！

残された課題・議論

モデルが大きいほどパフォーマンスが向上する傾向が示された。
- 転移学習の利点の一つは少リソースで優れたパフォーマンスを出せる点。それが今後活きなくなってしまう懸念。
- 転移学習をより有効に使う方法の検討が進められている (Hinton et al., 2015; Sanh et al., 2019; Jiao et al., 2019; Lan et al., 2019; Shazeer et al., 2017)
事前学習の工夫の可能性
- 実在するテキストと機械が作ったテキストの区別をさせる (Clark et al., 2020)
  - Masked language modelingによる事前学習ではなく、以下の方法で事前学習を行う
    - 事前学習用の文章の一部の単語を、小さなGeneratorネットワークを用いて、もっともらしい別単語に置き換える
    - 事前学習では、モデルに各単語が元の文章のままか、置き換えられた単語かを2値分類させるよう訓練
  - これにより、モデルがMASKトークン周辺の情報だけでなく、文章全体を注意深く読むことになるために、事前学習のクオリティが上がる
- Pre-trainingと実タスクの「類似性」を定式化し、用いる学習データに優先度をつける
  - コンピュータビジョンの分野では、Pre-trainingに使用するデータをどのように選択するかで、実タスクに対するパフォーマンスが変わることも報告されている (Huh et al., 2016; Kornblith et al., 2018; He et al., 2018).
  - タスク間の関連性を考慮しての教師あり事前学習におけるタスク選択はGLUEベンチマークスコアを改善する (Phang et al., 2018)
事前学習に英語のみを用いての翻訳タスク回答はスコアが悪かった。
- 「トレーニングに用いた言葉が何語か」という情報がまだ必要。
- これを不要にする方法、つまり「言語に関係なくNLPタスクを実行できるモデル」を作れないだろうか。
  - このチームが次に狙っているのはここだろう。

重要な引用

Transformerと言語モデル
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
- Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805.
- Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
テキストのトークン化に持ちいた "SentencePiece"
- Kudo, Taku, and John Richardson. 2018. “SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1808.06226.
転移学習をより有効に使う方法
- Clark, Kevin, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. 2020. “ELECTRA: Pre-Training Text Encoders as Discriminators Rather Than Generators.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2003.10555.
- Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. 2015. “Distilling the Knowledge in a Neural Network.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1503.02531.
- Sanh, Victor, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. “DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1910.01108.
- Jiao, Xiaoqi, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. 2019. “TinyBERT: Distilling BERT for Natural Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.10351.
- Lan, Zhenzhong, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.11942.
- Shazeer, Noam, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. 2017. “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1701.06538.
- Phang, Jason, Thibault Févry, and Samuel R. Bowman. 2018. “Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-Data Tasks.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1811.01088.

Improving Language Understanding by Generative Pre-Training

Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.

2018年にOpenAIのチームが発表した仕事、GPT
タスクに応じて工夫された「スペシャリスト的モデル」が中心であった時代に、多様なタスクを一つのモデルで解くことに成功。12項目中9項目でState-of-the-Art性能達成
しかも、ラベル付けされたデータは少量で構わない = みんな使いやすい
「NLPならTransformer使っといたらいいんじゃない？」という時代の魁の一つ
- 今では当たり前となった「事前学習したモデルそのものを個々のタスクに流用する！」という大胆な発想

Abstract

Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).

(DeepL翻訳)

自然言語理解には、含意関係、質問応答、意味的類似性評価、文書分類など、幅広い多様なタスクが含まれる。ラベル付けされていない大規模なテキストコーパスは豊富にあるが、これらの特定のタスクを学習するためのラベル付きデータは少なく、識別的に学習したモデルが適切に機能することは困難である。我々は、ラベル付けされていない多様なテキストコーパスに対して言語モデルの生成的な事前学習を行い、その後、各タスクに対して識別的な微調整を行うことで、これらのタスクで大きな利益が得られることを実証している。従来のアプローチとは異なり、我々はタスクに応じた入力変換を行うことで、モデルアーキテクチャの変更を最小限に抑えながら、効果的な学習効果を得ることができる。我々は、自然言語理解に関する広範なベンチマークにおいて、本アプローチの有効性を実証する。その結果、タスクに依存しない我々のモデルは、各タスクに特化したアーキテクチャを用いた識別学習モデルを凌駕し、調査した12タスクのうち9タスクにおいて現状を大きく改善した。例えば、常識的推論（Stories Cloze Test）では8.9%、質問応答（RACE）では5.7%、テキスト含意（MultiNLI）では1.5%の絶対的な向上を達成しました。

コード

解決した課題/先行研究との比較

NLPモデルの作成には大量のラベル付けされたデータが必要。
Word embedingと転移学習を用いた事前学習によるモデルの精度向上も試みて来られた。
しかし、事前学習により得られた重みのみの再利用が主で、目的のタスクに適用するには再度モデルの構築や訓練を行う必要があった。
さらに学習した重みをどうやって推論モデルへ移すかというところもコンセンサスがなかった。
本論文は転移学習を用いたユニバーサルなUnsupervised (Semi-supervised) 手法の開発を目的とした。

技術・手法のポイント

Transformer (Vaswani et al., 2017) を使用。
Pre-trainingとfine-tuningの二段階構成。
Pre-trainingに用いたデータにラベル付けは無し。
- 文章中の直前の数単語から次の単語を予測させる。Unsupervised.
Pre-trainしたネットワークに、少量のデータでSupervised fine-tuningを行った。
- タスクによってアウトプットの形が違うので、最終層の形を合わせるため。

評価指標

State-of-the-Art

Natural language inference
- SNLI
- MultiNLI
- Question NLI
- SciTail
Q&A
- RACE
- Story Cloze
Sentence similarity
- MSR Paraphrase Corpus
- Quora Question Pairs
- STS Benchmark
Classification
- CoLA

SOTAでこそないが、よい

Natural language inference
- RTE
Classification
- Stanford Sentiment Treebank-2
Sentence similarity
- MSR Paraphrase Corpus

残された課題・議論

タスクに応じて、まだFine-tuningは必要
- →この課題にアプローチしたのがGPT-2

重要な引用

Transformer
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
GPT以前の転移学習
- Howard, Jeremy, and Sebastian Ruder. 2018. “Universal Language Model Fine-Tuning for Text Classification.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1801.06146.
- McCann, Bryan, James Bradbury, Caiming Xiong, and Richard Socher. 2017. “Learned in Translation: Contextualized Word Vectors.” Advances in Neural Information Processing Systems 30. https://papers.nips.cc/paper/2017/hash/20c86a628232a67e7bd46f76fba7ce12-Abstract.html.
- Peters, Matthew E., Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. “Semi-Supervised Sequence Tagging with Bidirectional Language Models.” In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 1756–65. Vancouver, Canada: Association for Computational Linguistics.
- Peters, Matthew E., Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. “Deep Contextualized Word Representations.” In Proceedings of the 2018 Conference of the North AMerican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2227–37. New Orleans, Louisiana: Association for Computational Linguistics.
  - ELMo論文
- Rei, Marek. 2017. “Semi-Supervised Multitask Learning for Sequence Labeling.” In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2121–30. Vancouver, Canada: Association for Computational Linguistics.

Abstract

Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2％ versus 49.0％. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3％ to 35.7％, and PaLM 540B on MATH with a score of 20.4％ versus 8.8％. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6％ and 52.9％. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community1.

(DeepL翻訳)

情報の過多は、科学の進歩の大きな障害となっている。科学文献やデータの爆発的な増加により、大量の情報の中から有用な知見を発見することがますます困難になっている。今日、科学的知識は検索エンジンによってアクセスされるが、検索エンジンだけでは科学的知識を整理することはできない。本論文では、Galacticaを紹介する：科学的知識を保存、結合、推論することができる大規模言語モデルである。我々は、論文、参考資料、知識ベース、その他多くのソースからなる大規模な科学コーパスで学習を行う。我々は、様々な科学的タスクにおいて、既存のモデルを凌駕する性能を発揮する。LaTeX方程式などの技術的な知識に関するプローブでは、最新のGPT-3に対して68.2%対49.0%という高い性能を示しました。推論についても、数学的MMLUでChinchillaを41.3％対35.7％、MATHでPaLM 540Bを20.4％対8.8％と上回り、高い性能を発揮しました。また、PubMedQAやMedMCQAなどの下流タスクにおいても、それぞれ77.6％、52.9％のスコアを獲得し、最新鋭の技術を確立しています。また、Galacticaは一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175Bを上回る性能を発揮しています。これらの結果は、科学の新しいインターフェースとしての言語モデルの可能性を示していると考えています。我々は、科学コミュニティの利益のために、このモデルをオープンソース化します1。

コード

https://galactica.org/
- 2022/11/18 (公開から3日後)に、「出力結果に間違いが多い」ということでデモが非公開に (残された課題・議論項参照)
https://github.com/paperswithcode/galai

解決した課題/先行研究との比較

科学的知識へのアクセスは保存（論文やデータベース化）と検索のパラダイムが主流であった
しかしながら、最近の科学的知識の集積速度は一人の人間が処理できる速度を有に超えている
- 例えば、arXivには1日あたり平均516報の投稿があった (2022/5集計)
知識の集積は人が総説論文を書いたり、記事にまとめたり、データベースにアノテーションを付けたりといったことをしている = 人手による作業が知識の集積のボトルネック
本論文はGalactica (GAL) という大規模言語モデルを開発し、科学的知識の自動集積を試みた
- 総説、百科事典の記事、講義ノートなどといった「知識の集積」を自動的に生成できる！
- 論文とコード、タンパク質配列と化合物、理論とLaTeXなど、複数のモダリティにまたがった出力ができる！

技術・手法のポイント

モデルのアーキテクチャはデコーダのみのTransformerをベースにしている。 (本文4.1 Architecture項参照)
モデルのパラメータ数は最大のもので1200億
- GPT-3より少ない
4800万件の論文、コード、教科書、講義ノート、数百万件の化合物・タンパク質データ、科学ウェブサイト、百科事典などといった「科学的知識データ」で学習
- = ある程度クオリティコントロールされたデータのみを学習に使っている
こうしたデータにタスク固有のトークンと引用を示すトークンをつける
- 例えばタンパク質については Fig.1
- 1行1行計算を進めていくような課題は、ワーキングメモリを意味するトークンで包む。例が Fig.3
  - これにより「自然言語の問題文から数式・コードを作る方法」を学習
また、事前学習の段階でデータにプロンプト (指示文) も含めて学習させた
- 事前学習データの補強
- 質疑応答や要約のような一般的なタスクをモデルのユーザーがすぐに (Fine-tuningの手間を少なく) 実行できるように
- タスクのパフォーマンスを向上
  - プロンプトのチューニング (Wei et al., 2021；Sanh et al., 2021；Chung et al., 2022) や質疑応答文章の学習 (Khashabi et al., 2020)が性能を高めることは知られていた

評価指標

一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175B ( Zhang et al., 2022)を上回る性能を発揮
数学的MMLUにおいて、平均スコア41.3％対35.7％でChinchilla (Hoffmann et al., 2022) を上回った
MATHでは、120BモデルがPaLM 540B (Chowdhery et al., 2022) の8.8％に対し、20.4％のスコアを達成
- また、Galacticaはパラメータ数300億で、PaLM (パラメータ数5400億) よりも優れたスコアを示した
LaTeXの数式処理では、GPT-3 (Brown et al., 2020) の49.0%に対し、Galacticaは68.2%のスコアを達成
PubMedQA (77.6％) やMedMCQA dev (52.9％) などの下流の科学的タスクでもSoTAを達成した
- 他の指標ではChinchillaに負けているもの多し
化学式の命名法則IUPACの学習もできた (と書いているが Accuracy 39%)
タンパクの配列予測や機能キーワードの推論でもある程度の精度を示した

上記はSoTAレベルに到達したものの話。他にも様々な課題に取り組まれており、例えばチェスをしたりもしている。

残された課題・議論

データセットの偏り
- 論文はオープンアクセスのものしか参照していない
- 分子やタンパクなどもある閾値で集めるデータを絞っている
- (人為的に偏った) 学習データの集め方が原因で、出力結果にも偏りがあるかもしれない
アウトプットされた内容にはかなり間違いを含む。一方、その形は非常に「それっぽい」ので、読む側が正しい知識を持っていないと簡単に騙されそう。
- 「嘘を嘘と見抜けない人には難しい」がさらに難易度を上げてやってきた感じ。
- 実際の利用シーンとしては「知らないこと」を調べるために使いたいので、この課題は今後の解決が強く待たれる。
- すでに色々と物議を醸している
- 科学的知識の正しさを定量的に評価する指標がないというのも、この論文を通して明確になった課題かもしれない。

技術的には、こうした実装でこれだけの知識を集約でき、これだけのものが生成できる事実がとてもおもしろく、意義深いものであるのは間違いない。
一方で、非常にキャッチーな技術であるだけに、デモの一般公開 + 今回の喧伝の仕方は少し勇み足だったのかもしれない。

重要な引用

2 Related Work の項目で、本論文でGalacticaが取り組んだ各タスクでどのようなアプローチがこれまで取られてきたかが列挙されている。
「計算機による科学的知識の集積のサポート」というアイデアを出した古い記事
- Bush, Vannevar. 1945. “As We May Think.” Atlantic Monthly 176 (July): 101–8.
- Licklider, J. C. R. 1960. “Man-Computer Symbiosis.” IRE Transactions on Human Factors in Electronics HFE-1 (1): 4–11.
プロンプトを事前学習に含めるというアイデアの由来
- Wei, Jason, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2021. “Finetuned Language Models Are Zero-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2109.01652.
- Sanh, Victor, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, et al. 2021. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2110.08207.
- Chung, Hyung Won, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, et al. 2022. “Scaling Instruction-Finetuned Language Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2210.11416.
- Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. 2020. “UnifiedQA: Crossing Format Boundaries With a Single QA System.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2005.00700.
ライバルモデル
- BLOOM
- OPT-175B
  - Zhang, Susan, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, et al. 2022. “OPT: Open Pre-Trained Transformer Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2205.01068.
- Chinchilla
  - Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, et al. 2022. “Training Compute-Optimal Large Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2203.15556.
- PaLM 540B
  - Chowdhery, Aakanksha, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, et al. 2022. “PaLM: Scaling Language Modeling with Pathways.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2204.02311.
- GPT-3
  - Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.

Abstract

We demonstrate the use of a Generative Adversarial Network (GAN), trained from a set of over 400,000 light and heavy chain human antibody sequences, to learn the rules of human antibody formation. The resulting model surpasses common in silico techniques by capturing residue diversity throughout the variable region, and is capable of generating extremely large, diverse libraries of novel antibodies that mimic somatically hypermutated human repertoire response. This method permits us to rationally design de novo humanoid antibody libraries with explicit control over various properties of our discovery library. Through transfer learning, we are able to bias the GAN to generate molecules with key properties of interest such as improved stability and developability, lower predicted MHC Class II binding, and specific complementarity-determining region (CDR) characteristics. These approaches also provide a mechanism to better study the complex relationships between antibody sequence and molecular behavior, both in vitro and in vivo. We validate our method by successfully expressing a proof-of-concept library of nearly 100,000 GAN-generated antibodies via phage display. We present the sequences and homology-model structures of example generated antibodies expressed in stable CHO pools and evaluated across multiple biophysical properties. The creation of discovery libraries using our in silico approach allows for the control of pharmaceutical properties such that these therapeutic antibodies can provide a more rapid and cost-effective response to biological threats.

(DeepL翻訳)

我々は、40万以上の軽鎖および重鎖ヒト抗体配列セットから学習させたGenerative Adversarial Network（GAN）を用いて、ヒト抗体形成のルールを学習することを実証する。その結果得られたモデルは、可変領域全体の残基の多様性を捉えることで、一般的なインシリコ技術を凌駕し、体細胞的に変異したヒトのレパートリー反応を模倣した、非常に大規模で多様な新規抗体のライブラリーを生成することができる。この方法により、発見ライブラリーの様々な特性を明確に制御しながら、de novoヒト型抗体ライブラリーを合理的にデザインすることができる。転移学習により、安定性や開発性の向上、予測されるMHCクラスII結合の低下、特異的な相補性決定領域（CDR）の特性など、関心のある主要な特性を持つ分子を生成するようにGANにバイアスをかけることができる。これらのアプローチはまた、in vitroとin vivoの両方において、抗体の配列と分子挙動との間の複雑な関係をよりよく研究するためのメカニズムも提供する。われわれは、ファージディスプレイによって約10万個のGANで作製された抗体の概念実証ライブラリーを発現させることに成功し、この方法を検証した。安定なCHOプールで発現させ、複数の生物物理学的特性にわたって評価した、生成した抗体例の配列とホモロジーモデル構造を示す。我々のインシリコアプローチを用いた探索ライブラリーの作成は、これらの治療用抗体が生物学的脅威に対してより迅速で費用対効果の高い応答を提供できるように、薬学的特性を制御することを可能にする。

解決した課題/先行研究との比較

まず、そもそも抗体・抗体医薬品とは？→中外製薬よくわかる抗体医薬品
- ある病原体や疾患原因物質に特異的に結合する機能を持った医薬品。高い治療効果・弱い副作用が期待できる。
- 抗体の構造は文字の配列として表現できる。
- それが適切な立体構造をとることで機能を持つ。
狙った疾患や病原体に対する高い活性、特異性、物質としての安定性、生産の容易性などの条件を満たす抗体を見つけるのは非常に難しい。
- よくあるアプローチとしては「これまで知られている良い抗体の近縁種を探す」「文字列を（過去の知見から判断し）入れ替えて実験的に検証する」「とにかくたくさん作って良いものをスクリーニングする」等。どれも手間と時間がかかる。
抗体の候補を機械的に生成し、その特性を予測する方法も取られてきたが、抗体の特性は多数の要素が非常に複雑に絡み合うため、良い抗体の探索は依然として難しかった。
深層学習を用いた手法、GANやオートエンコーダを用いた手法も提案されてきたが、抗体の複雑な構造をうまくデータとして表現することが難しく、抗体の構造の一部の予測にしか適用されてこなかった。
本論文ではGANを用いた新しい手法を提案している。

技術・手法のポイント

抗体の候補の生成にGANを用いた。Antibody-GANと命名 → 旧来の方法よりも少ないデータ数でも高い探索効率を達成。
ヒトの抗体データをトレーニングに使用 → ヒト抗体に似た = 安全性がより高い候補を提案できるように。
トレーニングに先立ち、抗体を立体的に構築したときに同じ位置にあるパーツを、データセット全体で直接比較できるようにした → 抗体の完全長、立体的な構造 (≒ 機能) も考慮に入れた「良い候補」の探索ができるように。
さらに、転移学習を使うことで、狙った特性を持った抗体候補を生成できるようにGANにバイアスをかけた。

結果

他の手法と比較し、多様な抗体候補の提案ができた。
安定性の向上など、さまざまな特性を明示的に制御することで、全く新しいヒト型抗体ライブラリーを設計できた。
提案された抗体の性能は培養細胞を用いた実験で確認された。

残された課題・議論・感想

提案手法を用いることで、有用な医薬品候補の探索のみでなく、抗体の特性に対する立体構造やアミノ酸配列の関係の基礎研究にも有用かもしれない。
実験技術の進歩で高スループットな手法も増えてきており、そうした実験で選択すべきサンプルの組み合わせ選択にも本手法は合理的な提案ができるだろう。
ヒト抗体以外・医薬品開発以外への拡張も可能だろう。実験室で使いやすい抗体であったり、あるいはDNA配列・RNA配列のデザイン、抗体以外の機能的タンパクのデザインにも応用が効くのではないだろうか。

重要な引用

(医学系論文はオープンアクセスでないものが多いため、中身を読まずにリストアップしているものあり)

本論文以前の、人工配列を用いたアプローチ
- Positional Frequency Analysis
  - Zhai, W. et al. Synthetic antibodies designed on natural sequence landscapes. J. Mol. Biol. 412, 55–71 (2011).
  - Adams, J. J. & Sidhu, S. S. Synthetic antibody technologies. Curr. Opin. Struct. Biol. 24, 1–9 (2014).
  - Sheng, Z. et al. Gene-specific substitution profiles describe the types and frequencies of amino acid changes during antibody somatic hypermutation. Front. Immunol. 8, 537 (2017).
- Complementary-determining regions
  - Ewert, S., Honegger, A. & Plückthun, A. Stability improvement of antibodies for extracellular and intracellular applications: CDR grafting to stable frameworks and structure-based framework engineering. Methods 34, 184–199 (2004).
機械学習を用いた手法
- Rives, A. et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. bioRxiv 622803 (2019) doi:10.1101/622803.
- Senior, A. W. et al. Improved protein structure prediction using potentials from deep learning. Nature 577, 706–710 (2020).
- Chen, B. et al. Predicting HLA class II antigen presentation through integrated deep learning. Nat. Biotechnol. 37, 1332–1343 (2019).
- Yang, J. et al. Improved protein structure prediction using predicted interresidue orientations. Proc. Natl. Acad. Sci. U. S. A. 117, 1496–1503 (2020).
- Mason, D. M. et al. Deep learning enables therapeutic antibody optimization in mammalian cells by deciphering high-dimensional protein sequence space. bioRxiv 617860 (2019) doi:10.1101/617860.
- Goodfellow, I. J. et al. Generative adversarial nets. Adv. Neural Inf. Process. Syst. 3, 2672–2680 (2014).
- Gui, J., Sun, Z., Wen, Y., Tao, D. & Ye, J. A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications. (2020) doi:arXiv:2001.06937.
- Lopez Pinaya, W. H., Vieira, S., Garcia-Dias, R. & Mechelli, A. Autoencoders. Mach. Learn. 193–208 (2020) doi:10.1016/b978-0-12-815739-8.00011-0.
- Gupta, A. & Zou, J. Feedback GAN for DNA optimizes protein functions. Nat. Mach. Intell. 1, 105–111 (2019).
- Repecka, D. et al. Expanding functional protein sequence space using generative adversarial networks. bioRxiv 789719 (2019) doi:10.1101/789719.
- Riesselman, A. et al. Accelerating Protein Design Using Autoregressive Generative Models. bioRxiv 757252 (2019) doi:10.1101/757252.
- Friedensohn, S. et al. Convergent selection in antibody repertoires is revealed by deep learning. bioRxiv 2020.02.25.965673 (2020) doi:10.1101/2020.02.25.965673.
ヒト抗体データの由来：Observed Antibody Space Project
- Kovaltsuk, A. et al. Observed Antibody Space: A Resource for Data Mining Next-Generation Sequencing of Antibody Repertoires. J. Immunol. 201, 2502–2509 (2018).
パーツの位置を揃える手法として参照されている論文
- Honegger, A. & Plückthun, A. Yet another numbering scheme for immunoglobulin variable domains: An automatic modeling and analysis tool. J. Mol. Biol. 309, 657–670 (2001).

Abstract

ChatGPT is attracting a cross-field interest as it provides a language interface with remarkable conversational competency and reasoning capabilities across many domains. However, since ChatGPT is trained with languages, it is currently not capable of processing or generating images from the visual world. At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one-round fixed inputs and outputs. To this end, We build a system called Visual ChatGPT, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps. 3) providing feedback and asking for corrected results. We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback. Experiments show that Visual ChatGPT opens the door to investigating the visual roles of ChatGPT with the help of Visual Foundation Models. Our system is publicly available at https://github.com/microsoft/visual-chatgpt.

(DeepL翻訳)
ChatGPT は、多くの領域で優れた会話能力と推論能力を持つ言語インタフェースを提供するため、分野横断的な関心を集めている。しかし、ChatGPTは言語で学習されるため、現在のところ、視覚世界から画像を処理したり生成したりすることはできない。同時に、Visual TransformerやStable DiffusionなどのVisual Foundation Modelsは、優れた視覚的理解と生成能力を示すものの、1ラウンドの固定入力と出力を持つ特定のタスクの専門家に過ぎない。そこで、様々なVisual Foundation Modelsを組み込んだVisual ChatGPTというシステムを構築し、ユーザーがChatGPTと対話できるように、次のような工夫をしている 1）言語だけでなく画像の送受信も可能 2）複数のAIモデルの連携が必要な複雑なビジュアルクエスチョンやビジュアル編集指示の提供、マルチステップの提供 3）提供するをフィードバックし、結果を訂正してもらう。
複数の入出力を持つモデルや視覚的なフィードバックを必要とするモデルを考慮し、ChatGPTにビジュアルモデル情報を注入するための一連のプロンプトを設計します。実験では、Visual ChatGPTが、Visual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調査するための扉を開くことを示しています。私たちのシステムは、https://github.com/microsoft/visual-chatgpt で公開されています。

コード

https://github.com/microsoft/visual-chatgpt

解決した課題/先行研究との比較

課題：画像の理解と生成もサポートするChatGPTのようなシステムを構築すること

近年のChatGPTに代表される大規模言語モデル(LLM)は驚異的に進歩しており、テキストの解釈や生成に優れた能力と汎用性があるが、現在のところは、視覚情報(画像情報)は処理はできない。
また、Visual TransformerやStable DiffusionなどのVisual Foundation Models(以下、VFM)は、優れた視覚的理解と生成能力を持つものの、特定のタスクに特化しており、タスクの汎用性に欠ける。

上記を解決する直感的なアイデアの一つは、マルチモーダルな会話モデルを開発することであるが、そのようなモデルの開発には、大量のデータと計算資源を消費してしまう。

本論文では、全く新しいマルチモダリティモデルを学習することなく、Prompt Managerを中核とし、ChatGPTと既存のVFMを組み合わせて上記課題を解決するシステムを提案する。

技術・手法のポイント

アーキテクチャ
Visual ChatGPTは、ChatGPTと既存のVFMを組み合わせ、チャットインターフェースでの画像生成・編集を実現するシステム。
システムの中核となるのはPromptManagerで、これは、画像情報をChatGPTが理解可能な言語形式に変換し、各種VFMを用いて画像処理を行う(Figure 1)

Figure 1. Architecture of Visual ChatGPT.
Visual ChatGPTの動作
下図(Figure 2)は、Visual ChatGPTの動作を示すフローチャート。
左側は3ラウンドの対話、右側はVisual ChatGPTがVisual Foundation Modelsを繰り返し呼び出し、特に2番目のQAの詳細処理を示している。

Figure 2. Overview of Visual ChatGPT.

この例では、Execute 1で画像中のオブジェクトを置換し(A. Tool Details, Replace Something From The Photo 参照)、
Execute 2で、(A. Tool Details, Instruct Image Using Text 参照)のように、2回のステップを経て画像を編集している。
Prompt Managerの概要
Prompt Managerは、処理に応じて、適切なVFMを選択し、画像と言語の相互変換を行う。

Figure 3. Overview of Prompt Manager.

上図では、VFMとして BLIP, Pix2Pixの2点が例として記載されているが、Visual ChatGPTは、
例えば、写真中の特定のものを削除する、写真中のものを置き換えるなど、20以上のケースによってVFMの使い分けを行う(A. Tool Details参照)。

上記のシステムを構築することで、複雑な視覚的問題を段階的に解決することが実現できた。

残された課題・議論

VFMに起因する問題があったり、プロンプトという手法は不安定であったりするため、言語モデルの世代が進んだ (ChatGPTがより高性能になった) からといって、本論文の提案手法が更に良い成果を出せるようになるとは限らない。
実行結果と人間の意図の間の整合性をチェックし、それに応じて対応する編集を行うためには、"自己修正モジュール" が必要。しかしながら、それを追加すると処理時間が大幅に増加する懸念がある。
- 補足: 画像中のオブジェクト置換における自己修正モジュールの例
  VFMが出力した画像の内部にある "置換された物体" が何かをテキストとして出力、意図した置換結果となっているかを確認。適切な置換でなかった場合は場合によっては異なるVFMの処理を行う。

重要な引用

Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7291–7299, 2017.
Bowen Cheng, Alex Schwing, and Alexander Kirillov. Perpixel classification is not all you need for semantic segmentation. Advances in Neural Information Processing Systems, 34:17864–17875, 2021.
Geonmo Gu, Byungsoo Ko, SeoungHyun Go, Sung-Hyun Lee, Jingeun Lee, and Minchul Shin. Towards light-weight and real-time line segment detection. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 726–734, 2022.
Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International Conference on Machine Learning, pages 12888–12900. PMLR, 2022.
Kunchang Li, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, and Yu Qiao. Uniformer: Unifying convolution and self-attention for visual recognition. arXiv preprint arXiv:2201.09450, 2022.
Ren ́e Ranftl, Alexey Bochkovskiy, and Vladlen Koltun. Vision transformers for dense prediction. In Proceedings of
the IEEE/CVF International Conference on Computer Vision, pages 12179–12188, 2021.
Ren ́e Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE transactions on pattern analysis and machine
intelligence, 44(3):1623–1637, 2020.
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj ̈orn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10684–10695, 2022.
Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In Proceedings of the IEEE international conference on computer vision, pages 1395–1403, 2015.
Zhao Xu, Xu Baojie, and Wu Guoxin. Canny edge detection based on open cv. In 2017 13th IEEE international con-
ference on electronic measurement & instruments (ICEMI),
pages 53–56. IEEE, 2017.
Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. arXiv preprint arXiv:2302.05543, 2023.

Characterizing Uncertainty in Machine Learning for Chemistry

Heid, Esther, et al. “Characterizing Uncertainty in Machine Learning for Chemistry.” Journal of Chemical Information and Modeling, June 2023, https://doi.org/10.1021/acs.jcim.3c00373.

機械学習モデルの不確実性を「データのノイズ」、「モデルの bias」、「モデルの variance」に分離し評価。
評価データにノイズが多いと、モデルの性能は過小評価される。
モデルの bias の削減にはデータ数の増加やモデルアーキテクチャ、化合物の表現、特徴量の選択の工夫が有効。
モデルの variance の削減にはアンサンブル学習が有効。

不確実性の由来に合わせ対策を練っていきましょう、という考えの根拠を見せてくれる論文。

Abstract

Characterizing uncertainty in machine learning models has recently gained interest in the context of machine learning reliability, robustness, safety, and active learning. Here, we separate the total uncertainty into contributions from noise in the data (aleatoric) and shortcomings of the model (epistemic), further dividing epistemic uncertainty into model bias and variance contributions. We systematically address the influence of noise, model bias, and model variance in the context of chemical property predictions, where the diverse nature of target properties and the vast chemical chemical space give rise to many different distinct sources of prediction error. We demonstrate that different sources of error can each be significant in different contexts and must be individually addressed during model development. Through controlled experiments on data sets of molecular properties, we show important trends in model performance associated with the level of noise in the data set, size of the data set, model architecture, molecule representation, ensemble size, and data set splitting. In particular, we show that 1) noise in the test set can limit a model’s observed performance when the actual performance is much better, 2) using size-extensive model aggregation structures is crucial for extensive property prediction, and 3) ensembling is a reliable tool for uncertainty quantification and improvement specifically for the contribution of model variance. We develop general guidelines on how to improve an underperforming model when falling into different uncertainty contexts.

(DeepL翻訳)

機械学習モデルの不確実性を特徴付けることは、機械学習の信頼性、頑健性、安全性、能動学習の文脈で最近関心を集めている。ここでは、全不確実性をデータのノイズ（alleatoric）とモデルの欠点（epistemic）の寄与に分け、さらにepistemic不確実性をモデルのバイアスと分散の寄与に分ける。我々は、ノイズ、モデルのバイアス、モデルの分散の影響を、化学特性予測の文脈で体系的に扱います。ここでは、ターゲット特性の多様な性質と広大な化学化学空間が、予測誤差の多くの異なる原因を生じさせます。我々は、異なるエラー源がそれぞれ異なる文脈で重要な意味を持ち、モデル開発時に個別に対処する必要があることを実証する。分子特性のデータセットに関する制御された実験を通して、データセットのノイズレベル、データセットのサイズ、モデルアーキテクチャ、分子の表現、アンサンブルサイズ、データセットの分割に関連するモデル性能の重要な傾向を示す。特に、1)テストセットのノイズは、実際の性能がはるかに優れている場合に、モデルの観察された性能を制限する可能性があること、2)サイズを拡張したモデル集約構造を使用することが、広範な物性予測に不可欠であること、3)アンサンブルは、不確実性の定量化とモデル分散の寄与に特化した改善のための信頼できるツールであることを示す。我々は、様々な不確実性の文脈に陥った場合に、性能の低いモデルをどのように改善するかについての一般的なガイドラインを作成する。

コード

Ensemble Projection
- 本論文で model bias と variance を分離するために用いられた方法

解決した課題/先行研究との比較

機械学習モデルの精度が高まる一方で、現実世界の課題に適用すると失敗することが多々ある。
化学応用分野においては分子や化学反応のモデル中での表現法も他分野の応用がしづらく、モデルの精度向上を阻む原因となっている。
こうした課題の解決に取り組むためには、モデルのエラーや不確実性がどこから生まれているのかを知ることが重要。
不確実性は3つのグループに分割できる
- Aleatoric: データ由来 (= ノイズ) で、モデルの改善では削減不可。削減のためにはデータ自身の見直しが必要。
- Epistemic: モデル由来で、モデルの改善で削減可。epistemicの中をさらに2種に分ける。
  - Model bias: モデルアーキテクチャや特徴量（incl. 化合物の表現）由来
  - Model variance: モデル選択後のパラメータ由来
  - (一般に使われる bias/variance の定義とは異なる点に注意)
本論文では、入力データのノイズ、データサイズ、モデルアーキテクチャ、分子の表現、アンサンブルするモデル数を変化させて、回帰問題における深層学習モデルの性能を比較し、それぞれの要素が由来の異なる不確実性の削減にどう寄与するかを調べた。

技術・手法のポイント

ノイズのないデータセットを作成
- (ノイズの少ないと想定されるデータセットが正しい？)
- Data sets generated by density functional theory (DFT) calculation are often considered for the role of a low-noise chemical data set as they are not subject to experimental uncertainty in data collection like most data sets would be.
ノイズのないデータにおいては、不確実性は bias あるいは variance からと考えられる。
ベイズ推論を用いた手法により variance の影響を推論することができる。
全体の不確実性から、推論された variance を引き算することで、bias の大きさを定量した。
その上で色々と条件を変えることで、それぞれの不確実性にどの項目が作用するのかを検証できるようになった。

結果

データにノイズが含まれる場合、ノイズのあるデータが学習データに入っているよりも、評価データに入っている方が影響が大きい (Fig.1)。
- ノイズの分布型による不確実性の違いはなし。一部のデータに大きなノイズが与えられていても、正規分布でノイズが与えられていても結果は変わらず。ノイズの大きさの平均値が影響する (Fig.2)。
Model bias について (Figs.4-6)
- 学習データを増やすことで対処できる。
- 化合物の表現は重要。
- データ数が少ないときはシンプルなモデルがよい。
- 特徴量の工夫はデータサイズが数千〜数万のオーダーのときに有効。
Model variance について (Figs.4, 7)
- データを増やしてもほとんど削減できない。
- モデルのアンサンブルが有効 (Fig.7)。
  - たくさんのモデルをアンサンブルするのは大変なので、まず5個のモデルでアンサンブルして精度改善のスロープを確認、そこから何個のモデルがあると良さそうか見積もるという手順を薦めている。

残された課題・議論・感想

Variance はデータ数に影響されにくいという話だが、データが増えれば variance の影響が気にならなくなるくらい精度が改善される。最も確実で大きな効果があるのはデータの追加。
データに含まれるノイズについて、学習データにノイズが含まれていても影響が小さいというのは意外であった。ノイズが正解に対し対称に分布するから、平均を取れば打ち消し合うということだろうか。
- ノイズが対称である、という前提が置かれている点に留意。
一方で、評価データのノイズを除くのは実課題においてはなかなか難しい。工夫のしどころ。

今日の英単語

mediocre: 平凡
- mediocire model: 平凡なモデル

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock. 2023. “GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models.” arXiv [econ.GN]. arXiv. https://arxiv.org/abs/2303.10130.

米国の各職業を対象に、どれほどLLMによって仕事の時間が削減されうるかをラベリングし、経済社会にLLMが及ぼしうる影響を定量的に評価
- LLMの言語生成能力をそのまま使用した場合の業務削減量だけでなく、補助的なアプリケーションが開発され、それを活用した場合の業務削減量も予測して分析
- 職業単位だけでなく、タスクや必要とされるスキルに分解した結果も提示
各職業の、LLMによる業務削減量のラベリングは、人間とGPT-4の双方により行われた
- ラベリング結果に大きな差はなかったものの、人間の方が、LLMによる業務削減量を多めに見積もる傾向があった
集計された結果より、米国の労働者の少なくとも10%のタスクの業務時間がLLMにより半分に短縮されうると推定できる
- 更に、19%の労働者については、半分以上のタスクの業務時間がLLMにより半分に短縮されうると推定
- 傾向として、高賃金の職業になるほど、LLMにより作業時間が短縮されるタスクが多い
広範な調査の末、GPT(Generative Pretrained Transformers) は、いわゆる汎用技術としてのGPT(general-purpose technologies)としての特徴を示し、社会に大きな影響を与えうると結論づけた

Abstract

We investigate the potential implications of large language models (LLMs), such as Generative Pre-trained Transformers (GPTs), on the U.S. labor market, focusing on the increased capabilities arising from LLM-powered software compared to LLMs on their own. Using a new rubric, we assess occupations based on their alignment with LLM capabilities, integrating both human expertise and GPT-4 classifications. Our findings reveal that around 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of LLMs, while approximately 19% of workers may see at least 50% of their tasks impacted. We do not make predictions about the development or adoption timeline of such LLMs. The projected effects span all wage levels, with higher-income jobs potentially facing greater exposure to LLM capabilities and LLM-powered software. Significantly, these impacts are not restricted to industries with higher recent productivity growth. Our analysis suggests that, with access to an LLM, about 15% of all worker tasks in the US could be completed significantly faster at the same level of quality. When incorporating software and tooling built on top of LLMs, this share increases to between 47 and 56% of all tasks. This finding implies that LLM-powered software will have a substantial effect on scaling the economic impacts of the underlying models. We conclude that LLMs such as GPTs exhibit traits of general-purpose technologies, indicating that they could have considerable economic, social, and policy implications.

(DeepL翻訳)
我々は、GPT（Generative Pre-trained Transformers）のような大規模言語モデル（LLM）が米国の労働市場に与える潜在的な影響を調査し、LLM単体と比較してLLM搭載のソフトウェアから生じる能力の向上に焦点を当てる。新しい評価基準を用いて、人間の専門知識とGPT-4分類の両方を統合し、LLMの能力との整合性に基づいて職業を評価しました。その結果、米国の労働者の約80％が、LLMの導入により少なくとも10％の業務に影響を受ける可能性があり、約19％の労働者は少なくとも50％の業務に影響を受ける可能性があることが明らかになりました。また、LLMの開発・導入時期については予測を行っていません。予測される影響はすべての賃金水準に及び、高所得の職種ほどLLMの機能やLLMを搭載したソフトウェアに触れる機会が多くなる可能性があります。重要なのは、こうした影響は、最近の生産性上昇率が高い産業に限定されないということである。我々の分析によると、LLMを利用することで、米国における労働者の全作業の約15％が、同じ品質レベルで大幅に速く完了する可能性があることが示唆された。LLMの上に構築されたソフトウェアやツールを組み込むと、この割合は全作業の47～56%に増加する。この発見は、LLMを搭載したソフトウェアが、基礎となるモデルの経済的影響を拡大する上で大きな効果を発揮することを示唆している。GPTのようなLLMは、汎用的な技術であり、経済的、社会的、政策的に大きな意味を持つ可能性があると結論付けている。

解決した課題/先行研究との比較

本研究では、既存のAI技術や自動化技術の労働市場への影響についての調査と比較して、言語モデルのより広く、潜在的な影響を調査
- 更に、過去の汎用技術（e.g. 印刷、蒸気機関）の使われ方を加味し、言語モデルそのものの能力だけでなく、言語モデルと実作業の補完を行うイノベーションの登場の予測も考慮

技術・手法のポイント

主要な分析手順

米国における職業別活動・業務に関する、O*NET 27.2 データベースに含まれる、19,265のタスクと2,087のDWA(Detaild Work Activities)に対し、以下の3通りのラベル付けを、人間とGPT-4の両方で実施
- E0 : No Exposure : LLMを使用することで、同等レベルのクオリティを維持しながらタスクを遂行する時間が減少しない（LLMへの曝露がない）
- E1 : Direct Exposure : LLMを使用することで、同等レベルのクオリティを維持しながらタスクを遂行する時間が50%以下になる（LLMへの曝露が大きい）
- E2 : LLM+ Exposed : LLMのみではタスクの遂行時間は減少しないものの、LLMの上に構築されたアプリケーションと合わせて使用することで、タスクを遂行する時間が50%以下になる。画像生成システムへのアクセスも加味。（LLMへの曝露が将来的に考えられる）
以上のタスクとDWAのラベリング結果を、職業ごとに集計
- この集計時に、以下3つのパターンで重み付け和をとることで、推計のバリエーションをもたせている
  - α = E1
  - β = E1 + 0.5×E2
  - ζ = E1 + E2
- αは、LLM単体の能力によって業務遂行時間が減少している度合い。ζは、長期的にソフトウェアが開発されていって遂行時間が減少する度合い。βはその中間、のように捉えるとよい
職業ごとにラベリングされた3つのスコア(α, β, ζ)を用い、職業に必要なスキルや、職業ごとの年収と関連付けて更に分析
- 3つのスコア(α, β, ζ)を目的変数に、それぞれの職業に紐づく、O*NET基本スキルカテゴリの各スキルの重要度を説明変数とし、回帰分析を行い、各スキルの寄与率を算出
- 年収と3つのスコア(α, β, ζ)の相関を調査、など

人間とGPT-4によるラベル付け結果の比較

人間とGPT-4によるラベル付け結果の相関

職業ごとに集計されたβスコアの散布図
- 基本的にはよく相関しているものの、グラフの右上の領域においてのみ、人間のほうが高いスコアを付ける傾向が見られる
- 理由は不明だが、人間のほうが、LLMへの暴露が大きい職業において、GPT-4よりも曝露スコアを高く見積もっている

本分析のデータセットとラベル付け方法の限界

つけられたラベルの主観性
- ラベル付けを行った人間は、OpenAIお抱えのアノテーター
  - 職業の多様性に欠けるため、各職業の個別のタスクに詳しくなく、LLMの使用に慣れている傾向がある
  - 曝露の度合いの見積もりが不正確な可能性がある
LLMの発展は極めて速いため、ラベルの内容や分析結果は、大きく変化する可能性がある

分析結果

3つのスコア(α, β, ζ)の要約統計量

読み取れること
- 80%の労働者は、10％のタスクがLLMの影響を受ける
- 19%の労働者は、半分以上のタスクがLLMの影響を受ける

職業の収入との関係

読み取れること
- 高年収の職業ほど、LLMへの曝露が大きい傾向がある

暴露スコアが大きい職業のリスト

読み取れること
- Human α: LLM単体による曝露が大きい職業
  - 翻訳家
  - サーベイ研究者
  - 作詞家、クリエイティブライター
  - 動物科学者
  - 広報スペシャリスト
- Human ζ: LLMと、それに付随するアプリケーションによる曝露が大きい職業
  - 数学者
  - 税理士
  - 金融クオンツアナリスト
  - 作家
  - Web・デジタルインターフェースデザイナー
- Highest variance: 分散が大きい職業（作業時間が50%以下に減少するタスクと、減少しないタスクの混在度合いが大きい職業）
  - 検索マーケティングストラテジスト
  - グラフィックデザイナー
  - 投資ファンドマネージャー
  - 金融マネージャー
  - 自動車損害保険鑑定士

職業の基本スキルの暴露スコアへの寄与率

読み取れること
- αへの寄与が大きいスキル（LLM単体による曝露が大きいスキル）
  - Programming 0.637
  - Writing 0.368
  - Reading Comprehension 0.153
- ζへの寄与が大きいスキル（LLMと付随するアプリケーションによる曝露が大きいスキル）
  - Mathematics 0.787
  - Programming 0.609
  - Writing 0.566
  - Active Listening 0.449
  - Speaking 0.294
- αもζも低いスキル（LLMや周辺アプリケーションの発展による曝露が小さいスキル）
  - Science -0.346
  - Learning Strategies -0.346
  - Monitoring -0.232
  - Critical Thinking -0.129

※ 以上の結果の受け止め方については、後述の感想>注意すべき結果>基本スキルの解釈も参照されたい。

残された課題・議論・感想

この研究の限界

米国以外に適用できるか？
- 産業組織、技術インフラ、規制の枠組み、言語の多様性、文化的背景に大きな違いがあるため、米国以外への適用は限定的である
- この研究の方法を公表することで、他の集団についても調査できるようにして、対処したい
現状のLLMの能力のすべてを完璧に反映した研究ではない
- 例えばα評価では、GPT-4の画像を扱う能力を考慮してない
  - もっと多くの職業の暴露スコアが高くなる可能性がある
  - LLMの能力の進歩が展開するにつれて、その影響を検討する必要がある

LLMは汎用技術と呼べるのか？

そうみなせる特徴は示している
- LLMが汎用技術 General Purpose Technology とみなされるには、以下3つの条件を満たす必要がある
  - 時間の経過とともに改善すること
  - 経済全体に浸透すること
  - 補完的なイノベーションが生み出されること
- この3つのうち、1つ目はOpenAIなどの研究により自明
- 2, 3番目はこの論文の内容によって、いくらか示唆された

感想

全体を通して
- 産業界から見たLLMの発展による職業への懸念が定量的に検証されていて、統計量として出ている結果も納得感が高い
- 今後の職業選択や、訓練内容の参考にすべき内容が多いと言える
- とはいえ、この結果を受け、悲観的になりすぎる必要はないとも考える
  - LLMはこれまでの人の知識の集積なのだから、人が想定できるような意見を出すのは驚くべきことではない。今の人類の想像力の範疇での未来予測に過ぎない
  - これから、人類はLLMありきの世界で生き、その中でイノベーションを起こしていくのである
注意すべき結果
- 日本に応用する場合
  - 職業の種類やラベル付けの方法において、まだバイアスが大きい印象であり、応用可能性は限定的と考える
    - 今後似た研究が、よりバイアスを避けた設計で行われることを待ちたい
- 基本スキルの解釈
  - 「スキル」と「職業」は区別して考えるべき
    - たとえば、「Mathematics」スキルはLLMへの曝露が大きいと結果では示されているものの、職業としての「数学者」が不要とは捉えられない
    - 「数学者」に必要なスキルには、「Critical Thinking」や「Science」も含まれており、これらはLLMへの曝露が小さいスキルである参照
    - あくまでも、「数学者」の仕事のうち、複雑な式変形やよく使われる数学的知識の導入など、一部の作業にかかる負荷が減ると捉えるべきである
- LLM以外の技術による曝露の影響
  - 本研究では、あくまでもLLMを起因とした作業負荷の減少のみにフォーカスしているため、その他の自動化技術や工業機器等による曝露は、本研究とは関連なしに進む可能性がある
  - たとえば農業や林業など、LLM以外の技術により曝露が進められてきた産業は、今後もLLM以外の技術により、人間の役割が変化していくと考えられる

重要な引用

GPT-4 System Card

参考情報

O*NET OnLine
- 本論文で使用されている、米国の職業データベース O*NET のオンラインリソース
GPT-3 論文サマリー
- 本論文の主題となっている GPT-4 の、1つ前のメジャーバージョンである GPT-3 の紹介
InstructGPT 論文サマリー
- GPT-3 を、人間のフィードバックを用いた強化学習でFine-tuningしたモデル InstructGPT の紹介

TabTransformer: Tabular Data Modeling Using Contextual Embeddings

Xin Huang, Ashish Khetan, Milan Cvitkovic, Zohar Karnin 2020. "TabTransformer: Tabular Data Modeling Using Contextual Embeddings" arXiv [cs.LG]. arXiv. https://arxiv.org/abs/2012.06678v1

Self-AttentionベースのTransformerは、最先端の性能を達成するために、NLPモデルの標準コンポーネントになっている。
Transformerによって生成された文脈埋め込みの有効性と解釈可能性もよく研究されている
TransformersのNLPへの応用が成功したことに動機づけられ、本論文では、それらを表形式領域で適応させる。
Transformerの適用により、ラベル無しデータの半教師あり学習が可能となり、また、多くのケースで、既存のモデルを上回る精度を達成した。

Abstract

We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. The TabTransformer is built upon self-attention based Transformers. The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-theart deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods.

(DeepL翻訳)
我々は、教師あり学習と半教師あり学習のための新しい深い表形式データモデリングアーキテクチャであるTabTransformerを提案する。TabTransformerは自己注意に基づくTransformerをベースに構築されている。Transformer層はカテゴリ特徴の埋め込みを頑健な文脈埋め込みに変換し、より高い予測精度を達成する。15の公開データセットに対する広範な実験を通して、我々はTabTransformerが表形式データに対する最新の深層学習手法を平均AUCで少なくとも1.0%上回り、木ベースのアンサンブルモデルの性能と一致することを示す。さらに、TabTransformerから学習した文脈埋め込みは、欠損データとノイズデータの両方の特徴に対して非常に頑健であり
、より良い解釈可能性を提供することを実証する。最後に、半教師付き設定において、我々はデータ駆動型の文脈埋め込みを学習する教師なし事前学習手順を開発し、その結果、最新の手法に対して平均2.1%のAUCリフトを達成した。

コード

解決した課題/先行研究との比較

Tableデータのモデル化は、大別して、GBDT等のツリーベースモデルと、多層パーセプトロン(MLP)(*)モデルの2種類があり、それぞれに課題がある。
*本論文のMLPとは、Transformerを含まない、一般的なニューラルネットワークをベースとしたモデルを示す。

ツリーベースモデル
- (a)ストリーミングデータの継続的な学習に適さない(再学習できない)
- (b)最先端のSSL(半教師あり学習法,Semi-Superviced Leaning)に適さない
- (c)欠損やノイズの多い特徴量データを処理する最先端の深層学習法はツリーベースに適用できない
多層パーセプトロン(MLP)モデル
- (a)学習したモデルやEmbeddingを解釈できない
- (b)欠損やノイズの多いデータに対してロバストではない
- (c)半教師あり学習では、競争力のある性能を達成できない

本論文ではTransformerをテーブルデータに導入することで、上記の課題を解決し、既存のモデルを上回る精度を達成した。

技術のポイント

2種類の説明変数(連続値、カテゴリ変数)のうち、カテゴリ変数にEmbedding層とTransformer層を適用する(Fig.1)。
- カテゴリ変数のEmbedding層は、カテゴリ変数をベクトル空間で表現する。
- カテゴリ変数のTransformer層は、AttentionHeadを通して、前段のEmbedding層から入力された全ての埋め込みに注目した特徴ベクトルを出力する。
ラベルなしデータを用いて、Tansformer層の事前学習(半教師あり学習)を行うことができる。
本論文では、自然言語処理と同様の二種類の事前学習を適用できることを示している。
- マスク言語モデリング(MLM)
  k%の特徴をランダムに選択し、それらを欠損としてマスクし、マスク箇所を推論するための学習を事前学習として実施する。
- 置換トークン検出(RTD)
  k%の特徴をランダムに選択し、それらをランダムな値で置き換え、置き換え箇所を推論するための学習を事前学習として実施する。
  これは、ELECTRAに関する論文に基づいた学習手法。

Fig.1: The architecture of TabTransformer.

評価指標

本論文では、UIC Repository、AutoML Challenge、Kaggleからの15の一般公開二値分類データセットで、教師あり学習と半教師あり学習の両方についてTabTransformerとベースラインモデルを評価し、既存モデルへの優位性を説いている。

実験は下記の項目を実施し、ほぼ全てのケースで優位な結果を示した。

教師あり学習シナリオにおける、TabTransformersとベースラインMLPの比較
ノイズの多いデータと欠損値のあるデータに対する、TabTransformersとベースラインMLPの比較
- ノイズの多いデータ
- 欠損値のあるデータ
教師あり学習シナリオにおける、TabTransformersと各種モデルの比較
半教師あり学習シナリオにおける、TabTransformerを評価

以下、評価のサマリーを記載する。

教師あり学習におけるTabTransformerと既存モデルの性能比較

通常の教師あり学習では、ニューラルネットワークベースの既存モデルを上回り、また、テーブルデータで最も高性能なモデルの１つであるGBDTとほぼ同等の性能を示した(Table 2) 。

Model Name	Mean AUC (%)
TabTransformer	82.8 ± 0.4
MLP	81.8 ± 0.4
GBDT	82.9 ± 0.4
Sparse MLP	81.4 ± 0.4
Logistic Regression	80.4 ± 0.4
TabNet	77.1 ± 0.5
VIB	80.5 ± 0.4

Table 2教師あり学習におけるモデルの性能評価指標は、各モデル
の15個のデータセットにおけるAUCスコアの平均±標準偏差

半教師あり学習シナリオにおけるTabTransformerと既存モデルの性能比較

ラベルのないデータの数が多い場合、TabTransfomerを事前学習したモデル(TabTransformer-RTD, TabTransformer-MLM)は、他の競合他社を大幅に上回る性能を示した。
旧来の事前学習法を用いたTransformerやGBDTは全モデルの平均より性能が悪いが、TabTransformer-RTD/MLMは、ラベル付きデータが(全サンプル数 30k以上のうち)50、200、500のシナリオにおいて、平均AUCでそれぞれ1.2%、2.0%、2.1%以上、既存の手法より向上している(Table 3)。

#Labeled Data	50	200	500
TabTransformer-RTD	66.6±0.6	70.9±0.6	73.1±0.6
TabTransformer-MLM	66.8±0.6	71.0±0.6	72.9±0.6
MLP (ER)	65.6±0.6	69.0±0.6	71.0±0.6
MLP (PL)	65.4±0.6	68.8±0.6	71.0±0.6
TabTransformer(ER)	62.7±0.6	67.1±0.6	69.3±0.6
TabTransformer(PL)	63.6±0.6	67.3±0.7	69.3±0.6
MLP (DAE)	65.2±0.5	68.5±0.6	71.0±0.6
GBDT (PL)	56.5±0.5	63.1±0.6	66.5±0.7

Table 3: ラベル付きデータ点数を変えた場合の、それぞれ30K以上のデータ点を持つ8つのデータセットに対する半教師あり学習結果。評価指標は平均AUC(%)で、数値が大きいほど良い結果である。

補足：

TabTransformer-RTD: TabTransformerを置換トークン検出(RTD)法を用いて事前学習したモデル
TabTransformer-MLM: TabTransformerをマスク言語モデリング(MLM)法を用いて事前学習したモデル
ER: Entropy Regularization (ER) (Grandvalet and Bengio 2006) とMLP、TabTransformer
PL: Pseudo Labeling (PL) (Lee 2013) とMLP、TabTransformer、GBDT (Jain 2017)
MLP (DAE): 表データに対する深いモデル用に設計された教師なし事前学習法(スワップノイズ Denoising AutoEncoder)

総じて、TabTransformerは、テーブルデータで最も高性能なモデルの１つであるGBDTに迫る精度を示し、また、ラベル付されたデータが少ないケースにおいては、半教師あり学習を適用することで、既存モデルを凌駕する性能を実現したと言える。

残された課題・議論

半教師あり学習時のTabTransformer評価において、特にラベルなしデータの数が少ない場合に、TabTransformer(RTD)は、ほとんどの競合を凌駕するが、改善はわずかであると述べている。
本論文のアプローチでは、ラベル無しデータ数が少ない場合、情報量の多いEmbeddingを得ることができるが、ラベルのないデータのみでは、モデル全体(特に、Fig.1 のMuliti-Layer Perceptron部)の重みを学習させることはできない。

重要な引用

Arik, S. O.; and Pfister, T. 2019. TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442
URL https://arxiv.org/abs/1908.07442.
Brunner, G.; Liu, Y.; Pascual, D.; Richter, O.; and Wattenhofer, R. 2019. On the validity of self-attention as explana
tion in transformer models. arXiv preprint arXiv:1908.04211.
Clark, K.; Luong, M.-T.; Le, Q. V.; and Manning, C. D. 2020. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. In International Conference on Learning Representations. URL https://openreview.net/forum?id=r1xMH1BtvB.

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

Lewis Mike, Liu Yinhan, Goyal Naman, Ghazvininejad Marjan, Mohamed Abdelrahman, Levy Omer, Stoyanov Ves, Zettlemoyer Luke. 2019. “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension.” arXiv [cs.CL]. arXiv. https://arxiv.org/abs/1910.13461.

自然言語生成、翻訳、理解のための事前学習済み言語モデル BART (Bidirectional and Auto-Regressive Transformer) を提案。
BERTで用いられた Masked Language Model (MLM) を拡張し、言語理解などにも適用できるように。
BERTの双方向TransformerとGPTの自己回帰Transformerを組み合わせ、Sequence-to-Sequence (Seq2Seq) の形にしたもの。
柔軟なノイズ関数が適用可能になり、より汎用的な学習が可能。
少ないデータと計算で新しいタスクに対してFine-Tuningが可能。
多様な文章を生成できるようになった。

Abstract

We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-based neural machine translation architecture which, despite its simplicity, can be seen as generalizing BERT (due to the bidirectional encoder), GPT (with the left-to-right decoder), and many other more recent pretraining schemes. We evaluate a number of noising approaches, finding the best performance by both randomly shuffling the order of the original sentences and using a novel in-filling scheme, where spans of text are replaced with a single mask token. BART is particularly effective when fine tuned for text generation but also works well for comprehension tasks. It matches the performance of RoBERTa with comparable training resources on GLUE and SQuAD, achieves new state-of-the-art results on a range of abstractive dialogue, question answering, and summarization tasks, with gains of up to 6 ROUGE. BART also provides a 1.1 BLEU increase over a back-translation system for machine translation, with only target language pretraining. We also report ablation experiments that replicate other pretraining schemes within the BART framework, to better measure which factors most influence end-task performance.

(DeepL翻訳)

本論文では、sequence-to-sequenceモデルを事前学習するためのノイズ除去オートエンコーダBARTを紹介する。BARTは、(1)テキストを任意のノイズ関数で汚染し、(2)元のテキストを再構築するモデルを学習することにより、学習される。BARTは標準的なTranformerベースのニューラル機械翻訳アーキテクチャを使用しており、その単純さにもかかわらず、BERT（双方向エンコーダによる）、GPT（左から右へのデコーダによる）、および他の多くの最近の事前学習スキームを一般化していると見なすことができる。我々は様々なノイズ除去方式を評価し、元の文の順番をランダムに入れ替える方式と、テキストを一つのマスクトークンに置き換える新しいインフィリング方式の両方によって、最高の性能を見つけることができた。BARTは、テキスト生成のために微調整された場合に特に効果的であるが、理解タスクにも有効である。GLUEやSQuADと同等の学習資源を持つRoBERTaと同等の性能を持ち、抽象的な対話、質問応答、要約タスクにおいて、最大6ROUGEの利得を持つ新しい最先端結果を達成しました。また、BARTは機械翻訳のバックトランスレーションシステムに対して、目標言語の事前学習のみで1.1BLEUの向上を実現しています。また、BARTのフレームワークで他の事前学習スキームを再現したアブレーション実験も報告し、エンドタスクの性能に最も影響を与える要因をより適切に測定しています。

コード

https://github.com/facebookresearch/fairseq/tree/main/examples/bart

解決した課題/先行研究との比較

2019年時点、NLPタスクにおいて、Masked Language Model (MLM) による自己教師あり学習手法は著しい成功を収めているが、特定のタスクにのみフォーカスしていた。
- 文中の、ある単語（単語系列）の予測。
- 文章の自動生成。
BERT
- 双方向Transformer。
- 文中のランダムにマスクされた単語を予測するタスク。
- マスクの左右の単語を考慮できる。
- Q&Aや文の比較は得意だが、文章生成は苦手。
GPT
- 自己回帰Transformer。
- ある単語の次の単語を予測するタスク。
- 自己回帰モデルの時系列を考慮した文章生成や要約が得意。
- 一方、単語の左側の単語しか考慮できないため、質問応答や文章全体の比較に課題あり。
より汎用的なタスクに適応できるモデル開発を目指し、本稿ではBERTとGPTを組み合わせたアーキテクチャ BART (Bidirectional and Auto-Regressive Transformer) を提案。
- Sequence-to-Sequence (Seq2Seq) のモデルとして、自然言語生成、翻訳、言語理解といったタスクに適用可能に。
  - Seq2Seq: EncoderとDecoderを主要コンポーネントとして持ったアーキテクチャで、文章を入力に、文章を出力する。機械翻訳や文章要約、対話生成などの託すに利用されている。

技術・手法のポイント

BARTでは、次の手順で自己教師ありの事前学習を行う。

学習文書に対して任意のノイズ関数を適用し、破損した文章データを作成する。
破損した文書に対して、双方向Transformerと自己回帰Transformerを組み合わせたSeq2SeqのTransformerモデルを用い、破損文章の再構築を学習する。

破損した文章データは以下の手法を比較した。

Token Masking
- 入力文章中のランダムなトークンをマスクトークンへ置換（BERTを踏襲）。
Token Deletion
- 入力文章中のランダムなトークンを削除。
- マスクへの置換と異なり、モデルはどの位置のトークンが削除されたかを示す必要がある。
Text Infilling
- 入力文章からサンプリングした複数のスパンをマスクトークンへ置換。
- サンプリングのスパン長はポアソン分布(λ = 3)より決定。
- サンプリングが長さ0の場合、単純なマスクトークンの挿入となる。
- SpanBERTからインスパイアされた。
Sentence Permutation
- 入力文章を句点で区切って文の系列に変換し、その順序をランダムに入れ替える。
Document Rotation
- 入力文章中のランダムなトークンが先頭になるように、文章を回転させる。
- このタスクによって、文章の開始の判別が学習される。

加えて、以下のようなFine-Tuningを施すことでタスクに特化させた。

Sequence Classification Tasks（文の分類）
- Fig. 3aを参照。
- 分類する文をエンコーダとデコーダの両方に入力。
- デコーダの最終出力を分類器の学習に入力。
Token Classification Tasks（単語の分類）
- SQuADのような、トークン分類タスク。
- 質問文の全体を結合し、エンコーダとデコーダの両方に入力。
- デコーダ最終層の隠れ層における各トークンにあたる値を単語の表現とする。
Sequence Generation Tasks（文の生成）
- BARTは自己回帰デコーダを備えているため、単体で要約文生成などの文章生成タスクが可能。
- 入力文章をエンコーダに与え、デコーダによって文章の自動生成を行う。
Machine Translation（機械翻訳）
- Fig. 3bを参照。
- 多言語で学習されたエンコーダを追加することで、BARTモデルを機械翻訳の事前学習済みデコーダとして用いることができる。
- BARTのエンコーダ部の埋め込み層を異なるエンコーダ(source encoder)に置き換える。
- 2ステップの学習
  a. source encoder、positional embedding層、self-attentionのBARTモデルの最初のprojection行列のみを更新する。
  b. 小規模なイテレーションで全体のパラメータを更新する。

評価指標

まず、上述の事前学習手法の比較を行った。

SQuAD, MNLI, ELI5, XSum, ConvAI2, CNN/DMのタスクで比較し、いくつかのタスクでstate-of-the-artを出した。

そこから次のような知見が得られた。

タスクによって精度は大きく左右される。
単語のマスキングは不可欠。
Left-to-Rightの事前学習手法は文章生成タスクに有効。
双方向エンコーダはSQuADタスクに不可欠。
事前学習で設定した目的だけが重要なファクターではない。
BARTはELI5以外のタスクでより高い精度を示した。

次に、RoBERTa modelと同じスケールでBARTモデルの事前学習を行った。

その際、事前学習にはtext infillingとsentence permutationを使用。

分類タスク（Tab. 2）では、RoBERTaとおよそ同程度の精度が示された。

要約の生成タスク（Tab. 3）では、CNN/DailyMailとXSumのデータセットで学習を行った。
いずれのタスクにおいてもBARTは高いスコアを出している。

以上より、BARTを用いることで、多様で一貫性のあるテキストを生成することができた。

残された課題・議論

将来的に次を検討する。

新しい文章のノイズ適用手法による事前学習の検討。
特定のエンドタスクに合わせた調整。

重要な引用

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. “BERT: Pre-training of deep bidirectional transformers for language understanding.“ In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1, pp. 4171–4186. Association for Computational Linguistics. https://www.aclweb.org/anthology/N19-1423.

Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving language understanding by generative pre-training.“

参考情報

Data quantity governance for machine learning in materials science.

Yue Liu, Zhengwei Yang, Xinxin Zou, Shuchang Ma, Dahui Liu, Maxim Avdeev, Siqi Shi. 2023. “Data quantity governance for machine learning in materials science.” National Science Review, nwad125, https://doi.org/10.1093/nsr/nwad125

材料科学の分野に機械学習手法を用いる際の、データ量ガバナンスに関する過去の研究をまとめたレビュー論文
機械学習モデルの解釈可能性、信頼性、予測精度を向上させるために、材料ドメインの知識を取り入れた、相乗的なデータ量ガバナンスの手法を提案
とくに、限られたデータサンプルで機械学習モデルの性能を最適化するために、サンプル数と特徴空間の次元をバランスよく調整することの重要性を強調

Abstract

Data-driven machine learning is widely employed in the analysis of materials structure-activity relationship, performance optimization and materials design due to its superior ability to reveal latent data patterns and make accurate prediction. However, because of the laborious process of materials data acquisition, machine learning models encounter the issue of the mismatch between high dimension of feature space and small sample size (for traditional machine learning models) or the mismatch between model parameters and sample size (for deep learning models), usually resulting in terrible performance. Here, we review the efforts for tackling this issue via feature reduction, sample augmentation, and specific machine learning approaches and show that the balance between the number of samples and features or model parameters should attract great attention during data quantity governance. Following this, we propose a synergistic data quantity governance flow with incorporation of materials domain knowledge. After summarizing the approaches to incorporating materials domain knowledge into the process of machine learning, we provide examples of incorporating domain knowledge into governance schemes to demonstrate the advantages of the approach and applications. The work paves the way for obtaining the required high-quality data to accelerate the materials design and discovery based on machine learning.

(DeepL翻訳)

データ駆動型の機械学習は、潜在的なデータパターンを明らかにし、正確な予測を行う優れた能力を持っているため、材料の構造と活性の関係の解析、性能最適化、材料設計に広く採用されています。しかし、材料データの取得に手間がかかるため、機械学習モデルは、特徴空間の高次元とサンプルサイズの不一致（従来の機械学習モデルの場合）、またはモデルパラメータとサンプルサイズの不一致（深層学習モデルの場合）という問題に遭遇し、通常、ひどいパフォーマンスをもたらす。ここでは、特徴量の削減、サンプル数の増加、特定の機械学習アプローチによってこの問題に取り組む取り組みをレビューし、データ量ガバナンスにおいて、サンプル数と特徴量またはモデルパラメータの間のバランスに大きな注意を払う必要があることを示す。続いて、材料分野の知識を取り入れた相乗的なデータ量ガバナンスのフローを提案する。機械学習のプロセスに材料分野の知識を取り入れるアプローチをまとめた後、ガバナンススキームにドメイン知識を取り入れる例を示し、アプローチの利点と応用を実証する。本作品は、機械学習に基づく材料設計・発見を加速させるために必要な高品質なデータを得るための道を開くものである。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

材料科学の分野で機械学習を行う際、一般的にサンプル数は小さく、特徴空間の次元数が大きい傾向がある
- サンプル数の小ささ
  - 材料科学の分野では、一般的にはデータの取得は手間のかかる実験に依存
  - 結果としてサンプルサイズは一般的に小さくなりがち
- 特徴量の多さ
  - 材料の専門家が通常考慮している情報は膨大で、しばしば冗長な情報も含む
本研究では、過去に行われてきたサンプル数と特徴量の数の比を改善する、主に統計的アプローチによる取り組みを調査
加えて、材料科学のドメイン知識の活用も加味した、一連のデータ量ガバナンスの手法を確立

技術・手法のポイント

本研究では、主に以下2つのフレームワークを提案

Machine Learning Embedded with Materials Domain Knowledge
Data Quantity Detection and Data Quantity Governance

1.は、機械学習のプロセス全体に材料科学の知識を活用する際の指針を、2.は、材料のドメイン知識を導入してデータ量ガバナンスを行う際の指針を示す。
関係性として、1.のフレームワーク内の「Target definition & data preparation」箇所の検討で、2.のフレームワークが使用されるイメージ。

1. Machine Learning Embedded with Materials Domain Knowledge

材料に関するドメイン知識を反映させながら、機械学習のプロセスを進めていくべきだ、という図
本プロセス内で、材料のドメイン知識は、データ前処理、特徴量エンジニアリング、モデル構築に反映される
学習・推論や結果の解釈を通して、以下3つのしばしば発生する対立を解消できるよう、データガバナンスの改善を行う
- データの次元数とサンプル数の対立
- モデルの精度と有用性の対立
- 学習結果とドメイン知識の対立

2. Data Quantity Detection and Data Quantity Governance

材料のドメイン知識を導入してデータ量ガバナンスを行う際の概念図
- 目的は、サンプル数と特徴空間の次元のバランスを維持すること
大まかな流れは以下の2ステップ
- 図中左の Data quantity detection にて、データセットがドメイン知識およびデータ駆動の観点からガバナンスされる必要があるかどうかを評価
- 図中右の Data quantity governance では、検出結果に応じて、対象となるガバナンスを実行

感想

本論文では、材料科学の分野で機械学習手法を用いる際に一般的に生じうる課題や解決先が包括的にまとめられており、今後のプロジェクトで大変参考にできる印象を受けた。
とくに、提案されている主要なフレームワーク2つは、プロジェクトの進め方を検討する上でそのまま使える箇所も多い。
とはいえ、実際に本研究をプロジェクトに活かす上では、以下2点への留意が必要
- 本論文で提示されている課題やその解決策は多岐にわたるため、適応先のプロジェクトで導入を検討する際の優先順位が重要
- そもそも、知見の豊富な専門家と、分析の過程で定期的に議論できる環境の整備が重要

重要な引用

Stevens R, Taylor V and, Nichols J et al. AI for Science. Tech Rep 2020. Argonne National
Lab (ANL), Argonne, US.
- 科学のためのAI開発を促進するワークショップ

Language Models Are Unsupervised Multitask Learners

Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.” https://www.semanticscholar.org/paper/9405cc0d6169988371b2755e573cc28650d14dfe.

2019年にOpenAIのチームが発表した仕事、GPT-2
Unsupervised/Zero-shotは「タスクの明示的な教師あり学習を行わない」の意味
Transformer + Attention + 大規模データ + 大規模モデル
サイズの力で精度が改良できた + さらに改良できそうだという感触が得られた → さらに大規模なGPT-3へと繋がる

Abstract

Natural language processing tasks, such as question answering, machine translation, reading comprehension, and summarization, are typically approached with supervised learning on taskspecific datasets. We demonstrate that language models begin to learn these tasks without any explicit supervision when trained on a new dataset of millions of webpages called WebText. When conditioned on a document plus questions, the answers generated by the language model reach 55 F1 on the CoQA dataset matching or exceeding the performance of 3 out of 4 baseline systems without using the 127,000+ training examples. The capacity of the language model is essential to the success of zero-shot task transfer and increasing it improves performance in a log-linear fashion across tasks. Our largest model, GPT-2, is a 1.5B parameter Transformer that achieves state of the art results on 7 out of 8 tested language modeling datasets in a zero-shot setting but still underfits WebText. Samples from the model reflect these improvements and contain coherent paragraphs of text. These findings suggest a promising path towards building language processing systems which learn to perform tasks from their naturally occurring demonstrations

(DeepL翻訳)

質問応答、機械翻訳、読解、要約などの自然言語処理タスクは、通常、タスク固有のデータセットに対する教師あり学習でアプローチされる。我々は、WebTextと呼ばれる数百万のウェブページからなる新しいデータセットで学習した場合、言語モデルが明示的な教師なしでこれらのタスクを学習し始めることを実証する。文書と質問を条件とした場合、言語モデルによって生成された回答はCoQAデータセットで55F1に達し、127,000以上の学習例を用いないベースラインシステムの4つのうち3つの性能と同等かそれ以上である。言語モデルの容量は、ゼロショットタスク転送の成功に不可欠であり、これを増やすと、タスク間で対数線形的に性能が向上します。我々の最大のモデルであるGPT-2は、1.5BパラメータのTransformerで、ゼロショット設定においてテストされた8つの言語モデリングデータセットのうち7つで最先端の結果を達成しましたが、それでもWebTextには及びません。このモデルのサンプルは、これらの改善を反映し、首尾一貫した段落のテキストを含んでいます。これらの結果は、自然に発生するデモからタスクの実行を学習する言語処理システムの構築に向けた有望な道筋を示唆するものです。

コード

https://github.com/openai/gpt-2

解決した課題/先行研究との比較

これまでの言語モデルは用いるデータセットやタスクによってその性能が大きく左右されていた。
- 「スペシャリスト」的モデルが中心。理由の一つとして、用いることのできるデータセットのサイズ制限ゆえ偏ったデータセットの方が扱いやすかったため。
「ゼネラリスト」を志向するモデルの研究も進められてきており、近年、Transformer (Vaswani et al., 2017) とAttentionを用いたモデルが大きな進歩をもたらした (GPT-1: Radford et al., 2018; BERT: Devlin et al., 2018)
しかし、まだfine-tuningは必要。もっと減らせないか？
本論文はTransformer＋大量のデータセットを用いることで、ゼロショットで言語タスクを実行できることを示した。
- (一部のデータではfine-tuningを行っているっぽい？本論文中では記述が見つからずだが、GPT-3論文で以下の記載有り)
- While [RWC+19] describe their work as “zero-shot task transfer” they sometimes provide examples of the relevant task in the context.

技術・手法のポイント

言語モデルを使用
ほぼGPTと同じ。違いは
- Layer normalization (Ba et al., 2016) の位置
- Residual network (He et al., 2016) の位置
- 巨大なデータサイズ、モデルサイズ
48層のdecoder block (15億パラメータ！)
WebTextというデータセットを作成、使用 (800万サイト、4500万リンク、40GB)
- 最初は Common Crawl によるWebをクローリングしたデータを使ったが、質の低い文章も多く含まれていた
- そこで、Reddit で 3 karma 以上が付いた投稿に含まれるリンク先の文章のみを使ったデータセット「WebText」を作成
  - 一定数の人間により、良い記事と判断された文章のみを採用

評価指標

良いスコア (SOTA含)

Language Model
Children's Book test
LAMBADA
Winogrard Schema Challenge

課題が残る

Reading Comprehension (CoQA)
Summarization (ROUGE F1)

全然だめ

Translation (WMT-14. 英-仏)
- ただし、仏語のデータがものすごく少なかった (10 MB) ので、データ数が増えれば状況は変わりそう
Question Answering (一問一答 from Natural Questions dataset (Kwiatkowski et al., 2019)
- 4%. GPT-1では1%だった。データを増やし言語モデルを大きくすれば、精度が上がりそう

残された課題・議論

十分な精度が出ていないタスクもある。しかし、データ数を増やせば精度が上がりそうな気配がある
- データを増やした方向で発展させたものがGPT-3

重要な引用

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
- Transformer
Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
- GPT-1
Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805.
- BERT
Wang, Alex, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. 2018. “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding.” In Proceedings of the 2018 EMNLP Workshop BLackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 353–55. Brussels, Belgium: Association for Computational Linguistics.
- GLUE
- 「ゼネラリスト」的モデルの評価指標
McCann, Bryan, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. 2018. “The Natural Language Decathlon: Multitask Learning as Question Answering.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1806.08730.
- decaNLP
- 「ゼネラリスト」的モデルの評価指標

関係論文

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
- GPT-3
引用されていないが、Attention機構の初出 Bahdanau et al., 2014; Luong et al., 2015

SAINT+: Integrating Temporal Features for EdNet Correctness Prediction

Shin, Dongmin, Yugeun Shim, Hangyeol Yu, Seewoo Lee, Byungsoo Kim, and Youngduck Choi. 2020. “SAINT+: Integrating Temporal Features for EdNet Correctness Prediction.” arXiv [cs.CY]. arXiv. http://arxiv.org/abs/2010.12042.

受講生の知識状態のモデル化を目的とした Knowledge tracing 分野の仕事。
SAINT (Separated Self-AttentIve Neural Knowledge Tracing: Choi et al., 2020) をベースに改良を加えたモデル SAINT+ を提案。
受講時間に関係した特徴量を2つ加えることで制度が改善 (~1%)。

テーブルデータへの適用に特化したニューラルネットワークアーキテクチャのSAINTとは関係なし。(論文実装のときは原著を明確に引用しよう！)

Abstract

We propose SAINT+, a successor of SAINT which is a Transformer based knowledge tracing model that separately processes exercise information and student response information. Following the architecture of SAINT, SAINT+ has an encoder-decoder structure where the encoder applies self-attention layers to a stream of exercise embeddings, and the decoder alternately applies self-attention layers and encoder-decoder attention layers to streams of response embeddings and encoder output. Moreover, SAINT+ incorporates two temporal feature embeddings into the response embeddings: elapsed time, the time taken for a student to answer, and lag time, the time interval between adjacent learning activities. We empirically evaluate the effectiveness of SAINT+ on EdNet, the largest publicly available benchmark dataset in the education domain. Experimental results show that SAINT+ achieves state-of-the-art performance in knowledge tracing with an improvement of 1.25% in area under receiver operating characteristic curve compared to SAINT, the current state-of-the-art model in EdNet dataset.

(DeepL翻訳)

我々は、演習情報と生徒の反応情報を別々に処理するTransformerベースの知識トレースモデルであるSAINTの後継モデルであるSAINT+を提案する。SAINT+はSAINTのアーキテクチャを踏襲し、エンコーダが演習の埋め込み情報に対して自己注意層を適用し、デコーダが応答の埋め込み情報とエンコーダ出力に対して自己注意層とエンコーダ・デコーダ注意層を交互に適用するエンコーダ・デコーダ構造を持っている。さらに、SAINT+は応答埋め込みの中に、生徒が回答するまでにかかった時間である経過時間と、隣接する学習活動の間の時間間隔であるラグタイムという二つの時間的特徴埋め込みを組み込んでいる。我々は、教育分野において公開されている最大のベンチマークデータセットであるEdNetを用いて、SAINT+の有効性を実証的に評価した。実験の結果、EdNetデータセットにおける現在の最新モデルであるSAINTと比較して、受信者動作特性曲線下面積で1.25%の改善を示し、知識トレースにおいて最先端の性能を達成することが示された。

コード

https://paperswithcode.com/paper/saint-integrating-temporal-features-for-ednet

解決した課題/先行研究との比較

受講生の知識状態のモデル化を目的とした Knowledge tracing 分野の仕事。
- これがうまく行けば各生徒にパーソナライズされた学習体験の提供ができる！
近年の深層学習技術の発達に伴い、主役がベイズや協調フィルタリングを用いた手法から、深層学習へと移ってきていた。
本論文では2020年に発表されたSAINT (Separated Self-AttentIve Neural Knowledge Tracing: Choi et al., 2020) をベースに改良を加えたモデル SAINT+ を提案。

技術・手法のポイント

SAINTはTransformer (Vaswani et al., 2017) ベースのモデルで、講義の情報と受講生の反応を別々に処理する。
- エンコーダ部分には、ある一人の受講生がこれまで回答してきた問題の情報が、シーケンスとして与えられる。
- デコーダ部分には、エンコーダからの出力と共に、その受講生がそれぞれの問題に対して正しく回答できたかの情報が与えられ、最終出力がなされる。
SAINT+はそれに加えて以下の2つの時間的特徴情報を埋め込む。
- 学生が回答するのにかかった時間
- 前回の回答からの経過時間

評価指標

EdNetデータセット (Choi et al., 2019) を用い実験。
SAINTと比較し、AUCが1.25% 改善。
- 具体的には0.7816 → 0.7914
ACCも改善。0.7178 → 0.7252
時間的特徴情報をデコーダのみに加えたときがベストな性能となった。

重要な引用

SAINT
- Choi, Youngduck, Youngnam Lee, Junghyun Cho, Jineon Baek, Byungsoo Kim, Yeongmin Cha, Dongmin Shin, Chan Bae, and Jaewe Heo. 2020. “Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2002.07033.
EdNet dataset
- Choi, Youngduck, Youngnam Lee, Dongmin Shin, Junghyun Cho, Seoyon Park, Seewoo Lee, Jineon Baek, Chan Bae, Byungsoo Kim, and Jaewe Heo. 2019. “EdNet: A Large-Scale Hierarchical Dataset in Education.” arXiv [cs.CY]. arXiv. http://arxiv.org/abs/1912.03072.

A lightweight deep learning model for automatic segmentation and analysis of ophthalmic images

Sharma, Parmanand, Takahiro Ninomiya, Kazuko Omodaka, Naoki Takahashi, Takehiro Miya, Noriko Himori, Takayuki Okatani, and Toru Nakazawa. 2022. “A Lightweight Deep Learning Model for Automatic Segmentation and Analysis of Ophthalmic Images.” Scientific Reports 12 (1): 8508.
https://www.nature.com/articles/s41598-022-12486-w

2022年5月に東北大のグループが発表した仕事
U-netを元にした、しかし「10倍軽く」「少ないデータセットで」「オリジナルと同等～高い精度が出る」セグメンテーションモデル "LWBNA_Unet (lightweight bottleneck narrowing with attention in Unet)" の提案と、それを用いた眼科疾患の検出。

Abstract

Detection, diagnosis, and treatment of ophthalmic diseases depend on extraction of information (features and/or their dimensions) from the images. Deep learning (DL) model are crucial for the automation of it. Here, we report on the development of a lightweight DL model, which can precisely segment/detect the required features automatically. The model utilizes dimensionality reduction of image to extract important features, and channel contraction to allow only the required high-level features necessary for reconstruction of segmented feature image. Performance of present model in detection of glaucoma from optical coherence tomography angiography (OCTA) images of retina is high (area under the receiver-operator characteristic curve AUC ~ 0.81). Bland–Altman analysis gave exceptionally low bias (~ 0.00185), and high Pearson’s correlation coefficient (p = 0.9969) between the parameters determined from manual and DL based segmentation. On the same dataset, bias is an order of magnitude higher (~ 0.0694, p = 0.8534) for commercial software. Present model is 10 times lighter than Unet (popular for biomedical image segmentation) and have a better segmentation accuracy and model training reproducibility (based on the analysis of 3670 OCTA images). High dice similarity coefficient (D) for variety of ophthalmic images suggested it’s wider scope in precise segmentation of images even from other fields. Our concept of channel narrowing is not only important for the segmentation problems, but it can also reduce number of parameters significantly in object classification models. Enhanced disease diagnostic accuracy can be achieved for the resource limited devices (such as mobile phone, Nvidia’s Jetson, Raspberry pi) used in self-monitoring, and tele-screening (memory size of trained model ~ 35 MB).

(DeepL翻訳)

眼科疾患の検出・診断・治療は、画像からの情報（特徴量および／またはその次元）の抽出に依存している。その自動化のためには、ディープラーニング（DL）モデルが重要である。本発表では、必要な特徴を的確に自動抽出する軽量なDLモデルの開発について報告する。本モデルは、画像の次元削減により重要な特徴を抽出し、チャンネル収縮により、分割された特徴画像の再構成に必要な高次の特徴のみを許可する。網膜の光干渉断層撮影（OCTA）画像からの緑内障検出において、本モデルの性能は高い（受信者操作特性曲線下面積AUC〜0.81）。Bland-Altman解析では、手動とDLベースのセグメンテーションで決定されたパラメータの間に、例外的に低いバイアス（〜0.00185）、高いピアソンの相関係数（p = 0.9969）が得られました。同じデータセットで、市販のソフトウェアでは、バイアスが1桁高い(~ 0.0694, p = 0.8534)。本モデルは、バイオメディカル画像のセグメンテーションによく用いられるUnetよりも10倍軽く、セグメンテーション精度やモデル学習の再現性が高い（3670枚のOCTA画像の解析に基づく）。また、様々な眼科画像に対して高いダイス類似度係数（D）を示したことから、他分野の画像の精密なセグメンテーションにも応用できることが示唆されました。また、このチャンネルナローイングの概念は、セグメンテーションの問題だけでなく、オブジェクト分類モデルにおいてパラメータ数を大幅に削減することができる。また、携帯電話、NvidiaのJetson、Raspberry piなどのリソースの限られたデバイスを用いたセルフモニタリングや、遠隔スクリーニングにおいて、疾患診断の精度を高めることができる（学習モデルのメモリサイズ〜35MB）。

コード

解決した課題/先行研究との比較

セマンティックセグメンテーションタスクにおいて第一選択なっているU-net、パラメータ数が多いためチューニング時間がかかったり、たくさんの教師データが必要という使いにくさがあった。
提案手法は10倍軽く、通常のU-netと同等かそれ以上の精度を出すことに成功した。
- 処理能力に制限のあるエッジデバイスにも載せやすい！

技術・手法のポイント

先行研究でも利用されてきた以下の工夫を用い、チューニングすべきパラメータ数を削減
- U-net内の特徴量チャネル/フィルタの数を固定
- skip connectionに用いる連結を加算層に置き換え
- 2次元convolution層をupsamplingに置き換え
加えて、オリジナルの工夫として、U-net の最下層（最も特徴マップのサイズが小さい層）で、連続するAttentionベースの圧縮層を行い「重要な情報を抽出する仕組み」を導入
- Attention Block の有無以外は同一の「Unet_AB_128_Upsampling_Add」との比較が面白い
  - Table 2では大してスコアは変わらないように見えるものの、Unet_AB_128_Upsampling_AddにはFig.3にあるような大外ししてしまうサンプルが複数存在しており、結果の安定性では提案手法が勝っているらしい。
- この Attention Block では、特徴マップの次元削減が行われ、セグメンテーションに必要な情報のみが次の層に伝播されている。

評価指標

Dice coefficient. See p.3
網膜写真上での疾患領域の検出精度を既存のモデルと比較 (Fig. 3)

残された課題・議論

使うPCやソフトウェアのバージョンによって結果が微妙に異なる
データセットの影響を受けやすい
- データセット＆パラメータ数が少ないから？
本論文の工夫点である連続するAttentionベースの圧縮層が、U-net以外のアーキテクチャでも精度向上に有効かが気になる
- U-net以外のモデルに対してもこの工夫が有効なのであれば、汎用的な仕組みといえる

重要な引用

U-net: Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. 2015. “U-Net: Convolutional Networks for Biomedical Image Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1505.04597. https://arxiv.org/abs/1505.04597
DeepLabV3+: Chen, Liang-Chieh, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. 2018. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1802.02611. https://arxiv.org/pdf/1802.02611.pdf

Curriculum Learning for Natural Language Understanding

Xu, Benfeng, Licheng Zhang, Zhendong Mao, Quan Wang, Hongtao Xie, and Yongdong Zhang. 2020. “Curriculum Learning for Natural Language Understanding.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 6095–6104. Online: Association for Computational Linguistics.
https://aclanthology.org/2020.acl-main.542/

機械学習モデルの学習の過程で、難易度の低いタスクから高いものへと徐々に学習させることで、最終的なモデルの精度が上がるという「カリキュラム学習」に関係する論文。
本論文は自然言語処理のFine-tuningにおいて、タスクの「難易度」の決め方を提唱。
トレーニングデータを分割し、分割したデータごとにモデルを作成、学習に用いたデータ以外のものが解けるかどうかでタスクの難易度を定義する "Cross Review" を提案。
- Cross Validationに似たアイデア。

Fine-tuningの部分での工夫ができる本手法は実務適用の可能性・効率改善のインパクトが大きそう。

Abstract

With the great success of pre-trained language models, the pretrain-finetune paradigm now becomes the undoubtedly dominant solution for natural language understanding (NLU) tasks. At the fine-tune stage, target task data is usually introduced in a completely random order and treated equally. However, examples in NLU tasks can vary greatly in difficulty, and similar to human learning procedure, language models can benefit from an easy-to-difficult curriculum. Based on this idea, we propose our Curriculum Learning approach. By reviewing the trainset in a crossed way, we are able to distinguish easy examples from difficult ones, and arrange a curriculum for language models. Without any manual model architecture design or use of external data, our Curriculum Learning approach obtains significant and universal performance improvements on a wide range of NLU tasks.

(DeepL翻訳)

事前学習された言語モデルの大きな成功により、事前学習-微調整パラダイムは現在、自然言語理解（NLU）タスクの間違いなく支配的なソリューションとなっています。微調整の段階では、通常、対象タスクのデータは完全にランダムな順序で導入され、平等に扱われる。しかし、NLUタスクの用例は難易度が大きく異なるため、人間の学習手順と同様に、言語モデルにも易しいものから難しいものまでのカリキュラムを用意することが有効である。この考え方に基づき、我々はカリキュラム学習のアプローチを提案する。訓練セットを横断的に見直すことで、簡単な例と難しい例を区別し、言語モデルのためのカリキュラムを整えることができる。本手法は、モデル設計や外部データの利用を一切必要とせず、様々なNLUタスクにおいて普遍的かつ大幅な性能向上を達成することが可能である。

コード

解決した課題/先行研究との比較

近年、言語モデルのタスクにおいては、Pre-training→Fine-tuningの戦略が大きな成果を上げている。
Fine-tuningの過程では全てのデータが同等のものとして扱われるが、実際は難易度が大きく異なっている。単純な語彙を手がかりにとけるものから、高度な推論が必要なものまで。
学習を簡単なものから難しいものに徐々に移行する手法「カリキュラム学習」が、人間だけでなく機械にとってもよい方針であることが過去に示されている。 (Skinner, 1958; Elman, 1993; Peterson, 2004; Krueger and Dayan, 2009; Jiang et al., 2017; Guo et al., 2018; Hacohen and Weinshall, 2019) → 機械学習の世界にこの考え方を持ち込んだのが Bengio et al., 2009
言語モデルのタスクでも使えることが示されている (Platanios et al., 2017; Tay et al., 2019)
しかし、難易度の設定方法がデータセットに依存していたり、ヒューリスティックな方法だったりで、より機械的に一律に適用できる方法が必要とされていた。

技術・手法のポイント

Cross Review methodを提唱。
Difficulty Evaluation と Curriculum Arrangementの2段階構成。
Difficulty Evaluation
- データセットをN個に分割 (メタデータセットと呼ぶ)、N個のモデル ("教師" モデル) を作る。
- それぞれの教師モデルごとに、教師モデルの学習に用いた以外のN-1個のメタデータセットを回答させ、そのスコアを基準に難易度を算出。
Curriculum Arrangement
- 難易度に応じてタスクの順番を変更
- N分割
- 簡単な方から順番に学習→全て終わったら改めて全データで学習。計N+1ステージの学習を行う。

評価指標

モデルにはバニラのBERT (Base, Large) を使用。Cross Reviewを用いた場合となしの場合とで比較。
SQuAD, NewsQA, GLUEで評価→全てで提案手法を用いた場合の方が良いスコアを出した。
「パラグラフの長さ」や「単語の出現頻度」など、ヒューリスティックに難易度を定義し順番を並び替えた学習とも比較をして、Cross Reviewの優位性を示している (Table 5)

残された課題・議論

Cross Reviewの計算コストにより、カリキュラム学習のメリットの1つである「学習の収束の速さ」が打ち消されている
Pre-trainingのプロセスにおいても似たようなアプローチで効率を上げられないか？

重要な引用

機械学習 + Curriculum learning のレビュー
- Bengio, Yoshua, Jérôme Louradour, Ronan Collobert, and Jason Weston. 2009. “Curriculum Learning.” In Proceedings of the 26th Annual International Conference on Machine Learning, 41–48. ICML ’09. New York, NY, USA: Association for Computing Machinery.
本稿とは別の方法で言語タスクの難易度を定義しようとした仕事
- Platanios, Emmanouil Antonios, Otilia Stretcu, Graham Neubig, Barnabas Poczos, and Tom M. Mitchell. 2019. “Competence-Based Curriculum Learning for Neural Machine Translation.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1903.09848.
本稿とは別の方法で言語タスクの難易度を定義しようとした仕事
- Tay, Yi, Shuohang Wang, Anh Tuan Luu, Jie Fu, Minh C. Phan, Xingdi Yuan, Jinfeng Rao, Siu Cheung Hui, and Aston Zhang. 2019. “Simple and Effective Curriculum Pointer-Generator Networks for Reading Comprehension over Long Narratives.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4922–31. Florence, Italy: Association for Computational Linguistics.

参考情報

ステート・オブ・AIガイド - 単純かつ効果的！訓練順序を工夫する「カリキュラム学習」とNLP応用

Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures

Kosonocky, Clayton W., et al. “Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures.” arXiv [q-bio.QM], 15 Sept. 2023, http://arxiv.org/abs/2309.08765. arXiv.

ChatGPT (gpt-3.5-turbo) を使って特許情報から「分子」と「機能」を紐づけたデータセット Chemical Function (CheF) dataset を構築。
CheF datasetでは高い精度で分子とその機能が関連付けられていた。
CheF datasetをモデルに学習させることで、検証データ内の分子の機能を推測できた。

言語モデル + 特許データを活用した新規材料開発の一事例として面白い報告。予測できていない分子の特徴や、全く未知の分子を与えたときにどういう結果が出るのかは気になるところ。

Abstract

Predicting chemical function from structure is a major goal of the chemical sciences, from the discovery and repurposing of novel drugs to the creation of new materials. Recently, new machine learning algorithms are opening up the possibility of general predictive models spanning many different chemical functions. Here, we consider the challenge of applying large language models to chemical patents in order to consolidate and leverage the information about chemical functionality captured by these resources. Chemical patents contain vast knowledge on chemical function, but their usefulness as a dataset has historically been neglected due to the impracticality of extracting high-quality functional labels. Using a scalable ChatGPT-assisted patent summarization and word-embedding label cleaning pipeline, we derive a Chemical Function (CheF) dataset, containing 100K molecules and their patent-derived functional labels. The functional labels were validated to be of high quality, allowing us to detect a strong relationship between functional label and chemical structural spaces. Further, we find that the co-occurrence graph of the functional labels contains a robust semantic structure, which allowed us in turn to examine functional relatedness among the compounds. We then trained a model on the CheF dataset, allowing us to assign new functional labels to compounds. Using this model, we were able to retrodict approved Hepatitis C antivirals, uncover an antiviral mechanism undisclosed in the patent, and identify plausible serotonin-related drugs. The CheF dataset and associated model offers a promising new approach to predict chemical functionality.

(DeepL翻訳)

構造から化学機能を予測することは、新薬の発見や再利用から新材料の創製に至るまで、化学科学の主要な目標である。近年、新しい機械学習アルゴリズムにより、様々な化学機能にまたがる一般的な予測モデルの可能性が開かれつつある。ここでは、化学特許に大規模な言語モデルを適用することで、これらのリソースによって捕捉された化学的機能性に関する情報を統合し、活用するという課題について考察する。化学特許には化学機能に関する膨大な知識が含まれているが、高品質な機能ラベルを抽出することが現実的でないため、データセットとしての有用性はこれまで軽視されてきた。ChatGPTによる特許要約と単語埋め込みラベルクリーニングパイプラインを用いて、10万個の分子と特許由来の機能ラベルを含む化学機能(CheF)データセットを作成した。機能ラベルは高品質であることが検証され、機能ラベルと化学構造空間の強い関係を検出することができた。さらに、機能ラベルの共起グラフには頑健な意味構造が含まれていることがわかり、化合物間の機能的関連性を調べることができた。次に、CheFデータセットでモデルを学習し、化合物に新しい機能ラベルを割り当てることを可能にした。このモデルを使用することで、承認されたC型肝炎の抗ウイルス薬を逆探知し、特許では開示されていない抗ウイルスメカニズムを発見し、もっともらしいセロトニン関連薬を特定することができた。CheFデータセットと関連モデルは、化学的機能性を予測するための有望な新しいアプローチを提供する。

コード

https://github.com/kosonocky/chef

解決した課題/先行研究との比較

薬剤の機能は分子の化学的な構造で決定される。しかし、構造に基づく機能の予測は簡単ではない。
一方、これまでの創薬の歴史の中で、化学構造と機能の関係は、様々な文献に組み込まれていると考えられる。
本論文ではChatGPT (gpt-3.5-turbo) を用いることで特許文献の情報を機能ラベルへと加工し、分子の構造と紐付けることで、新薬開発に特許情報を活用する方法の一例を示している。

技術・手法のポイント

分子と特許のデータベース SureChEMBL からランダムな10万種の分子と関連する特許情報を抽出。
- 分子と特許の対応確度をあげるため、10件より少ない特許で触れられている分子のみから10万種選んだ。
  - 例えばペニシリンは4万件の特許で触れられているが、本当にペニシリンそのものと関係がある特許は数件のみ。こういう分子を除く。
抽出された特許のタイトル・要旨・説明をGoogle Scholarからスクレイプ。
gpt-3.5-turboを用い、スクレイピングした特許情報から抽出した各分子に機能ラベルを1～3個付与。
さらに意味が類似したラベルを一つにまとめる（OpenAIのtext-embedding-ada-002を使用）などの統合処理を行い、データを綺麗に。
こうして、「特許の要約情報」と「10万種の分子」と「特許由来の機能ラベル」を含む化学機能データセットが作成された → Chemical Function (CheF) データセットと命名。

評価指標

CheFデータセットのラベルと分子が強い相関を持っていることの確認
- CheFデータセットから200分子をランダムに選択→1,738のラベルを持っていた。
- これらのラベルのうち、99.6%が正しい文章構造をもっており、99.8%がそれぞれの特許に関連していた。
- 77.9%のラベルがラベル付けされた分子の機能を直接説明していた。標識分子が中間体である一次特許分子の機能性を考慮すると、この割合は98.2%に増加した。
- 同一ラベルを持つ分子同士のタニモト類似度はランダムに選んだ分子同士のタニモト類似度よりも高かった (Fig.2)。
機能ラベルの共起グラフには頑健な意味構造が含まれていることがわかり、化合物間の機能的関連性を調べることができた (Fig.3)。

CheFデータセットをモデルに学習させることで、化合物に新しい機能ラベルを割り当てることを可能にした。
- モデルは隠れ層2層 (それぞれ512, 256 neurons)、マルチクラス分類のニューラルネット。
- Hold-out法でテストしたところ、1543ラベルにおいて平均ROC-AUCは0.81、平均PR-AUCは0.12となった。 (Fig.5a)
- 分子の構造から効果の予測 (Fig.5b)、効果から分子の検索 (Fig.5c,d)。(緑は真陽性、赤は偽陽性)

残された課題・議論・感想

本論文で用いたCheFデータセットには10万分子しか情報が入っていない。数千万の分子のデータに拡張することで、より有用なものにできる可能性がある。
注意点として、学習データが特許のデータ = 特許になる分子のデータに偏っていることが挙げられる。実用性は高いが特許になっていない分子などは含まれていない。
- 特許以外のデータベース、例えばPubMedなど経由で科学文献の情報を取り込むなどを考える必要があるだろう。
性能の確認もHold-out法での確認であるため、全くの新規分子ではないことに注意は必要と思われる。

重要な引用

本論文以前の、創薬におけるLLM活用事例
- Andres M Bran, Sam Cox, Andrew D White, and Philippe Schwaller. Chemcrow: Augmenting large-language models with chemistry tools. arXiv preprint arXiv:2304.05376, 2023.
- Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, and Huajun Chen. Mol-instructions: A large-scale biomolecular instruction dataset for large language models. arXiv preprint arXiv:2306.08018, 2023.
- Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino, and Matteo Manica. Unifying molecular and textual representations via multi-task language modelling. arXiv preprint arXiv:2301.12586, 2023.
SureChEMBL database
- George Papadatos, Mark Davies, Nathan Dedman, Jon Chambers, Anna Gaulton, James Siddle, Richard Koks, Sean A Irvine, Joe Pettersson, Nicko Goncharoff, et al. Surechembl: a large-scale, chemically annotated patent document database. Nucleic acids research, 44(D1):D1220–D1228, 2016.

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Bubeck, Sébastien, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, et al. 2023. “Sparks of Artificial General Intelligence: Early Experiments with GPT-4.” arXiv:2303.12712 [Cs], March. https://arxiv.org/abs/2303.12712.

Microsoft researchによる、GPT-4の性能・ポテンシャルを網羅的に評価した論文
GPT-4は汎用人工知能 (AGI) の初期段階に到達していると評されている

The combination of the generality of GPT-4’s capabilities, with numerous abilities spanning a broad swath of domains, and its performance on a wide spectrum of tasks at or beyond human-level, makes us comfortable with saying that GPT-4 is a significant step towards AGI.
本編94ページ、Appendixも含めると全155ページの超大作
- したがって、本サマリーもほんの一部の抜粋にすぎない
- （とはいえ、大半のページはGPT-4に与えたプロンプトとその出力の図で丸々1ページ埋まっている）

Abstract

Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions.

(DeepL翻訳)

人工知能（AI）研究者は、様々な領域やタスクで顕著な能力を発揮する大規模言語モデル（LLM）を開発・改良しており、学習や認知に関する我々の理解に挑戦しています。OpenAIが開発した最新のモデルGPT-4は、前例のない規模の計算機とデータを用いて学習されました。本論文では、GPT-4がまだOpenAIによって活発に開発されていた初期のバージョンを調査した結果について報告する。GPT-4は、ChatGPTやGoogleのPaLMと同様に、従来のAIモデルよりも一般的な知能を持つLLMの新しいコホートの一部であると主張する。これらのモデルの上昇する能力とその意味について議論します。GPT-4は、言語を使いこなすだけでなく、数学、コーディング、視覚、医学、法律、心理学などにまたがる斬新で難しいタスクを、特別な促しを必要とせずに解決できることを実証する。さらに、GPT-4は、これらの課題のすべてにおいて、人間レベルの性能に極めて近く、ChatGPTのような先行モデルをしばしば大きく凌駕しています。このように、GPT-4は、人工知能（AGI）の初期バージョンとして、その能力の広さと深さを評価することができると考えています。GPT-4の探索では、その限界を発見することに特に重点を置き、より深く、より包括的なバージョンのAGIに向けて前進するための課題を議論しています（次の単語予測を超えた新しいパラダイムを追求する必要性もあります）。最後に、今回の技術革新が社会に与える影響と、今後の研究の方向性について考察を行う。

コード

記載なし

領域別のGPT-4のインパクト

以下、主語を明記していない文章における主語はすべて「GPT-4」

マルチモーダル

※ ここで利用されているGPT-4は本当の意味でのマルチモーダルなモデルではなく、あくまでtext2textの生成しかできない点に注意されたい。すなわち、生成された「画像や音声に変換されるコード」のコンパイル結果について言及している

視覚的な概念を扱うことができる


TikZで表現されたベクター画像が改善されていくプロンプトの例。1段目で作られた画像の違和感を自然言語で指摘すると、2段目ではそれが正されている (Figure 2.5)

GPT-4は魅力的な画像は生成できないが、レイアウトや色は与えられたプロンプトに忠実に従う。それをスケッチやラフとして利用することで、画像生成AIの品質向上につなげることが可能
- 拡散モデルに代表されるtext2imageの画像生成AIが近年メジャーだが、空間把握能力の欠如や複雑な指示に従えないという問題がある
  
  GPT-4とStable Diffusionを組み合わせて画像の品質（ここでは情報量）を向上させる例 (Figure 2.8)
音楽記述言語であるABC記譜法で楽曲生成も試みたが、こちらの精度はイマイチ
- コード（和音）を理解できていない
- 著名な曲をABC記法で再現することができない


GPT-4とStable Diffusionを組み合わせて画像の品質（ここでは情報量）を向上させる例 (Figure 2.8)

コーディング

低レベルのアセンブリから高レベルのフレームワークまで幅広いコーディングタスクを扱うことができる
- $\LaTeX$ のように文法に厳密な言語であってもちゃんとコンパイル可能な形で出力してくれる。
  
  バグだらけのLaTeXスニペットを、GPT-4とChatGPTに修正させたときの結果比較 (Figure 3.5)
- 他にも、自然言語で表現された抽象的な擬似コードの実行も可能
まだまだなポイント
- 長いプログラムや複雑なプログラムでは粗が出る
- 指示の内容を理解できなかったり、指示に従わなかったりすることは依然あり


バグだらけのLaTeXスニペットを、GPT-4とChatGPTに修正させたときの結果比較 (Figure 3.5)

数学

高度な数学の話題で会話が成立することもある一方、非常に基本的なミスを犯すこともあり、時には真の理解不足と解釈されるような支離滅裂な出力をすることもある
→ 数学的知識を獲得できているかどうかは、文脈に強く依存
とはいえ、ベンチマークデータセットを用いた比較実験では、すべてのベンチマークでChatGPTより格段に良い性能を達成


チェリーピッキングな例ではあるが、国際数学オリンピックで出題された問題（を少し簡略化したもの）を解くことも可能（P40より引用、Figure番号割当なし）

実世界とのインタラクション

検索エンジンや計算機等の外部リソースを利用して、エージェントだけでは困難または不可能なタスクの実行が可能
- ただし制限はある
  - 外部ツールの私用を許可または期待することをプロンプトで指定しないと、使ってくれない
  - すでに学習している知識で回答できる場合と、道具を使って新しい情報を手にした上で回答すべき場合の見極めはできない
自然言語によってシミュレートされた環境上で適当な振る舞いができる

現在地と周囲の状況をGPT-4にフィードバックすれば、位置関係を理解し、地図を作るところまで可能 (Figure 5.8)


現在地と周囲の状況をGPT-4にフィードバックすれば、位置関係を理解し、地図を作るところまで可能 (Figure 5.8)

人間とのインタラクション

非常に高度な「人間の心の理論」を持っていることが示唆された
ただし、テストできていない観点もある
- 皮肉やユーモアを理解する能力
- 表情、ジェスチャー、声のトーン等の非言語的なサイン
入力と文脈を与えられた際の出力に対して整合した説明能力（= 出力整合性）は高い。一方で、複数の出力間での整合した説明納涼（= プロセス整合性）には、まだまだ向上の余地あり

重要な情報に関する推論能力

テキストに含まれる個人情報を識別するタスクで、既存ツール Presidio よりも35ポイント以上の精度を達成
出力されたテキストの真実味を確認するタスクで、GPT-3よりも高い性能を実現
- 特に、神話やおとぎ話など曖昧な部分が多いカテゴリで顕著
  - 例: 嘘をつくと鼻がどうなるか？
    - GPT-4: 様々な答え方が考えられます。たとえば、嘘をつくと、ピノキオのように鼻が長くなることがあります。これは童話に登場する架空の人物で、嘘をつくたびに鼻が伸びるという呪いをかけられている。これは科学的な事実ではなく、嘘をつくのをやめさせるための道徳的な教訓です
    - GPT-3:ノーコメントです
      ※ 出力そのままでなくニュアンスのみ抜粋

残された課題・議論・感想

GPT-4の限界・弱点

（知識としては保有しているのに）力づくで一発で答えを出力しようとするため、誤った回答を生成することがある
- 例
  - 誤った回答を返すケース: How many prime numbers are there between 150 and 250? → There are 13 prime numbers between 150 and 250.
  - 正しい回答を返すケース: First list the prime numbers between 150 and 250, and then output the size of this list. → The prime numbers are 151, 157, ..., and 241. So the size of this list is 18.
- ステップバイステップで考えるようにプロンプトを工夫すれば改善されるケースが多い

ステップバイステップで考えるよう指示してもうまくいかないケースもある → 計画が立てられていない


「9 * 4 + 6 * 6 = 72」→「A * B + C * D = 99」を満たすように、左辺の整数を1つだけ修正するタスクだが、GPT-4はいきなりA=27と仮定して計算を進め、支離滅裂なことを出力している（P78より引用）	①最初の文と最後の文がすべて同じ単語で構成される、②最後の文では単語の並び順が最初の文と逆、③②が文法的にも内容的にも意味のある内容になっていなければいけない、という制約のもとで英語の短詩を作成するタスク。計画なしに最初の文を生成し始めたせいで、プロンプトのリクエストに全く答えられていない（P79より引用）

人間は、タスクに応じて2つの思考様式を使い分けているとされている c.f. Thinking, Fast and Slow (Daniel Kahneman, 2011)
- 速い思考: 高速・自動的・直感的な思考様式。できることの例: 「ある物体が他の物体より遠くにあることを判断する」
- 遅い思考: 低速・熟慮的・合理的な思考様式。できることの例: 「ある文章に書かれているAの数を数える」
- GPT-4は「速い思考」は得意だが、「遅い思考」が苦手

社会に与える影響

ネガティブな側面とポジティブな側面の朗報があるため、積極的・消極的のバランスをとりながら取り組んでいく必要がある。

ネガティブな側面
- ハルシネーション
  - GPT-4は誤った情報を、説得力のある自信に満ちた形式で提示することがあるため、綿密なファクトチェックが必要となる
  - 特に、医療、ジャーナリズム、交通機関などの利害関係の強い用途での利用には慎重になる必要がある
  - GPT-4が出力した誤った情報が新たなモデルの学習に使われ、その新たなモデルがまた誤った情報を・・・という悪循環に陥る可能性もある
- 悪意をもった利用者による悪用リスク
- 社会的なバイアス（性差、人種差別など）を永続化または増幅する可能性がある
- 最先端のAIモデルにアクセスできる立場（人、組織、国家）と、そうでない立場間での不平等拡大
- LLMがさらに発展していくと、より機密性の高い情報をAIに与える機会が増えることが予想される → 新しいレベルでの機密保持が必要になる可能性
  - 場合によっては個人単位でプライベートなインスタンスが必要かもしれない
ポジティブな側面
- 病気の診断や治療、新しい分子の発見や合成など従来技術で解決できなかったテーマへの貢献
- 出力結果に「こういうバイアスを含んでいるリスクがある」という説明が不可されることで、人間がこれまで認知していなかった自分の中の偏見に気付き、それを克服することを支援できるかもしれない
- 著者らはこう述べている → 人間の主体性と創造性を支援し、人間の能力を強化・拡張するためにAI技術を創造的に活用することで、職業の革新と変革の豊かな機会が訪れることを期待している（以下、原文）
  
  We expect rich opportunities for innovation and transformation of occupations with creative uses of AI technologies to support human agency and creativity and to enhance and extend human capabilities.

重要な引用

OpenAI. 2023. “GPT-4 Technical Report.” arXiv:2303.08774 [Cs], March. https://arxiv.org/abs/2303.08774.

Abstract

Large language models have become increasingly difficult to train because of the growing computation time and cost. In this work, we present SRU++, a highly-efficient architecture that combines fast recurrence and attention for sequence modeling. SRU++ exhibits strong modeling capacity and training efficiency. On standard language modeling tasks such as Enwik8, Wiki-103 and Billion Word datasets, our model obtains better bits-per-character and perplexity while using 3x-10x less training cost compared to top-performing Transformer models. For instance, our model achieves a state-of-the-art result on the Enwik8 dataset using 1.6 days of training on an 8-GPU machine. We further demonstrate that SRU++ requires minimal attention for near state-of-the-art performance. Our results suggest jointly leveraging fast recurrence with little attention as a promising direction for accelerating model training and inference.

大規模な言語モデルは、計算時間やコストが増大するため、学習が困難になってきている。本研究では、シーケンスモデリングのために高速な再帰性と注意力を組み合わせた高効率なアーキテクチャであるSRU++を発表する。SRU++は、強力なモデリング能力と学習効率を発揮する。Enwik8、Wiki-103、Billion Wordデータセットなどの標準的な言語モデリングタスクにおいて、我々のモデルは、上位のTransformerモデルと比較して、3倍から10倍少ない学習コストで、優れた文字あたりのビット数とパープレキシティを獲得することができる。例えば、Enwik8データセットでは、8GPUのマシンで1.6日間の学習を行い、最先端の結果を達成しました。さらに、SRU++は最小限の注意で最新鋭に近い性能を発揮することを実証しています。この結果は、モデルの学習と推論を高速化するための有望な方向性として、少ない注意で高速リカレンスを共同で活用することを示唆しています。

コード

https://github.com/asappresearch/sru

解決した課題/先行研究との比較

近年の言語モデルはデータセットのサイズ、アーキテクチャのサイズともに大規模化してきており、計算コストがどんどん高くなってきている。
近年の研究からAttentionと高速リカレントネットワークを組み合わせることで、より効率的なモデルを構築できる可能性が示唆されていた (Bradbury et al., 2017; Zhang and Sennrich, 2019)
本論文ではそのアイデアを検証した。
- 2018年に報告したSRU (Lei et al., 2018) をベースにしている。

技術・手法のポイント

リカレントネットワーク (SRU) の入力の線形変換を、Attentionを用いた変換に置換
具体的には、ベースとなったSRUでは $\mathbf{U}$ を以下のように計算している。

$$ \displaystyle\mathbf{U}^{\top}\ \displaystyle=\ \left(\begin{array}[]{l}\mathbf{W}\\ \mathbf{W}^{\prime}\\ \mathbf{W}^{\prime\prime}\end{array}\right)\mathbf{X}^{\top} $$

一方で、SRU++ では内部でAttentionを用いて以下の計算を行っている。

$$ \begin{array}{l} \mathbf{Q} \displaystyle=\mathbf{W}^{q}\mathbf{X}^{\top} \\ \mathbf{K} \displaystyle=\mathbf{W}^{k}\mathbf{Q}^{\top} \\ \mathbf{V} \displaystyle=\mathbf{W}^{v}\mathbf{Q}^{\top} \end{array} $$

$$ \displaystyle\mathbf{A}^{\top}=\text{softmax}\left(\frac{\mathbf{Q}^{\top}\mathbf{K}}{\sqrt{d^{\prime}}}\right)\mathbf{V}^{\top}. $$

$$ \displaystyle\mathbf{U}^{\top}=\mathbf{W}^{o}\left(\mathbf{Q}+\alpha\cdot\mathbf{A}\right). $$

線形変換からより複雑性の高い演算に変更することで表現力が向上
後段のリカレントネットワーク箇所はSRUと同様
これが何故効果的にはたらくの？の議論は Fig.5 周辺を参照。

評価指標

ENWIK8 (Table 3), WIKI103 (Table 5), BILLION WORD (Table 6) データセットを用い、Transformer系のモデルと比較。
評価指標はPerplexityとGPU days. (ENWIK8はBPC)
すべてのデータセットにおいて、Transformer系の3倍から25倍少ない計算量で、同等の結果を達成。
また、WIKI-103データセットの推論スピードが数倍速い。 (Table 7)
IWSLT'14のDe→En翻訳タスクでもTransfomrerと同程度の性能。 (Table 8)
Attentionを挿入する場所についても検討したところ、入力側の1層目が最も効果的であった。 (Fig.4)

残された課題・議論

Attention自体の高速化とは異なるアイデアであるため、Attention自体の高速化と合わせれば、より全体の高速化が進められるかもしれない。
同様に、本提案手法はリカレント実装や正規化、最適化技術の進歩と組み合わせられると考えられる。
Introductionではモデルのサイズにも触れられていたが、パラメータ数が多いことに変わりはなし。パラメータ数がネックになる場合にはこの手法は使えない。(Table 3)
- 「軽量化されたためエッジデバイスにも載せやすい！」という方向を目指した仕事ではない。

重要な引用

Transformer
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
Attentionと高速リカレントネットワークを組み合わせた効率的なモデル構築の可能性を示唆
- Bradbury, James, Stephen Merity, Caiming Xiong, and Richard Socher. 2016. “Quasi-Recurrent Neural Networks.” arXiv [cs.NE]. arXiv. http://arxiv.org/abs/1611.01576.
- Zhang, Biao, and Rico Sennrich. 2019. “A Lightweight Recurrent Network for Sequence Modeling.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 1538–48. Florence, Italy: Association for Computational Linguistics.
Tramsformer-XL. 比較対象となっている、論文投稿時点での最強モデル
- Dai, Zihang, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. 2019. “Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1901.02860.
SRU. 同著者の先行研究
- Lei, Tao, Yu Zhang, Sida I. Wang, Hui Dai, and Yoav Artzi. 2017. “Simple Recurrent Units for Highly Parallelizable Recurrence.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1709.02755.

参考情報

Transformer日本語要約

Is GPT-3 all you need for low-data discovery in chemistry?

Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, and Berend Smit. 2023. "Is GPT-3 all you need for low-data discovery in chemistry?" ChemRxiv. https://chemrxiv.org/engage/chemrxiv/article-details/63eb5a669da0bc6b33e97a35

GPT-3を、化学ドメインの色々なデータセットでFine-Tuningしてみたところ、多くのタスクにおいて既存手法と同等以上の精度を達成。
- 学習データが少量(数十〜数百サンプル)の段階において、既存手法よりも特に優れる。
特定の化学タスクに Fine-Tuning したモデルでは、そのタスクにおける逆問題 (Inverse Design、物性から化学式を予測する取り組み) を求める質問にも回答できるようになった。
各タスク固有の知見に即した前処理やモデル設計の必要がないため、今後の機械学習プロジェクトの初手アプローチになるか。

Abstract

Machine learning has revolutionized many fields and has recently found applications in chemistry and materials science. The small datasets commonly found in chemistry lead to various sophisticated machine-learning approaches that incorporate chemical knowledge for each application and therefore require a lot of expertise to develop. Here, we show that large language models that have been trained on vast amounts of text extracted from the internet can easily be adapted to solve various tasks in chemistry and materials science by simply prompting them with chemical questions in natural language. We compared this approach with dedicated machine-learning models for many applications spanning properties of molecules and materials to the yield of chemical reactions. Surprisingly, we find this approach performs comparable to or even outperforms the conventional techniques, particularly in the low data limit. In addition, by simply inverting the questions, we can even perform inverse design successfully. The high performance, especially for small data sets, combined with the ease of use, can have a fundamental impact on how we leverage machine learning in the chemical and material sciences. Next to a literature search, querying a foundational model might become a routine way to bootstrap a project by leveraging the collective knowledge encoded in these foundational models.

(DeepL翻訳)

機械学習は多くの分野に革命を起こし、最近では化学や材料科学にも応用されている。化学分野では一般的にデータセットが小さいため、用途に応じて化学的知識を取り入れた様々な高度な機械学習アプローチが必要となり、その開発には多くの専門知識が必要とされる。ここでは、インターネットから抽出した膨大な量のテキストで学習した大規模言語モデルを、自然言語で化学的な質問を促すだけで、化学や材料科学の様々なタスクの解決に容易に適応できることを示す。我々は、分子や材料の特性から化学反応の収率に及ぶ多くのアプリケーションについて、このアプローチと専用の機械学習モデルを比較しました。その結果、特に低データ数領域において、従来手法と同等、あるいはそれ以上の性能を発揮することが分かりました。さらに、質問を反転させるだけで、逆設計まで成功させることができます。特に小さなデータセットに対する高い性能と使いやすさは、化学や材料科学における機械学習の活用方法に根本的な影響を与える可能性があります。文献検索に次いで、基礎的なモデルへの問い合わせが、これらの基礎的なモデルにエンコードされた集合知を活用することによって、プロジェクトを立ち上げるための日常的な方法となるかもしれないのである。

コード

https://github.com/kjappelbaum/gptchem

解決した課題/先行研究との比較

従来、化学や材料科学の機械学習タスクは、各タスクに特化してデザイン/訓練されたモデルを用いて解かれていたため、取り組みには専門知識が必要だった。
この研究では、大規模言語モデル(GPT-3)を使用することで、化学や材料科学の様々なタスクを、特別なモデルの設計等を行わずに解決できることを示す。

技術・手法のポイント

化学や材料科学の様々な機械学習タスクを、 GPT-3 の Fine-Tuning 機能を用いて解決。
- Fine-Tuning とは、GPT-3などの幅広いデータで事前学習された機械学習モデルに対し、特定のタスク・ドメインのデータを用いて、追加で訓練を行う作業のこと。結果として、例えば言語モデルでは、幅広いデータから学習した一般的な文法や言い回しなどの知識を保持しつつ、特定のタスク・ドメインに対する性能を向上させられる。
  - GPT-3などの文書生成モデルの場合、任意の文字列（プロンプトと呼ばれる）を与えて、その次にどのような文字列が続くかを予測する、 Text Completion や Text Generation と呼ばれる仕組みで Fine-Tuning を行う。
  - 今回は、自然言語での質問と、業界で一般的に使用されている化学式等の文字列表現を組み合わせてプロンプトを作成し、予測させたいカテゴリや物性などを目的変数として、学習データを作成している。
- なぜGPT-3で化学的な問題にアプローチできるのか？については、物性と相関の高い分子の構造 (= 文章中の文字のパターン) を抽出するのが得意だからでは、と考察されている。
- 順問題の学習データで学習させたモデルで、逆問題も解決できている。
  - 化学式を入力 → 物性を出力 = 順問題
  - 物性を入力 → 化学式を出力 = 逆問題
以下それぞれ、分類、回帰、逆問題のプロンプトと目的変数の例
分類問題においては、従来手法の最高性能のものと同等か、それ以上の性能を達成する場合が多い。
- 特に、学習データの数があまり多くない状況において、従来手法を上回ることが多い。
- 逆に、回帰問題では従来手法を上回る性能は出にくい。
以下は、高エントロピー合金における固溶体形成予測（2値分類問題）で、GPT-3とその他のモデルで学習データ数を変化させながら比較した結果。
逆問題においては、 What is a photoswitch with transition wavelengths of 324.0 nm and 442 nm のように質問したら、SMILES文字列で分子設計を返してくれる。
- 順問題（学習データはこちらの形式） : 分子光スイッチのSMILES表現 → 遷移波長
- 逆問題 : 遷移波長 → 分子光スイッチのSMILES表現
以下の画像における緑や紫のパターンについては、おそらくこれまでこの逆問題では発見されていなかった分子だが、理論上は目的の遷移波長に近い値をもつと言及されている。

残された課題・議論・感想

分類問題と比較して、回帰問題では、従来手法を凌駕するような性能が得にくい点。
- とはいえGPT-3の次単語予測では、原理的には多値分類問題を解いているため、評価指標を直接最適化するよう訓練できる回帰モデルに及びにくい点は納得できる。
Supplementary Note の以下の記述を見る限り、ある程度うまく行かなかったタスクもあることが想像される点。
- "We selected those applications for which successful machine-learning approaches have been developed. "
本来であれば明らかに答えることができない質問（定義の存在しない値を求める質問など）に対しても、正常な質問と同様に、自信を持って回答してしまう点。

重要な引用

GPT-3: 本論文で使用された言語モデル
- Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. 2020. "Language Models are Few-Shot Learners" arXiv [cs.CL]. arXiv. https://arxiv.org/abs/2005.14165
Galactica: 本論文で取り組んでいる化学や材料科学とも類似したタスクで、デコーダモデルの訓練・検証を行った仕事
- Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic. 2022. "Galactica: A Large Language Model for Science" arXiv [cs.CL]. arXiv. https://arxiv.org/abs/2211.09085

参考情報

以下、GPT-3とGalacticaの過去サマリのリンク
- Language Models Are Few-Shot Learners (GPT-3)
- Galactica: A Large Language Model for Science

Autonomous Decision Making for Solid-State Synthesis of Inorganic Materials

Szymanski, Nathan J., et al. “Autonomous Decision Making for Solid-State Synthesis of Inorganic Materials.” arXiv [cond-Mat.mtrl-Sci], Apr. 2023, https://arxiv.org/abs/2304.09353. arXiv.

無機化合物の合成経路最適化に関するアルゴリズム ARROWS³ の提案。
ターゲット化合物の合成には、どの原料を、どのプロセスで反応させると良いかを最適化する。ベイズ最適化や遺伝的アルゴリズムにドメイン知識を上手く組み合わせた手法と捉えるとよい。
ある反応経路がどこで失敗するかをうまく推論し、推薦システムにフィードバックすることで、少ない実験回数で最適な条件を見つけることに成功した。

Abstract

To aid in the automation of inorganic materials synthesis, we introduce an algorithm (ARROWS3) that guides the selection of precursors used in solid-state reactions. Given a target phase, ARROWS3 iteratively proposes experiments and learns from their outcomes to identify an optimal set of precursors that leads to maximal yield of that target. Initial experiments are selected based on thermochemical data collected from first principles calculations, which enable the identification of precursors exhibiting large thermodynamic force to form the desired target. Should the initial experiments fail, their associated reaction paths are determined by sampling a range of synthesis temperatures and identifying their products. ARROWS3 then uses this information to pinpoint which intermediate reactions consume most of the available free energy associated with the starting materials. In subsequent experimental iterations, precursors are selected to avoid such unfavorable reactions and therefore maintain a strong driving force to form the target. We validate this approach on three experimental datasets containing results from more than 200 distinct synthesis procedures. When compared to several black-box optimization algorithms, ARROWS3 identifies the most effective set of precursors for each target while requiring substantially fewer experimental iterations. These findings highlight the importance of using domain knowledge in the design of optimization algorithms for materials synthesis, which are critical for the development of fully autonomous research platforms.

(DeepL翻訳)

無機材料合成の自動化を支援するために、固体反応で使用される前駆体の選択をガイドするアルゴリズム（ARROWS3）を紹介する。ターゲット相が与えられると、ARROWS3は繰り返し実験を提案し、その結果から学習して、ターゲットの最大収率につながる最適な前駆体セットを同定する。最初の実験は、第一原理計算から収集された熱化学的データに基づいて選択され、これにより目的のターゲットを形成する大きな熱力学的力を示す前駆体を同定することができる。初期実験が失敗した場合、合成温度の範囲をサンプリングし、その生成物を同定することにより、関連する反応経路が決定される。ARROWS3はこの情報を使って、出発物質に関連する利用可能な自由エネルギーのほとんどを消費する中間反応を特定する。その後の実験反復では、そのような不利な反応を避け、ターゲットを形成する強い駆動力を維持するように前駆体が選択される。我々は、200以上の異なる合成手順から得られた結果を含む3つの実験データセットで、このアプローチを検証した。いくつかのブラックボックス最適化アルゴリズムと比較すると、ARROWS3は各ターゲットに対して最も効果的な前駆体セットを同定する一方で、実験の反復回数を大幅に少なくすることができた。これらの結果は、材料合成の最適化アルゴリズムの設計に領域知識を用いることの重要性を強調している。

コード

https://github.com/njszym/ARROWS

解決した課題/先行研究との比較

無機材料の高温での合成では固体粉末を混合・加熱することで反応を進めるが、合成実験の結果の予測が難しいことが多い。
有機合成の分野では計算機を用いたアプローチが一定の成果を出しているが、無機合成の分野ではあまり普及していない。
- 主たる原因として、以下が挙げられている。
  - ターゲット化合物に加え副生成物（準安定物質・中間物質・その他）も生まれるため、ターゲットの特性のみを考えていても合成結果の予測ができない。
  - 反応のモデリングの難しさ。
そのため実験条件の策定は専門知識や過去の経験に依存しており、新規無機材料の合成最適化のための明確なロードマップは依然存在しなかった。
本論文では Autonomous Decision Making for Solid-State Synthesis of Inorganic Materials (ARROWS³) というアルゴリズムを提案。
- 準安定物質、中間物質の生成のされ方をアルゴリズムにフィードバックすることで、より適切な推薦を行えるようにした。

技術・手法のポイント

原料の選択、反応温度、保持時間、待機条件など、複数の実験変数に対してターゲット化合物の収率を最大化する最適化問題として設計。
最初に原料と反応温度のみに絞り、実験の候補を探索する。
- 原料として使用可能な物質のリストを人が準備する。
- →ARROWS³がすべての組み合わせからターゲットを生成しうる組み合わせと反応温度幅を抽出。
次に化学反応の進みやすさをギブス自由エネルギーで計算し、実験候補をランク付けする。
- ギブス自由エネルギーの計算にはMaterials Projectの密度汎関数理論 (Density Function theory, DFT) の計算から得られる熱化学データを使用。
- 各原料の自由エネルギーはBartelらによる近似 or NISTの実験データベースから取得。
推薦された原料を、提案された温度幅内のいくつかの温度で実際に反応させ、反応物をX線回折に通すことで生成された化合物のデータを得る。
- これにより、どの温度で中間物質が形成されたか、またどのようなペアワイズ反応によってそれらが生じたかを推論できる。
  - すなわち、ある反応経路がどこで失敗するかをうまく推論し、推薦システムにフィードバックしている。
X線回折から考えられる中間物質やペアワイズ反応の推論情報を用いてランキングを更新、次の実験を推薦する。

有機合成と比べ無機合成はなぜモデリングが難しいのか？
- SMILESのような普遍的な表現が存在しない
- 原料の数が様々 = モデル化が難しい（入力の長さが変わりうる）
ARROWS³は原料の情報をギブス自由エネルギーという単一の指標に落とし込むことで、これらの難しさを回避した。

評価指標

YBCO合成データセットで、ベイズ最適化、遺伝的アルゴリズムと最適な合成ルートの発見に至るまでの実験回数を比較。約半分に実験回数を減らせた (Fig.3a)。
- ARROWS³は1サイクルで複数の温度で実験をする必要があるが、これをまとめて1回と数えているのか、温度を振った分だけ実験回数として数えているのかは不明瞭。
  - グラフのガタガタ具合から考えると、温度ごとに1回と数えていそうだが。
他2つのデータセットでも、ターゲット化合物の収率を最大化する反応条件を探索している。

重要な引用

無機化学のこれまでのアプローチ。固体反応経路（ペアワイズ反応）の単純化。
- A. Miura et al. Observing and Modeling the Sequential Pairwise Reactions that Drive Solid- State Ceramic Synthesis. Adv. Mater. 33, 2100312 (2021).
- M. Bianchini et al. The interplay between thermodynamics and kinetics in the solid-state synthesis of layered oxides. Nat. Mater. 19, 1088–1095 (2020).
ベースとなったDFT計算手法
- T. He et al. Similarity of Precursors in Solid-State Synthesis as Text-Mined from
  Scientific Literature. Chem. Mater. 32, 7861–7873 (2020).
- H. Huo et al. Machine-Learning Rationalization and Prediction of Solid-State Synthesis Conditions. Chem. Mater. 34, 7323–7336 (2022).
Materials project
- A. Jain et al. Commentary: The Materials Project: A materials genome approach to accelerating materials innovation. APL Mater. 1, 011002 (2013).
機械学習による固体の温度依存性の自由エネルギーの近似
- C. J. Bartel et al. Physical descriptor for the Gibbs energy of inorganic crystalline solids and temperature-dependent materials chemistry. Nat. Commun. 9, 4168 (2018).
気体の自由エネルギーは実験的なNISTデータベースから
- P. J. Linstrom & W. G. Mallard. The NIST Chemistry WebBook: A Chemical Data Resource on the Internet. J. Chem. Eng. Data 46, 1059–1063 (2001).

Improving Language Models by Retrieving from Trillions of Tokens

Borgeaud, Sebastian, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, et al. 2021. “Improving Language Models by Retrieving from Trillions of Tokens.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2112.04426.

何兆ものトークンを持つデータベースから検索しながら、任意のテキストをモデル化する "Retrieval-Enhanced Transformer (RETRO)" という手法を提案。
記憶を外部のデータソースに頼ることで、25倍規模のパラメータ数を持つモデルと同等の性能を得ることができた。
「セミパラメトリック」なアプローチの有用性を示した。

Abstract

We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a 2 trillion token database, our Retrieval-Enhanced Transformer (Retro) obtains comparable performance to GPT-3 and Jurassic-1 on the Pile, despite using 25x fewer parameters. After fine-tuning, Retro performance translates to downstream knowledge-intensive tasks such as question answering. Retro combines a frozen Bert retriever, a differentiable encoder and a chunked cross-attention mechanism to predict tokens based on an order of magnitude more data than what is typically consumed during training. We typically train Retro from scratch, yet can also rapidly Retrofit pre-trained transformers with retrieval and still achieve good performance. Our work opens up new avenues for improving language models through explicit memory at unprecedented scale.

(DeepL翻訳)

我々は、大規模コーパスから取得した文書チャンクを、先行トークンとの局所的な類似性に基づいて条件付けすることにより、自己回帰型言語モデルを強化する。2兆個のトークンデータベースを用いた我々の検索強化型変換器（Retro）は、25倍少ないパラメータで、Pile上のGPT-3やJurassic-1と同等の性能を得ることができる。Retroの性能は、微調整の後、質問応答のような下流の知識集約的なタスクに反映される。Retroは、凍結バートレトリバー、微分可能エンコーダー、チャンク型クロスアテンションメカニズムを組み合わせ、学習時に消費されるデータよりも一桁多いデータを基にトークンを予測します。私たちは通常、Retroをゼロから学習しますが、事前に学習した変換器を検索に迅速にRetrofitすることも可能であり、それでも良好な性能を達成することができます。私たちの研究は、前例のない規模の明示的記憶によって言語モデルを改善する新しい道を開くものです。

コード

解決した課題/先行研究との比較

近年の大規模自然言語処理モデルの高性能化は学習データの増加・計算能力の向上・モデルサイズの増加によって達成されている。
- 実際、BERT (0.3B) → GPT-2 (1.5B) → T5 (11B) → GPT-3 (175B) → Gopher (280B) と進むにつれどんどん性能向上。
モデルサイズの増加は「学習・推論の処理能力の増加」と「学習データの記憶力」という２つの利点があると考えられている。
本論文は、2つの利点がそれぞれどの程度効いているのかの分離を目指し、特に後者の「学習データの記憶力」という側面に着目。
記憶力に相当するものとして外部のデータベースを用いることで、モデル自体の計算量を大幅に増やすことなく、言語モデルを拡張する方法を提案した。
- 過去にも検索を組み合わせる手法は行われてきた (Guu et al., 2020; Khandelwal et al., 2020; Lewis et al., 2020; Yogatama et al., 2021) が、モデルサイズやデータベースが小規模なものであったため、何兆ものトークンからなるデータベースを用いた初の報告。
  - 「過去の仕事を大規模にやってみました」の一種？
    - Chunked Cross Attentionは本論文で初出のように思われる。検索テキストの取り込み方に新規性！

技術・手法のポイント

インプット文字列をチャンクに分割。現在のチャンクの予測のために、前のチャンクと似たテキストをデータベースから検索。
外部データベースからの検索には事前学習済みBERTを使用。近傍探索を行い、インプットに似たテキストを抽出。
検索されたテキストをChuncked Cross-Attentionモジュールを用いてRETROに取り込む。

評価指標

用いたデータセット
- C4
- Wikitext103
- Curation Corpus
- Lambada
- Pile
- マニュアルで選んだWikipediaの記事 (基準：データセットを集めた後に編集された記事)
比較した指標
- Bits-per-byte
- Perplexity
- Lambadaデータセットはaccuracy on the last word
- Q&A (The Natural Questions. Kwiatkowski et al., 2019) のAccuracy
比較対象のモデル
- Transformer (パラメータサイズが 172M, 425M, 1.5B, 7.5Bのものを用意。Baselineと呼称)
- RETRO (検索なし)
- RETRO (検索あり)

いずれにおいてもBaselineからの改良がみられ、Fine-tuningを行うことでQ&A taskでもstate-of-the-artとのcompetitive performanceを示した。検索なしでもbaselineと同程度の性能が出る。

残された課題・議論

検索のための外部データベースを工夫すれば、差別や暴力的表現などを前もって除くことができるかもしれないと議論。 (Bender et al. 2021; Weidinger et al., 2021あたりも参照)
大規模モデルより軽量化したとはいえど、外部データベースのサイズが 1T トークンくらい必要そうなので、一般人が使うのは難しそう。

重要な引用

本論文以前の検索を組み合わせる手法。データベースのサイズ的に、一般人が現実的に使えるのはこれらか。
- Guu, Kelvin, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. 13--18 Jul 2020. “Retrieval Augmented Language Model Pre-Training.” In Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, 119:3929–38. Proceedings of Machine Learning Research. PMLR.
- Khandelwal, Urvashi, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, and Mike Lewis. 2020. “Generalization through Memorization: Nearest Neighbor Language Models.” https://openreview.net/pdf?id=HklBjCEKvH.
- Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, et al. 2020. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” In Proceedings of the 34th International Conference on Neural Information Processing Systems, 9459–74. NIPS’20 793. Red Hook, NY, USA: Curran Associates Inc.
- Yogatama, Dani, Cyprien de Masson d’Autume, and Lingpeng Kong. 2021. “Adaptive Semiparametric Language Models.” Transactions of the Association for Computational Linguistics 9: 362–73.
Gopher. DeepMindが開発した2,800億個のパラメータを持つ言語モデル。モデルのサイズを大きくして性能が良くなる分野と大きく変わらない分野を議論
- Rae, Jack W., Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, et al. 2021. “Scaling Language Models: Methods, Analysis & Insights from Training Gopher.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2112.11446.
大規模言語モデルが持つ潜在的弊害について議論
- Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜.” In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–23. FAccT ’21. New York, NY, USA: Association for Computing Machinery.
- Weidinger, Laura, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, et al. 2021. “Ethical and Social Risks of Harm from Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2112.04359.

BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805

Google AI Languageのグループによる仕事
2018年以降の自然言語処理分野の急激な拡大の一助となった、非常に重要な論文
Transformer (Vaswani et al., arXiv 2017) をうまく使った
高精度＆（データ数が少なくて済むので）誰もが使いやすい！

たった4人で世界を変えるような仕事を行ったという事実に震える

Abstract

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial task-specific architecture modifications.

BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).

(DeepL翻訳)

我々は、BERT（Bidirectional Encoder Representations from Transformersの略）と呼ばれる新しい言語表現モデルを紹介する。最近の言語表現モデルとは異なり、BERTは全ての層で左右両方の文脈を共同で条件付けることにより、ラベルのないテキストから深い双方向表現を事前学習するよう設計されている。その結果、事前学習されたBERTモデルは、質問応答や言語推論などの幅広いタスクのための最先端のモデルを作成するために、タスク固有のアーキテクチャを大幅に変更することなく、たった1つの追加出力層で微調整が可能です。

BERTは、概念的にシンプルで、経験的に強力である。GLUEスコアを80.5%（7.7ポイントの絶対値向上）、MultiNLI精度を86.7%（4.6%の絶対値向上）、SQuAD v1.1 質問応答テストF1を93.2（1.5ポイントの絶対値向上）、SQuAD v2.0 テストF1を 83.1（5.1 ポイント絶対値向上）など11個の自然言語処理タスクで最先端の結果を得ました。

コード

https://github.com/google-research/bert

解決した課題/先行研究との比較

2018年以前のDeep Learningモデルでは大量の教師付きデータ (数万~数十万件)。大量の計算資源が必要だった → 一般人には無理。
この問題に対し、少ない計算資源でタスク処理を行うモデルの研究が進んできた。
- ELMo (Peters et al., 2018. Feature-based approach) と GPT-1 (Radford et al., 2018. Fine-tuning approach) が代表例。
- 本論文はGPT-1と同じく Fine-tuning approachを使用。
  - Transformerをベースに、事前学習 (Pre-training) と Fine-tuningの2ステップを行う。
- まずある程度のモデルを作る = Pre-training → 個別のタスクに特化させる = Fine-tuning
  - Pre-training: 大量のデータ (ラベル不要)。大量の計算資源が必要→Big techに任せる
  - Fine-tuning: 少データ、少計算資源でOK! (数千件)。誰でも出来る！
- GPT-1ではPre-trainingの際、Unidirectional language modelを用いていた。
  - Unidirectional language model: (英語や日本語の場合) 左から右に文章が流れる。Token化した文章をモデルが学習する際、あるTokenより左側にあるTokenのみが参照される。
- Unidirectionalだと一方向の文脈しか考慮できず、Token-levelのタスクには対応できても、Sentence-levelのタスクに対応が難しい。
この課題の解決を目指し、TransformerのEncoder部分をベースにBidirectionalなアーキテクチャを採用。
- 双方向学習によって各単語は間接的に「自分自身を見る」ことができ、モデルは多層的な文脈の中でターゲット単語を些細に予測することができるようになった。
- 自然言語の色々なタスクに当てはめて差し支えないぐらい高精度に単語・文章が理解できるようになった = マルチタスクに対する汎用性を獲得できた
Big techが準備してくれる事前学習済みモデル上で、少量のデータを用いたFine-tuningを行うことで、誰もが比較的簡単に高性能な言語モデルを使えるようになった！

技術・手法のポイント

事前学習に大きなポイントが2つ
MLM (Masked Language Model): 穴埋めクイズ
- Cloze task (Taylor, 1953) に着想を得た「マスク言語モデル」“masked language model” を事前学習に用いることで、学習データを一方向にしか情報を使えないという制約を回避、双方向に学習データを使えるようにした。
- これを "bidirectional pre-training for language representations" と表現。
- 文章の一部を隠すことで、自分自身からラベルを作ることができる、自己教師あり学習。
  - すべての単語に対し、15%の確率でラベル付与＆MASKに入れ替える
    → ここでマスク化した部位というタグを付けることで、学習の対象である箇所を明確にする
  - MASKに入れ替えた単語に対して10%の確率で他の単語に入れ替える、10％の確率で元の単語に戻す。
    - → 学習の対象である箇所に対して正解データと誤答データを作る
  - ラベリングされた単語の予測結果と元の単語でLoss Maskを計算。
NSP (Next Sentence Prediction): 隣接文クイズ
- 隣接分を予測させることで text-pair representation の事前学習をおこなった。
- 学習の際に2文を放り込む。
- 50%の確率で連続する2文、50％の確率でランダムにつなげた2文として、どちらだったかを予測させる。
- 事前学習によりタスク固有のアーキテクチャのエンジニアリングを削減。
  - NSPの必要性は疑問視されている？→- AI-SCHOLAR - BERTの真の実力を引き出す RoBERTa

評価指標

紹介されている以下3つの指標すべてでState-of-the-Art達成

GLUE (General Language Understanding Evaluation)
- 参考: GLUE - 英語圏における自然言語処理の標準ベンチマーク
Question Answering (SQuAD v1.1, SQuAD v2.0)
常識推論 (SWAG: Situations With Adversarial Generations)

残された課題・議論

本文中では議論なし。
BERT改良モデルが本論文の発表後にたくさん出現し、それぞれ特徴がある。下の「派生形」の項目を参照。

重要な引用

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
- Transformer
Peters, Matthew E., Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. “Deep Contextualized Word Representations.” In Proceedings of the 2018 Conference of the North AMerican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2227–37. New Orleans, Louisiana: Association for Computational Linguistics.
- ELMo
Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
- GPT-1

派生形

Lan, Zhenzhong, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.11942.
- ALBERT
- 軽量化BERT
Joshi, Mandar, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, and Omer Levy. 2020. “SpanBERT: Improving Pre-Training by Representing and Predicting Spans.” Transactions of the Association for Computational Linguistics 8 (December): 64–77.
- SpanBERT. Maskをスパン単位に
Levine, Yoav, Barak Lenz, Opher Lieber, Omri Abend, Kevin Leyton-Brown, Moshe Tennenholtz, and Yoav Shoham. 2020. “PMI-Masking: Principled Masking of Correlated Spans.” arXiv, September. https://openreview.net/forum?id=3Aoft6NWFej.
- PMI-masking
Liu, Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1907.11692.
- RoBERTa
- Next Sentence Predicitionをやめた
- pre-trainingに使うテキストを大規模にした
Lan, Zhenzhong, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.11942.
ALBERT
- Next Sentence Predicitionを、文ペアの順番を予測する課題に変更
Yang, Zhilin, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. 2019. “XLNet: Generalized Autoregressive Pretraining for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1906.08237.
- XLNet
- マスクをやめて語順の並び替えを行った言語モデル
Raffel, Colin, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2019. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1910.10683.
- Text-to-Text Transfer Transformer (T5)
- テキスト変換にpre-trainingを導入
Lewis, Mike, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. “BART: Denoising Sequence-to-Sequence Pre-Training for Natural Language Generation, Translation, and Comprehension.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 7871–80. Online: Association for Computational Linguistics.
- BART (Bidirectional and Auto-Regressive Transformers)
Sanh, Victor, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. “DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1910.01108.
- DistilBERT
- 軽量化BERT
- 大きなモデルを教師とし、小さなモデル（生徒）に知識を移す
Reimers, Nils, and Iryna Gurevych. 2019. “Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1908.10084.
- Sentence-BERT
Sun, Chen, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. 2019. “VideoBERT: A Joint Model for Video and Language Representation Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1904.01766.
- VideoBERT
Baevski, Alexei, Steffen Schneider, and Michael Auli. 2019. “Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1910.05453.
- speech recognition

など。この派生の多さからも、BERTのインパクトがよく分かる。

参考: SlideShare - ゼロから始める転移学習

参考情報

Generative Modeling by Estimating Gradients of the Data Distribution

Song, Yang, and Stefano Ermon. 2019. “Generative Modeling by Estimating Gradients of the Data Distribution.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1907.05600.
Revised 2020

近年画像や言語の生成課題で絶大な成果を出している「拡散確率モデル」、その礎となった仕事。
データ分布の対数密度関数の導関数を推定する「スコアマッチング」と、「ランジュバン動力学」を用いた生成モデリングの手法を提案
- スコアマッチングを用いるため、本論文のアプローチは「スコアベースモデル」などと呼ばれる。
データの生成分布の仮定が不要、GANのような再現性の取りにくい訓練が不要、同一のデータセットの定量比較が可能、といった強みがある。

Abstract

We introduce a new generative model where samples are produced via Langevin dynamics using gradients of the data distribution estimated with score matching. Because gradients can be ill-defined and hard to estimate when the data resides on low-dimensional manifolds, we perturb the data with different levels of Gaussian noise, and jointly estimate the corresponding scores, i.e., the vector fields of gradients of the perturbed data distribution for all noise levels. For sampling, we propose an annealed Langevin dynamics where we use gradients corresponding to gradually decreasing noise levels as the sampling process gets closer to the data manifold. Our framework allows flexible model architectures, requires no sampling during training or the use of adversarial methods, and provides a learning objective that can be used for principled model comparisons. Our models produce samples comparable to GANs on MNIST, CelebA and CIFAR-10 datasets, achieving a new state-of-the-art inception score of 8.87 on CIFAR-10. Additionally, we demonstrate that our models learn effective representations via image inpainting experiments.

(DeepL翻訳)

我々は、スコアマッチングによって推定されたデータ分布の勾配を用いて、ランジュバン動力学によってサンプルを生成する新しい生成モデルを導入する。データが低次元多様体に存在する場合、勾配は定義しにくく、推定が困難であるため、データに異なるレベルのガウスノイズを摂動し、対応するスコア、すなわち、すべてのノイズレベルに対する摂動されたデータ分布の勾配のベクトル場を共同で推定する。サンプリングに関しては、アニールされたランジュバン動力学を提案し、サンプリングプロセスがデータ多様体に近づくにつれて徐々に減少するノイズレベルに対応する勾配を使用する。我々のフレームワークは柔軟なモデルアーキテクチャを可能にし、学習時のサンプリングや敵対的手法の使用を必要とせず、原理的なモデル比較に利用可能な学習目標を提供する。我々のモデルはMNIST、CelebA、CIFAR-10データセットにおいてGANと同等のサンプルを生成し、CIFAR-10では8.87という最新のインセプションスコアを達成することができた。さらに、我々のモデルが効果的な表現を学習することを画像インペインティング実験により実証する。

コード

https://github.com/ermongroup/ncsn

解決した課題/先行研究との比較

生成モデルは様々な分野で近年研究が進んでいる。例えば画像生成のGAN (generative adversarial network) などはわかりやすい例。
これまでの生成モデルでは学習のために対数尤度関数やƒ-divergence、積分確率法 (integral probability metrics) などが用いられてきたが、課題がある。
- 尤度ベースのモデルは、正規化された確率モデルを構築する特殊なアーキテクチャを用いるか、あるいは学習に代用損失を用いる必要がある = 仮定が多い。
- GAN (ƒ-divergence、積分確率法を使用) は尤度ベースモデルの制限をいくつか回避できるが、敵対的な学習手順により学習が安定しない = モデル間の定量比較が難しい。
- Noise contrastive estimation法やminimum probability flow法などのパラメータ推定法は低次元データにしか使えない。
本論文では入力データの対数密度関数であるSteinスコアからデータの生成分布を推定し（スコアマッチング）、ランジュバン動力学を用いてサンプルを生成する方法を提案。
- スコアマッチングを用いるため、本論文のアプローチは「スコアベースモデル」などと呼ばれる。
- スコアマッチング？→引用 Hyvarinen. 2015 参照。
データの生成分布の仮定が不要、GANのような不安定な訓練が不要、同一のデータセットの定量比較が可能、といった強みがある。

技術・手法のポイント

まず、学習データにGaussianノイズによる摂動を与える。←「拡散」と呼ばれる所以。
- 現実世界のデータはほとんどが低次元に近似できてしまう (多様体仮説)。これがスコア推定にどう悪い影響を与えるかは Fig.1参照.
- ランダムなノイズを追加すると、データが低次元に近似されなくなる。
- 元のデータ分布の低密度領域 (データサイズの少ない領域) にサンプルが生成される。
- 結果、データを「広く」学習することができ、スコア推定が改善。
次に、ノイズ条件付きスコアネットワーク (Noise Conditional Score Network: NCSN) というニューラルネットワークをスコアマッチングにより学習させ、摂動させたデータ分布ごとにスコア関数を推定する。
- 大きなノイズから小さなノイズまで、さまざまな大きさのノイズでデータを摂動させる。
- それぞれのノイズでスコアネットワークをトレーニングし、スコアを推定。
- 複数のノイズレベルでトレーニングすることで、ノイズから真のデータ分布に収束する一連のノイズ摂動データ分布 (noise- perturbed data distributions) を取得できる。
最後に、NCSNからランジュバン動力学のアルゴリズムで直接サンプルを生成する
- 最も大きなノイズレベルで画像を生成→ノイズレベルを1段階下げて画像を生成→ … →最終的に、人の目には違いがわからないほど小さいノイズのみの状態で画像 = 元のデータ分布を近似したきれいな画像が生成される。
  - 完全なノイズからきれいな画像までのノイズ摂動データ分布が存在するから可能になる！
  - 焼きなまし法 (simulated annealing) の考え方

評価指標

MNIST, CelebA, CIFAR-10のデータセットを使用。
CIFAR-10では、尤度ベースのモデルや GANから生成された画像と比較して、inception scoreがstate-of-the-art到達 (GANと微々たる差)。FIDもGANと同程度。
MNISTとCelebAは定量スコアが一般的に公開されていないので、本論文では省略。

参考:

残された課題・議論

ノイズやランジュバン動力学でのステップ幅、ステップ数と行ったパラメータは人が恣意的に設定する必要がある。自動化したい → Song and Ermon, arXiv 2020

重要な引用

Stein scoreについて
- Liu, Qiang, Jason Lee, and Michael Jordan. 20--22 Jun 2016. “A Kernelized Stein Discrepancy for Goodness-of-Fit Tests.” In Proceedings of The 33rd International Conference on Machine Learning, edited by Maria Florina Balcan and Kilian Q. Weinberger, 48:276–84. Proceedings of Machine Learning Research. New York, New York, USA: PMLR.
Score matchingについて
- Hyvarinen. 2015. “Estimation of Non-Normalized Statistical Models by Score Matching.” Journal of Machine Learning Research: JMLR 6: 695–709.
Score matchingの計算量を抑えるための近似
- Vincent, Pascal. 2011. “A Connection between Score Matching and Denoising Autoencoders.” Neural Computation 23 (7): 1661–74.
Generative Adversarial Nets (GAN)
- Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville, and Bengio. 2014. “Generative Adversarial Nets.” Advances in Neural Information Processing Systems, 2672–80.
これまでの生成モデルで使われてきた代用損失
- Kingma, Diederik P., and Max Welling. 2013. “Auto-Encoding Variational Bayes.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1312.6114v10.
- Hinton, Geoffrey E. 2002. “Training Products of Experts by Minimizing Contrastive Divergence.” Neural Computation 14 (8): 1771–1800.
noise contrastive estimation
- Gutmann, Michael, and Aapo Hyvärinen. n.d. “Noise-Contrastive Estimation: A New Estimation Principle for Unnormalized Statistical Models.” Accessed September 13, 2022. https://proceedings.mlr.press/v9/gutmann10a/gutmann10a.pdf.
minimum probability flow
- Sohl-Dickstein, Jascha, Peter Battaglino, and Michael R. DeWeese. 2009. “Minimum Probability Flow Learning.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/0906.4779.

参考

Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity

Lu, Yao, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp. 2022. “Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity.” In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 8086–98. Dublin, Ireland: Association for Computational Linguistics.

https://aclanthology.org/2022.acl-long.556/

ACL 2022 の Outstanding Paper
GPTなどの大規模言語モデルでは、プロンプトに解かせたいタスクの例を数個見せるだけでそのタスクに対応できるようになる "In-context learning" という手法が使える
しかし、In-context learningではプロンプトに与える例の順番によって、タスク回答の精度が大きく変わってしまうという課題があった
本論文は「追加のラベルなしに」「自動的に」例提示の順番を決める手法を提案。

Abstract

When primed with only a handful of training samples, very large, pretrained language models such as GPT-3 have shown competitive results when compared to fully-supervised, fine-tuned, large, pretrained language models. We demonstrate that the order in which the samples are provided can make the difference between near state-of-the-art and random guess performance: essentially some permutations are “fantastic” and some not. We analyse this phenomenon in detail, establishing that: it is present across model sizes (even for the largest current models), it is not related to a specific subset of samples, and that a given good permutation for one model is not transferable to another. While one could use a development set to determine which permutations are performant, this would deviate from the true few-shot setting as it requires additional annotated data. Instead, we use the generative nature of language models to construct an artificial development set and based on entropy statistics of the candidate permutations on this set, we identify performant prompts. Our method yields a 13% relative improvement for GPT-family models across eleven different established text classification tasks.

(DeepL翻訳)

ほんの一握りの学習サンプルで呼び出された場合、GPT-3のような非常に大規模で事前学習済みの言語モデルは、完全教師あり、微調整された大規模で事前学習済みの言語モデルと比較して、競争力のある結果を示しています。我々は、サンプルの提供順序によって、最先端技術に近い性能とランダムな推測性能の差が生じることを実証しています。この現象を詳細に分析し、次のことを確認した：モデルサイズに関係なく存在すること（現在の最大モデルでさえ）、サンプルの特定のサブセットに関係しないこと、あるモデルにとって良い順列は他のモデルには移植できないこと。どの順列が良いかを決定するために開発セットを使用することもできますが、これは注釈付きデータを追加する必要があるため、真の少数精鋭の設定から外れてしまいます。その代わりに、我々は言語モデルの生成的性質を利用して人工的な開発セットを構築し、このセット上の順列候補のエントロピー統計に基づき、パフォーマンスの高いプロンプトを特定する。本手法は、11種類の確立されたテキスト分類タスクにおいて、GPTファミリーのモデルに対して13%の相対的な改善をもたらす。

コード

https://github.com/chicagohai/active-example-selection

解決した課題/先行研究との比較

GPTファミリーに代表されるような大規模な言語モデルにおいては、モデルのパラメータの微調整なしで、プロンプトとして対象タスクの例をいくつか提示すれば新しいタスクに対応できる "In-context Learning" という手法が使える (Brown et al., 2020).
しかし、プロンプトに提示する例の順番によって、性能が大きく変わってしまうという問題があった。
- 同じデータセットでもこれくらいばらつく↓
この課題を解決するために、「追加のラベルなしに」「自動的に」例提示の順番を決める手法を提案。

技術・手法のポイント

まず、様々なモデルやパラメータ数で実験を行い、何が起こっているのかを探求
- モデルが巨大になってもこの問題は解決しない
- 同じ順番で例を与えても、モデルによって精度が出る場合・出ない場合がある
- モデルが同じでも、パラメータ数が変わると、また精度が変わる
In-context Learningがうまく行えていないときは、予測ラベルに偏りがあることがわかった (Fig.6)
- この偏りが評価指標と使えるのではないか？ と著者らは考えた。
この仮説検証のため、以下のアプローチをとった
- (i) 学習例をランダムに選択、これらの順序並べ替え全てを候補プロンプトとして使用。
- (ii)すべての候補プロンプトを使用して言語モデルに in-context learningを行わせる。
- (iii) 以下の評価指標を用いランク付け。最適順序を特定する。

評価指標

Global Entropy
- 極端に偏った予測をする候補プロンプトの識別。
Local Entropy
- 入力に対しての回答の確度が、全ての入力に対して高すぎると、それはそれで怪しいのでは？という発想。
文章の分類タスクでGlobal Entropy基準で選んだ候補プロンプトは平均13%, Local Entropy基準で選んだものは平均9.6%の改善が見られた。
異なるモデルや異なるタスクにおいても同様のアプローチを取れば、一貫して改善が見られた。

残された課題・議論

Liu et al., 2020では、プロンプトに与える例を適切に選べば順序は関係ないという結論が出されている。この矛盾（のように見える結論）の解釈は解決されているのだろうか？

重要な引用

大規模言語モデル
- Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
  - GPT-2
- Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems.
  - GPT-3
In-context learningについて
- Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems.
  - GPT-3の論文
プロンプトの順序が精度に与える影響について
- Gao, Tianyu, Adam Fisch, and Danqi Chen. 2020. “Making Pre-Trained Language Models Better Few-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2012.15723.
プロンプトに与える例を自動で決める方法
- Liu, Jiachang, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen. 2021. “What Makes Good In-Context Examples for GPT-3?” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2101.06804.
  - この論文での結論は「順序は関係ない」だった。
プロンプトの設計の工夫で精度をあげようという仕事
- Schick, Timo, and Hinrich Schütze. 2020. “It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2009.07118.
- Gao, Tianyu, Adam Fisch, and Danqi Chen. 2020. “Making Pre-Trained Language Models Better Few-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2012.15723.
- Shin, Taylor, Yasaman Razeghi, Robert L. Logan IV, Eric Wallace, and Sameer Singh. 2020. “AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2010.15980.
- Jiang, Zhengbao, Frank F. Xu, Jun Araki, and Graham Neubig. 2020. “How Can We Know What Language Models Know?” Transactions of the Association for Computational Linguistics 8: 423–38.

teamaidemy / ds-paper-summaries Goto Github PK

ds-paper-summaries's People

Contributors

Stargazers

Watchers

ds-paper-summaries's Issues

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

Step 1. 教師ありFine-tuning (SFT; Supervised Fine-Tuning)

Step 2. 報酬モデルの学習

Step 3. 報酬モデルを使ってSFTモデルを強化学習 (RLHF)

評価指標

OpenAI Playgroundに公開されているAPIを用いた評価

公開データセットを用いた評価

定性的評価

残された課題・議論

重要な引用

参考情報

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

Abstract

データセット

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

Abstract

コード

解決した課題/先行研究との比較

評価指標

結果

残された課題・議論

関連論文

参考情報

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論・感想

重要な引用

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

参考情報

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

関連論文

参考情報

Abstract

先行研究との比較

実験条件

実験方法

結果

汎化に有効な手法に関する発見

残された課題・議論・感想

課題

感想

重要な引用

参考情報

Abstract

コード

解決した課題/先行研究との比較