teamaidemy / ds-paper-summaries Goto Github PK

11.0 11.0 0.0 3 KB

株式会社アイデミーのデータサイエンティストによる論文サマリー

License: MIT License

arxivtimes computer-vision machine-learning natural-language-processing respect-arxivtimes

ds-paper-summaries's Issues

Forecasting at Scale

Taylor, Sean J., and Benjamin Letham. Forecasting at Scale. e3190v2, PeerJ Preprints, 27 Sept. 2017, https://doi.org/10.7287/peerj.preprints.3190v2.

Facebook (Meta) が開発した時系列データの予測モデル。
トレンド、季節性、休日を組み合わせたシンプルなベイズ回帰モデル。
Analyst-in-the-Loopの考えに立脚。結果の高速な図示と高いユーザーの介入性により、非アナリストでもドメイン知識を反映しやすくした。
- と書いてはいるが、ユーザーによる介入をどう行うのかは論文中では示されていない。
  - →この点を解説した技術記事を公開しました。

Abstract

Forecasting is a common data science task that helps organizations with capacity planning, goal setting, and anomaly detection. Despite its importance, there are serious challenges associated with producing reliable and high quality forecasts — especially when there are a variety of time series and analysts with expertise in time series modeling are relatively rare. To address these challenges, we describe a practical approach to forecasting “at scale” that combines configurable models with analyst-in-the-loop performance analysis. We propose a modular regression model with interpretable parameters that can be intuitively adjusted by analysts with domain knowledge about the time series. We describe performance analyses to compare and evaluate forecasting procedures, and automatically flag forecasts for manual review and adjustment. Tools that help analysts to use their expertise most effectively enable reliable, practical forecasting of business time series.

(DeepL翻訳)

予測は一般的なデータサイエンスのタスクであり、組織のキャパシティプランニング、目標設定、異常検知に役立ちます。その重要性にもかかわらず、信頼性が高く高品質な予測を行うには、深刻な課題があります。このような課題に対処するために、我々は、設定可能なモデルとアナリスト・イン・ザ・ループのパフォーマンス分析を組み合わせた、「規模に応じた」予測への実用的なアプローチについて述べる。時系列に関する専門知識を持つアナリストが直感的に調整できる、解釈可能なパラメータを持つモジュラー回帰モデルを提案する。予測手順を比較・評価するためのパフォーマンス分析について説明し、手動レビューと調整のために予測に自動的にフラグを立てる。アナリストが専門知識を最も効果的に活用できるように支援するツールは、ビジネス時系列の信頼性の高い実用的な予測を可能にする。

コード

GitHub ... PythonとRでの実装が公開されている。

解決した課題/先行研究との比較

時系列データの予測は独特の扱いが必要で難しい。
自動化の取り組みも過去に行われてきたが、トレンドや季節性の検出に苦戦している。
- Auto ARIMA (Hyndman et al., 2002)
- TBATS (De Livera et al., 2011)
- など。
  - これらが本論文の性能比較比較対象 (Fig.3)。
データサイエンスのトレーニングを最小に、誰もが使える時系列データ予測モデルを作りたい！
"高速で動く" "解釈性の高い" モデルにすることで、手元のデータに合わせたチューニングを、データサイエンスの知識ではなくドメイン知識を活かす形で行えるようにした。

技術・手法のポイント

3 (+ 1) コンポーネントから構築される
　- トレンド $g(t)$：長期的な傾向や方向性といった非周期的な変化をモデル化。トレンドの変動点はまずフィッティングで自動検出されるが、手動で調整も可能。
　- 季節性 $s(t)$：周期的な変動。週単位、年単位。フーリエ級数を用いて表現。
　- 休日 $h(t)$：周期的でないが、その影響は毎年似たような形で現れるだろうという想定。
　- (+ 正規分布ノイズ $\epsilon_{t}$)
これらのコンポーネントの線形モデル。
- $y(t) = g(t) + s(t) + h(t) + \epsilon_{t}$
学習にはL-BFGS法 (Limited-memory BFGS method) を用いているため、高速に進む
- = パラメータを変えて結果表示の高速なトライアンドエラーが可能に。
Prophetは測定間隔が一定でなくてもOK。欠損値があってもOK。

評価指標

定性的に他手法と比べ、提案手法は傾向を上手く掴めているよね、が Figs.3-5
30日間 ~ 365日間の予測を行い、他手法とMAPEを比較 (Fig.7)
- 使っているデータセットが不明。他Figureでも使われているFacebookのデータだろうか？

残された課題・議論

「ユーザーの積極的介入」を謳っているが、論文中ではユーザーがどう介入できるか・介入の結果どういう影響が出るかが具体的に示されていない。

重要な引用文献

Decomposable time series model. 提案手法のベースとなっているモデル
- Harvey, A. & Peters, S. (1990), ‘Estimation procedures for structural time series models’, Journal of Forecasting 9, 89–108.
時系列データ予測モデルを3コンポーネントに分けるアイデア
- Hastie, T. & Tibshirani, R. (1987), ‘Generalized additive models: some applications’, Jour- nal of the American Statistical Association 82(398), 371–386.
L-BFGS最適化アルゴリズムに関する研究
- Byrd, R. H., Lu, P. & Nocedal, J. (1995), ‘A limited memory algorithm for bound constrained optimization’, SIAM Journal on Scientific and Statistical Computing 16(5), 1190–1208.

BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding

Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805

Google AI Languageのグループによる仕事
2018年以降の自然言語処理分野の急激な拡大の一助となった、非常に重要な論文
Transformer (Vaswani et al., arXiv 2017) をうまく使った
高精度＆（データ数が少なくて済むので）誰もが使いやすい！

たった4人で世界を変えるような仕事を行ったという事実に震える

Abstract

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial task-specific architecture modifications.

BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).

(DeepL翻訳)

我々は、BERT（Bidirectional Encoder Representations from Transformersの略）と呼ばれる新しい言語表現モデルを紹介する。最近の言語表現モデルとは異なり、BERTは全ての層で左右両方の文脈を共同で条件付けることにより、ラベルのないテキストから深い双方向表現を事前学習するよう設計されている。その結果、事前学習されたBERTモデルは、質問応答や言語推論などの幅広いタスクのための最先端のモデルを作成するために、タスク固有のアーキテクチャを大幅に変更することなく、たった1つの追加出力層で微調整が可能です。

BERTは、概念的にシンプルで、経験的に強力である。GLUEスコアを80.5%（7.7ポイントの絶対値向上）、MultiNLI精度を86.7%（4.6%の絶対値向上）、SQuAD v1.1 質問応答テストF1を93.2（1.5ポイントの絶対値向上）、SQuAD v2.0 テストF1を 83.1（5.1 ポイント絶対値向上）など11個の自然言語処理タスクで最先端の結果を得ました。

コード

https://github.com/google-research/bert

解決した課題/先行研究との比較

2018年以前のDeep Learningモデルでは大量の教師付きデータ (数万~数十万件)。大量の計算資源が必要だった → 一般人には無理。
この問題に対し、少ない計算資源でタスク処理を行うモデルの研究が進んできた。
- ELMo (Peters et al., 2018. Feature-based approach) と GPT-1 (Radford et al., 2018. Fine-tuning approach) が代表例。
- 本論文はGPT-1と同じく Fine-tuning approachを使用。
  - Transformerをベースに、事前学習 (Pre-training) と Fine-tuningの2ステップを行う。
- まずある程度のモデルを作る = Pre-training → 個別のタスクに特化させる = Fine-tuning
  - Pre-training: 大量のデータ (ラベル不要)。大量の計算資源が必要→Big techに任せる
  - Fine-tuning: 少データ、少計算資源でOK! (数千件)。誰でも出来る！
- GPT-1ではPre-trainingの際、Unidirectional language modelを用いていた。
  - Unidirectional language model: (英語や日本語の場合) 左から右に文章が流れる。Token化した文章をモデルが学習する際、あるTokenより左側にあるTokenのみが参照される。
- Unidirectionalだと一方向の文脈しか考慮できず、Token-levelのタスクには対応できても、Sentence-levelのタスクに対応が難しい。
この課題の解決を目指し、TransformerのEncoder部分をベースにBidirectionalなアーキテクチャを採用。
- 双方向学習によって各単語は間接的に「自分自身を見る」ことができ、モデルは多層的な文脈の中でターゲット単語を些細に予測することができるようになった。
- 自然言語の色々なタスクに当てはめて差し支えないぐらい高精度に単語・文章が理解できるようになった = マルチタスクに対する汎用性を獲得できた
Big techが準備してくれる事前学習済みモデル上で、少量のデータを用いたFine-tuningを行うことで、誰もが比較的簡単に高性能な言語モデルを使えるようになった！

技術・手法のポイント

事前学習に大きなポイントが2つ
MLM (Masked Language Model): 穴埋めクイズ
- Cloze task (Taylor, 1953) に着想を得た「マスク言語モデル」“masked language model” を事前学習に用いることで、学習データを一方向にしか情報を使えないという制約を回避、双方向に学習データを使えるようにした。
- これを "bidirectional pre-training for language representations" と表現。
- 文章の一部を隠すことで、自分自身からラベルを作ることができる、自己教師あり学習。
  - すべての単語に対し、15%の確率でラベル付与＆MASKに入れ替える
    → ここでマスク化した部位というタグを付けることで、学習の対象である箇所を明確にする
  - MASKに入れ替えた単語に対して10%の確率で他の単語に入れ替える、10％の確率で元の単語に戻す。
    - → 学習の対象である箇所に対して正解データと誤答データを作る
  - ラベリングされた単語の予測結果と元の単語でLoss Maskを計算。
NSP (Next Sentence Prediction): 隣接文クイズ
- 隣接分を予測させることで text-pair representation の事前学習をおこなった。
- 学習の際に2文を放り込む。
- 50%の確率で連続する2文、50％の確率でランダムにつなげた2文として、どちらだったかを予測させる。
- 事前学習によりタスク固有のアーキテクチャのエンジニアリングを削減。
  - NSPの必要性は疑問視されている？→- AI-SCHOLAR - BERTの真の実力を引き出す RoBERTa

評価指標

紹介されている以下3つの指標すべてでState-of-the-Art達成

GLUE (General Language Understanding Evaluation)
- 参考: GLUE - 英語圏における自然言語処理の標準ベンチマーク
Question Answering (SQuAD v1.1, SQuAD v2.0)
常識推論 (SWAG: Situations With Adversarial Generations)

残された課題・議論

本文中では議論なし。
BERT改良モデルが本論文の発表後にたくさん出現し、それぞれ特徴がある。下の「派生形」の項目を参照。

重要な引用

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
- Transformer
Peters, Matthew E., Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. “Deep Contextualized Word Representations.” In Proceedings of the 2018 Conference of the North AMerican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2227–37. New Orleans, Louisiana: Association for Computational Linguistics.
- ELMo
Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
- GPT-1

派生形

Lan, Zhenzhong, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.11942.
- ALBERT
- 軽量化BERT
Joshi, Mandar, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, and Omer Levy. 2020. “SpanBERT: Improving Pre-Training by Representing and Predicting Spans.” Transactions of the Association for Computational Linguistics 8 (December): 64–77.
- SpanBERT. Maskをスパン単位に
Levine, Yoav, Barak Lenz, Opher Lieber, Omri Abend, Kevin Leyton-Brown, Moshe Tennenholtz, and Yoav Shoham. 2020. “PMI-Masking: Principled Masking of Correlated Spans.” arXiv, September. https://openreview.net/forum?id=3Aoft6NWFej.
- PMI-masking
Liu, Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1907.11692.
- RoBERTa
- Next Sentence Predicitionをやめた
- pre-trainingに使うテキストを大規模にした
Lan, Zhenzhong, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.11942.
ALBERT
- Next Sentence Predicitionを、文ペアの順番を予測する課題に変更
Yang, Zhilin, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. 2019. “XLNet: Generalized Autoregressive Pretraining for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1906.08237.
- XLNet
- マスクをやめて語順の並び替えを行った言語モデル
Raffel, Colin, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2019. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1910.10683.
- Text-to-Text Transfer Transformer (T5)
- テキスト変換にpre-trainingを導入
Lewis, Mike, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. “BART: Denoising Sequence-to-Sequence Pre-Training for Natural Language Generation, Translation, and Comprehension.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 7871–80. Online: Association for Computational Linguistics.
- BART (Bidirectional and Auto-Regressive Transformers)
Sanh, Victor, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. “DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1910.01108.
- DistilBERT
- 軽量化BERT
- 大きなモデルを教師とし、小さなモデル（生徒）に知識を移す
Reimers, Nils, and Iryna Gurevych. 2019. “Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1908.10084.
- Sentence-BERT
Sun, Chen, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. 2019. “VideoBERT: A Joint Model for Video and Language Representation Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1904.01766.
- VideoBERT
Baevski, Alexei, Steffen Schneider, and Michael Auli. 2019. “Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1910.05453.
- speech recognition

など。この派生の多さからも、BERTのインパクトがよく分かる。

参考: SlideShare - ゼロから始める転移学習

参考情報

Efficient Estimation of Word Representations in Vector Space

Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Efficient Estimation of Word Representations in Vector Space.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1301.3781.

word2vecを提唱した論文
- 1つのモデルではなく、複数のモデルの総称
- 単語をベクトルで表す・単語の分散表現手法の一つ
- 自然言語処理におけるブレイクスルーの1つであり、単語の分散表現手法のデファクトスタンダードとなった
3部作の2作目。本論文で初めて "word2vec" という名前が与えられた。
- Mikolov, Tomas, Wen-Tau Yih, and Geoffrey Zweig. 2013. “Linguistic Regularities in Continuous Space Word Representations,” June, 746–51.
- Mikolov Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Distributed Representations of Words and Phrases and Their Compositionality.” In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, 3111–19. NIPS’13. Red Hook, NY, USA: Curran Associates Inc.
  - 実用的には3作目が一番大切か。
とても高精度な分散表現が獲得できたため、単語の演算ができるようになった！
- 例： King - man + woman = Queen

Abstract

We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.

(DeepL翻訳)

我々は、非常に大規模なデータセットから単語の連続ベクトル表現を計算するための2つの新しいモデルアーキテクチャを提案する。これらの表現の品質は単語の類似性タスクで測定され、その結果は異なるタイプのニューラルネットワークに基づく、これまでで最も性能の良い技術と比較される。その結果、16億語のデータセットから高品質の単語ベクトルを学習するのに1日もかからず、より低い計算コストで精度が大幅に向上することが確認された。さらに、これらのベクトルは、我々のテストセットにおいて、構文的および意味的な単語の類似性を測定するための最先端の性能を提供することを示す。

コード

https://code.google.com/archive/p/word2vec/

解決した課題/先行研究との比較

単語の分散表現 (単語をベクトルで表すこと) を用いることで自然言語処理のタスクにおいてN-gramモデルよりも高い精度が出ることが報告されていた。
しかし、巨大なデータセットからどのようにクオリティの高い分散表現を作成するかは依然課題が残されていた。
- 大きな課題の一つが学習時の計算量。
本論文は単語の分散表現化手法の一つ word2vec を提案した。
結果として非常に高精度・ハイクオリティな単語の分散表現の獲得に成功し、単語の演算ができるようになった。

技術・手法のポイント

本論文では2つのword2vecモデルを紹介している。
Continuous Bag-of-Words (CBOW) Model: 周囲の単語（文脈）から現在の単語を予測するモデル
- Feedforward 言語モデルNeural Networkに似ているが、投影層をすべての単語に対して共有する。
- 前後n個の単語を入力とする→現在の (**の) 単語の分類を学習・推論させる。
- 特に学習の速さがウリ
Continuous Skip-gram Model: 現在の単語から周囲の単語（文脈）を予測するモデル
- CBOWの逆。現在の単語を入力に、前後で一定の範囲にある単語を予測する。
- これの範囲を広げると得られる単語ベクトルの質も上がるが、計算量も増加する。
- 特に分散表現の精度がウリ
いずれも3層のneural network。隠れ層がないので計算量が激減。
これらのモデルの学習を通して得られる全結合層の重み行列 = 単語の分散表現 = word2vec となる！
- 目の付け方がすごい。
加えて、hierarchical softmaxで高速化。
- CBOW, skip-gram共にsoftmaxの計算が激重。(単語の数だけの分類問題)
- → 2分類問題を繰り返す (= 階層的/hierarchical) 方式に変更し、計算回数が激減。
- 更に高速化→ Mikolov et al., NIPS 2013
単語ベクトルの学習には、Google Newsコーパスを使用。

評価指標

Task Description
- 2つの単語のペアをつなげて、質問リストを作成。例えば、アメリカの都市と州のペア等。
- 加えて、ランダムに2単語を選んだペアを作成。
- この「2単語は、この関係 (e.g., 都市と州、男女、対義語、etc...) がありますか？」→正答率を評価
学習速度。3億2000万語, 8万2千 vocabularyの学習に、
- リカレントニューラルネットワーク言語モデルはシングルCPUで8週間！
- CBOWは1日で終わる。
- Skip-gramモデルは約3日。
Microsoft Sentence Completion Challenge
- 結果はそこそこ。
- リカレントニューラルネットワーク言語モデル (これまでState-of-the-Art: SOTA) と重み付き結合をすることでSOTA更新

残された課題・議論

これ以前に報告されていた手法より計算量が少ないといえど、実用的にはより高速化が必要
- → Mikolov et al., NIPS 2013へと繋がる。
  - 1時間あたり数十億語のオーダー。1000億語以上で学習した140万以上のベクトル。
得られた高品質単語ベクトルの様々な用途への実適用

重要な引用

Mikolov, Tomas, Wen-Tau Yih, and Geoffrey Zweig. 2013. “Linguistic Regularities in Continuous Space Word Representations,” June, 746–51.
- 本稿に先立つ、同著者たちによる論文。このときはまだ手法に名前が与えられていなかったが、単語の演算ができた！と報告。
Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Distributed Representations of Words and Phrases and Their Compositionality.” In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, 3111–19. NIPS’13. Red Hook, NY, USA: Curran Associates Inc.
- 本稿の手法の改良。CBOWとskip-gramを合体させる + negative samplingを適用することで、本稿の手法より速く、1時間あたり数十億単語のオーダーでベクトル化できたという報告。
Mikolov, Tomas, M. Karafiát, L. Burget, J. Cernocký, and S. Khudanpur. 2010. “Recurrent Neural Network Based Language Model.” INTERSPEECH. https://www.semanticscholar.org/paper/9819b600a828a57e1cde047bbe710d3446b30da5.
- リカレントニューラルネットワーク言語モデルを提唱した論文
Morin, Frederic, and Yoshua Bengio. 06--08 Jan 2005. “Hierarchical Probabilistic Neural Network Language Model.” In Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, edited by Robert G. Cowell and Zoubin Ghahramani, R5:246–52. Proceedings of Machine Learning Research. PMLR.
- Hierarchical softmaxの由来

参考情報

A lightweight deep learning model for automatic segmentation and analysis of ophthalmic images

Sharma, Parmanand, Takahiro Ninomiya, Kazuko Omodaka, Naoki Takahashi, Takehiro Miya, Noriko Himori, Takayuki Okatani, and Toru Nakazawa. 2022. “A Lightweight Deep Learning Model for Automatic Segmentation and Analysis of Ophthalmic Images.” Scientific Reports 12 (1): 8508.
https://www.nature.com/articles/s41598-022-12486-w

2022年5月に東北大のグループが発表した仕事
U-netを元にした、しかし「10倍軽く」「少ないデータセットで」「オリジナルと同等～高い精度が出る」セグメンテーションモデル "LWBNA_Unet (lightweight bottleneck narrowing with attention in Unet)" の提案と、それを用いた眼科疾患の検出。

Abstract

Detection, diagnosis, and treatment of ophthalmic diseases depend on extraction of information (features and/or their dimensions) from the images. Deep learning (DL) model are crucial for the automation of it. Here, we report on the development of a lightweight DL model, which can precisely segment/detect the required features automatically. The model utilizes dimensionality reduction of image to extract important features, and channel contraction to allow only the required high-level features necessary for reconstruction of segmented feature image. Performance of present model in detection of glaucoma from optical coherence tomography angiography (OCTA) images of retina is high (area under the receiver-operator characteristic curve AUC ~ 0.81). Bland–Altman analysis gave exceptionally low bias (~ 0.00185), and high Pearson’s correlation coefficient (p = 0.9969) between the parameters determined from manual and DL based segmentation. On the same dataset, bias is an order of magnitude higher (~ 0.0694, p = 0.8534) for commercial software. Present model is 10 times lighter than Unet (popular for biomedical image segmentation) and have a better segmentation accuracy and model training reproducibility (based on the analysis of 3670 OCTA images). High dice similarity coefficient (D) for variety of ophthalmic images suggested it’s wider scope in precise segmentation of images even from other fields. Our concept of channel narrowing is not only important for the segmentation problems, but it can also reduce number of parameters significantly in object classification models. Enhanced disease diagnostic accuracy can be achieved for the resource limited devices (such as mobile phone, Nvidia’s Jetson, Raspberry pi) used in self-monitoring, and tele-screening (memory size of trained model ~ 35 MB).

(DeepL翻訳)

眼科疾患の検出・診断・治療は、画像からの情報（特徴量および／またはその次元）の抽出に依存している。その自動化のためには、ディープラーニング（DL）モデルが重要である。本発表では、必要な特徴を的確に自動抽出する軽量なDLモデルの開発について報告する。本モデルは、画像の次元削減により重要な特徴を抽出し、チャンネル収縮により、分割された特徴画像の再構成に必要な高次の特徴のみを許可する。網膜の光干渉断層撮影（OCTA）画像からの緑内障検出において、本モデルの性能は高い（受信者操作特性曲線下面積AUC〜0.81）。Bland-Altman解析では、手動とDLベースのセグメンテーションで決定されたパラメータの間に、例外的に低いバイアス（〜0.00185）、高いピアソンの相関係数（p = 0.9969）が得られました。同じデータセットで、市販のソフトウェアでは、バイアスが1桁高い(~ 0.0694, p = 0.8534)。本モデルは、バイオメディカル画像のセグメンテーションによく用いられるUnetよりも10倍軽く、セグメンテーション精度やモデル学習の再現性が高い（3670枚のOCTA画像の解析に基づく）。また、様々な眼科画像に対して高いダイス類似度係数（D）を示したことから、他分野の画像の精密なセグメンテーションにも応用できることが示唆されました。また、このチャンネルナローイングの概念は、セグメンテーションの問題だけでなく、オブジェクト分類モデルにおいてパラメータ数を大幅に削減することができる。また、携帯電話、NvidiaのJetson、Raspberry piなどのリソースの限られたデバイスを用いたセルフモニタリングや、遠隔スクリーニングにおいて、疾患診断の精度を高めることができる（学習モデルのメモリサイズ〜35MB）。

コード

解決した課題/先行研究との比較

セマンティックセグメンテーションタスクにおいて第一選択なっているU-net、パラメータ数が多いためチューニング時間がかかったり、たくさんの教師データが必要という使いにくさがあった。
提案手法は10倍軽く、通常のU-netと同等かそれ以上の精度を出すことに成功した。
- 処理能力に制限のあるエッジデバイスにも載せやすい！

技術・手法のポイント

先行研究でも利用されてきた以下の工夫を用い、チューニングすべきパラメータ数を削減
- U-net内の特徴量チャネル/フィルタの数を固定
- skip connectionに用いる連結を加算層に置き換え
- 2次元convolution層をupsamplingに置き換え
加えて、オリジナルの工夫として、U-net の最下層（最も特徴マップのサイズが小さい層）で、連続するAttentionベースの圧縮層を行い「重要な情報を抽出する仕組み」を導入
- Attention Block の有無以外は同一の「Unet_AB_128_Upsampling_Add」との比較が面白い
  - Table 2では大してスコアは変わらないように見えるものの、Unet_AB_128_Upsampling_AddにはFig.3にあるような大外ししてしまうサンプルが複数存在しており、結果の安定性では提案手法が勝っているらしい。
- この Attention Block では、特徴マップの次元削減が行われ、セグメンテーションに必要な情報のみが次の層に伝播されている。

評価指標

Dice coefficient. See p.3
網膜写真上での疾患領域の検出精度を既存のモデルと比較 (Fig. 3)

残された課題・議論

使うPCやソフトウェアのバージョンによって結果が微妙に異なる
データセットの影響を受けやすい
- データセット＆パラメータ数が少ないから？
本論文の工夫点である連続するAttentionベースの圧縮層が、U-net以外のアーキテクチャでも精度向上に有効かが気になる
- U-net以外のモデルに対してもこの工夫が有効なのであれば、汎用的な仕組みといえる

重要な引用

U-net: Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. 2015. “U-Net: Convolutional Networks for Biomedical Image Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1505.04597. https://arxiv.org/abs/1505.04597
DeepLabV3+: Chen, Liang-Chieh, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. 2018. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1802.02611. https://arxiv.org/pdf/1802.02611.pdf

TabTransformer: Tabular Data Modeling Using Contextual Embeddings

Xin Huang, Ashish Khetan, Milan Cvitkovic, Zohar Karnin 2020. "TabTransformer: Tabular Data Modeling Using Contextual Embeddings" arXiv [cs.LG]. arXiv. https://arxiv.org/abs/2012.06678v1

Self-AttentionベースのTransformerは、最先端の性能を達成するために、NLPモデルの標準コンポーネントになっている。
Transformerによって生成された文脈埋め込みの有効性と解釈可能性もよく研究されている
TransformersのNLPへの応用が成功したことに動機づけられ、本論文では、それらを表形式領域で適応させる。
Transformerの適用により、ラベル無しデータの半教師あり学習が可能となり、また、多くのケースで、既存のモデルを上回る精度を達成した。

Abstract

We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. The TabTransformer is built upon self-attention based Transformers. The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-theart deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods.

(DeepL翻訳)
我々は、教師あり学習と半教師あり学習のための新しい深い表形式データモデリングアーキテクチャであるTabTransformerを提案する。TabTransformerは自己注意に基づくTransformerをベースに構築されている。Transformer層はカテゴリ特徴の埋め込みを頑健な文脈埋め込みに変換し、より高い予測精度を達成する。15の公開データセットに対する広範な実験を通して、我々はTabTransformerが表形式データに対する最新の深層学習手法を平均AUCで少なくとも1.0%上回り、木ベースのアンサンブルモデルの性能と一致することを示す。さらに、TabTransformerから学習した文脈埋め込みは、欠損データとノイズデータの両方の特徴に対して非常に頑健であり
、より良い解釈可能性を提供することを実証する。最後に、半教師付き設定において、我々はデータ駆動型の文脈埋め込みを学習する教師なし事前学習手順を開発し、その結果、最新の手法に対して平均2.1%のAUCリフトを達成した。

コード

解決した課題/先行研究との比較

Tableデータのモデル化は、大別して、GBDT等のツリーベースモデルと、多層パーセプトロン(MLP)(*)モデルの2種類があり、それぞれに課題がある。
*本論文のMLPとは、Transformerを含まない、一般的なニューラルネットワークをベースとしたモデルを示す。

ツリーベースモデル
- (a)ストリーミングデータの継続的な学習に適さない(再学習できない)
- (b)最先端のSSL(半教師あり学習法,Semi-Superviced Leaning)に適さない
- (c)欠損やノイズの多い特徴量データを処理する最先端の深層学習法はツリーベースに適用できない
多層パーセプトロン(MLP)モデル
- (a)学習したモデルやEmbeddingを解釈できない
- (b)欠損やノイズの多いデータに対してロバストではない
- (c)半教師あり学習では、競争力のある性能を達成できない

本論文ではTransformerをテーブルデータに導入することで、上記の課題を解決し、既存のモデルを上回る精度を達成した。

技術のポイント

2種類の説明変数(連続値、カテゴリ変数)のうち、カテゴリ変数にEmbedding層とTransformer層を適用する(Fig.1)。
- カテゴリ変数のEmbedding層は、カテゴリ変数をベクトル空間で表現する。
- カテゴリ変数のTransformer層は、AttentionHeadを通して、前段のEmbedding層から入力された全ての埋め込みに注目した特徴ベクトルを出力する。
ラベルなしデータを用いて、Tansformer層の事前学習(半教師あり学習)を行うことができる。
本論文では、自然言語処理と同様の二種類の事前学習を適用できることを示している。
- マスク言語モデリング(MLM)
  k%の特徴をランダムに選択し、それらを欠損としてマスクし、マスク箇所を推論するための学習を事前学習として実施する。
- 置換トークン検出(RTD)
  k%の特徴をランダムに選択し、それらをランダムな値で置き換え、置き換え箇所を推論するための学習を事前学習として実施する。
  これは、ELECTRAに関する論文に基づいた学習手法。

Fig.1: The architecture of TabTransformer.

評価指標

本論文では、UIC Repository、AutoML Challenge、Kaggleからの15の一般公開二値分類データセットで、教師あり学習と半教師あり学習の両方についてTabTransformerとベースラインモデルを評価し、既存モデルへの優位性を説いている。

実験は下記の項目を実施し、ほぼ全てのケースで優位な結果を示した。

教師あり学習シナリオにおける、TabTransformersとベースラインMLPの比較
ノイズの多いデータと欠損値のあるデータに対する、TabTransformersとベースラインMLPの比較
- ノイズの多いデータ
- 欠損値のあるデータ
教師あり学習シナリオにおける、TabTransformersと各種モデルの比較
半教師あり学習シナリオにおける、TabTransformerを評価

以下、評価のサマリーを記載する。

教師あり学習におけるTabTransformerと既存モデルの性能比較

通常の教師あり学習では、ニューラルネットワークベースの既存モデルを上回り、また、テーブルデータで最も高性能なモデルの１つであるGBDTとほぼ同等の性能を示した(Table 2) 。

Model Name	Mean AUC (%)
TabTransformer	82.8 ± 0.4
MLP	81.8 ± 0.4
GBDT	82.9 ± 0.4
Sparse MLP	81.4 ± 0.4
Logistic Regression	80.4 ± 0.4
TabNet	77.1 ± 0.5
VIB	80.5 ± 0.4

Table 2教師あり学習におけるモデルの性能評価指標は、各モデル
の15個のデータセットにおけるAUCスコアの平均±標準偏差

半教師あり学習シナリオにおけるTabTransformerと既存モデルの性能比較

ラベルのないデータの数が多い場合、TabTransfomerを事前学習したモデル(TabTransformer-RTD, TabTransformer-MLM)は、他の競合他社を大幅に上回る性能を示した。
旧来の事前学習法を用いたTransformerやGBDTは全モデルの平均より性能が悪いが、TabTransformer-RTD/MLMは、ラベル付きデータが(全サンプル数 30k以上のうち)50、200、500のシナリオにおいて、平均AUCでそれぞれ1.2%、2.0%、2.1%以上、既存の手法より向上している(Table 3)。

#Labeled Data	50	200	500
TabTransformer-RTD	66.6±0.6	70.9±0.6	73.1±0.6
TabTransformer-MLM	66.8±0.6	71.0±0.6	72.9±0.6
MLP (ER)	65.6±0.6	69.0±0.6	71.0±0.6
MLP (PL)	65.4±0.6	68.8±0.6	71.0±0.6
TabTransformer(ER)	62.7±0.6	67.1±0.6	69.3±0.6
TabTransformer(PL)	63.6±0.6	67.3±0.7	69.3±0.6
MLP (DAE)	65.2±0.5	68.5±0.6	71.0±0.6
GBDT (PL)	56.5±0.5	63.1±0.6	66.5±0.7

Table 3: ラベル付きデータ点数を変えた場合の、それぞれ30K以上のデータ点を持つ8つのデータセットに対する半教師あり学習結果。評価指標は平均AUC(%)で、数値が大きいほど良い結果である。

補足：

TabTransformer-RTD: TabTransformerを置換トークン検出(RTD)法を用いて事前学習したモデル
TabTransformer-MLM: TabTransformerをマスク言語モデリング(MLM)法を用いて事前学習したモデル
ER: Entropy Regularization (ER) (Grandvalet and Bengio 2006) とMLP、TabTransformer
PL: Pseudo Labeling (PL) (Lee 2013) とMLP、TabTransformer、GBDT (Jain 2017)
MLP (DAE): 表データに対する深いモデル用に設計された教師なし事前学習法(スワップノイズ Denoising AutoEncoder)

総じて、TabTransformerは、テーブルデータで最も高性能なモデルの１つであるGBDTに迫る精度を示し、また、ラベル付されたデータが少ないケースにおいては、半教師あり学習を適用することで、既存モデルを凌駕する性能を実現したと言える。

残された課題・議論

半教師あり学習時のTabTransformer評価において、特にラベルなしデータの数が少ない場合に、TabTransformer(RTD)は、ほとんどの競合を凌駕するが、改善はわずかであると述べている。
本論文のアプローチでは、ラベル無しデータ数が少ない場合、情報量の多いEmbeddingを得ることができるが、ラベルのないデータのみでは、モデル全体(特に、Fig.1 のMuliti-Layer Perceptron部)の重みを学習させることはできない。

重要な引用

Arik, S. O.; and Pfister, T. 2019. TabNet: Attentive Interpretable Tabular Learning. arXiv preprint arXiv:1908.07442
URL https://arxiv.org/abs/1908.07442.
Brunner, G.; Liu, Y.; Pascual, D.; Richter, O.; and Wattenhofer, R. 2019. On the validity of self-attention as explana
tion in transformer models. arXiv preprint arXiv:1908.04211.
Clark, K.; Luong, M.-T.; Le, Q. V.; and Manning, C. D. 2020. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. In International Conference on Learning Representations. URL https://openreview.net/forum?id=r1xMH1BtvB.

Censoring Chemical Data to Mitigate Dual Use Risk

Campbell, Quintina L., et al. “Censoring Chemical Data to Mitigate Dual Use Risk.” arXiv [cs.LG], 20 Apr. 2023, http://arxiv.org/abs/2304.10510. arXiv.

機械学習モデルの悪用を防ぐためにはどうすればよいか？という観点での仕事。
- 例：創薬のための機械学習モデルを悪用すれば毒物も作れてしまう。
センシティブなデータの説明変数にガウシアンノイズを加えることで、センシティブなデータの予測精度を選択的に悪化させることができた。

Abstract

The dual use of machine learning applications, where models can be used for both beneficial and malicious purposes, presents a significant challenge. This has recently become a particular concern in chemistry, where chemical datasets containing sensitive labels (e.g. toxicological information) could be used to develop predictive models that identify novel toxins or chemical warfare agents. To mitigate dual use risks, we propose a model-agnostic method of selectively noising datasets while preserving the utility of the data for training deep neural networks in a beneficial region. We evaluate the effectiveness of the proposed method across least squares, a multilayer perceptron, and a graph neural network. Our findings show selectively noised datasets can induce model variance and bias in predictions for sensitive labels with control, suggesting the safe sharing of datasets containing sensitive information is feasible. We also find omitting sensitive data often increases model variance sufficiently to mitigate dual use. This work is proposed as a foundation for future research on enabling more secure and collaborative data sharing practices and safer machine learning applications in chemistry.

(DeepL翻訳)

機械学習アプリケーションの二重使用は、モデルが有益な目的にも悪意のある目的にも使用される可能性があるため、重要な課題となっている。化学分野では、機密性の高いラベル（毒物学的情報など）を含む化学データセットが、新規毒物や化学兵器を特定する予測モデルの開発に利用される可能性がある。二重使用のリスクを軽減するために、有益な領域でディープニューラルネットワークを学習するためのデータの有用性を維持しながら、データセットを選択的にノイズ化するモデル不可知論的な方法を提案する。提案手法の有効性を最小二乗法、多層パーセプトロン、グラフニューラルネットワークで評価する。我々の知見は、選択的にノイズ化されたデータセットが、制御可能なセンシティブなラベルに対する予測において、モデルの分散とバイアスを誘導できることを示しており、センシティブな情報を含むデータセットの安全な共有が実現可能であることを示唆している。また、センシティブなデータを省略することで、モデルの分散が十分に増加し、二重利用が緩和されることもわかった。この研究は、より安全で協調的なデータ共有の実践と、化学におけるより安全な機械学習アプリケーションを可能にするための将来の研究の基礎として提案される。

コード

https://github.com/ur-whitelab/chem-dual-use

解決した課題/先行研究との比較

機械学習を用いた新規材料や素材の開発が注目を集めている。
機械学習を使うと「理想の物性を持つ物質」を探すことができるが、技術的には悪用することも可能。
- 例：創薬のためのモデルを使って毒物を探索する。
- こうしたリスクを dual-use risks of predictive chemistry (DURPC) と論文では呼称。
DURPCの軽減を目指し様々なアプローチが取られてきたが、十分な成果は挙げられていない。
- 入出力のフィルタリング → オープンソースになるとユーザーがフィルターを外せてしまう。
- センシティブなラベル空間（例えば毒性を持つ物質）の予測精度を下げる仕組みを組み込む → 毒と薬は表裏一体、本来の目的にまで影響が出てしまう。また、ユーザーが悪意を持ったfine-tuningを行えば意味がなくなってしまう。
- モデル学習の際にデータセットからセンシティブなものは除いてしまう → モデルの精度が高くなれば外挿の予測もある程度予測できるようになる。そのためデータからセンシティブなものを除いてもDUPRCの解決にはならない。
本論文ではセンシティブなデータにノイズを加えることでDURPCが緩和されることを示した。

技術・手法のポイント

基本的なアプローチは、センシティブなデータの予測精度を下げること。
センシティブとフラグのついたデータの、説明変数のみに平均0のガウシアンノイズを加え、モデルを学習させた。

評価指標

多層パーセプトロンとグラフ畳み込みネットワークでノイズ付与の効果を検証。
下図は多層パーセプトロンでの結果 (Fig.3)。true labelが正のデータにノイズを付与。
ノイズを説明変数のみに加えたとき (c)、ノイズが加わったデータのMSEが極端に悪化している。

残された課題・議論・感想

センシティブなデータというのは得てして少量データになりがち。提案手法を使えば選択的にDURPCを最小限に押さえながら貴重なデータセットを研究者間で共有しやすい下地を作ることができるかもしれない。
- データを使う人からすると、どのデータにノイズが付与されているのかがわからないため、渡す側は安全に共有しやすい。
手を加えるのはデータのみなので、モデルのアーキテクチャに関係なく可用性がある。
- 本論文ではニューラルネット系以外での検証は行われていないが。

実践的には「センシティブ」ラベルをどう付けるかが課題になりそう。毒性 = 薬効であるため、データセットを作ったときの評価軸で都合の悪いものを一律「センシティブ」としてしまうと、将来「この毒性を薬として活用したい」というニーズが出てきたときに使えないデータセットになることもありえるのではないだろうか。

重要な引用

本論文以外のDURPCの削減に向けた取り組み
- N. Maus, P. Chao, E. Wong, and J. Gardner, “Adversarial prompting for black box foundation models,” arXiv preprint arXiv:2302.04237, 2023.
- J. Rose, “OpenAI’s new chatbot will tell you how to shoplift and make explosives. vice,” 2022.
- A. M. Bran, S. Cox, A. D. White, and P. Schwaller, “Chemcrow: Augmenting large-language models with chemistry tools,” arXiv preprint arXiv:2304.05376, 2023.
- D. A. Boiko, R. MacKnight, and G. Gomes, “Emergent autonomous scientific research capabilities of large language models,” arXiv preprint arXiv:2304.05332, 2023.
- J. Kirchenbauer, J. Geiping, Y. Wen, J. Katz, I. Miers, and T. Goldstein, “A watermark for large language models,” 2023.
- E. Mitchell, P. Henderson, C. D. Manning, D. Jurafsky, and C. Finn, “Self-destructing models: Increasing the costs of harmful dual uses in foundation models,” 2022.
- S. Chen, D. Xue, G. Chuai, Q. Yang, and Q. Liu, “FL-QSAR: a federated learning-based QSAR prototype for collaborative drug discovery,” Bioinformatics, vol. 36, no. 22-23, pp. 5492–5498, 2020.
- F. Urbina, F. Lentzos, C. Invernizzi, and S. Ekins, “Dual use of artificial-intelligence-powered drug discovery,” Nature Machine Intelligence, vol. 4, pp. 189–191, Mar. 2022. Number: 3 Publisher: Nature Publishing Group.

BayesFormer: Transformer with Uncertainty Estimation

Sankararaman, Karthik Abinav, et al. “BayesFormer: Transformer with Uncertainty Estimation.” arXiv [cs.CL], 2 June 2022, http://arxiv.org/abs/2206.00826. arXiv.

Transformerをベイズのように扱い、予測の信頼度を高めることを試みた論文。
MC DropoutをTransformerに組み込むことで、モデルのオーバーフィッティングを軽減すると同時に、予測の不確実性を定量化。
Active learningで評価したところ、通常のTransformerやRoBERTaと比較して、情報が少ない段階でも適切な追加情報を選べた。

Abstract

Transformer has become ubiquitous due to its dominant performance in various NLP and image processing tasks. However, it lacks understanding of how to generate mathematically grounded uncertainty estimates for transformer architectures. Models equipped with such uncertainty estimates can typically improve predictive performance, make networks robust, avoid over-fitting and used as acquisition function in active learning. In this paper, we introduce BayesFormer, a Transformer model with dropouts designed by Bayesian theory. We proposed a new theoretical framework to extend the approximate variational inference-based dropout to Transformer-based architectures. Through extensive experiments, we validate the proposed architecture in four paradigms and show improvements across the board: language modeling and classification, long-sequence understanding, machine translation and acquisition function for active learning.

(DeepL翻訳)

トランスフォーマーは、様々な自然言語処理や画像処理タスクにおいて圧倒的な性能を発揮するため、ユビキタスになっている。しかし、トランスフォーマーアーキテクチャに対して、数学的に根拠のある不確実性推定値を生成する方法については理解が不足している。このような不確実性推定を備えたモデルは、通常、予測性能を向上させ、ネットワークを頑健にし、オーバーフィッティングを回避し、能動学習における獲得関数として使用することができる。本稿では、ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルであるBayesFormerを紹介する。我々は、近似変分推論に基づくドロップアウトをTransformerベースのアーキテクチャに拡張する新しい理論的枠組みを提案した。広範な実験を通じて、4つのパラダイムで提案アーキテクチャを検証し、言語モデリングと分類、長文系列理解、機械翻訳、能動学習のための獲得機能など、全体的な改善を示す。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

Transformerの予測能力、その汎用性が高いことは多くの適用例があることからも明らか。
一方で、実アプリケーションを考えると、例えばActive learning等、不確実性をどう定量するかが重要になる例もある。
Transformerにおける不確実性の定量例は（論文投稿時点で、著者曰く）1例しかない。
- 最終層のアンサンブルを使用。
- 本記事引用項参照。
本論文はTransformerを用いた予測における不確実性の定量と、その数学的根拠に基づいた理解を目指した。

技術・手法のポイント

BayesFormer と名付けたアーキテクチャを構築。
- Multi-head self-attentionの後のFeed forward層への入力 (= Multi-head self-attentionからの入力とskip-connection入力) に指定した割合でDropoutをいれる。
MC Dropout (本記事引用項参照) として予測の不確実性の推定値を取得できるようになった。

論文よりFigure 2の一部を転載。

評価指標

GLUEデータセットに含まれる分類タスク8つでRoBERTaと比較。Pre-train時に10% Dropout。
- →RoBERTaよりもわずかに良い性能 (Table 1)
- →学習の推移を見てみると、RoBERTaは早くに過学習しているのに対し、BayesFormerでは過学習が見られなかった (Fig.1)。

長文理解タスクで、通常Transformerよりも性能改善 (Table 3)。Dropoutは5% 。こちらも過学習を回避したことによると考えられる。
- TransformerのバリアントでもDropoutの有無による性能比較→Dropout有時の方が一貫して良いスコア (Table 2)
de->en 翻訳タスクでも通常Transformerよりも改善 (Table 4)。Dropoutは5% 。
Active Learningの文脈での評価。BayesFormerがrandom sampling, RoBERTaと比較して良いスコアを示した (Fig.4)。
- CoLAデータセット（正しい文章構造かを判断）を利用。
- データセットの内10%をランダムに選びFine-tuning→残りの90%からMC-BALD score (後述) のTop kを選びFine-tuning→そのときのkとMatthews Correlation Coefficient (MCC) Score が Fig.4。
- 追加が少ないとき、BayesFormerが特によいスコアであった = 情報が少ない段階で、適切な追加すべき情報を選択できていることを示唆する。

MC-BALD score: MC Dropoutを基準としたBALD獲得関数。BALDとは Bayesian Active LEarning Disagreement の略で、「どのデータが最も情報量が多いか (= 不確実か)」を特定するアルゴリズム。本記事引用項参照。

残された課題・議論・感想

他のDropout手法、過学習削減手法との相互作用の検証。
より大規模なモデルへの適用。
Adversarialな例（あえてモデルに間違いを起こさせるようなデータ）に対する頑健性・脆弱性の評価。

重要な引用

Transformerで不確実性を取り扱う先行研究
- Adam Gleave and Geoffrey Irving. Uncertainty estimation for language reward models. arXiv preprint arXiv:2203.07472, 2022.
MC Dropoutについて
- Yarin Gal and Zoubin Ghahramani. Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In international conference on machine learning, pages 1050–1059. PMLR, 2016.
BALD
- Yarin Gal, Riashat Islam, and Zoubin Ghahramani. Deep bayesian active learning with image data. In International Conference on Machine Learning, pages 1183–1192. PMLR, 2017.
- Neil Houlsby, Ferenc Huszár, Zoubin Ghahramani, and Máté Lengyel. Bayesian active learning for classification and preference learning. arXiv preprint arXiv:1112.5745, 2011.

Abstract

We introduce a new generative model where samples are produced via Langevin dynamics using gradients of the data distribution estimated with score matching. Because gradients can be ill-defined and hard to estimate when the data resides on low-dimensional manifolds, we perturb the data with different levels of Gaussian noise, and jointly estimate the corresponding scores, i.e., the vector fields of gradients of the perturbed data distribution for all noise levels. For sampling, we propose an annealed Langevin dynamics where we use gradients corresponding to gradually decreasing noise levels as the sampling process gets closer to the data manifold. Our framework allows flexible model architectures, requires no sampling during training or the use of adversarial methods, and provides a learning objective that can be used for principled model comparisons. Our models produce samples comparable to GANs on MNIST, CelebA and CIFAR-10 datasets, achieving a new state-of-the-art inception score of 8.87 on CIFAR-10. Additionally, we demonstrate that our models learn effective representations via image inpainting experiments.

(DeepL翻訳)

我々は、スコアマッチングによって推定されたデータ分布の勾配を用いて、ランジュバン動力学によってサンプルを生成する新しい生成モデルを導入する。データが低次元多様体に存在する場合、勾配は定義しにくく、推定が困難であるため、データに異なるレベルのガウスノイズを摂動し、対応するスコア、すなわち、すべてのノイズレベルに対する摂動されたデータ分布の勾配のベクトル場を共同で推定する。サンプリングに関しては、アニールされたランジュバン動力学を提案し、サンプリングプロセスがデータ多様体に近づくにつれて徐々に減少するノイズレベルに対応する勾配を使用する。我々のフレームワークは柔軟なモデルアーキテクチャを可能にし、学習時のサンプリングや敵対的手法の使用を必要とせず、原理的なモデル比較に利用可能な学習目標を提供する。我々のモデルはMNIST、CelebA、CIFAR-10データセットにおいてGANと同等のサンプルを生成し、CIFAR-10では8.87という最新のインセプションスコアを達成することができた。さらに、我々のモデルが効果的な表現を学習することを画像インペインティング実験により実証する。

コード

https://github.com/ermongroup/ncsn

解決した課題/先行研究との比較

生成モデルは様々な分野で近年研究が進んでいる。例えば画像生成のGAN (generative adversarial network) などはわかりやすい例。
これまでの生成モデルでは学習のために対数尤度関数やƒ-divergence、積分確率法 (integral probability metrics) などが用いられてきたが、課題がある。
- 尤度ベースのモデルは、正規化された確率モデルを構築する特殊なアーキテクチャを用いるか、あるいは学習に代用損失を用いる必要がある = 仮定が多い。
- GAN (ƒ-divergence、積分確率法を使用) は尤度ベースモデルの制限をいくつか回避できるが、敵対的な学習手順により学習が安定しない = モデル間の定量比較が難しい。
- Noise contrastive estimation法やminimum probability flow法などのパラメータ推定法は低次元データにしか使えない。
本論文では入力データの対数密度関数であるSteinスコアからデータの生成分布を推定し（スコアマッチング）、ランジュバン動力学を用いてサンプルを生成する方法を提案。
- スコアマッチングを用いるため、本論文のアプローチは「スコアベースモデル」などと呼ばれる。
- スコアマッチング？→引用 Hyvarinen. 2015 参照。
データの生成分布の仮定が不要、GANのような不安定な訓練が不要、同一のデータセットの定量比較が可能、といった強みがある。

技術・手法のポイント

まず、学習データにGaussianノイズによる摂動を与える。←「拡散」と呼ばれる所以。
- 現実世界のデータはほとんどが低次元に近似できてしまう (多様体仮説)。これがスコア推定にどう悪い影響を与えるかは Fig.1参照.
- ランダムなノイズを追加すると、データが低次元に近似されなくなる。
- 元のデータ分布の低密度領域 (データサイズの少ない領域) にサンプルが生成される。
- 結果、データを「広く」学習することができ、スコア推定が改善。
次に、ノイズ条件付きスコアネットワーク (Noise Conditional Score Network: NCSN) というニューラルネットワークをスコアマッチングにより学習させ、摂動させたデータ分布ごとにスコア関数を推定する。
- 大きなノイズから小さなノイズまで、さまざまな大きさのノイズでデータを摂動させる。
- それぞれのノイズでスコアネットワークをトレーニングし、スコアを推定。
- 複数のノイズレベルでトレーニングすることで、ノイズから真のデータ分布に収束する一連のノイズ摂動データ分布 (noise- perturbed data distributions) を取得できる。
最後に、NCSNからランジュバン動力学のアルゴリズムで直接サンプルを生成する
- 最も大きなノイズレベルで画像を生成→ノイズレベルを1段階下げて画像を生成→ … →最終的に、人の目には違いがわからないほど小さいノイズのみの状態で画像 = 元のデータ分布を近似したきれいな画像が生成される。
  - 完全なノイズからきれいな画像までのノイズ摂動データ分布が存在するから可能になる！
  - 焼きなまし法 (simulated annealing) の考え方

評価指標

MNIST, CelebA, CIFAR-10のデータセットを使用。
CIFAR-10では、尤度ベースのモデルや GANから生成された画像と比較して、inception scoreがstate-of-the-art到達 (GANと微々たる差)。FIDもGANと同程度。
MNISTとCelebAは定量スコアが一般的に公開されていないので、本論文では省略。

参考:

残された課題・議論

ノイズやランジュバン動力学でのステップ幅、ステップ数と行ったパラメータは人が恣意的に設定する必要がある。自動化したい → Song and Ermon, arXiv 2020

重要な引用

Stein scoreについて
- Liu, Qiang, Jason Lee, and Michael Jordan. 20--22 Jun 2016. “A Kernelized Stein Discrepancy for Goodness-of-Fit Tests.” In Proceedings of The 33rd International Conference on Machine Learning, edited by Maria Florina Balcan and Kilian Q. Weinberger, 48:276–84. Proceedings of Machine Learning Research. New York, New York, USA: PMLR.
Score matchingについて
- Hyvarinen. 2015. “Estimation of Non-Normalized Statistical Models by Score Matching.” Journal of Machine Learning Research: JMLR 6: 695–709.
Score matchingの計算量を抑えるための近似
- Vincent, Pascal. 2011. “A Connection between Score Matching and Denoising Autoencoders.” Neural Computation 23 (7): 1661–74.
Generative Adversarial Nets (GAN)
- Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville, and Bengio. 2014. “Generative Adversarial Nets.” Advances in Neural Information Processing Systems, 2672–80.
これまでの生成モデルで使われてきた代用損失
- Kingma, Diederik P., and Max Welling. 2013. “Auto-Encoding Variational Bayes.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1312.6114v10.
- Hinton, Geoffrey E. 2002. “Training Products of Experts by Minimizing Contrastive Divergence.” Neural Computation 14 (8): 1771–1800.
noise contrastive estimation
- Gutmann, Michael, and Aapo Hyvärinen. n.d. “Noise-Contrastive Estimation: A New Estimation Principle for Unnormalized Statistical Models.” Accessed September 13, 2022. https://proceedings.mlr.press/v9/gutmann10a/gutmann10a.pdf.
minimum probability flow
- Sohl-Dickstein, Jascha, Peter Battaglino, and Michael R. DeWeese. 2009. “Minimum Probability Flow Learning.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/0906.4779.

参考

Self-Driving Laboratories to Autonomously Navigate the Protein Fitness Landscape

Rapp, Jacob T., et al. “Self-Driving Laboratories to Autonomously Navigate the Protein Fitness Landscape.” Nature Chemical Engineering, vol. 1, no. 1, Jan. 2024, pp. 97–107.

完全自立型のタンパク質開発システム Self-driving Autonomous Machines for Protein Landscape Exploration (SAMPLE) を提案。
DNA配列＆そこから生成されるタンパクと、その機能の関係を学習し、狙った機能を持つタンパクの探索と実験的検証を自動で行った。
実験では、熱安定性を12°C以上向上させたグリコシドヒドロラーゼ酵素を発見。

Abstract

Protein engineering has nearly limitless applications across chemistry, energy and medicine, but creating new proteins with improved or novel functions remains slow, labor-intensive and inefficient. Here we present the Self-driving Autonomous Machines for Protein Landscape Exploration (SAMPLE) platform for fully autonomous protein engineering. SAMPLE is driven by an intelligent agent that learns protein sequence–function relationships, designs new proteins and sends designs to a fully automated robotic system that experimentally tests the designed proteins and provides feedback to improve the agent’s understanding of the system. We deploy four SAMPLE agents with the goal of engineering glycoside hydrolase enzymes with enhanced thermal tolerance. Despite showing individual differences in their search behavior, all four agents quickly converge on thermostable enzymes. Self-driving laboratories automate and accelerate the scientific discovery process and hold great potential for the fields of protein engineering and synthetic biology.

(DeepL翻訳)

タンパク質工学は、化学、エネルギー、医学の分野でほぼ無限の応用が可能であるが、改良された、あるいは新規の機能を持つ新しいタンパク質を作り出すには、時間がかかり、労力がかかり、非効率的である。ここでは、完全に自律的なタンパク質工学のためのSelf-driving Autonomous Machines for Protein Landscape Exploration (SAMPLE)プラットフォームを紹介する。SAMPLEはインテリジェントなエージェントによって駆動され、タンパク質の配列と機能の関係を学習し、新しいタンパク質を設計し、設計したタンパク質を実験的にテストし、エージェントのシステム理解を向上させるためにフィードバックを提供する完全自動ロボットシステムに設計を送信します。我々は、耐熱性を向上させたグリコシド加水分解酵素を設計する目的で、4つのSAMPLEエージェントを導入した。探索行動には個人差が見られるものの、4つのエージェントはすべて耐熱性酵素に素早く収束した。自動運転研究室は、科学的発見プロセスを自動化し、加速し、タンパク質工学と合成生物学の分野に大きな可能性をもたらす。

解決した課題/先行研究との比較

狙った機能を持つタンパクの開発は時間と労力のかかる作業であった。
提案手法ではタンパクの配列から機能を予測する機械学習と、設計されたタンパクの機能の自動テストロボットを接続。探索と検証実験を自動化した。

技術・手法のポイント

本論文ではglycoside hydrolase 1 (GH1) を対象に、耐熱性の強化を目標とした開発を行った。
機械学習モデルとしてガウス過程回帰を採用、DNA配列からタンパクの機能を予測するモデルを作成。
- DNA配列の候補を、短い配列をパズルのように組み合わせて生成 (Fig.2)
  - 天然のGH1ファミリーの配列要素
  - Rosettaというツールで設計した配列
  - 進化情報を用いて設計した配列
推薦する配列はベイズ最適化で選択。
- 熱安定性と、酵素活性の有無に着目。
ロボットは推薦された配列からタンパクを合成し、その機能を試験する。
- Sterateos Cloud Labというクラウド実験サービスを用いたとのこと。
実験結果を機械学習モデルへとフィードバックし、次の推薦へ。

探索結果

4組のエージェントを用意し、独立に改良に取り組ませた。
どういう実験条件を経て探索が進んだかの可視化 (Fig.3)。
- (この図示の仕方はとてもわかりやすいので、実験計画法プロジェクト等で真似したい）
Approximately 9% of the experiments failed, presumably due to liquid-handing errors.
- 「実験の約9%はおそらく液体の取り扱いミスが原因で失敗しました」と、割とミスするお茶目なロボット。
探索がどのように進んだか、様々な角度から検証 (Fig.4)。
20サイクル後に「これがベストだろう」と推薦された4つの配列・タンパクを人間が実験で性能を評価→天然に存在する最上位のもの (Bgl3) よりも熱安定性が高く (Fig.5a)、同程度の速度特性を持つものができていた (Fig.5b)。
- 同程度というには弱いように見える。

残された課題・議論

今回のシステムは6ヶ月 (うち2.5ヶ月は出荷停止という外部要因) で20サイクル行え、コストは3バッチで5,200ドル程度 (= 約76万円。試薬とロボット利用料を含む) だった。
- (なぜ3バッチで数字を出しているのだろう…？)
標準的な分子生物学・タンパク工学のワークフローで人が同様の実験をするには6~12ヶ月かかると見込まれるため、半分以下の時間短縮＆コストも人件費と比較して安い。
一方で、今回のタスクは比較的単純なタスクであった。
- 配列の組み合わせも1,352程度
- 着目する特性も熱安定性と、活性の有無のみ
- 4組の探索も独立に
より多様なタンパク質特性の探索、より高度な分析手法の統合、探索間の協調システムの構築などが今後の発展として挙げられている。

重要な引用

Rosetta | 既知のタンパク質の構造データを基に、新しいタンパク（DNA配列）の構造を予測するツール
- Alford, R. F. et al. The Rosetta all-atom energy function for macromolecular modeling and design. J. Chem. Theory Comput. 13, 3031–3048 (2017).
進化情報を用いたDNA配列・タンパクのデザイン
- Porebski, B. T., Buckle, A. M., By, E. & Daggett, V. Consensus protein design. Protein Eng. Des. Sel. 29, 245–251 (2016).
- Wheeler, T. J. & Eddy, S. R. nhmmer: DNA homology search with profile HMMs. Bioinformatics 29, 2487–2489 (2013).

Characterizing Uncertainty in Machine Learning for Chemistry

Heid, Esther, et al. “Characterizing Uncertainty in Machine Learning for Chemistry.” Journal of Chemical Information and Modeling, June 2023, https://doi.org/10.1021/acs.jcim.3c00373.

機械学習モデルの不確実性を「データのノイズ」、「モデルの bias」、「モデルの variance」に分離し評価。
評価データにノイズが多いと、モデルの性能は過小評価される。
モデルの bias の削減にはデータ数の増加やモデルアーキテクチャ、化合物の表現、特徴量の選択の工夫が有効。
モデルの variance の削減にはアンサンブル学習が有効。

不確実性の由来に合わせ対策を練っていきましょう、という考えの根拠を見せてくれる論文。

Abstract

Characterizing uncertainty in machine learning models has recently gained interest in the context of machine learning reliability, robustness, safety, and active learning. Here, we separate the total uncertainty into contributions from noise in the data (aleatoric) and shortcomings of the model (epistemic), further dividing epistemic uncertainty into model bias and variance contributions. We systematically address the influence of noise, model bias, and model variance in the context of chemical property predictions, where the diverse nature of target properties and the vast chemical chemical space give rise to many different distinct sources of prediction error. We demonstrate that different sources of error can each be significant in different contexts and must be individually addressed during model development. Through controlled experiments on data sets of molecular properties, we show important trends in model performance associated with the level of noise in the data set, size of the data set, model architecture, molecule representation, ensemble size, and data set splitting. In particular, we show that 1) noise in the test set can limit a model’s observed performance when the actual performance is much better, 2) using size-extensive model aggregation structures is crucial for extensive property prediction, and 3) ensembling is a reliable tool for uncertainty quantification and improvement specifically for the contribution of model variance. We develop general guidelines on how to improve an underperforming model when falling into different uncertainty contexts.

(DeepL翻訳)

機械学習モデルの不確実性を特徴付けることは、機械学習の信頼性、頑健性、安全性、能動学習の文脈で最近関心を集めている。ここでは、全不確実性をデータのノイズ（alleatoric）とモデルの欠点（epistemic）の寄与に分け、さらにepistemic不確実性をモデルのバイアスと分散の寄与に分ける。我々は、ノイズ、モデルのバイアス、モデルの分散の影響を、化学特性予測の文脈で体系的に扱います。ここでは、ターゲット特性の多様な性質と広大な化学化学空間が、予測誤差の多くの異なる原因を生じさせます。我々は、異なるエラー源がそれぞれ異なる文脈で重要な意味を持ち、モデル開発時に個別に対処する必要があることを実証する。分子特性のデータセットに関する制御された実験を通して、データセットのノイズレベル、データセットのサイズ、モデルアーキテクチャ、分子の表現、アンサンブルサイズ、データセットの分割に関連するモデル性能の重要な傾向を示す。特に、1)テストセットのノイズは、実際の性能がはるかに優れている場合に、モデルの観察された性能を制限する可能性があること、2)サイズを拡張したモデル集約構造を使用することが、広範な物性予測に不可欠であること、3)アンサンブルは、不確実性の定量化とモデル分散の寄与に特化した改善のための信頼できるツールであることを示す。我々は、様々な不確実性の文脈に陥った場合に、性能の低いモデルをどのように改善するかについての一般的なガイドラインを作成する。

コード

Ensemble Projection
- 本論文で model bias と variance を分離するために用いられた方法

解決した課題/先行研究との比較

機械学習モデルの精度が高まる一方で、現実世界の課題に適用すると失敗することが多々ある。
化学応用分野においては分子や化学反応のモデル中での表現法も他分野の応用がしづらく、モデルの精度向上を阻む原因となっている。
こうした課題の解決に取り組むためには、モデルのエラーや不確実性がどこから生まれているのかを知ることが重要。
不確実性は3つのグループに分割できる
- Aleatoric: データ由来 (= ノイズ) で、モデルの改善では削減不可。削減のためにはデータ自身の見直しが必要。
- Epistemic: モデル由来で、モデルの改善で削減可。epistemicの中をさらに2種に分ける。
  - Model bias: モデルアーキテクチャや特徴量（incl. 化合物の表現）由来
  - Model variance: モデル選択後のパラメータ由来
  - (一般に使われる bias/variance の定義とは異なる点に注意)
本論文では、入力データのノイズ、データサイズ、モデルアーキテクチャ、分子の表現、アンサンブルするモデル数を変化させて、回帰問題における深層学習モデルの性能を比較し、それぞれの要素が由来の異なる不確実性の削減にどう寄与するかを調べた。

技術・手法のポイント

ノイズのないデータセットを作成
- (ノイズの少ないと想定されるデータセットが正しい？)
- Data sets generated by density functional theory (DFT) calculation are often considered for the role of a low-noise chemical data set as they are not subject to experimental uncertainty in data collection like most data sets would be.
ノイズのないデータにおいては、不確実性は bias あるいは variance からと考えられる。
ベイズ推論を用いた手法により variance の影響を推論することができる。
全体の不確実性から、推論された variance を引き算することで、bias の大きさを定量した。
その上で色々と条件を変えることで、それぞれの不確実性にどの項目が作用するのかを検証できるようになった。

結果

データにノイズが含まれる場合、ノイズのあるデータが学習データに入っているよりも、評価データに入っている方が影響が大きい (Fig.1)。
- ノイズの分布型による不確実性の違いはなし。一部のデータに大きなノイズが与えられていても、正規分布でノイズが与えられていても結果は変わらず。ノイズの大きさの平均値が影響する (Fig.2)。
Model bias について (Figs.4-6)
- 学習データを増やすことで対処できる。
- 化合物の表現は重要。
- データ数が少ないときはシンプルなモデルがよい。
- 特徴量の工夫はデータサイズが数千〜数万のオーダーのときに有効。
Model variance について (Figs.4, 7)
- データを増やしてもほとんど削減できない。
- モデルのアンサンブルが有効 (Fig.7)。
  - たくさんのモデルをアンサンブルするのは大変なので、まず5個のモデルでアンサンブルして精度改善のスロープを確認、そこから何個のモデルがあると良さそうか見積もるという手順を薦めている。

残された課題・議論・感想

Variance はデータ数に影響されにくいという話だが、データが増えれば variance の影響が気にならなくなるくらい精度が改善される。最も確実で大きな効果があるのはデータの追加。
データに含まれるノイズについて、学習データにノイズが含まれていても影響が小さいというのは意外であった。ノイズが正解に対し対称に分布するから、平均を取れば打ち消し合うということだろうか。
- ノイズが対称である、という前提が置かれている点に留意。
一方で、評価データのノイズを除くのは実課題においてはなかなか難しい。工夫のしどころ。

今日の英単語

mediocre: 平凡
- mediocire model: 平凡なモデル

Data quantity governance for machine learning in materials science.

Yue Liu, Zhengwei Yang, Xinxin Zou, Shuchang Ma, Dahui Liu, Maxim Avdeev, Siqi Shi. 2023. “Data quantity governance for machine learning in materials science.” National Science Review, nwad125, https://doi.org/10.1093/nsr/nwad125

材料科学の分野に機械学習手法を用いる際の、データ量ガバナンスに関する過去の研究をまとめたレビュー論文
機械学習モデルの解釈可能性、信頼性、予測精度を向上させるために、材料ドメインの知識を取り入れた、相乗的なデータ量ガバナンスの手法を提案
とくに、限られたデータサンプルで機械学習モデルの性能を最適化するために、サンプル数と特徴空間の次元をバランスよく調整することの重要性を強調

Abstract

Data-driven machine learning is widely employed in the analysis of materials structure-activity relationship, performance optimization and materials design due to its superior ability to reveal latent data patterns and make accurate prediction. However, because of the laborious process of materials data acquisition, machine learning models encounter the issue of the mismatch between high dimension of feature space and small sample size (for traditional machine learning models) or the mismatch between model parameters and sample size (for deep learning models), usually resulting in terrible performance. Here, we review the efforts for tackling this issue via feature reduction, sample augmentation, and specific machine learning approaches and show that the balance between the number of samples and features or model parameters should attract great attention during data quantity governance. Following this, we propose a synergistic data quantity governance flow with incorporation of materials domain knowledge. After summarizing the approaches to incorporating materials domain knowledge into the process of machine learning, we provide examples of incorporating domain knowledge into governance schemes to demonstrate the advantages of the approach and applications. The work paves the way for obtaining the required high-quality data to accelerate the materials design and discovery based on machine learning.

(DeepL翻訳)

データ駆動型の機械学習は、潜在的なデータパターンを明らかにし、正確な予測を行う優れた能力を持っているため、材料の構造と活性の関係の解析、性能最適化、材料設計に広く採用されています。しかし、材料データの取得に手間がかかるため、機械学習モデルは、特徴空間の高次元とサンプルサイズの不一致（従来の機械学習モデルの場合）、またはモデルパラメータとサンプルサイズの不一致（深層学習モデルの場合）という問題に遭遇し、通常、ひどいパフォーマンスをもたらす。ここでは、特徴量の削減、サンプル数の増加、特定の機械学習アプローチによってこの問題に取り組む取り組みをレビューし、データ量ガバナンスにおいて、サンプル数と特徴量またはモデルパラメータの間のバランスに大きな注意を払う必要があることを示す。続いて、材料分野の知識を取り入れた相乗的なデータ量ガバナンスのフローを提案する。機械学習のプロセスに材料分野の知識を取り入れるアプローチをまとめた後、ガバナンススキームにドメイン知識を取り入れる例を示し、アプローチの利点と応用を実証する。本作品は、機械学習に基づく材料設計・発見を加速させるために必要な高品質なデータを得るための道を開くものである。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

材料科学の分野で機械学習を行う際、一般的にサンプル数は小さく、特徴空間の次元数が大きい傾向がある
- サンプル数の小ささ
  - 材料科学の分野では、一般的にはデータの取得は手間のかかる実験に依存
  - 結果としてサンプルサイズは一般的に小さくなりがち
- 特徴量の多さ
  - 材料の専門家が通常考慮している情報は膨大で、しばしば冗長な情報も含む
本研究では、過去に行われてきたサンプル数と特徴量の数の比を改善する、主に統計的アプローチによる取り組みを調査
加えて、材料科学のドメイン知識の活用も加味した、一連のデータ量ガバナンスの手法を確立

技術・手法のポイント

本研究では、主に以下2つのフレームワークを提案

Machine Learning Embedded with Materials Domain Knowledge
Data Quantity Detection and Data Quantity Governance

1.は、機械学習のプロセス全体に材料科学の知識を活用する際の指針を、2.は、材料のドメイン知識を導入してデータ量ガバナンスを行う際の指針を示す。
関係性として、1.のフレームワーク内の「Target definition & data preparation」箇所の検討で、2.のフレームワークが使用されるイメージ。

1. Machine Learning Embedded with Materials Domain Knowledge

材料に関するドメイン知識を反映させながら、機械学習のプロセスを進めていくべきだ、という図
本プロセス内で、材料のドメイン知識は、データ前処理、特徴量エンジニアリング、モデル構築に反映される
学習・推論や結果の解釈を通して、以下3つのしばしば発生する対立を解消できるよう、データガバナンスの改善を行う
- データの次元数とサンプル数の対立
- モデルの精度と有用性の対立
- 学習結果とドメイン知識の対立

2. Data Quantity Detection and Data Quantity Governance

材料のドメイン知識を導入してデータ量ガバナンスを行う際の概念図
- 目的は、サンプル数と特徴空間の次元のバランスを維持すること
大まかな流れは以下の2ステップ
- 図中左の Data quantity detection にて、データセットがドメイン知識およびデータ駆動の観点からガバナンスされる必要があるかどうかを評価
- 図中右の Data quantity governance では、検出結果に応じて、対象となるガバナンスを実行

感想

本論文では、材料科学の分野で機械学習手法を用いる際に一般的に生じうる課題や解決先が包括的にまとめられており、今後のプロジェクトで大変参考にできる印象を受けた。
とくに、提案されている主要なフレームワーク2つは、プロジェクトの進め方を検討する上でそのまま使える箇所も多い。
とはいえ、実際に本研究をプロジェクトに活かす上では、以下2点への留意が必要
- 本論文で提示されている課題やその解決策は多岐にわたるため、適応先のプロジェクトで導入を検討する際の優先順位が重要
- そもそも、知見の豊富な専門家と、分析の過程で定期的に議論できる環境の整備が重要

重要な引用

Stevens R, Taylor V and, Nichols J et al. AI for Science. Tech Rep 2020. Argonne National
Lab (ANL), Argonne, US.
- 科学のためのAI開発を促進するワークショップ

Curriculum Learning for Natural Language Understanding

Xu, Benfeng, Licheng Zhang, Zhendong Mao, Quan Wang, Hongtao Xie, and Yongdong Zhang. 2020. “Curriculum Learning for Natural Language Understanding.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 6095–6104. Online: Association for Computational Linguistics.
https://aclanthology.org/2020.acl-main.542/

機械学習モデルの学習の過程で、難易度の低いタスクから高いものへと徐々に学習させることで、最終的なモデルの精度が上がるという「カリキュラム学習」に関係する論文。
本論文は自然言語処理のFine-tuningにおいて、タスクの「難易度」の決め方を提唱。
トレーニングデータを分割し、分割したデータごとにモデルを作成、学習に用いたデータ以外のものが解けるかどうかでタスクの難易度を定義する "Cross Review" を提案。
- Cross Validationに似たアイデア。

Fine-tuningの部分での工夫ができる本手法は実務適用の可能性・効率改善のインパクトが大きそう。

Abstract

With the great success of pre-trained language models, the pretrain-finetune paradigm now becomes the undoubtedly dominant solution for natural language understanding (NLU) tasks. At the fine-tune stage, target task data is usually introduced in a completely random order and treated equally. However, examples in NLU tasks can vary greatly in difficulty, and similar to human learning procedure, language models can benefit from an easy-to-difficult curriculum. Based on this idea, we propose our Curriculum Learning approach. By reviewing the trainset in a crossed way, we are able to distinguish easy examples from difficult ones, and arrange a curriculum for language models. Without any manual model architecture design or use of external data, our Curriculum Learning approach obtains significant and universal performance improvements on a wide range of NLU tasks.

(DeepL翻訳)

事前学習された言語モデルの大きな成功により、事前学習-微調整パラダイムは現在、自然言語理解（NLU）タスクの間違いなく支配的なソリューションとなっています。微調整の段階では、通常、対象タスクのデータは完全にランダムな順序で導入され、平等に扱われる。しかし、NLUタスクの用例は難易度が大きく異なるため、人間の学習手順と同様に、言語モデルにも易しいものから難しいものまでのカリキュラムを用意することが有効である。この考え方に基づき、我々はカリキュラム学習のアプローチを提案する。訓練セットを横断的に見直すことで、簡単な例と難しい例を区別し、言語モデルのためのカリキュラムを整えることができる。本手法は、モデル設計や外部データの利用を一切必要とせず、様々なNLUタスクにおいて普遍的かつ大幅な性能向上を達成することが可能である。

コード

解決した課題/先行研究との比較

近年、言語モデルのタスクにおいては、Pre-training→Fine-tuningの戦略が大きな成果を上げている。
Fine-tuningの過程では全てのデータが同等のものとして扱われるが、実際は難易度が大きく異なっている。単純な語彙を手がかりにとけるものから、高度な推論が必要なものまで。
学習を簡単なものから難しいものに徐々に移行する手法「カリキュラム学習」が、人間だけでなく機械にとってもよい方針であることが過去に示されている。 (Skinner, 1958; Elman, 1993; Peterson, 2004; Krueger and Dayan, 2009; Jiang et al., 2017; Guo et al., 2018; Hacohen and Weinshall, 2019) → 機械学習の世界にこの考え方を持ち込んだのが Bengio et al., 2009
言語モデルのタスクでも使えることが示されている (Platanios et al., 2017; Tay et al., 2019)
しかし、難易度の設定方法がデータセットに依存していたり、ヒューリスティックな方法だったりで、より機械的に一律に適用できる方法が必要とされていた。

技術・手法のポイント

Cross Review methodを提唱。
Difficulty Evaluation と Curriculum Arrangementの2段階構成。
Difficulty Evaluation
- データセットをN個に分割 (メタデータセットと呼ぶ)、N個のモデル ("教師" モデル) を作る。
- それぞれの教師モデルごとに、教師モデルの学習に用いた以外のN-1個のメタデータセットを回答させ、そのスコアを基準に難易度を算出。
Curriculum Arrangement
- 難易度に応じてタスクの順番を変更
- N分割
- 簡単な方から順番に学習→全て終わったら改めて全データで学習。計N+1ステージの学習を行う。

評価指標

モデルにはバニラのBERT (Base, Large) を使用。Cross Reviewを用いた場合となしの場合とで比較。
SQuAD, NewsQA, GLUEで評価→全てで提案手法を用いた場合の方が良いスコアを出した。
「パラグラフの長さ」や「単語の出現頻度」など、ヒューリスティックに難易度を定義し順番を並び替えた学習とも比較をして、Cross Reviewの優位性を示している (Table 5)

残された課題・議論

Cross Reviewの計算コストにより、カリキュラム学習のメリットの1つである「学習の収束の速さ」が打ち消されている
Pre-trainingのプロセスにおいても似たようなアプローチで効率を上げられないか？

重要な引用

機械学習 + Curriculum learning のレビュー
- Bengio, Yoshua, Jérôme Louradour, Ronan Collobert, and Jason Weston. 2009. “Curriculum Learning.” In Proceedings of the 26th Annual International Conference on Machine Learning, 41–48. ICML ’09. New York, NY, USA: Association for Computing Machinery.
本稿とは別の方法で言語タスクの難易度を定義しようとした仕事
- Platanios, Emmanouil Antonios, Otilia Stretcu, Graham Neubig, Barnabas Poczos, and Tom M. Mitchell. 2019. “Competence-Based Curriculum Learning for Neural Machine Translation.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1903.09848.
本稿とは別の方法で言語タスクの難易度を定義しようとした仕事
- Tay, Yi, Shuohang Wang, Anh Tuan Luu, Jie Fu, Minh C. Phan, Xingdi Yuan, Jinfeng Rao, Siu Cheung Hui, and Aston Zhang. 2019. “Simple and Effective Curriculum Pointer-Generator Networks for Reading Comprehension over Long Narratives.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4922–31. Florence, Italy: Association for Computational Linguistics.

参考情報

ステート・オブ・AIガイド - 単純かつ効果的！訓練順序を工夫する「カリキュラム学習」とNLP応用

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Raffel, Colin, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2019. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1910.10683.

2017年にGoogleのチームが発表した仕事。
Text-to-Text Transfer Transformer, 通称 T5.
学習の入力から出力まで、全てをテキストで扱う (Tex-to-Text) フレームワークを導入。
全てテキスト = タスクごとにモデルの形を変える必要がない = 1個のモデルであらゆるタスクに対応できる！
2019年までに報告されていた有名どころの手法を比較検討。Transformerの総説論文的に読むのも面白い。
- 2020年にリバイズで議論等追加。

ちゃんと他者の論文も引用し、残された課題なども議論している。好き。

Abstract

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has　 emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new ``Colossal Clean Crawled Corpus'', we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.

(DeepL翻訳)

自然言語処理(NLP)において、モデルを事前に学習させ、その後、下流のタスクで微調整を行う「転移学習」は、強力な手法として注目されている。転移学習の有効性は、様々なアプローチ、方法論、実践を生み出してきた。本論文では、全てのテキストベースの言語問題をテキストからテキストに変換する統一的なフレームワークを導入することで、NLPのための転移学習技術の展望を探っている。本論文では、数十の言語理解タスクについて、事前学習の目的、アーキテクチャ、ラベル無しデータセット、転移アプローチ、その他の要素を比較する。また、この研究で得られた知見を規模や新しい「Colossal Clean Crawled Corpus」と組み合わせることで、要約、質問応答、テキスト分類などをカバーする多くのベンチマークで最先端の結果を達成している。今後、自然言語処理における転移学習の研究を促進するために、我々のデータセット、事前学習済みモデル、そしてコードを公開する。

コード

https://github.com/google-research/text-to-text-transfer-transformer

解決した課題/先行研究との比較

Pre-training→Fine-tuningの有用性が示され、広く使われるようになってきた頃。(Vaswani et al., 2017 Transformer; Devlin et al., 2018 BERT; Radford et al., 2018 GPT; etc...)
ラベルなしの教師なし学習を利用してpre-trainingを行う手法が提案されたことから、インターネット上のラベルのないテキストデータが大量に使用できるようになり、転移学習はより力を増してきた。
一方、分野が急激に拡大することで、異なるアルゴリズムの比較や、新しいアルゴリズムの効果を画一的に調べることが困難になってきたという一面も。
本論文では、全てのNLP問題を「テキストからテキストへ (Text-to-text)」問題として扱う、つまり入力もテキスト・出力もテキストとして扱うフレームワークを構築し、全てのタスクに同じモデルを適用できるようにすることで、さまざまな課題に対するさまざまなモデルのパフォーマンスを画一的に比較できるようにする手法を提案している。

技術・手法のポイント

BERT (Devlin et al., 2018) をベースにしている。
- パラメータ数がかなり違う。定量に用いられたモデルでは11 billion.
Text-to-text: モデルは全てのタスクをテキスト入力として受け取り、それを学習し、ターゲットテキストを生成する。様々なタスクで同じモデル、同じ損失関数、同じハイパーパラメータが使用できる。
このアイデアを用いて、有名どころのモデル・手法を比較。
- Pre-trainingの仕方なども、様々な手法を検討。
テキストのトークン化には Sentence Piece (Kudo and Richardson, 2018) を使用。
モデルが実行すべきタスクを指定するために、元の入力シーケンスにタスク固有の接頭辞を付加してからモデルに与える。

評価指標

24中18のタスクでState-of-the-Art!

State-of-the-Art

Abstractive summarization
- CNN/DM (ROUGE-1-F, ROUGE-2-F, ROUGE-L-F)
Sentence acceptability judgement
- CoLA (Matthew's)
Sentiment analysis (感情分析)
- SST-2 (Accuracy)
Paraphrasing/sentence similarit
- STS-B (Pearson, Spearman)
- QQP (F1)
Natural language inference
- MNLI-m (Accuracy)
- MNLI-mm (Accuracy)
- RTE (Accuracy)
- CB (F1, Accuracy)
Coreference resolutio
- WNLI (Accuracy)
- WSC (Accuracy)
Sentence completio
- COPA (Accuracy)
Word sense disambiguation
- WiC (Accuracy)
Question answering
- SQuAD (EM, F1)
- MultiRC (F1a, EM)
ReCoRD (F1, Accuracy)
- BoolQ (Accuracy)

ほぼSOTA

Paraphrasing/sentence similarit
- MRPC (F1, Accuracy)
- QQP (Accuracy)
Natural language inference
- QNLI (Accuracy)
WMT EnDe Translation (SacreBLEU v1.3.0)
WMT EnFr Translation (SacreBLEU v1.3.0)

あまり良くない

WMT EnRo Translation (SacreBLEU v1.3.0) ... 英ルーマニア語翻訳

(24タスクとどうやって数えているのだろう…？GLUE AverageとSuperGLUE Averageそれぞれもカウントしている？)

シンプルなアプローチにも関わらず、タスク固有のアーキテクチャに匹敵するパフォーマンスを獲得！

残された課題・議論

モデルが大きいほどパフォーマンスが向上する傾向が示された。
- 転移学習の利点の一つは少リソースで優れたパフォーマンスを出せる点。それが今後活きなくなってしまう懸念。
- 転移学習をより有効に使う方法の検討が進められている (Hinton et al., 2015; Sanh et al., 2019; Jiao et al., 2019; Lan et al., 2019; Shazeer et al., 2017)
事前学習の工夫の可能性
- 実在するテキストと機械が作ったテキストの区別をさせる (Clark et al., 2020)
  - Masked language modelingによる事前学習ではなく、以下の方法で事前学習を行う
    - 事前学習用の文章の一部の単語を、小さなGeneratorネットワークを用いて、もっともらしい別単語に置き換える
    - 事前学習では、モデルに各単語が元の文章のままか、置き換えられた単語かを2値分類させるよう訓練
  - これにより、モデルがMASKトークン周辺の情報だけでなく、文章全体を注意深く読むことになるために、事前学習のクオリティが上がる
- Pre-trainingと実タスクの「類似性」を定式化し、用いる学習データに優先度をつける
  - コンピュータビジョンの分野では、Pre-trainingに使用するデータをどのように選択するかで、実タスクに対するパフォーマンスが変わることも報告されている (Huh et al., 2016; Kornblith et al., 2018; He et al., 2018).
  - タスク間の関連性を考慮しての教師あり事前学習におけるタスク選択はGLUEベンチマークスコアを改善する (Phang et al., 2018)
事前学習に英語のみを用いての翻訳タスク回答はスコアが悪かった。
- 「トレーニングに用いた言葉が何語か」という情報がまだ必要。
- これを不要にする方法、つまり「言語に関係なくNLPタスクを実行できるモデル」を作れないだろうか。
  - このチームが次に狙っているのはここだろう。

重要な引用

Transformerと言語モデル
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
- Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805.
- Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
テキストのトークン化に持ちいた "SentencePiece"
- Kudo, Taku, and John Richardson. 2018. “SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1808.06226.
転移学習をより有効に使う方法
- Clark, Kevin, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. 2020. “ELECTRA: Pre-Training Text Encoders as Discriminators Rather Than Generators.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2003.10555.
- Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. 2015. “Distilling the Knowledge in a Neural Network.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1503.02531.
- Sanh, Victor, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. “DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1910.01108.
- Jiao, Xiaoqi, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. 2019. “TinyBERT: Distilling BERT for Natural Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.10351.
- Lan, Zhenzhong, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2019. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1909.11942.
- Shazeer, Noam, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. 2017. “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1701.06538.
- Phang, Jason, Thibault Févry, and Samuel R. Bowman. 2018. “Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-Data Tasks.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1811.01088.

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan. 2023. "Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models" arXiv [cs.CV]. arXiv. https://arxiv.org/abs/2303.04671

ChatGPTをベースに、既存のVisual Foundation Model(BLIP, Stable Duffusion等、以下VFM)を組み合わせ、チャットインターフェースでの画像生成・編集を実現するシステムを構築
システムの中核を成すPrompt Managerが主に下記2点を行う
- ユーザーのリクエストを、Visual Foundation Modelsで処理可能なタスクに変換し、画像の生成や編集を行う。
- ユーザーのリクエストを解釈する際に、PromptEngineeringを駆使してChatGPTで行う。

自然言語と画像の両方を扱うVL(Vision, Language)タスクにおいて、マルチモーダルの学習を行って実現するのではなく、既存のモデルを組み合わせ、Promptを駆使して、画像編集や生成が可能なChatGPTのようなシステムを実現

Abstract

ChatGPT is attracting a cross-field interest as it provides a language interface with remarkable conversational competency and reasoning capabilities across many domains. However, since ChatGPT is trained with languages, it is currently not capable of processing or generating images from the visual world. At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one-round fixed inputs and outputs. To this end, We build a system called Visual ChatGPT, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps. 3) providing feedback and asking for corrected results. We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback. Experiments show that Visual ChatGPT opens the door to investigating the visual roles of ChatGPT with the help of Visual Foundation Models. Our system is publicly available at https://github.com/microsoft/visual-chatgpt.

(DeepL翻訳)
ChatGPT は、多くの領域で優れた会話能力と推論能力を持つ言語インタフェースを提供するため、分野横断的な関心を集めている。しかし、ChatGPTは言語で学習されるため、現在のところ、視覚世界から画像を処理したり生成したりすることはできない。同時に、Visual TransformerやStable DiffusionなどのVisual Foundation Modelsは、優れた視覚的理解と生成能力を示すものの、1ラウンドの固定入力と出力を持つ特定のタスクの専門家に過ぎない。そこで、様々なVisual Foundation Modelsを組み込んだVisual ChatGPTというシステムを構築し、ユーザーがChatGPTと対話できるように、次のような工夫をしている 1）言語だけでなく画像の送受信も可能 2）複数のAIモデルの連携が必要な複雑なビジュアルクエスチョンやビジュアル編集指示の提供、マルチステップの提供 3）提供するをフィードバックし、結果を訂正してもらう。
複数の入出力を持つモデルや視覚的なフィードバックを必要とするモデルを考慮し、ChatGPTにビジュアルモデル情報を注入するための一連のプロンプトを設計します。実験では、Visual ChatGPTが、Visual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調査するための扉を開くことを示しています。私たちのシステムは、https://github.com/microsoft/visual-chatgpt で公開されています。

コード

https://github.com/microsoft/visual-chatgpt

解決した課題/先行研究との比較

課題：画像の理解と生成もサポートするChatGPTのようなシステムを構築すること

近年のChatGPTに代表される大規模言語モデル(LLM)は驚異的に進歩しており、テキストの解釈や生成に優れた能力と汎用性があるが、現在のところは、視覚情報(画像情報)は処理はできない。
また、Visual TransformerやStable DiffusionなどのVisual Foundation Models(以下、VFM)は、優れた視覚的理解と生成能力を持つものの、特定のタスクに特化しており、タスクの汎用性に欠ける。

上記を解決する直感的なアイデアの一つは、マルチモーダルな会話モデルを開発することであるが、そのようなモデルの開発には、大量のデータと計算資源を消費してしまう。

本論文では、全く新しいマルチモダリティモデルを学習することなく、Prompt Managerを中核とし、ChatGPTと既存のVFMを組み合わせて上記課題を解決するシステムを提案する。

技術・手法のポイント

アーキテクチャ
Visual ChatGPTは、ChatGPTと既存のVFMを組み合わせ、チャットインターフェースでの画像生成・編集を実現するシステム。
システムの中核となるのはPromptManagerで、これは、画像情報をChatGPTが理解可能な言語形式に変換し、各種VFMを用いて画像処理を行う(Figure 1)

Figure 1. Architecture of Visual ChatGPT.
Visual ChatGPTの動作
下図(Figure 2)は、Visual ChatGPTの動作を示すフローチャート。
左側は3ラウンドの対話、右側はVisual ChatGPTがVisual Foundation Modelsを繰り返し呼び出し、特に2番目のQAの詳細処理を示している。

Figure 2. Overview of Visual ChatGPT.

この例では、Execute 1で画像中のオブジェクトを置換し(A. Tool Details, Replace Something From The Photo 参照)、
Execute 2で、(A. Tool Details, Instruct Image Using Text 参照)のように、2回のステップを経て画像を編集している。
Prompt Managerの概要
Prompt Managerは、処理に応じて、適切なVFMを選択し、画像と言語の相互変換を行う。

Figure 3. Overview of Prompt Manager.

上図では、VFMとして BLIP, Pix2Pixの2点が例として記載されているが、Visual ChatGPTは、
例えば、写真中の特定のものを削除する、写真中のものを置き換えるなど、20以上のケースによってVFMの使い分けを行う(A. Tool Details参照)。

上記のシステムを構築することで、複雑な視覚的問題を段階的に解決することが実現できた。

残された課題・議論

VFMに起因する問題があったり、プロンプトという手法は不安定であったりするため、言語モデルの世代が進んだ (ChatGPTがより高性能になった) からといって、本論文の提案手法が更に良い成果を出せるようになるとは限らない。
実行結果と人間の意図の間の整合性をチェックし、それに応じて対応する編集を行うためには、"自己修正モジュール" が必要。しかしながら、それを追加すると処理時間が大幅に増加する懸念がある。
- 補足: 画像中のオブジェクト置換における自己修正モジュールの例
  VFMが出力した画像の内部にある "置換された物体" が何かをテキストとして出力、意図した置換結果となっているかを確認。適切な置換でなかった場合は場合によっては異なるVFMの処理を行う。

重要な引用

Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7291–7299, 2017.
Bowen Cheng, Alex Schwing, and Alexander Kirillov. Perpixel classification is not all you need for semantic segmentation. Advances in Neural Information Processing Systems, 34:17864–17875, 2021.
Geonmo Gu, Byungsoo Ko, SeoungHyun Go, Sung-Hyun Lee, Jingeun Lee, and Minchul Shin. Towards light-weight and real-time line segment detection. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 726–734, 2022.
Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International Conference on Machine Learning, pages 12888–12900. PMLR, 2022.
Kunchang Li, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, and Yu Qiao. Uniformer: Unifying convolution and self-attention for visual recognition. arXiv preprint arXiv:2201.09450, 2022.
Ren ́e Ranftl, Alexey Bochkovskiy, and Vladlen Koltun. Vision transformers for dense prediction. In Proceedings of
the IEEE/CVF International Conference on Computer Vision, pages 12179–12188, 2021.
Ren ́e Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE transactions on pattern analysis and machine
intelligence, 44(3):1623–1637, 2020.
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj ̈orn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10684–10695, 2022.
Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In Proceedings of the IEEE international conference on computer vision, pages 1395–1403, 2015.
Zhao Xu, Xu Baojie, and Wu Guoxin. Canny edge detection based on open cv. In 2017 13th IEEE international con-
ference on electronic measurement & instruments (ICEMI),
pages 53–56. IEEE, 2017.
Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. arXiv preprint arXiv:2302.05543, 2023.

Improving Language Understanding by Generative Pre-Training

Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.

2018年にOpenAIのチームが発表した仕事、GPT
タスクに応じて工夫された「スペシャリスト的モデル」が中心であった時代に、多様なタスクを一つのモデルで解くことに成功。12項目中9項目でState-of-the-Art性能達成
しかも、ラベル付けされたデータは少量で構わない = みんな使いやすい
「NLPならTransformer使っといたらいいんじゃない？」という時代の魁の一つ
- 今では当たり前となった「事前学習したモデルそのものを個々のタスクに流用する！」という大胆な発想

Abstract

Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).

(DeepL翻訳)

自然言語理解には、含意関係、質問応答、意味的類似性評価、文書分類など、幅広い多様なタスクが含まれる。ラベル付けされていない大規模なテキストコーパスは豊富にあるが、これらの特定のタスクを学習するためのラベル付きデータは少なく、識別的に学習したモデルが適切に機能することは困難である。我々は、ラベル付けされていない多様なテキストコーパスに対して言語モデルの生成的な事前学習を行い、その後、各タスクに対して識別的な微調整を行うことで、これらのタスクで大きな利益が得られることを実証している。従来のアプローチとは異なり、我々はタスクに応じた入力変換を行うことで、モデルアーキテクチャの変更を最小限に抑えながら、効果的な学習効果を得ることができる。我々は、自然言語理解に関する広範なベンチマークにおいて、本アプローチの有効性を実証する。その結果、タスクに依存しない我々のモデルは、各タスクに特化したアーキテクチャを用いた識別学習モデルを凌駕し、調査した12タスクのうち9タスクにおいて現状を大きく改善した。例えば、常識的推論（Stories Cloze Test）では8.9%、質問応答（RACE）では5.7%、テキスト含意（MultiNLI）では1.5%の絶対的な向上を達成しました。

コード

解決した課題/先行研究との比較

NLPモデルの作成には大量のラベル付けされたデータが必要。
Word embedingと転移学習を用いた事前学習によるモデルの精度向上も試みて来られた。
しかし、事前学習により得られた重みのみの再利用が主で、目的のタスクに適用するには再度モデルの構築や訓練を行う必要があった。
さらに学習した重みをどうやって推論モデルへ移すかというところもコンセンサスがなかった。
本論文は転移学習を用いたユニバーサルなUnsupervised (Semi-supervised) 手法の開発を目的とした。

技術・手法のポイント

Transformer (Vaswani et al., 2017) を使用。
Pre-trainingとfine-tuningの二段階構成。
Pre-trainingに用いたデータにラベル付けは無し。
- 文章中の直前の数単語から次の単語を予測させる。Unsupervised.
Pre-trainしたネットワークに、少量のデータでSupervised fine-tuningを行った。
- タスクによってアウトプットの形が違うので、最終層の形を合わせるため。

評価指標

State-of-the-Art

Natural language inference
- SNLI
- MultiNLI
- Question NLI
- SciTail
Q&A
- RACE
- Story Cloze
Sentence similarity
- MSR Paraphrase Corpus
- Quora Question Pairs
- STS Benchmark
Classification
- CoLA

SOTAでこそないが、よい

Natural language inference
- RTE
Classification
- Stanford Sentiment Treebank-2
Sentence similarity
- MSR Paraphrase Corpus

残された課題・議論

タスクに応じて、まだFine-tuningは必要
- →この課題にアプローチしたのがGPT-2

重要な引用

Transformer
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
GPT以前の転移学習
- Howard, Jeremy, and Sebastian Ruder. 2018. “Universal Language Model Fine-Tuning for Text Classification.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1801.06146.
- McCann, Bryan, James Bradbury, Caiming Xiong, and Richard Socher. 2017. “Learned in Translation: Contextualized Word Vectors.” Advances in Neural Information Processing Systems 30. https://papers.nips.cc/paper/2017/hash/20c86a628232a67e7bd46f76fba7ce12-Abstract.html.
- Peters, Matthew E., Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. “Semi-Supervised Sequence Tagging with Bidirectional Language Models.” In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 1756–65. Vancouver, Canada: Association for Computational Linguistics.
- Peters, Matthew E., Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. “Deep Contextualized Word Representations.” In Proceedings of the 2018 Conference of the North AMerican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2227–37. New Orleans, Louisiana: Association for Computational Linguistics.
  - ELMo論文
- Rei, Marek. 2017. “Semi-Supervised Multitask Learning for Sequence Labeling.” In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2121–30. Vancouver, Canada: Association for Computational Linguistics.

Abstract

In this paper we propose to study generalization of neural networks on small al- gorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great de- tail. In some situations we show that neural networks learn through a process of “grokking” a pattern in the data, improving generalization performance from random chance level to perfect generalization, and that this improvement in general- ization can happen well past the point of overfitting. We also study generalization as a function of dataset size and find that smaller datasets require increasing amounts of optimization for generalization. We argue that these datasets provide a fertile ground for studying a poorly understood aspect of deep learning: generalization of overparametrized neural networks beyond memorization of the finite training dataset.

(DeepL翻訳)

本論文では、アルゴリズムによって生成された小規模なデータセットにおけるニューラルネットワークの汎化について研究することを提案する。この設定では、データ効率、記憶、汎化、および学習速度に関する問題を非常に詳細に研究することができる。ある状況では、ニューラルネットワークがデータ中のパターンを「把握」するプロセスを通じて学習し、汎化性能をランダムな偶然のレベルから完全な汎化へと改善すること、そしてこの汎化の改善はオーバーフィッティングのポイントをはるかに超えて起こり得ることを示した。また、データセットサイズの関数として汎化を研究し、より小さなデータセットでは、汎化のための最適化量が増加することを発見した。我々は、これらのデータセットが、ディープラーニングの理解されていない側面、すなわち、有限のトレーニングデータセットの記憶を超えたオーバーパラメトリックニューラルネットワークの汎化を研究するための肥沃な土壌を提供すると主張する。

先行研究との比較

学習と汎化における先行研究では、ニューラルネットワークが記号・アルゴリズム推論を行う能力を調べるためにアルゴリズムデータセットが用いられてきた。本論文も同様のテーマで取り組んでいる。

ほとんどの先行研究ではモデルのアーキテクチャの選択による影響に焦点を合わせていたのに対して、本論文ではモデルのアーキテクチャを固定した実験として紹介している。

実験条件

データセット：
以下の配列（テーブル）構造の組み合わせから二項演算の方程式を推定させるデータセットとなっている。

他のマス同士の相関関係から方程式を推定させ、「？」の部分に当てはまる数値を予測させる。

二項演算の方程式のパターンは以下。

モデル：
２レイヤー、４つのAttentionヘッドを持つTransformerを使用（パラメータ数：4*10^5）

実験方法

上記実験条件のもと、モデルのアーキテクチャは変えずに以下の項目を変更しながら学習の汎化までの過程を観察した。

学習回数
データセットの増減

結果

訓練データを完全に記憶することができる点を超えた汎化の変化点（これをGrokkingと呼んでいる）が存在する現象を発見した。

Grokkingの現象を表すグラフを以下に示す。

左図より、赤(train)が急上昇しているタイミングで緑(val)は変化がないところから過学習していることがわかり、更にステップ数を増やしていくとvalの精度が急激に上昇していることがわかる。

また右図は精度が99%を超えるまでにかかるステップ数を縦軸、データセットの大きさを横軸にした相関を示しているが、データセットが小さいほどステップ数が多くなる傾向であることを示している。

汎化に有効な手法に関する発見

様々な汎化手法を試しており、どの汎化手法がGrokkingに効果的か調べた。

上記の結果から、効果的な技術と考えられるものは以下。

weight_decayの導入
最適化プロセスのノイズ付与（ミニバッチ時の勾配ノイズ付与、バッチ処理前後のガウシアンノイズ付与）

残された課題・議論・感想

課題

どの程度汎化できるかを予測するための目安（汎化できるかどうかの尺度）の検証調査

感想

Attentionを持たないDeep learningモデルでも同様の現象が起こるのは不明。
Grokkingに到達するための条件や勘所が不明。（学習回数はどこまでやる？論文内で効果があるもののどれを入れれば良い？etc..）
今回のようなアルゴリズムデータセット以外でも応用が可能なのか？（マルチモーダル化の伏線・・？）

重要な引用

Attention Is All You Need
　- 使用したモデルのベースとなるAttentionに関する論文。
DEEP DOUBLE DESCENT:WHERE BIGGER MODELS AND MORE DATA HURT
　- 学習の汎化に関する先行研究の一例。パラメータ数について言及している論文。

参考情報

Attention is All You NeedはAidemyで既にサマリー発行済み。

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock. 2023. “GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models.” arXiv [econ.GN]. arXiv. https://arxiv.org/abs/2303.10130.

米国の各職業を対象に、どれほどLLMによって仕事の時間が削減されうるかをラベリングし、経済社会にLLMが及ぼしうる影響を定量的に評価
- LLMの言語生成能力をそのまま使用した場合の業務削減量だけでなく、補助的なアプリケーションが開発され、それを活用した場合の業務削減量も予測して分析
- 職業単位だけでなく、タスクや必要とされるスキルに分解した結果も提示
各職業の、LLMによる業務削減量のラベリングは、人間とGPT-4の双方により行われた
- ラベリング結果に大きな差はなかったものの、人間の方が、LLMによる業務削減量を多めに見積もる傾向があった
集計された結果より、米国の労働者の少なくとも10%のタスクの業務時間がLLMにより半分に短縮されうると推定できる
- 更に、19%の労働者については、半分以上のタスクの業務時間がLLMにより半分に短縮されうると推定
- 傾向として、高賃金の職業になるほど、LLMにより作業時間が短縮されるタスクが多い
広範な調査の末、GPT(Generative Pretrained Transformers) は、いわゆる汎用技術としてのGPT(general-purpose technologies)としての特徴を示し、社会に大きな影響を与えうると結論づけた

Abstract

We investigate the potential implications of large language models (LLMs), such as Generative Pre-trained Transformers (GPTs), on the U.S. labor market, focusing on the increased capabilities arising from LLM-powered software compared to LLMs on their own. Using a new rubric, we assess occupations based on their alignment with LLM capabilities, integrating both human expertise and GPT-4 classifications. Our findings reveal that around 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of LLMs, while approximately 19% of workers may see at least 50% of their tasks impacted. We do not make predictions about the development or adoption timeline of such LLMs. The projected effects span all wage levels, with higher-income jobs potentially facing greater exposure to LLM capabilities and LLM-powered software. Significantly, these impacts are not restricted to industries with higher recent productivity growth. Our analysis suggests that, with access to an LLM, about 15% of all worker tasks in the US could be completed significantly faster at the same level of quality. When incorporating software and tooling built on top of LLMs, this share increases to between 47 and 56% of all tasks. This finding implies that LLM-powered software will have a substantial effect on scaling the economic impacts of the underlying models. We conclude that LLMs such as GPTs exhibit traits of general-purpose technologies, indicating that they could have considerable economic, social, and policy implications.

(DeepL翻訳)
我々は、GPT（Generative Pre-trained Transformers）のような大規模言語モデル（LLM）が米国の労働市場に与える潜在的な影響を調査し、LLM単体と比較してLLM搭載のソフトウェアから生じる能力の向上に焦点を当てる。新しい評価基準を用いて、人間の専門知識とGPT-4分類の両方を統合し、LLMの能力との整合性に基づいて職業を評価しました。その結果、米国の労働者の約80％が、LLMの導入により少なくとも10％の業務に影響を受ける可能性があり、約19％の労働者は少なくとも50％の業務に影響を受ける可能性があることが明らかになりました。また、LLMの開発・導入時期については予測を行っていません。予測される影響はすべての賃金水準に及び、高所得の職種ほどLLMの機能やLLMを搭載したソフトウェアに触れる機会が多くなる可能性があります。重要なのは、こうした影響は、最近の生産性上昇率が高い産業に限定されないということである。我々の分析によると、LLMを利用することで、米国における労働者の全作業の約15％が、同じ品質レベルで大幅に速く完了する可能性があることが示唆された。LLMの上に構築されたソフトウェアやツールを組み込むと、この割合は全作業の47～56%に増加する。この発見は、LLMを搭載したソフトウェアが、基礎となるモデルの経済的影響を拡大する上で大きな効果を発揮することを示唆している。GPTのようなLLMは、汎用的な技術であり、経済的、社会的、政策的に大きな意味を持つ可能性があると結論付けている。

解決した課題/先行研究との比較

本研究では、既存のAI技術や自動化技術の労働市場への影響についての調査と比較して、言語モデルのより広く、潜在的な影響を調査
- 更に、過去の汎用技術（e.g. 印刷、蒸気機関）の使われ方を加味し、言語モデルそのものの能力だけでなく、言語モデルと実作業の補完を行うイノベーションの登場の予測も考慮

技術・手法のポイント

主要な分析手順

米国における職業別活動・業務に関する、O*NET 27.2 データベースに含まれる、19,265のタスクと2,087のDWA(Detaild Work Activities)に対し、以下の3通りのラベル付けを、人間とGPT-4の両方で実施
- E0 : No Exposure : LLMを使用することで、同等レベルのクオリティを維持しながらタスクを遂行する時間が減少しない（LLMへの曝露がない）
- E1 : Direct Exposure : LLMを使用することで、同等レベルのクオリティを維持しながらタスクを遂行する時間が50%以下になる（LLMへの曝露が大きい）
- E2 : LLM+ Exposed : LLMのみではタスクの遂行時間は減少しないものの、LLMの上に構築されたアプリケーションと合わせて使用することで、タスクを遂行する時間が50%以下になる。画像生成システムへのアクセスも加味。（LLMへの曝露が将来的に考えられる）
以上のタスクとDWAのラベリング結果を、職業ごとに集計
- この集計時に、以下3つのパターンで重み付け和をとることで、推計のバリエーションをもたせている
  - α = E1
  - β = E1 + 0.5×E2
  - ζ = E1 + E2
- αは、LLM単体の能力によって業務遂行時間が減少している度合い。ζは、長期的にソフトウェアが開発されていって遂行時間が減少する度合い。βはその中間、のように捉えるとよい
職業ごとにラベリングされた3つのスコア(α, β, ζ)を用い、職業に必要なスキルや、職業ごとの年収と関連付けて更に分析
- 3つのスコア(α, β, ζ)を目的変数に、それぞれの職業に紐づく、O*NET基本スキルカテゴリの各スキルの重要度を説明変数とし、回帰分析を行い、各スキルの寄与率を算出
- 年収と3つのスコア(α, β, ζ)の相関を調査、など

人間とGPT-4によるラベル付け結果の比較

人間とGPT-4によるラベル付け結果の相関

職業ごとに集計されたβスコアの散布図
- 基本的にはよく相関しているものの、グラフの右上の領域においてのみ、人間のほうが高いスコアを付ける傾向が見られる
- 理由は不明だが、人間のほうが、LLMへの暴露が大きい職業において、GPT-4よりも曝露スコアを高く見積もっている

本分析のデータセットとラベル付け方法の限界

つけられたラベルの主観性
- ラベル付けを行った人間は、OpenAIお抱えのアノテーター
  - 職業の多様性に欠けるため、各職業の個別のタスクに詳しくなく、LLMの使用に慣れている傾向がある
  - 曝露の度合いの見積もりが不正確な可能性がある
LLMの発展は極めて速いため、ラベルの内容や分析結果は、大きく変化する可能性がある

分析結果

3つのスコア(α, β, ζ)の要約統計量

読み取れること
- 80%の労働者は、10％のタスクがLLMの影響を受ける
- 19%の労働者は、半分以上のタスクがLLMの影響を受ける

職業の収入との関係

読み取れること
- 高年収の職業ほど、LLMへの曝露が大きい傾向がある

暴露スコアが大きい職業のリスト

読み取れること
- Human α: LLM単体による曝露が大きい職業
  - 翻訳家
  - サーベイ研究者
  - 作詞家、クリエイティブライター
  - 動物科学者
  - 広報スペシャリスト
- Human ζ: LLMと、それに付随するアプリケーションによる曝露が大きい職業
  - 数学者
  - 税理士
  - 金融クオンツアナリスト
  - 作家
  - Web・デジタルインターフェースデザイナー
- Highest variance: 分散が大きい職業（作業時間が50%以下に減少するタスクと、減少しないタスクの混在度合いが大きい職業）
  - 検索マーケティングストラテジスト
  - グラフィックデザイナー
  - 投資ファンドマネージャー
  - 金融マネージャー
  - 自動車損害保険鑑定士

職業の基本スキルの暴露スコアへの寄与率

読み取れること
- αへの寄与が大きいスキル（LLM単体による曝露が大きいスキル）
  - Programming 0.637
  - Writing 0.368
  - Reading Comprehension 0.153
- ζへの寄与が大きいスキル（LLMと付随するアプリケーションによる曝露が大きいスキル）
  - Mathematics 0.787
  - Programming 0.609
  - Writing 0.566
  - Active Listening 0.449
  - Speaking 0.294
- αもζも低いスキル（LLMや周辺アプリケーションの発展による曝露が小さいスキル）
  - Science -0.346
  - Learning Strategies -0.346
  - Monitoring -0.232
  - Critical Thinking -0.129

※ 以上の結果の受け止め方については、後述の感想>注意すべき結果>基本スキルの解釈も参照されたい。

残された課題・議論・感想

この研究の限界

米国以外に適用できるか？
- 産業組織、技術インフラ、規制の枠組み、言語の多様性、文化的背景に大きな違いがあるため、米国以外への適用は限定的である
- この研究の方法を公表することで、他の集団についても調査できるようにして、対処したい
現状のLLMの能力のすべてを完璧に反映した研究ではない
- 例えばα評価では、GPT-4の画像を扱う能力を考慮してない
  - もっと多くの職業の暴露スコアが高くなる可能性がある
  - LLMの能力の進歩が展開するにつれて、その影響を検討する必要がある

LLMは汎用技術と呼べるのか？

そうみなせる特徴は示している
- LLMが汎用技術 General Purpose Technology とみなされるには、以下3つの条件を満たす必要がある
  - 時間の経過とともに改善すること
  - 経済全体に浸透すること
  - 補完的なイノベーションが生み出されること
- この3つのうち、1つ目はOpenAIなどの研究により自明
- 2, 3番目はこの論文の内容によって、いくらか示唆された

感想

全体を通して
- 産業界から見たLLMの発展による職業への懸念が定量的に検証されていて、統計量として出ている結果も納得感が高い
- 今後の職業選択や、訓練内容の参考にすべき内容が多いと言える
- とはいえ、この結果を受け、悲観的になりすぎる必要はないとも考える
  - LLMはこれまでの人の知識の集積なのだから、人が想定できるような意見を出すのは驚くべきことではない。今の人類の想像力の範疇での未来予測に過ぎない
  - これから、人類はLLMありきの世界で生き、その中でイノベーションを起こしていくのである
注意すべき結果
- 日本に応用する場合
  - 職業の種類やラベル付けの方法において、まだバイアスが大きい印象であり、応用可能性は限定的と考える
    - 今後似た研究が、よりバイアスを避けた設計で行われることを待ちたい
- 基本スキルの解釈
  - 「スキル」と「職業」は区別して考えるべき
    - たとえば、「Mathematics」スキルはLLMへの曝露が大きいと結果では示されているものの、職業としての「数学者」が不要とは捉えられない
    - 「数学者」に必要なスキルには、「Critical Thinking」や「Science」も含まれており、これらはLLMへの曝露が小さいスキルである参照
    - あくまでも、「数学者」の仕事のうち、複雑な式変形やよく使われる数学的知識の導入など、一部の作業にかかる負荷が減ると捉えるべきである
- LLM以外の技術による曝露の影響
  - 本研究では、あくまでもLLMを起因とした作業負荷の減少のみにフォーカスしているため、その他の自動化技術や工業機器等による曝露は、本研究とは関連なしに進む可能性がある
  - たとえば農業や林業など、LLM以外の技術により曝露が進められてきた産業は、今後もLLM以外の技術により、人間の役割が変化していくと考えられる

重要な引用

GPT-4 System Card

参考情報

O*NET OnLine
- 本論文で使用されている、米国の職業データベース O*NET のオンラインリソース
GPT-3 論文サマリー
- 本論文の主題となっている GPT-4 の、1つ前のメジャーバージョンである GPT-3 の紹介
InstructGPT 論文サマリー
- GPT-3 を、人間のフィードバックを用いた強化学習でFine-tuningしたモデル InstructGPT の紹介

Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures

Kosonocky, Clayton W., et al. “Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures.” arXiv [q-bio.QM], 15 Sept. 2023, http://arxiv.org/abs/2309.08765. arXiv.

ChatGPT (gpt-3.5-turbo) を使って特許情報から「分子」と「機能」を紐づけたデータセット Chemical Function (CheF) dataset を構築。
CheF datasetでは高い精度で分子とその機能が関連付けられていた。
CheF datasetをモデルに学習させることで、検証データ内の分子の機能を推測できた。

言語モデル + 特許データを活用した新規材料開発の一事例として面白い報告。予測できていない分子の特徴や、全く未知の分子を与えたときにどういう結果が出るのかは気になるところ。

Abstract

Predicting chemical function from structure is a major goal of the chemical sciences, from the discovery and repurposing of novel drugs to the creation of new materials. Recently, new machine learning algorithms are opening up the possibility of general predictive models spanning many different chemical functions. Here, we consider the challenge of applying large language models to chemical patents in order to consolidate and leverage the information about chemical functionality captured by these resources. Chemical patents contain vast knowledge on chemical function, but their usefulness as a dataset has historically been neglected due to the impracticality of extracting high-quality functional labels. Using a scalable ChatGPT-assisted patent summarization and word-embedding label cleaning pipeline, we derive a Chemical Function (CheF) dataset, containing 100K molecules and their patent-derived functional labels. The functional labels were validated to be of high quality, allowing us to detect a strong relationship between functional label and chemical structural spaces. Further, we find that the co-occurrence graph of the functional labels contains a robust semantic structure, which allowed us in turn to examine functional relatedness among the compounds. We then trained a model on the CheF dataset, allowing us to assign new functional labels to compounds. Using this model, we were able to retrodict approved Hepatitis C antivirals, uncover an antiviral mechanism undisclosed in the patent, and identify plausible serotonin-related drugs. The CheF dataset and associated model offers a promising new approach to predict chemical functionality.

(DeepL翻訳)

構造から化学機能を予測することは、新薬の発見や再利用から新材料の創製に至るまで、化学科学の主要な目標である。近年、新しい機械学習アルゴリズムにより、様々な化学機能にまたがる一般的な予測モデルの可能性が開かれつつある。ここでは、化学特許に大規模な言語モデルを適用することで、これらのリソースによって捕捉された化学的機能性に関する情報を統合し、活用するという課題について考察する。化学特許には化学機能に関する膨大な知識が含まれているが、高品質な機能ラベルを抽出することが現実的でないため、データセットとしての有用性はこれまで軽視されてきた。ChatGPTによる特許要約と単語埋め込みラベルクリーニングパイプラインを用いて、10万個の分子と特許由来の機能ラベルを含む化学機能(CheF)データセットを作成した。機能ラベルは高品質であることが検証され、機能ラベルと化学構造空間の強い関係を検出することができた。さらに、機能ラベルの共起グラフには頑健な意味構造が含まれていることがわかり、化合物間の機能的関連性を調べることができた。次に、CheFデータセットでモデルを学習し、化合物に新しい機能ラベルを割り当てることを可能にした。このモデルを使用することで、承認されたC型肝炎の抗ウイルス薬を逆探知し、特許では開示されていない抗ウイルスメカニズムを発見し、もっともらしいセロトニン関連薬を特定することができた。CheFデータセットと関連モデルは、化学的機能性を予測するための有望な新しいアプローチを提供する。

コード

https://github.com/kosonocky/chef

解決した課題/先行研究との比較

薬剤の機能は分子の化学的な構造で決定される。しかし、構造に基づく機能の予測は簡単ではない。
一方、これまでの創薬の歴史の中で、化学構造と機能の関係は、様々な文献に組み込まれていると考えられる。
本論文ではChatGPT (gpt-3.5-turbo) を用いることで特許文献の情報を機能ラベルへと加工し、分子の構造と紐付けることで、新薬開発に特許情報を活用する方法の一例を示している。

技術・手法のポイント

分子と特許のデータベース SureChEMBL からランダムな10万種の分子と関連する特許情報を抽出。
- 分子と特許の対応確度をあげるため、10件より少ない特許で触れられている分子のみから10万種選んだ。
  - 例えばペニシリンは4万件の特許で触れられているが、本当にペニシリンそのものと関係がある特許は数件のみ。こういう分子を除く。
抽出された特許のタイトル・要旨・説明をGoogle Scholarからスクレイプ。
gpt-3.5-turboを用い、スクレイピングした特許情報から抽出した各分子に機能ラベルを1～3個付与。
さらに意味が類似したラベルを一つにまとめる（OpenAIのtext-embedding-ada-002を使用）などの統合処理を行い、データを綺麗に。
こうして、「特許の要約情報」と「10万種の分子」と「特許由来の機能ラベル」を含む化学機能データセットが作成された → Chemical Function (CheF) データセットと命名。

評価指標

CheFデータセットのラベルと分子が強い相関を持っていることの確認
- CheFデータセットから200分子をランダムに選択→1,738のラベルを持っていた。
- これらのラベルのうち、99.6%が正しい文章構造をもっており、99.8%がそれぞれの特許に関連していた。
- 77.9%のラベルがラベル付けされた分子の機能を直接説明していた。標識分子が中間体である一次特許分子の機能性を考慮すると、この割合は98.2%に増加した。
- 同一ラベルを持つ分子同士のタニモト類似度はランダムに選んだ分子同士のタニモト類似度よりも高かった (Fig.2)。
機能ラベルの共起グラフには頑健な意味構造が含まれていることがわかり、化合物間の機能的関連性を調べることができた (Fig.3)。

CheFデータセットをモデルに学習させることで、化合物に新しい機能ラベルを割り当てることを可能にした。
- モデルは隠れ層2層 (それぞれ512, 256 neurons)、マルチクラス分類のニューラルネット。
- Hold-out法でテストしたところ、1543ラベルにおいて平均ROC-AUCは0.81、平均PR-AUCは0.12となった。 (Fig.5a)
- 分子の構造から効果の予測 (Fig.5b)、効果から分子の検索 (Fig.5c,d)。(緑は真陽性、赤は偽陽性)

残された課題・議論・感想

本論文で用いたCheFデータセットには10万分子しか情報が入っていない。数千万の分子のデータに拡張することで、より有用なものにできる可能性がある。
注意点として、学習データが特許のデータ = 特許になる分子のデータに偏っていることが挙げられる。実用性は高いが特許になっていない分子などは含まれていない。
- 特許以外のデータベース、例えばPubMedなど経由で科学文献の情報を取り込むなどを考える必要があるだろう。
性能の確認もHold-out法での確認であるため、全くの新規分子ではないことに注意は必要と思われる。

重要な引用

本論文以前の、創薬におけるLLM活用事例
- Andres M Bran, Sam Cox, Andrew D White, and Philippe Schwaller. Chemcrow: Augmenting large-language models with chemistry tools. arXiv preprint arXiv:2304.05376, 2023.
- Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, and Huajun Chen. Mol-instructions: A large-scale biomolecular instruction dataset for large language models. arXiv preprint arXiv:2306.08018, 2023.
- Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino, and Matteo Manica. Unifying molecular and textual representations via multi-task language modelling. arXiv preprint arXiv:2301.12586, 2023.
SureChEMBL database
- George Papadatos, Mark Davies, Nathan Dedman, Jon Chambers, Anna Gaulton, James Siddle, Richard Koks, Sean A Irvine, Joe Pettersson, Nicko Goncharoff, et al. Surechembl: a large-scale, chemically annotated patent document database. Nucleic acids research, 44(D1):D1220–D1228, 2016.

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. “Training language models to follow instructions with human feedback.” arXiv [cs.CL]. https://arxiv.org/abs/2203.02155

InstructGPTという、GPT-3を人間のフィードバックを用いた強化学習でFine-tuningしたモデルを、GPT-3を提案したOpenAIが自ら提案
モデルの学習プロセス（学習アルゴリズムおよびデータセット）に人間のフィードバックを盛り込むことで、パラメーター数をシンプルなGPT-3から1/100に削減しても人間が好む出力ができることを確認
2022年末にリリースされた ChatGPT のベースにもなっている技術
本文だけでも20ページ、Appendixまで含めると68ページの大作

Abstract

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.

(DeepL翻訳)

言語モデルを大きくしても、ユーザーの意図に沿うようになるとは限りません。例えば、大きな言語モデルは、真実味のない、有害な、あるいは単にユーザーにとって役に立たない出力を生成することがあります。言い換えれば、これらのモデルはユーザーと一致していないのである。本論文では、人間のフィードバックを用いて微調整を行うことで、様々なタスクにおいて言語モデルをユーザーの意図に沿うようにする方法を示す。まず、ラベラーが書いたプロンプトとOpenAI APIを通じて送信されたプロンプトのセットから始め、我々はラベラーが望ましいモデルの動作を示すデータセットを収集し、それを用いて教師あり学習を用いてGPT-3の微調整を行う。次に、モデル出力のランキングデータセットを収集し、人間のフィードバックからの強化学習を用いて、この教師ありモデルをさらに微調整するために使用する。このようにして得られたモデルをInstructGPTと呼ぶ．我々のプロンプト分布に対する人間の評価では、パラメータが100倍少ないにもかかわらず、パラメータ1.3BのInstructGPTモデルの出力が、パラメータ175BのGPT-3の出力よりも優先されました。さらに、InstructGPTモデルは、真実性の向上と有害な出力生成の削減を示す一方で、公開されたNLPデータセットに対する性能低下は最小限であることが分かりました。この結果は、人間のフィードバックによる微調整が、言語モデルを人間の意図に沿わせるための有望な方向性であることを示しています。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

GPT-3を始めとする大規模言語モデル (LM; Language Model) は、人間が意図せぬ動作をすることがしばしばある
→ そもそも大規模LMの目的が「人間の意図する動作をすること」になっていない
- 意図せぬ動作の例
  - それっぽい表現で事実のでっちあげ
  - 簡単な質問に対して長々と答える
  - 社会的バイアスや差別などの不適切表現（参考）
  - 個人情報の漏洩（参考）
  - そもそもユーザーの指示に従わない
よりユーザーの意図を汲めるように、モデルの "alignment" が必要
そこで、本論文ではGPT-3のFine-tuning時に、人間のフィードバックを用いた強化学習 (RLHF; Reinforcement Learning from Human Feedback; Paul F. Christiano, et al. 2017) を利用
- 著者らが新規に考案した手法ではなく、もともとロボットの行動学習時などに利用されていた手法
- ただし、2019年頃からテキスト要約モデルのFine-tuningで応用され始めていた
通常のGPT-3と比較して、モデルのパラメータ数が1/100のInstructGPTのほうが、人が見たときに違和感のないテキスト生成が可能だった（詳細は評価指標の項目で説明）

技術・手法のポイント

3ステップで構成される。

ベースはGPT-3。Web上の多様なデータで学習された状態の、いわば「人間が意図せぬ動作」をするモデルがスタート。

Step 1. 教師ありFine-tuning (SFT; Supervised Fine-Tuning)

格好いい名前がついているが、やっていることは事前学習済GPT-3を、少し大規模なFew-shot Fine-tuning（入力プロンプトと出力テキストのペアをモデルに提示）しているだけ
選ばれた人間（以下、アノテーターと呼ぶ）が人力で作った「入力プロンプトと所望の出力文章のペア」データセットを利用。13,000件程度。
- 本研究において、アノテーターに誰を（どういう性質や思考の人間を）選ぶかは非常に重要。そのため、適性を測定するためのスクリーニングを行ったり、他のアノテーター群との比較実験で公平性を確認している (付録B参照)
こうしてできあがったモデルをSFTモデルと呼ぶ

Step 2. 報酬モデルの学習

入力プロンプトに対するSFTモデルの出力文章が $K$ 個（図中だと $K$ = 4）選択肢として提示され、アノテーターは文章の好ましさ順にランキングをつける
このランキングを利用して、入力が（入力プロンプト, 出力文章）のペアワイズのデータ、出力が「文章の好ましさスコア」となるモデルを学習させる
- アノテーターが各文章に対して絶対的・普遍的な好ましさスコアを定量的に与えることが難しいため、相対的なランキングを利用し、ランキング学習 (LTR; Learning To Rank) の枠組みに落とし込んでいる
- モデルの出力が次ステップの強化学習における報酬として用いられるため、このモデルのことを報酬モデル (RM; Reward Model) と呼ぶ
- 報酬モデルはSFTモデルをベースとする。ただし、スカラーで報酬値を出力できるように、最終層のみアーキテクチャーを変更

Step 3. 報酬モデルを使ってSFTモデルを強化学習 (RLHF)

強化学習の枠組みに落とし込んで、RMの出力が最大となるようにSFTモデルをFine-tuningさせる
- このときの学習アルゴリズムとして用いられるのが PPO (Proximal Policy Optimization; Schulman, et al., 2017)
  - PPOのざっくりの特徴として、ポリシー（今回でいうSFTモデル）が過剰に更新されることを抑えながら、安定的に学習を行うことが可能
SFTモデルが学習データにオーバーフィッティングしすぎないように、事前学習データの尤度を加える工夫も追加されている（詳細はここでは割愛）
- ここまでしたバージョンのモデルのことをInstructGPTと呼ぶ
詳細はこちらの記事が理解しやすい

評価指標

3つの観点で評価を実施。以下は図中の用語の説明。

GPT: GPT-3
GPT (prompted): Few-shotのプロンプトでFine-tuningをしたGPT-3
SFT: SFTモデル
PPO: PPOを用いてRLHFしたモデル
PPO-ptx: PPO+事前学習データの尤度を用いてRLHFしたモデル (InstructGPT)

OpenAI Playgroundに公開されているAPIを用いた評価

（APIの詳細は付録A.2参照）

- 縦軸: GPT-3 175BをベースにしたSFTモデルの出力と、比較用の各モデルの出力をアノテーターが比較し、後者が勝っていた（= 好ましい出力をしていた）パーセンテージ
- 結果: RLHFモデル (PPO, PPO-ptx) が他を圧倒
  - GPT-3 175Bよりも、モデルサイズが1/100であるInstructGPT 1.3Bのほうが好ましい出力が可能
- （この図にはないが）データセット作成に携わらなかったアノテーター群を対象に同様の実験を行ったところ、そちらでも同様の傾向が出ることを確認 = 汎化性能あり（アノテーターの特性にオーバーフィットしていない）
- アノテーターによる各モデル出力のリッカート尺度比較 (MIN: 1 ~ MAX: 7)
  - FLAN: 大規模なZero-shot LMの1種である FLAN (Jason Wei, et al., 2021) の学習用データでFine-tuningしたGPT-3 (175B)
  - T0: 大規模なZero-shot LMの1種である T0 (Victor Sanh, et al., 2021) の学習用データでFine-tuningしたGPT-3 (175B)
- 結果: RLHFモデルが圧倒
  - FLANやT0は汎用的な自動評価しやすいタスク（分類、質問応答、要約、翻訳など）を前提に作られている一方で、実際のGPT-3のユースケースとしてはより自由度の高い文章生成が多い（全体の57%はこういった用途）
  - つまり、元々のデータセット自体のターゲットの違いが結果に寄与している可能性がある

公開データセットを用いた評価

Truthfulness（信憑性）
- TruthfulQAデータセットを利用
- - Grayのバーが信憑性のあるテキストの割合、カラーバーが信憑かつ有益なテキストの割合を示す
  - 結果: GPT-3と比較してInstructGPTがわずかに改善
Toxicity（有害性）
- Real Toxicity Prompts Datasetを利用
- - 左図はアノテーターによるマニュアル評価、右図は PerspectiveAPI を通じた自動評価
  - "respectful" と指示された場合とそうでない場合ごとの結果が示されている
  - 結果: 全体的に出力の有害性の低さは GPT-3 < SFT <= InstructGPT
  - （図にはないが）興味深いことに、有害な出力を生成するように明示的に指示した場合、GPT-3よりもInstructGPTのほうが有害な出力をすることが分かった（詳細は残された課題・議論にて）
alignmentした場合の汎用的なNLPタスク性能の変化
- alignmentを追求するトレードオフとして、汎用的なNLPタスクで性能が低下する
  - 論文中ではこのことを "alignment tax" が課されると表現
- DROP, HellaSwag, SQuADv2, BLEU (French → English) などで評価（一覧はTab.14参照）
- 結果
  - RLHFしたモデルは、SFTモデルやGPT-3と比較してほぼ全てのタスクで性能が低下（alignment taxの影響）
  - ただし、InstructGPTではシンプルなPPOモデルよりも性能の低下度合いが軽減されている

定性的評価

InstructGPTのFine-tuningに使用したデータは英語の文章データが中心で、それ以外はごく少数であったにも関わらず、英語以外の言語やプログラミングコードの要約・質問応答も可能という、興味深い結果が得られた。

↑ 同じパラメーター数（175B）のGPT-3ではテキスト生成が全くうまくいっていないが、InstructGPTではうまくいっている例

残された課題・議論

まだまだ単純なミスをする
- 例1: 誤った前提を持つ命令が与えられると、その前提が真であると無理やり仮定してテキストを生成する
- 例2: モデルが過度にリスクヘッジをして、曖昧な言い回しで回答してしまう
- 例3: 指示の成約が厳しい場合（文章数制限など）
- 下図はそれぞれ例1, 2の実例
- 例2の顕著な例（ChatGPTに本論文の要約をさせた結果）
モデルが誰に対して alignment されるかが極めて重要
- 悪意を持った人間が「人間の指示に従順な」InstructGPTの学習を行ったら、普通のGPT-3よりも有害なバイアスがかかったテキストが生成される恐れもある
- こういったテキスト生成のリスクを減少させるために、他のアプローチとの組み合わせが考えうる
  - 事前学習データをフィルタする手法
  - WebGPTのような、モデルの真実性を向上させる手法
- そもそも、利害関係の強い領域（医療診断、保護特性に基づく人々の分類、信用、雇用、住居の適格性の判断、政治的広告の生成、法執行など）ではこういった生成モデルは一切使うべきではない、と著者らは考えている

重要な引用

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
- GPT-3の原著
- 弊社論文サマリー
Paul F. Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. 2017. Deep reinforcement
learning from human preferences. In Proc. NIPS 2017. https://papers.nips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html.
- RLHFが提案されている論文
- OpenAIの公式Blog
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal Policy Optimization Algorithms. arXiv:1707.06347 [cs.CL]. https://arxiv.org/abs/1707.06347.
- PPOが提案されている論文
- これもOpenAI発

参考情報

OpenAIの公式Blog
話題爆発中のAI「ChatGPT」の仕組みにせまる！ (Qiita)
ChatGPT 人間のフィードバックから強化学習した対話AI (slideshare, 主に24ページ以降)
ChatGPTのコア技術RLHF(人間フィードバックによる強化学習)を解説（ステート・オブ・AI ガイド）

Autonomous Decision Making for Solid-State Synthesis of Inorganic Materials

Szymanski, Nathan J., et al. “Autonomous Decision Making for Solid-State Synthesis of Inorganic Materials.” arXiv [cond-Mat.mtrl-Sci], Apr. 2023, https://arxiv.org/abs/2304.09353. arXiv.

無機化合物の合成経路最適化に関するアルゴリズム ARROWS³ の提案。
ターゲット化合物の合成には、どの原料を、どのプロセスで反応させると良いかを最適化する。ベイズ最適化や遺伝的アルゴリズムにドメイン知識を上手く組み合わせた手法と捉えるとよい。
ある反応経路がどこで失敗するかをうまく推論し、推薦システムにフィードバックすることで、少ない実験回数で最適な条件を見つけることに成功した。

Abstract

To aid in the automation of inorganic materials synthesis, we introduce an algorithm (ARROWS3) that guides the selection of precursors used in solid-state reactions. Given a target phase, ARROWS3 iteratively proposes experiments and learns from their outcomes to identify an optimal set of precursors that leads to maximal yield of that target. Initial experiments are selected based on thermochemical data collected from first principles calculations, which enable the identification of precursors exhibiting large thermodynamic force to form the desired target. Should the initial experiments fail, their associated reaction paths are determined by sampling a range of synthesis temperatures and identifying their products. ARROWS3 then uses this information to pinpoint which intermediate reactions consume most of the available free energy associated with the starting materials. In subsequent experimental iterations, precursors are selected to avoid such unfavorable reactions and therefore maintain a strong driving force to form the target. We validate this approach on three experimental datasets containing results from more than 200 distinct synthesis procedures. When compared to several black-box optimization algorithms, ARROWS3 identifies the most effective set of precursors for each target while requiring substantially fewer experimental iterations. These findings highlight the importance of using domain knowledge in the design of optimization algorithms for materials synthesis, which are critical for the development of fully autonomous research platforms.

(DeepL翻訳)

無機材料合成の自動化を支援するために、固体反応で使用される前駆体の選択をガイドするアルゴリズム（ARROWS3）を紹介する。ターゲット相が与えられると、ARROWS3は繰り返し実験を提案し、その結果から学習して、ターゲットの最大収率につながる最適な前駆体セットを同定する。最初の実験は、第一原理計算から収集された熱化学的データに基づいて選択され、これにより目的のターゲットを形成する大きな熱力学的力を示す前駆体を同定することができる。初期実験が失敗した場合、合成温度の範囲をサンプリングし、その生成物を同定することにより、関連する反応経路が決定される。ARROWS3はこの情報を使って、出発物質に関連する利用可能な自由エネルギーのほとんどを消費する中間反応を特定する。その後の実験反復では、そのような不利な反応を避け、ターゲットを形成する強い駆動力を維持するように前駆体が選択される。我々は、200以上の異なる合成手順から得られた結果を含む3つの実験データセットで、このアプローチを検証した。いくつかのブラックボックス最適化アルゴリズムと比較すると、ARROWS3は各ターゲットに対して最も効果的な前駆体セットを同定する一方で、実験の反復回数を大幅に少なくすることができた。これらの結果は、材料合成の最適化アルゴリズムの設計に領域知識を用いることの重要性を強調している。

コード

https://github.com/njszym/ARROWS

解決した課題/先行研究との比較

無機材料の高温での合成では固体粉末を混合・加熱することで反応を進めるが、合成実験の結果の予測が難しいことが多い。
有機合成の分野では計算機を用いたアプローチが一定の成果を出しているが、無機合成の分野ではあまり普及していない。
- 主たる原因として、以下が挙げられている。
  - ターゲット化合物に加え副生成物（準安定物質・中間物質・その他）も生まれるため、ターゲットの特性のみを考えていても合成結果の予測ができない。
  - 反応のモデリングの難しさ。
そのため実験条件の策定は専門知識や過去の経験に依存しており、新規無機材料の合成最適化のための明確なロードマップは依然存在しなかった。
本論文では Autonomous Decision Making for Solid-State Synthesis of Inorganic Materials (ARROWS³) というアルゴリズムを提案。
- 準安定物質、中間物質の生成のされ方をアルゴリズムにフィードバックすることで、より適切な推薦を行えるようにした。

技術・手法のポイント

原料の選択、反応温度、保持時間、待機条件など、複数の実験変数に対してターゲット化合物の収率を最大化する最適化問題として設計。
最初に原料と反応温度のみに絞り、実験の候補を探索する。
- 原料として使用可能な物質のリストを人が準備する。
- →ARROWS³がすべての組み合わせからターゲットを生成しうる組み合わせと反応温度幅を抽出。
次に化学反応の進みやすさをギブス自由エネルギーで計算し、実験候補をランク付けする。
- ギブス自由エネルギーの計算にはMaterials Projectの密度汎関数理論 (Density Function theory, DFT) の計算から得られる熱化学データを使用。
- 各原料の自由エネルギーはBartelらによる近似 or NISTの実験データベースから取得。
推薦された原料を、提案された温度幅内のいくつかの温度で実際に反応させ、反応物をX線回折に通すことで生成された化合物のデータを得る。
- これにより、どの温度で中間物質が形成されたか、またどのようなペアワイズ反応によってそれらが生じたかを推論できる。
  - すなわち、ある反応経路がどこで失敗するかをうまく推論し、推薦システムにフィードバックしている。
X線回折から考えられる中間物質やペアワイズ反応の推論情報を用いてランキングを更新、次の実験を推薦する。

有機合成と比べ無機合成はなぜモデリングが難しいのか？
- SMILESのような普遍的な表現が存在しない
- 原料の数が様々 = モデル化が難しい（入力の長さが変わりうる）
ARROWS³は原料の情報をギブス自由エネルギーという単一の指標に落とし込むことで、これらの難しさを回避した。

評価指標

YBCO合成データセットで、ベイズ最適化、遺伝的アルゴリズムと最適な合成ルートの発見に至るまでの実験回数を比較。約半分に実験回数を減らせた (Fig.3a)。
- ARROWS³は1サイクルで複数の温度で実験をする必要があるが、これをまとめて1回と数えているのか、温度を振った分だけ実験回数として数えているのかは不明瞭。
  - グラフのガタガタ具合から考えると、温度ごとに1回と数えていそうだが。
他2つのデータセットでも、ターゲット化合物の収率を最大化する反応条件を探索している。

重要な引用

無機化学のこれまでのアプローチ。固体反応経路（ペアワイズ反応）の単純化。
- A. Miura et al. Observing and Modeling the Sequential Pairwise Reactions that Drive Solid- State Ceramic Synthesis. Adv. Mater. 33, 2100312 (2021).
- M. Bianchini et al. The interplay between thermodynamics and kinetics in the solid-state synthesis of layered oxides. Nat. Mater. 19, 1088–1095 (2020).
ベースとなったDFT計算手法
- T. He et al. Similarity of Precursors in Solid-State Synthesis as Text-Mined from
  Scientific Literature. Chem. Mater. 32, 7861–7873 (2020).
- H. Huo et al. Machine-Learning Rationalization and Prediction of Solid-State Synthesis Conditions. Chem. Mater. 34, 7323–7336 (2022).
Materials project
- A. Jain et al. Commentary: The Materials Project: A materials genome approach to accelerating materials innovation. APL Mater. 1, 011002 (2013).
機械学習による固体の温度依存性の自由エネルギーの近似
- C. J. Bartel et al. Physical descriptor for the Gibbs energy of inorganic crystalline solids and temperature-dependent materials chemistry. Nat. Commun. 9, 4168 (2018).
気体の自由エネルギーは実験的なNISTデータベースから
- P. J. Linstrom & W. G. Mallard. The NIST Chemistry WebBook: A Chemical Data Resource on the Internet. J. Chem. Eng. Data 46, 1059–1063 (2001).

Adversarial Random Forests for Density Estimation and Generative Modelling

Watson, David S., Kristin Blesch, Jan Kapar, and Marvin N. Wright. 2022. “Adversarial Random Forests for Density Estimation and Generative Modelling.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/2205.09435.

Adversarial Random Forests (ARF)と呼ばれるテーブルデータに対して密度推定と生成モデリングを行う高速な手法を提案。
生成と識別を交互に繰り返すことでデータの構造的特性を徐々に学習し、元のデータと類似したデータの生成を行うことができる。
軽量なため普通のノートパソコンで実行でき、チューニングもほぼ不要。
個人情報を含まないデータセットの生成や、レコード数が少ないテーブルデータのAugmentationに使えるかもしれない。

こちらの手法について技術記事を執筆しました。「Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成」

Abstract

We propose methods for density estimation and data synthesis using a novel form of unsupervised random forests. Inspired by generative adversarial networks, we implement a recursive procedure in which trees gradually learn structural properties of the data through alternating rounds of generation and discrimination. The method is provably consistent under minimal assumptions. Unlike existing tree-based alternatives, our approach provides smooth unconditional densities and allows for fully synthetic data generation. We achieve comparable or superior performance to state-of-the-art deep learning models on various tabular data benchmarks while executing about two orders of magnitude faster on average. All algorithms are implemented in easy-to-use 𝚁 and Python packages.

(DeepL翻訳)

我々は教師なしランダムフォレストの新しい形式を用いた密度推定とデータ合成の方法を提案する。生成的敵対ネットワークに触発され、木が生成と識別を交互に繰り返すことでデータの構造的特性を徐々に学習する再帰的な手順を実装している。この方法は、最小限の仮定で証明可能な一貫性を持つ。既存の木ベースの代替手法とは異なり、我々のアプローチは滑らかな無条件密度を提供し、完全な合成データの生成を可能にする。様々な表形式データのベンチマークにおいて、平均で約2桁高速に実行しながら、最先端の深層学習モデルと同等以上の性能を達成する。全てのアルゴリズムは、使いやすいRとPythonパッケージで実装されています。

コード

ソースコード
Rではパッケージ 'arf' として利用可
- Python版パッケージは近日公開予定とのこと
  - → 公開されました。似た名前のパッケージがあるので注意。

解決した課題/先行研究との比較

生成モデリングが画像やテキストで大きな成果を上げている一方、テーブルデータにはあまり適用されてこなかった。
- その背景として、データの分布が複雑であることや高次元データへの対応の難しさなどがあった。
適用されたケースでも大量のデータ＆大規模なチューニングが必要だった。
本稿では "Adversarial Random Forests (ARF)" (敵対的ランダムフォレスト) を提案。一般的なノートパソコンの性能で良い成績を発揮した。
- (と書かれているが、「一般的なノートパソコン」では実験のコンディションの再現は難しそうに思う。)

技術・手法のポイント

敵対的学習 (GAN)とランダムフォレスト (Unsupervised Random Forest, Shi and Horvath, 2006) を組み合わせた。
- 生成器がサンプルを生成し、そのサンプルを使って、本物と偽物のデータを区別する識別器を学習させる。
- この識別器の判定は、ランダムフォレスト内の各サンプルに重みを割り当てるために用いられ、密度推定や生成モデリングに利用することができる。
  - 密度推定を Foests for Density Estimation (FORDE)、生成モデリングを Forests for Generative modeling (FORGE) と命名。この2つを経ることで、元のデータと類似したデータの生成を試みた。
- この決定木が生成と識別を繰り返し、データの構造的特性を徐々に学習する。
※ ARFは厳密にはGANではなく、一般的なGANと異なる点がある。
- ARFでは生成器は学習されず、生成器と識別器は同じパラメータを共有する。
  - すなわち、ARFの生成器は厳密には何も学習しない。識別器が学習したことを利用している。
- ARFが生成するデータは元のデータのブートストラップのようなもの
  - = 全く新しいデータの生成ではない (それが目的ではない)

評価指標

n=2000の3次元データ (上) から密度を推定→その推定密度からデータを生成 (下)。元のデータの分布をおおよそ再現できている (Fig.1)
7つのベンチマークデータセットを用い、元データの再現度合いを比較 (Table.1)
- CTGANとTVAEの実行時間はGPUを用いての時間。FORGEは10 CPU coreを並列に動かしての時間。提案手法は100倍高速。
- 提案手法の精度が多くのベンチマークで最高。
- 提案手法ではモデルのチューニングは行っていない。

残された課題・議論

ARFは画像やテキストなどの構造化データには適応していない。(VAEやGANとは異なる)
生成モデルに共通の課題として、倫理の問題。
- フェイクデータセットが作れてしまう。
- 一方で、提案手法を使えば、個人情報が除かれた元データセットに似たデータセットを作ることができ、プライバシーを保護しながらのデータ分析が行いやすくなるかもしれない。
  - しかしその背景には現実の人がいるわけで。現在の、特にお絵かきAI周りで起こっている、「学習データの権利」をめぐる問題も起こりそう。
  - 最近話題になっている「学習データが復元できてしまう問題」は起こらないのか？
    - ARFの仕組みからして起こりづらい？要検討。
      - 厳密には元のデータ自体を学習しているのではなく、その分布を学習している？
        
        分布がわかれば元のデータを復元したのと実質同じとも考えられる？
レコード数が少ないテーブルデータのAugmentationに使えるかもしれない
- 元のデータのブートストラップに過ぎないので、元データに偏りがある場合はうまく機能しない。
- 出されている例が n = 2000等の世界なので、n = 50 ~ 500程度の「実際の現場で現状困っている」状態にも適用できるかは未知数。
しかし、課題に注意をすれば、「軽量」「テーブルデータ」に適用できるモデルということで、応用の範囲はとても広いと想像される。

重要な引用

Unsupervised Random Forest
- Shi, Tao, and Steve Horvath. 2006. “Unsupervised Learning with Random Forest Predictors.” Journal of Computational and Graphical Statistics 15 (1): 118–38. https://doi.org/10.1198/106186006x94072.
Classification and regression tree
- Leo Breiman, Jerome Friedman, C. J. Stone, and R. A. Olshen. Classification and Regression Trees. Taylor & Francis, Boca Raton, FL, 1984.
- Ram, Parikshit, and Alexander G. Gray. 2011. “Density Estimation Trees.” In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 627–35. KDD ’11. New York, NY, USA: Association for Computing Machinery. https://dl.acm.org/doi/10.1145/2020408.2020507
- Wu, Ke, Kun Zhang, Wei Fan, Andrea Edwards, and Philip S. Yu. 2014. “RS-Forest: A Rapid Density Estimator for Streaming Anomaly Detection.” Proceedings / IEEE International Conference on Data Mining. IEEE International Conference on Data Mining 2014: 600–609. http://dx.doi.org/10.1109/ICDM.2014.45
- Correia, Alvaro, Robert Peharz, and Cassio P. de Campos. 2020. “Joints in Random Forests.” Advances in Neural Information Processing Systems 33: 11404–15. https://proceedings.neurips.cc/paper/2020/hash/8396b14c5dff55d13eea57487bf8ed26-Abstract.html

SAINT+: Integrating Temporal Features for EdNet Correctness Prediction

Shin, Dongmin, Yugeun Shim, Hangyeol Yu, Seewoo Lee, Byungsoo Kim, and Youngduck Choi. 2020. “SAINT+: Integrating Temporal Features for EdNet Correctness Prediction.” arXiv [cs.CY]. arXiv. http://arxiv.org/abs/2010.12042.

受講生の知識状態のモデル化を目的とした Knowledge tracing 分野の仕事。
SAINT (Separated Self-AttentIve Neural Knowledge Tracing: Choi et al., 2020) をベースに改良を加えたモデル SAINT+ を提案。
受講時間に関係した特徴量を2つ加えることで制度が改善 (~1%)。

テーブルデータへの適用に特化したニューラルネットワークアーキテクチャのSAINTとは関係なし。(論文実装のときは原著を明確に引用しよう！)

Abstract

We propose SAINT+, a successor of SAINT which is a Transformer based knowledge tracing model that separately processes exercise information and student response information. Following the architecture of SAINT, SAINT+ has an encoder-decoder structure where the encoder applies self-attention layers to a stream of exercise embeddings, and the decoder alternately applies self-attention layers and encoder-decoder attention layers to streams of response embeddings and encoder output. Moreover, SAINT+ incorporates two temporal feature embeddings into the response embeddings: elapsed time, the time taken for a student to answer, and lag time, the time interval between adjacent learning activities. We empirically evaluate the effectiveness of SAINT+ on EdNet, the largest publicly available benchmark dataset in the education domain. Experimental results show that SAINT+ achieves state-of-the-art performance in knowledge tracing with an improvement of 1.25% in area under receiver operating characteristic curve compared to SAINT, the current state-of-the-art model in EdNet dataset.

(DeepL翻訳)

我々は、演習情報と生徒の反応情報を別々に処理するTransformerベースの知識トレースモデルであるSAINTの後継モデルであるSAINT+を提案する。SAINT+はSAINTのアーキテクチャを踏襲し、エンコーダが演習の埋め込み情報に対して自己注意層を適用し、デコーダが応答の埋め込み情報とエンコーダ出力に対して自己注意層とエンコーダ・デコーダ注意層を交互に適用するエンコーダ・デコーダ構造を持っている。さらに、SAINT+は応答埋め込みの中に、生徒が回答するまでにかかった時間である経過時間と、隣接する学習活動の間の時間間隔であるラグタイムという二つの時間的特徴埋め込みを組み込んでいる。我々は、教育分野において公開されている最大のベンチマークデータセットであるEdNetを用いて、SAINT+の有効性を実証的に評価した。実験の結果、EdNetデータセットにおける現在の最新モデルであるSAINTと比較して、受信者動作特性曲線下面積で1.25%の改善を示し、知識トレースにおいて最先端の性能を達成することが示された。

コード

https://paperswithcode.com/paper/saint-integrating-temporal-features-for-ednet

解決した課題/先行研究との比較

受講生の知識状態のモデル化を目的とした Knowledge tracing 分野の仕事。
- これがうまく行けば各生徒にパーソナライズされた学習体験の提供ができる！
近年の深層学習技術の発達に伴い、主役がベイズや協調フィルタリングを用いた手法から、深層学習へと移ってきていた。
本論文では2020年に発表されたSAINT (Separated Self-AttentIve Neural Knowledge Tracing: Choi et al., 2020) をベースに改良を加えたモデル SAINT+ を提案。

技術・手法のポイント

SAINTはTransformer (Vaswani et al., 2017) ベースのモデルで、講義の情報と受講生の反応を別々に処理する。
- エンコーダ部分には、ある一人の受講生がこれまで回答してきた問題の情報が、シーケンスとして与えられる。
- デコーダ部分には、エンコーダからの出力と共に、その受講生がそれぞれの問題に対して正しく回答できたかの情報が与えられ、最終出力がなされる。
SAINT+はそれに加えて以下の2つの時間的特徴情報を埋め込む。
- 学生が回答するのにかかった時間
- 前回の回答からの経過時間

評価指標

EdNetデータセット (Choi et al., 2019) を用い実験。
SAINTと比較し、AUCが1.25% 改善。
- 具体的には0.7816 → 0.7914
ACCも改善。0.7178 → 0.7252
時間的特徴情報をデコーダのみに加えたときがベストな性能となった。

重要な引用

SAINT
- Choi, Youngduck, Youngnam Lee, Junghyun Cho, Jineon Baek, Byungsoo Kim, Yeongmin Cha, Dongmin Shin, Chan Bae, and Jaewe Heo. 2020. “Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2002.07033.
EdNet dataset
- Choi, Youngduck, Youngnam Lee, Dongmin Shin, Junghyun Cho, Seoyon Park, Seewoo Lee, Jineon Baek, Chan Bae, Byungsoo Kim, and Jaewe Heo. 2019. “EdNet: A Large-Scale Hierarchical Dataset in Education.” arXiv [cs.CY]. arXiv. http://arxiv.org/abs/1912.03072.

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Singh, Avi, et al. “Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models.” arXiv [cs.LG], Dec. 2023, https://arxiv.org/abs/2312.06585. arXiv.

人間が生み出すデータに依存せずに、言語モデルが自らデータを生成し学習するアプローチ ReSTEM を提案。
数学問題とコーディングのタスクで、ReSTEMを用いたPaLM-2モデルが、人間が生成したデータでfine-tuningしたモデルよりも優れた性能を示した。
一方、現状では生成→学習を2, 3回繰り返すと性能の向上は頭打ちに。

LLMに強化学習の枠組みを適用し、人の手を離れた成長を目指した仕事。現状は性能向上の限界が見えているが、原因の考察もされており、そこのブレイクスルーが起こればとてもおもしろい世界が広がっていそう。

Abstract

Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReSTEM, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReSTEM scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.

(DeepL翻訳)

人間が作成したデータを用いて言語モデル（LM）を微調整することは、現在でも広く行われている。しかし、そのようなモデルの性能は、高品質な人間データの量と多様性によって制限されることが多い。本論文では、スカラーフィードバックにアクセスできるタスク、例えば正しさを検証できる数学の問題において、人間のデータを超えることができるかどうかを探求する。そのために、我々はReSTEMと呼ぶ、期待値最大化に基づく単純な自己学習法を検討する。ReSTEMでは、(1)モデルからサンプルを生成し、バイナリフィードバックを用いてフィルタリングし、(2)これらのサンプルでモデルを微調整し、(3)このプロセスを数回繰り返す。PaLM-2モデルを使用した高度なMATH推論とAPPSコーディングベンチマークでテストした結果、ReSTEMはモデルサイズに応じて良好にスケールし、人間のデータでのみ微調整を大幅に上回ることがわかった。全体として、我々の知見は、フィードバックを伴う自己学習が、人間が生成したデータへの依存を大幅に低減できることを示唆している。

解決した課題/先行研究との比較

これまで、言語モデルは人間が生成するデータを用いてFine-tuningが行われてきた。
高品質なデータがあれば性能を上げられる一方、そうしたデータの収集には専門知識や多大なリソースが必要であり、ボトルネックとなっている。
本論文ではモデル自身にデータを生成させ学習させる方法について検証している。

技術・手法のポイント

ベースとなる手法は2023年に同グループが発表したReST (Reinforced Self-Training)
- 過去の論文は翻訳タスクのみであった→様々なタスクに適用した点が本論文の新規性。
"モデルが" データを生成 → "モデルが" 生成データの良し悪しを判断 → そのデータを使ってモデルをFine-tuning。このプロセスを複数回繰り返した。

評価指標

数学課題とコーディングテストで能力が向上 (Fig.1)
- （横軸なんだろう？）
人間が生み出したデータを用いたとき (Supervised Fine-Tuning; SFTと呼称) よりも性能が良かった。(Figs.2,3)
生成→学習のサイクルを2, 3回繰り返すと性能の向上が緩やかになった・あるいは見られなくなった。(Figs.2-4)

残された課題・議論・感想

生成→学習のサイクル数が2, 3回で性能向上が頭打ちになる点に関しては過学習だろうと考察されている。
- そうであれば、小さなトレーニングセットに対して特に大きな影響がでそう。
- モデル生成データのスケーラビリティや多様性に関する研究が進めば解決できるかもしれない。
人の手に依存しない自己学習手法の開発が進めば、言語モデルの適用範囲はさらに広がっていくだろう。

重要な引用

データ生成とフィルタリングの基盤：強化学習のためのEMアルゴリズム
- P. Dayan and G. E. Hinton. Using expectation-maximization for reinforcement learning. Neural Computation, 9(2):271–278, 1997.
数学問題とコーディングのデータセット
- D. Hendrycks, S. Basart, S. Kadavath, M. Mazeika, A. Arora, E. Guo, C. Burns, S. Puranik, H. He, D. Song, et al. Measuring coding challenge competence with apps. arXiv preprint arXiv:2105.09938, 2021a.
- D. Hendrycks, C. Burns, S. Kadavath, A. Arora, S. Basart, E. Tang, D. Song, and J. Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021b.
ReSTEMの基本概念と初期実装 ReST。これをスケールアップさせたのが本論文。
- C. Gulcehre, T. L. Paine, S. Srinivasan, K. Konyushkova, L. Weerts, A. Sharma, A. Siddhant, A. Ahern, M. Wang, C. Gu, et al. Reinforced self-training (rest) for language modeling. arXiv preprint arXiv:2308.08998, 2023.

Attention Is All You Need

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.

Google Brainが2017年に報告した仕事
機械翻訳のためのモデルとして報告。
- 従来の主流であったRecurrent層をAttentionに置き換えたアーキテクチャで機械翻訳に挑戦
- 「高速な学習＆推論」が特長
本論文の公開後、翻訳に限らず様々なタスクに応用できることがわかり大流行
- BERT, GPT, DALL-E, Vision Transformer, etc...　
行列の強さを思い知る楽しい論文

Abstract

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

(DeepL翻訳)

配列変換モデルの主流は、エンコーダーとデコーダーの構成による複雑なリカレントニューラルネットワークや畳み込みニューラルネットワークに基づいています。また、最も性能の良いモデルは、注意メカニズムを介してエンコーダとデコーダを接続している。我々は、リカレントや畳み込みを完全に排除し、アテンション機構のみに基づく新しいシンプルなネットワークアーキテクチャ、トランスフォーマーを提案する。2つの機械翻訳タスクで実験した結果、これらのモデルは品質が優れている一方で、より並列化可能であり、学習時間が大幅に短縮されることがわかった。我々のモデルは、WMT 2014英語-ドイツ語翻訳タスクで28.4BLEUを達成し、アンサンブルを含む既存の最良結果を2BLEU以上上回りました。WMT 2014英仏翻訳タスクにおいて、我々のモデルは8GPUで3.5日間学習した後、41.8という新しい単一モデルの最新BLEUスコアを確立し、文献から得られた最良のモデルの学習コストのごく一部であることを示した。我々は、Transformerが他のタスクにうまく一般化することを、大規模および限られた学習データの両方で英語の構成語解析にうまく適用することで示す。

コード

https://paperswithcode.com/paper/attention-is-all-you-need#code

解決した課題/先行研究との比較

機械翻訳タスクにおいて、本論文以前はlong short-term memory (ref. 13) や gated recurrent neural networks (ref. 7) などを用いた再帰的な言語モデルが主流であった → 逐次計算のために並列計算が行えず、計算時間がものすごくかかる
近年、Attention機構が報告され、様々なタスクにて良い成果を出すことが報告されていた (refs. 2, 19)
しかし、多くのAttention機構はリカレントネットワークと組み合わせて使われていた。
本論文はAttention機構をリカレントネットワークから独立させたアーキテクチャ "Transformer" を提案した。

技術・手法のポイント

エンコーダ・デコーダモデル
従来のLSTM, RNN翻訳モデルで主流であったRecurrent層を用いず、Attentionだけで実装。
予測箇所の直前までの単語 (正しくはトークン) を入力として入れて、予測箇所に各単語が入る確率が出力となる。
Attentionという仕組み
- Query (Q), Key (K), Value (V) の組み合わせ。
- Qが入力、Vが出力 (のベース)。
- QとKの類似度（= 内積）に応じた重みをVにかけて出力とする。
- こちらのページの画像がイメージを掴みやすい。
Multi-head attention
- KとVの学習に使うのが、"Multi-head" Attention.
- ここの説明はアイシアさんの説明を見てもらうのが最も雰囲気を掴みやすいと思います。
- 下の図のような構造で使用される。

評価指標

BLEU 英→独翻訳, 英→仏翻訳でstate-of-the-art (SOTA)
構文解析 (WSJ 23 F1) でSOTAに近いスコア
さらに、トレーニングにかかる計算コストも、既存のモデルと比較し4~100倍小さい

残された課題・議論

未知の長さの文章に対してはうまく汎化できない
- 単語 (正しくはトークン) の位置表現の手法として、SHAPE (Kiyono et al., EMNL 2021) などが提唱されている
  参考：より良いTransformerをつくる

重要な引用

Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. 2014. “Neural Machine Translation by Jointly Learning to Align and Translate.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1409.0473.
- Attention機構の初出論文
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. 2014. “Sequence to Sequence Learning with Neural Networks.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1409.3215.
Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. 2015. “Effective Approaches to Attention-Based Neural Machine Translation.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1508.04025.
- AttentionとRNNのあわせ技論文

参考情報

Is GPT-3 all you need for low-data discovery in chemistry?

Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, and Berend Smit. 2023. "Is GPT-3 all you need for low-data discovery in chemistry?" ChemRxiv. https://chemrxiv.org/engage/chemrxiv/article-details/63eb5a669da0bc6b33e97a35

GPT-3を、化学ドメインの色々なデータセットでFine-Tuningしてみたところ、多くのタスクにおいて既存手法と同等以上の精度を達成。
- 学習データが少量(数十〜数百サンプル)の段階において、既存手法よりも特に優れる。
特定の化学タスクに Fine-Tuning したモデルでは、そのタスクにおける逆問題 (Inverse Design、物性から化学式を予測する取り組み) を求める質問にも回答できるようになった。
各タスク固有の知見に即した前処理やモデル設計の必要がないため、今後の機械学習プロジェクトの初手アプローチになるか。

Abstract

Machine learning has revolutionized many fields and has recently found applications in chemistry and materials science. The small datasets commonly found in chemistry lead to various sophisticated machine-learning approaches that incorporate chemical knowledge for each application and therefore require a lot of expertise to develop. Here, we show that large language models that have been trained on vast amounts of text extracted from the internet can easily be adapted to solve various tasks in chemistry and materials science by simply prompting them with chemical questions in natural language. We compared this approach with dedicated machine-learning models for many applications spanning properties of molecules and materials to the yield of chemical reactions. Surprisingly, we find this approach performs comparable to or even outperforms the conventional techniques, particularly in the low data limit. In addition, by simply inverting the questions, we can even perform inverse design successfully. The high performance, especially for small data sets, combined with the ease of use, can have a fundamental impact on how we leverage machine learning in the chemical and material sciences. Next to a literature search, querying a foundational model might become a routine way to bootstrap a project by leveraging the collective knowledge encoded in these foundational models.

(DeepL翻訳)

機械学習は多くの分野に革命を起こし、最近では化学や材料科学にも応用されている。化学分野では一般的にデータセットが小さいため、用途に応じて化学的知識を取り入れた様々な高度な機械学習アプローチが必要となり、その開発には多くの専門知識が必要とされる。ここでは、インターネットから抽出した膨大な量のテキストで学習した大規模言語モデルを、自然言語で化学的な質問を促すだけで、化学や材料科学の様々なタスクの解決に容易に適応できることを示す。我々は、分子や材料の特性から化学反応の収率に及ぶ多くのアプリケーションについて、このアプローチと専用の機械学習モデルを比較しました。その結果、特に低データ数領域において、従来手法と同等、あるいはそれ以上の性能を発揮することが分かりました。さらに、質問を反転させるだけで、逆設計まで成功させることができます。特に小さなデータセットに対する高い性能と使いやすさは、化学や材料科学における機械学習の活用方法に根本的な影響を与える可能性があります。文献検索に次いで、基礎的なモデルへの問い合わせが、これらの基礎的なモデルにエンコードされた集合知を活用することによって、プロジェクトを立ち上げるための日常的な方法となるかもしれないのである。

コード

https://github.com/kjappelbaum/gptchem

解決した課題/先行研究との比較

従来、化学や材料科学の機械学習タスクは、各タスクに特化してデザイン/訓練されたモデルを用いて解かれていたため、取り組みには専門知識が必要だった。
この研究では、大規模言語モデル(GPT-3)を使用することで、化学や材料科学の様々なタスクを、特別なモデルの設計等を行わずに解決できることを示す。

技術・手法のポイント

化学や材料科学の様々な機械学習タスクを、 GPT-3 の Fine-Tuning 機能を用いて解決。
- Fine-Tuning とは、GPT-3などの幅広いデータで事前学習された機械学習モデルに対し、特定のタスク・ドメインのデータを用いて、追加で訓練を行う作業のこと。結果として、例えば言語モデルでは、幅広いデータから学習した一般的な文法や言い回しなどの知識を保持しつつ、特定のタスク・ドメインに対する性能を向上させられる。
  - GPT-3などの文書生成モデルの場合、任意の文字列（プロンプトと呼ばれる）を与えて、その次にどのような文字列が続くかを予測する、 Text Completion や Text Generation と呼ばれる仕組みで Fine-Tuning を行う。
  - 今回は、自然言語での質問と、業界で一般的に使用されている化学式等の文字列表現を組み合わせてプロンプトを作成し、予測させたいカテゴリや物性などを目的変数として、学習データを作成している。
- なぜGPT-3で化学的な問題にアプローチできるのか？については、物性と相関の高い分子の構造 (= 文章中の文字のパターン) を抽出するのが得意だからでは、と考察されている。
- 順問題の学習データで学習させたモデルで、逆問題も解決できている。
  - 化学式を入力 → 物性を出力 = 順問題
  - 物性を入力 → 化学式を出力 = 逆問題
以下それぞれ、分類、回帰、逆問題のプロンプトと目的変数の例
分類問題においては、従来手法の最高性能のものと同等か、それ以上の性能を達成する場合が多い。
- 特に、学習データの数があまり多くない状況において、従来手法を上回ることが多い。
- 逆に、回帰問題では従来手法を上回る性能は出にくい。
以下は、高エントロピー合金における固溶体形成予測（2値分類問題）で、GPT-3とその他のモデルで学習データ数を変化させながら比較した結果。
逆問題においては、 What is a photoswitch with transition wavelengths of 324.0 nm and 442 nm のように質問したら、SMILES文字列で分子設計を返してくれる。
- 順問題（学習データはこちらの形式） : 分子光スイッチのSMILES表現 → 遷移波長
- 逆問題 : 遷移波長 → 分子光スイッチのSMILES表現
以下の画像における緑や紫のパターンについては、おそらくこれまでこの逆問題では発見されていなかった分子だが、理論上は目的の遷移波長に近い値をもつと言及されている。

残された課題・議論・感想

分類問題と比較して、回帰問題では、従来手法を凌駕するような性能が得にくい点。
- とはいえGPT-3の次単語予測では、原理的には多値分類問題を解いているため、評価指標を直接最適化するよう訓練できる回帰モデルに及びにくい点は納得できる。
Supplementary Note の以下の記述を見る限り、ある程度うまく行かなかったタスクもあることが想像される点。
- "We selected those applications for which successful machine-learning approaches have been developed. "
本来であれば明らかに答えることができない質問（定義の存在しない値を求める質問など）に対しても、正常な質問と同様に、自信を持って回答してしまう点。

重要な引用

GPT-3: 本論文で使用された言語モデル
- Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. 2020. "Language Models are Few-Shot Learners" arXiv [cs.CL]. arXiv. https://arxiv.org/abs/2005.14165
Galactica: 本論文で取り組んでいる化学や材料科学とも類似したタスクで、デコーダモデルの訓練・検証を行った仕事
- Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic. 2022. "Galactica: A Large Language Model for Science" arXiv [cs.CL]. arXiv. https://arxiv.org/abs/2211.09085

参考情報

以下、GPT-3とGalacticaの過去サマリのリンク
- Language Models Are Few-Shot Learners (GPT-3)
- Galactica: A Large Language Model for Science

Harnessing Large Language Models as Post-Hoc Correctors

Zhong, Zhiqiang, et al. “Harnessing Large Language Models as Post-Hoc Correctors.” arXiv [cs.LG], 20 Feb. 2024, http://arxiv.org/abs/2402.13414. arXiv.

任意の機械学習モデルの予測に対して、予測をレビューし改良するフレームワーク LLMCORRの提案
簡単に言うとIn-Context Learning の応用。LLM自体の再学習やFine-tuningが不要である&どんな機械学習モデルとも組み合わせられるため使いやすい
- しかもなぜかGPT-3.5のほうがGPT-4よりもスコアが良いのでお財布にも優しい
LLMに学習データと機械学習モデルの予測結果を渡す際、トークン数制限を回避するため、類似度の高い情報だけ渡す工夫がなされている

Abstract

As Machine Learning (ML) models grow in size and demand higher-quality training data, the expenses associated with re-training and fine-tuning these models are escalating rapidly. Inspired by recent impressive achievements of Large Language Models (LLMs) in different fields, this paper delves into the question: can LLMs efficiently improve an ML's performance at a minimal cost? We show that, through our proposed training-free framework LlmCorr, an LLM can work as a post-hoc corrector to propose corrections for the predictions of an arbitrary ML model. In particular, we form a contextual knowledge database by incorporating the dataset's label information and the ML model's predictions on the validation dataset. Leveraging the in-context learning capability of LLMs, we ask the LLM to summarise the instances in which the ML model makes mistakes and the correlation between primary predictions and true labels. Following this, the LLM can transfer its acquired knowledge to suggest corrections for the ML model's predictions. Our experimental results on the challenging molecular predictions show that LlmCorr improves the performance of a number of models by up to 39%.

(DeepL翻訳)

機械学習(ML)モデルのサイズが大きくなり、より質の高い学習データが要求されるようになるにつれ、モデルの再学習や微調整にかかる費用は急速に増大している。本稿では、様々な分野における大規模言語モデル(LLM)の最近の目覚ましい成果に触発され、LLMは最小限のコストで効率的にMLの性能を向上させることができるのか？我々が提案する訓練不要のフレームワークLlmCorrを用いることで、LLMが任意のMLモデルの予測値に対する補正を提案するポストホックコレクタとして機能することを示す。特に、データセットのラベル情報と、検証データセットに対するMLモデルの予測を取り込むことで、文脈的知識データベースを形成する。LLMの文脈内学習能力を活用し、LLMに、MLモデルがミスを犯した事例と、一次予測と真のラベルの相関を要約してもらう。これに続いて、LLMは獲得した知識をMLモデルの予測の修正を提案するために伝達することができる。困難な分子予測に関する我々の実験結果は、LlmCorrが多くのモデルの性能を最大39%改善することを示している。

解決した課題/先行研究との比較

機械学習技術の発展に伴い、モデルのpre-training, fine-tuningに必要なコストが増大 → 高効率・軽量・実用的な機械学習モデルの性能改善法の開発が期待されている。
LLMを用いて機械学習モデルの予測結果をレビューさせることにより、追加データ無し・追加学習無しでの精度向上を試みた。

技術・手法のポイント

提案手法を LLMCORR と命名。
LLMCORRは以下の3ステップからなる。
1. 機械学習モデルを通常通り訓練後、学習および検証に用いたデータセットから文脈知識データベース (contextual knowledge database) を作成。
  - 予測結果もデータベースに含めることで、予測が難しいターゲットのタイプに関する洞察や、予測と正解の関係を捉えられる。
2. LLMに問い合わせをするためのプロンプトを作成する
  - 機械学習モデルの予測結果と、文脈知識データベースから関連する情報を抜き出す。
    - LLMのトークン数制限を回避するため、埋め込みに基づく情報検索アプローチ (embedding-based information retrieval approach) を用い、ターゲットと関連性の高い情報のみを文脈知識データベースから抽出。
      - 今回論文で使われているデータセットの場合、分子の類似度。
3. 作成されたプロンプトを使ってLLMに質問し、ターゲットデータの予測を改良する。
  - すなわち、 In-Context Learning (Liu et al., 2023) である。
  - LLMと機械学習モデルの回答が大きく異なった場合は、LLMがハルシネーションを起こしていると考え、LLMに自身のエラーを修正するように促す。
  - 分類タスクでは予測ラベルの反転、回帰タスクでは予測値範囲の20％以上の差を「大きく異なる回答」と定義。
  - 何かちゃいまっせと教えてあげると、多くの場合において修正される。

評価指標

ogbg-molbace, ogbg-molbbbp, ogbg-molhiv, ogbg-molesol, ogbg-molfreesolv and ogbg-mollipoという6つのデータセット、LM, GCN, GIN, TAPE, HIG, PASという5つの機械学習モデルで、LLMCORR適用前後のROC-AUCまたはRMSEを比較→全てにおいて改善が見られた (0.0002% ~ 39.0%, Table 1)。
GPT-4よりもGPT-3.5を用いたほうがスコアが良かった (Table 2)。

残された課題・議論・感想

様々なタスクに適用できるのか？
- 今回調査された6データセットはいずれもSMILES記法で表現される分子の性質の話。他の分野で同様の結果が得られるのかは調査されていない。
GPT-3.5の方が性能が良かった理由が不明
ハルシネーション対策
- 現在の方法では性能が悪化する場合もある (Fig.7)。
プロンプトのテンプレートの改良
- LLMのトークン数制限のため、ドメイン知識を与えきれていない。
- 情報をプロンプトとして与えるのではなく、外部ソースを参照させる方法 (RAGの適用) も考えられる。

重要な引用

Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2023. Pre- train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys (CSUR), 55(9):1–35.
- In-Context Learningとは

Dynamic Visualization of High-Dimensional Data

Sun, Eric D., et al. “Dynamic Visualization of High-Dimensional Data.” bioRxiv, 29 May 2022, p. 2022.05.27.493785, https://doi.org/10.1101/2022.05.27.493785.

本論文はNature Computational Scienceに受理されているが、本サマリーではbioRxiv版を参照している。

t-SNEやUMAPといった次元削減手法をより使いやすくする "DynamicViz" というフレームワークを構築。
ブートストラップサンプリングで一つのデータセットから複数の2次元プロットを作り比較することで、クラスター分類の堅牢性やクラスター間の繋がりの確実性、繋がりの順序やパターンのより厳密な議論を可能にしている。
ハイパーパラメータの最適化や次元削減アルゴリズムの選定などに使える "分散スコア (Variance Score)" という数値指標も提案。

提案手法は、計算時間がネックではあるが、これまでheuristicに行うことが一般的であった部分への数値指標導入や、解釈に至る道筋からの恣意性の削減など、既存の次元削減手法の弱みを上手くカバーしており、実践導入してみたいと思わせるフレームワークとなっている。

Abstract

Dimensionality reduction (DR) is commonly used to project highdimensional data into lower dimensions for visualization, which could then generate new insights and hypotheses. However, DR algorithms necessarily introduce distortions in the visualization and cannot faithfully represent all relations in the data. As such, there is a need for methods to assess the reliability of DR visualizations. Here we present DynamicViz, a framework for generating dynamic visualizations that capture the sensitivity of DR visualizations to perturbations in the data. DynamicVic can be applied to all commonly used DR methods. We show the utility of dynamic visualizations in diagnosing common interpretative pitfalls of static visualizations and extending existing single-cell analyses. We introduce the variance score to quantify the dynamic variability of observations in these visualizations. The variance score characterizes natural variability in the data and can be used to optimize DR algorithm implementations. We have made DynamicViz freely available to assist with the evaluation of DR visualizations.

(DeepL翻訳)

次元削減（DR）は、高次元のデータを低次元に投影して可視化し、新たな知見や仮説を生み出すために一般的に使用されています。しかし、DRのアルゴリズムは、必然的に可視化に歪みをもたらし、データ内のすべての関係を忠実に表現することができません。そのため、DRによる可視化の信頼性を評価する手法が必要とされている。ここでは、データの摂動に対するDR可視化の感度を把握する動的可視化を生成するフレームワークであるDynamicVizを紹介する。DynamicVicは、一般的に使用されているすべてのDR手法に適用することができます。静的可視化の解釈上の落とし穴を診断し、既存のシングルセル解析を拡張する上で、動的可視化の有用性を示す。これらの可視化において、観測値の動的な変動を定量化するために、分散スコアを導入する。分散スコアは、データの自然な変動を特徴付けるもので、DRアルゴリズムの実装を最適化するために使用することができます。DR可視化の評価を支援するために、DynamicVizを自由に利用できるようにしました。

コード

解決した課題/先行研究との比較

次元削減 (Dimensionality Reduction: DR) は高次元データの分析で用いられる。
DR適用の目的の一つにデータ可視化がある。高次元データを2, 3次元に落とせば、人の目でデータの分布を掴めるようになる。
特に代表的なものとして、以下の3つが挙げられる。
- Principal Component Analysis (PCA)
- t-distributed Stochastic Neighbor Embedding (t-SNE. van der Maaten and Hinton, 2008)
- Uniform Manifold Approximation and Projection (UMAP. Mclnnes et al., 2018)
しかしながら、結果や解釈に「歪み」が生じやすい手法でもある。
- 例：t-SNEとUMAPはパラメータ設定でいくらでも見た目を変えられる。
結果として、本来存在しないクラスターやデータ間の関係を見出してしまったり、重要な関係を見落としてしまったりする。
本論文ではデータ可視化フレームワーク "DynamicViz" を紹介。
- 動的な可視化により、静的な（従来の）手法よりもデータを定性・定量の両側面から厳密に考察できる。
- 新しいDR手法ではなく、既存のDR手法の拡張ツールと捉えるべき。
  - 用意されているコードは t-SNE, MDS, LLE, MLLE, Isomap, UMAP に対応している。

技術・手法のポイント

処理の流れとしては以下
- 入力データの形式としては他のDR手法と同じ。 $X$ とする。
- ブートストラップ方式でデータを抽出し、 $X$ と同じ列数のテーブルを $B$ 個作る。
  - 重複を許さないサブサンプリングだったり、ノイズを加えるだったりと言ったオプションも提供されている。
- $B+1$ 個のマトリックスをt-SNEやUMAPなど任意のDR手法に通し、 $B+1$ 個の2次元プロットを作る。
- 元の $X$ から作られた2次元プロットを基準に、同一データ間の距離が最も短くなるように $B$ 個の図を回転させる。
- $B+1$ 個の図を比較したり、スタックしたりして解釈を行う。

この出力から何が得られるの？
- 群間の関係がより正確に掴める
  - 1プロットだと、群間が分離しているのか混ざり合っているのかがわからないことがある → 提案手法でスタックした画像を作ることで、群の分布が明確にできることがある (Fig.1F)。
  - 群は分離していても、それぞれの群が連続的に繋がるものなのか分離したものかがを見ているだけではわからない（恣意的に選んでしまう可能性がある）→ 提案手法では複数のプロットを見比べたり、スタック画像を作ったりすることで、接続の有無や接続順が詳細に考察できる (Fig.1B,C,G)。
  - プロットをするとラベル付けと一致しない新しい群が見つかることがある。提案手法で作られた複数のプロットで同じように独立した群が見つかると、その群は本当に存在する（意味のある）ものだと確信度が高くなる (Fig.1D,E)。
- "Variance Score" という数値指標を提案しており、それを用いることで最適なアルゴリズムやハイパーパラメータを機械的に決めることができる。(Fig.3)

残された課題・議論

計算量。入力データの件数、ブートストラップのサンプリング標本数、回数、それらに比例してDR計算が実行される回数も増える。加えて、Variance Scoreの計算も時間がかかるものになっている。

重要な引用

t-SNE
- van der Maaten, Laurens, and Geoffrey Hinton. “Visualizing Data Using T-SNE.” Journal of Machine Learning Research: JMLR, vol. 9, no. 86, 2008, pp. 2579–605.
UMAP
- McInnes, Leland, et al. “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction.” arXiv [stat.ML], 9 Feb. 2018, http://arxiv.org/abs/1802.03426. arXiv.

Deep Double Descent: Where Bigger Models and More Data Hurt

Nakkiran, Preetum, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, and Ilya Sutskever. 2019. “Deep Double Descent: Where Bigger Models and More Data Hurt.” ArXiv:1912.02292 [Cs, Stat], December. https://arxiv.org/abs/1912.02292.

機械学習において複雑なモデルはBias-Variance Trade-offによって過学習に陥りやすいとされてきた。しかし、Deep Learningにおいては過学習を超えてLossが再度降下する現象「Double Descent」があることを発見した。
モデルのパラメータ数、学習回数、サンプルサイズ、ラベルノイズの条件を様々に組み合わせた実験を行うことで、Double-Descentの現象を説明する仮説を立てた。
モデルの複雑度が十分高いほど過学習を超えて汎化を獲得しやすく、学習回数も十分多いほど汎化を獲得していく。

Abstract

We show that a variety of modern deep learning tasks exhibit a “double-descent”phenomenon where, as we increase model size, performance first gets worse and then gets better. Moreover, we show that double descent occurs not just as a function of model size, but also as a function of the number of training epochs. We unify the above phenomena by defining a new complexity measure we call the effective model complexity and conjecture a generalized double descent with respect to this measure. Furthermore, our notion of model complexity allows us to identify certain regimes where increasing (even quadrupling) the number of train samples actually hurts test performance.

(DeepL翻訳)
我々は、現代の様々な深層学習課題において、モデルサイズを大きくすると、まず性能が低下し、次に良くなるという「二重降下」現象が起こることを示す。さらに、二重降下はモデルサイズの関数としてだけでなく、学習エポック数の関数としても発生することを示す。我々は、有効モデル複雑度と呼ぶ新しい複雑度指標を定義することで上記の現象を統一し、この指標に関して一般化された二重降下が起こることを予言する。さらに、このモデルの複雑さの概念により、訓練サンプル数を増やすと（4倍でも）テスト性能が低下する特定の領域を特定することができる。

コード

https://gitlab.com/harvard-machine-learning/double-descent/tree/master

解決した課題/先行研究との比較

これまで機械学習における汎化と過学習については、Bias-Variance Trade-offという概念で説明されてきた。

Hastie et al., 2009 "The Elements of Statistical Learning"よりFigure 2.11.を転載

Biasは誤差の偏りを表し、Varianceは誤差の分散（ばらつき）を表す。

モデルの複雑さが高いほどBiasは小さくなるがVarianceは大きくなり、過学習が進む。

一方でモデルの複雑さが少ないほどBiasは大きくなりVarianceが小さくなるため、学習不足となる。

しかし機械学習の研究では「複雑なモデルでも過学習を超えて再び汎化する」ケースが存在する。

その事例としてとDouble Descentとという現象が発見されている。

Double Descentとは、最初test errorが単調に減少した後(アンダーパラメータ)、test errorが増加(過学習)、そして再びtest errorが下がり出す二重降下現象のことである。

例えば機械学習の分野では、Double Descentの一般化を仮説する論文として、以下が紹介されている。

Reconciling modern machine learning and the bias-variance trade-off

本論文ではDeep LearningにおいてもDouble Descentが一般的に起こりうるものであり、Deep Double Descentとして一般的に説明できると仮説を立てている。

特にどのような条件でDeep Double Descentが発生しやすいのか、様々な条件下での実験を行い検証している。

実験方法

学習が完了するまでのtest errorを計測する。

計測中にDouble Descentがどのようにして起こるか、様々なデータセット、アーキテクチャ、最適化アルゴリズムのいくつかの選択を考慮して、モデルのパラメータ数、エポック数、トレーニングサンプル数を変化させて検証している。

Model-wise Double Descent
　→エポック数を固定し、モデルのパラメータ数毎に比較。
Epoch-wise Double Descent
　→モデルのパラメータ数を固定し、エポック数毎に比較。
Sample-wise Non-monotonicity
　→モデルのパラメータ数を固定。サンプルサイズ毎に比較。

またラベルノイズ（ラベルの付け間違い）を混ぜた条件でも実施している。
現実世界でもラベルの付け間違いは起こりうるものであり、それを想定した検証である。

結果

上記実験の結果を、以下のテーブルにまとめている。

Double Descentの項にチェックがついているものがDouble-Descentの現象を確認できたパターンとなっている。

Model-wise Double Descent

ラベルノイズが0%ではDouble Descentが確認できないが、10%, 20%と増加するにつれてDouble Descentが強調されて確認しやすくなる。

Augmentationは、ラベルノイズの付与率に関係なく、Double Descentのピークを右にシフトさせる。

Epoch-wise Double Descent

大型なモデルの場合はDouble Descentが発生している。

中型なモデルの場合は早期に止めた方が良い古典的なU字型のtest errorを描いている。

小型なモデルの場合は単調に減少する「アンダーパラメータ」なtest errorを描いている。

ラベルノイズを付与することで、Double Descentの現象が強調される。

これはModel-wise の結果と一致する。

Sample-wise Non-monotonicity

データのサンプルサイズの大小関係なく、Double Descentは確認できる。

Model-wiseのAugmentationの結果と同じく、サンプルサイズが多いほどDouble Descentのピークは右にシフトする。

データのサンプルサイズは多ければ多いほどtest errorは下がる。

残された課題・議論・感想

※ 感想

汎化な学習モデルを作成する際に、パラメータ数やエポック数、データのサンプルサイズの用意の仕方で参考になった。
これまではエポック数についてはearlystoppingを採用することが多かったが、学習環境のリソースが許す限りエポック数を多めに実行してみると新たな発見があるかもしれないと思った。

重要な引用

Mikhail Belkin, Daniel Hsu, and Ji Xu. Two models of double descent for weak features. arXiv preprint arXiv:1903.07571, 2019.
Koby Bibas, Yaniv Fogel, and Meir Feder. A new look at an old problem: A universal learning approach to linear regression. arXiv preprint arXiv:1905.04708, 2019.
Mauro Cettolo, Christian Girardi, and Marcello Federico. Wit3: Web inventory of transcribed and translated talks. In Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT), pp. 261–268, Trento, Italy, May 2012.
Mario Geiger, Arthur Jacot, Stefano Spigler, Franck Gabriel, Levent Sagun, Stephane d’Ascoli, ´Giulio Biroli, Clement Hongler, and Matthieu Wyart. Scaling description of generalization with ´number of parameters in deep learning. arXiv preprint arXiv:1901.01608, 2019a.
Mario Geiger, Stefano Spigler, Stephane d’Ascoli, Levent Sagun, Marco Baity-Jesi, Giulio Biroli, ´and Matthieu Wyart. Jamming transition as a paradigm to understand the loss landscape of deep neural networks. Physical Review E, 100(1):012115, 2019b.
Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572, 2014.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, and James Franklin. The elements of statistical learning: data mining, inference and prediction. The Mathematical Intelligencer, 27(2):83–85,2005.
Trevor Hastie, Andrea Montanari, Saharon Rosset, and Ryan J Tibshirani. Surprises in highdimensional ridgeless least squares interpolation. arXiv preprint arXiv:1903.08560, 2019.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In European conference on computer vision, pp. 630–645. Springer, 2016.
Yanping Huang, Yonglong Cheng, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, and Zhifeng Chen. Gpipe: Efficient training of giant neural networks using pipeline parallelism. CoRR, abs/1811.06965, 2018. URL http://arxiv.org/abs/1811.06965.
Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, 2009.
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pp. 1097–1105,2012.
Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083,2017.
Song Mei and Andrea Montanari. The generalization error of random features regression: Precise asymptotics and double descent curve. arXiv preprint arXiv:1908.05355, 2019.
Partha P. Mitra. Understanding overfitting peaks in generalization error: Analytical risk curves for l2 and l1 penalized interpolation. ArXiv, abs/1906.03667, 2019.
Vidya Muthukumar, Kailas Vodrahalli, and Anant Sahai. Harmless interpolation of noisy data in regression. arXiv preprint arXiv:1903.09139, 2019.
Preetum Nakkiran, Gal Kaplun, Dimitris Kalimeris, Tristan Yang, Benjamin L Edelman, Fred Zhang, and Boaz Barak. Sgd on neural networks learns functions of increasing complexity. arXiv preprint arXiv:1905.11604, 2019.
Manfred Opper. Statistical mechanics of learning: Generalization. The Handbook of Brain Theory and Neural Networks, 922-925., 1995.
Manfred Opper. Learning to generalize. Frontiers of Life, 3(part 2), pp.763-775., 2001.

参考情報

Attentionモデルにおける初期オーバーフィット後の汎化性能の獲得現象「Grokking」についての論文の要約はこちら

CAMEL: Communicative Agents for ‘Mind’ Exploration of Large Language Model Society

Li, Guohao, et al. “CAMEL: Communicative Agents for ‘Mind’ Exploration of Large Language Model Society.” arXiv [cs.AI], 31 Mar. 2023, http://arxiv.org/abs/2303.17760. arXiv.

人間の介入を最小限に抑えつつ、課題をLLMエージェント内で協力して解決させるフレームワーク "CAMEL" を提案
ロールプレイングとインセプション・プロンプティングという二つの仕組みを導入し、LLMエージェント間の会話を自動化
エージェントに割り振るロール＋タスク＋エージェント同士の会話データを集めたデータセット (AI Society Dataset) も公開

Abstract

The rapid advancement of chat-based language models has led to remarkable progress in complex task-solving. However, their success heavily relies on human input to guide the conversation, which can be challenging and time-consuming. This paper explores the potential of building scalable techniques to facilitate autonomous cooperation among communicative agents, and provides insight into their "cognitive" processes. To address the challenges of achieving autonomous cooperation, we propose a novel communicative agent framework named role-playing. Our approach involves using inception prompting to guide chat agents toward task completion while maintaining consistency with human intentions. We showcase how role-playing can be used to generate conversational data for studying the behaviors and capabilities of a society of agents, providing a valuable resource for investigating conversational language models. In particular, we conduct comprehensive studies on instruction-following cooperation in multi-agent settings. Our contributions include introducing a novel communicative agent framework, offering a scalable approach for studying the cooperative behaviors and capabilities of multi-agent systems, and open-sourcing our library to support research on communicative agents and beyond: this https URL.

(DeepL翻訳)

チャットベースの言語モデルの急速な進歩は、複雑なタスク解決に目覚ましい進歩をもたらした。しかし、その成功は、会話を導くための人間の入力に大きく依存しており、これは困難で時間がかかる可能性がある。本稿では、コミュニケーションエージェント間の自律的な協力を促進するためのスケーラブルな技術構築の可能性を探り、彼らの「認知」プロセスに関する洞察を提供する。自律的な協力を達成するための課題に対処するために、我々はロールプレイングと名付けた新しいコミュニケーション・エージェントのフレームワークを提案する。我々のアプローチでは、人間の意図との整合性を保ちながら、タスク完了に向けてチャットエージェントを誘導するために、インセプションプロンプトを使用する。我々は、ロールプレイングがエージェント社会の行動と能力を研究するための会話データを生成するためにどのように利用できるかを紹介し、会話言語モデルを研究するための貴重なリソースを提供する。特に、マルチエージェント環境における指示に従う協力に関する包括的な研究を行う。我々の貢献には、新しいコミュニケーションエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供、コミュニケーションエージェントやそれ以外の研究をサポートするためのライブラリのオープンソース化などが含まれます。

コード

https://github.com/camel-ai/camel

解決した課題/先行研究との比較

LLMは様々なことができるようになってきている。しかし、それには人による、適切な方向に導くための介入が必須であった。
適切な介入プロンプトの作成には手間も時間も専門知識も必要である。
人の介入を自動化できないか？が大きな目標
先行研究ではエージェント間の単純なコミュニケーションが着目されていたが、本論文ではより複雑なタスク解決のためのエージェントの自律性の強化を試みている。
エージェントが独自の役割を通じてタスクを理解し、適切な対応を導く新しいフレームワーク CAMEL を提案。

技術・手法のポイント

ロールプレイング：エージェントに特定の役割（例えば「Pythonプログラマー」や「株式トレーダー」など）を割り当て、役割に基づいて対話を行わせることで、特定のタスクを実行させる仕組み (Fig.1)。
インセプション・プロンプティング：エージェント間のコミュニケーションを自動化するための手法で、エージェントが自らの役割に基づいたプロンプトを自動生成する仕組み (Fig.2)。
これらの仕組みを連携させることで、エージェントが互いに指示を出し合い、協力してタスクの解決に向かっていく。
- 人間のユーザーが専門知識を持たなくてもエージェントがタスクを自律的に進めることができるようになる。

評価指標

課題を解決するための会話をgpt-3.5-turbo Wins single shotと、提案手法 (CAMEL) に生成させる→生成された文章を人とGPT-4が、どちらの文章のほうが優れているか（自然で、タスクの要求に沿っていて、実用的か）評価→約75%の確率でCAMELの方が優れた文章を生成した (Table 1)。
- このエージェントに割り振るロール＋タスクの組み合わせと、その解決プロセスの会話記録をAI Society Datasetとして公開。
LLaMA 7Bモデルを20のAI Societyタスク、20のコーディングタスク、20の数学タスクと60の科学タスクでfine-tuning → Fine-tuningに用いるデータ種が増える程、性能が良くなった (Table 2)。

残された課題・議論・感想

3エージェント以上への拡張は本論文では行われていない。
ロールの反転、エージェントがユーザーの入力を繰り返すだけ、タスク解決に寄与しない返答、会話の無限ループの発生が観察されている。

Abstract

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even becoming competitive with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks. We also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora.

(DeepL翻訳)

我々は、言語モデルをスケールアップすることで、タスクにとらわれない少数ショット性能が大幅に向上し、場合によっては、従来の最先端微調整アプローチと競合できることを実証する。具体的には、従来のノンスパース言語モデルの10倍にあたる1750億個のパラメータを持つ自己回帰型言語モデルGPT-3を学習し、その性能を少数点学習でテストします。全てのタスクにおいて、GPT-3は勾配の更新や微調整を行わず、タスクと数ショットのデモは純粋にモデルとのテキスト対話によって指定される。GPT-3は翻訳、質問応答、クロージングタスクを含む多くのNLPデータセットで高い性能を達成する。また、GPT-3のスモールショット学習が苦手とするデータセットや、GPT-3が大規模ウェブコーパスの学習に関する方法論的な問題に直面しているデータセットも確認することができます。

コード

非公開、APIのみ提供

解決した課題/先行研究との比較

自然言語処理技術は、タスクに特化した「表現の学習」や「アーキテクチャの "設計" 」から、タスクに依存しない「事前学習」「アーキテクチャの "使用"」へと移行してきてる。
GPT-2はPre-trainedのモデルに "Translate English to French" のように、実行したいタスクを指示するだけ（= そのタスク用のFine-tuningは一切なし）で、標準的なNLPタスクをある程度の精度で実行できることを実証した。
しかしその性能はほとんどのタスクにおいて、最良の場合でも単純な教師ありベースラインにも遠く及ばないものであった。
本論文の手法「GPT-3」は以下の工夫で、いくつかのタスクにおいてSOTAに匹敵する精度を達成した。

技術・手法のポイント

事前学習アプローチやモデルのアーキテクチャはGPT-2論文 (Radford et al., 2019) と基本的には同じ
GPT-2との違いとして
- データ数が多く、より多様に
- パラメータ数が多い (GPT-2: 1.5B; GPT-3: 175B)
- Few-shot (10~100例) learning

arXiv版Fig.2.1

XXXX-shotのXXXXはモデルに見せるデモンストレーションの数。
- すなわち、難易度的の高さ的には Zero-shot > One-shot > Few-shot
GPT-2はZero-shot, GPT-3はFew-shot
- GPT-2で高い性能が得られなかった要因の一つは、Zero-shotという難易度の高いタスク設計にしていたため
- GPT-2でも少数の例が提示されている？
  - sometimes provide examples of the relevant task in the context
  - この “sometimes” をどう解釈したらよいのかがわからない。
GPT-3は少数の教師データのみで、高い精度でのタスク実行に成功した。

評価指標

Table 3

以下はGPT-3 Few-shotでSOTA

LAMBDA dataset ... GPT-3がSOTAに
TriviaQS ... GPT-3がSOTAに

以下もSOTAでは無いがそこそこ良い

StoryCloze
HellaSwag
WebQS
CoQA
BLEU

ここから下では Fine-tuned などSOTAと割と差がある

NaturalQS
ARC (Easy)
ARC (Challenge)
DROP
SuperGLUE

「そこそこ」「割と」というのは定性的な評価なので、ちゃんと数字でみること。

残された課題・議論

Fine-tuningしたときほどの精度は出ない
同じ意味の文章を繰り返してしまうことがある。
"世の中" に関するコンテキストを欠いている。(See Bisk et al., arXiv 2020)
サイズがものすごく大きいので、広く実用化させるのが難しい。
(GPT-3に限った話ではないが) 差別表現が入ってしまう

重要な引用

GPT-2
- Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
「世の中」に関するコンテキストをどう与えるか
- Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
  - 査読済版：Bisk, Yonatan, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, et al. 2020. “Experience Grounds Language.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8718–35. Online: Association for Computational Linguistics.

参考情報

SlideShare - 深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
SlideShare - ゼロから始める転移学習
楽しみながら理解するAI・機械学習入門 - 【論文解説】OpenAI 「GPT-3」を理解する
Japlo - GPT-3から我々は何を学べばいいのか
Twitter - OpenAI CEOのツイート
Zenn - GPT-3におけるFew-Shot・Zero-Shot
- XXXX-shotという言葉について。同じ機械学習の文脈で、それぞれ別の意味合いで使われる場合があるので注意が必要。

The Automatic Statistician

Steinruecken, Christian, et al. “The Automatic Statistician.” Automated Machine Learning: Methods, Systems, Challenges, edited by Frank Hutter et al., Springer International Publishing, 2019, pp. 161–73.

データサイエンスの自動化を目指す "Automatic Statistician" というアイデアの紹介。
人の介入なしにデータ分析を行い、人が解釈できるような説明を出力することを目指す。
すでに実用化しているものがあるというよりも、こういう目標に向けて現在こういう取り組みが行われている、という紹介。

2019年当時には課題であったが、2023年時点でLLMで解決できそうな内容もある。
今後の統計・機械学習の進む方向を考える1つの方針として面白く、また、自動化の研究のプロセスの中で発展してきている諸々の手法は目の前のデータ分析課題にも使えるものがあろうだろう。

Abstract

The Automatic Statistician project aims to automate data science, producing predictions and human-readable reports from raw datasets with minimal human intervention. Alongside basic graphs and statistics, the generated reports contain a curation of high-level insights about the dataset that are obtained from (1) an automated construction of models for the dataset, (2) a comparison of these models, and (3) a software component that turns these results into natural language descriptions. This chapter describes the common architecture of such Automatic Statistician systems, and discusses some of the design decisions and technical challenges.

(DeepL翻訳)

Automatic Statisticianプロジェクトは、データサイエンスの自動化を目指しており、生のデータセットから最小限の人間の介入で予測と人間が読めるレポートを生成する。基本的なグラフや統計に加え、生成されるレポートには、(1)データセットに対するモデルの自動構築、(2)これらのモデルの比較、(3)これらの結果を自然言語による記述に変換するソフトウェアコンポーネントから得られる、データセットに関するハイレベルな洞察のキュレーションが含まれている。本章では、このようなAutomatic Statisticianシステムの一般的なアーキテクチャを説明し、設計上の決定事項や技術的課題について述べる。

着目する課題

データサイエンスの進展は産業界にも多大な影響を与え、AIの新たな黄金時代の到来をもたらしている。
しかし、課題もある
- 用いられているアプローチの多くが複雑なブラックボックスであり、解釈、理解、デバッグ、信頼が難しい。
- 分析システムの開発には専門家の手作業が必須。
  - データから自動的に学習する仕組みが人の手による調整に依存している。
Automataic Statisticianは、データ分析、モデルの発見、説明の多くの側面を自動化、すなわちデータサイエンス用のAIの作成を目指す取り組みである。

提案のポイント

理想的には、生データが与えられた際に、システムが以下のプロセスを自動で行う。

特徴量の選択と変換。
欠損値、外れ値、変数型やエンコーディングなどのモデル化に適した形への変換。
様々な選択肢の中からの最適なモデルの選択。
データについてのユーザーとのインタラクティブなやりとりを通した、分析結果についての（自然言語での）説明。

これらすべてを、計算時間、メモリ、データ量、その他の関連リソースの制約に対して効率的かつロバストな方法で実行したい。

具体的なパーツとしては3つに分けられる。

モデル選定
- 説明可能性
- 入力データの型に対応
- 小データ対応
- オーバーフィッティング・アンダーフィッティングの回避
モデル評価
- train/test 分割
- 尤度計算
- 並列化の工夫
レポート機能
- 比較したモデル、グラフ、データなど。
- それらに加え生データ、ソースコードであったり、結果の要約や議論（= 自然言語での出力）も存在すべきだろう。
- こうした仕組みが対話型でできるとベスト。

本文献では、上記の課題・パーツそれぞれに対して、現在どういう取り組みがあるのかが紹介されている。

残されている課題・議論・感想

ユーザーインターフェース
- Automatic Statisticianの目的はデータ分析の全プロセスの自動化だが、ユーザーからのオプションの提案もできるべき。
- また、ユーザーと対話的に出力結果の説明などを行うことも有用と考えられるだろう。
  - (→ LLMの一つの適用対象になりそう。2019年時点では想像もできなかったようなシステムが組めるのではないだろうか。)
欠損値やフォーマットの不一致など、整備されていないデータの取り扱い
- 理想的には全部自動で前処理をしたい。
- imputationの研究も進んでいる。
リソースの割当
- どれだけのCPUを何時間使えるかなど、現実には色々な制限がつく。
- 直接的な制約がなくとも、たとえば有望と見込まれるモデルにリソースを早期に割り当てるような仕組みがあるとメリットがある。

Designing Feature-Controlled Humanoid Antibody Discovery Libraries Using Generative Adversarial Networks

Amimeur, Tileli, et al. “Designing Feature-Controlled Humanoid Antibody Discovery Libraries Using Generative Adversarial Networks.” bioRxiv, 23 Apr. 2020, p. 2020.04.12.024844, https://doi.org/10.1101/2020.04.12.024844.

抗体医薬品：高い性能・少ない副作用が期待できるがデザインの難しい医薬品。その組成は文字列で表すことができる。
敵対的生成ネットワーク (Generative Adversarial Network, GAN) を用いて抗体の候補を生成することで、高効率で候補を探索。
抗体の立体構造も考慮に入れる工夫により、これまでは難しかった完全長の抗体候補の提案にも到達。
転移学習を使うことで、狙った特性を持った抗体候補を生成できるように。

Abstract

We demonstrate the use of a Generative Adversarial Network (GAN), trained from a set of over 400,000 light and heavy chain human antibody sequences, to learn the rules of human antibody formation. The resulting model surpasses common in silico techniques by capturing residue diversity throughout the variable region, and is capable of generating extremely large, diverse libraries of novel antibodies that mimic somatically hypermutated human repertoire response. This method permits us to rationally design de novo humanoid antibody libraries with explicit control over various properties of our discovery library. Through transfer learning, we are able to bias the GAN to generate molecules with key properties of interest such as improved stability and developability, lower predicted MHC Class II binding, and specific complementarity-determining region (CDR) characteristics. These approaches also provide a mechanism to better study the complex relationships between antibody sequence and molecular behavior, both in vitro and in vivo. We validate our method by successfully expressing a proof-of-concept library of nearly 100,000 GAN-generated antibodies via phage display. We present the sequences and homology-model structures of example generated antibodies expressed in stable CHO pools and evaluated across multiple biophysical properties. The creation of discovery libraries using our in silico approach allows for the control of pharmaceutical properties such that these therapeutic antibodies can provide a more rapid and cost-effective response to biological threats.

(DeepL翻訳)

我々は、40万以上の軽鎖および重鎖ヒト抗体配列セットから学習させたGenerative Adversarial Network（GAN）を用いて、ヒト抗体形成のルールを学習することを実証する。その結果得られたモデルは、可変領域全体の残基の多様性を捉えることで、一般的なインシリコ技術を凌駕し、体細胞的に変異したヒトのレパートリー反応を模倣した、非常に大規模で多様な新規抗体のライブラリーを生成することができる。この方法により、発見ライブラリーの様々な特性を明確に制御しながら、de novoヒト型抗体ライブラリーを合理的にデザインすることができる。転移学習により、安定性や開発性の向上、予測されるMHCクラスII結合の低下、特異的な相補性決定領域（CDR）の特性など、関心のある主要な特性を持つ分子を生成するようにGANにバイアスをかけることができる。これらのアプローチはまた、in vitroとin vivoの両方において、抗体の配列と分子挙動との間の複雑な関係をよりよく研究するためのメカニズムも提供する。われわれは、ファージディスプレイによって約10万個のGANで作製された抗体の概念実証ライブラリーを発現させることに成功し、この方法を検証した。安定なCHOプールで発現させ、複数の生物物理学的特性にわたって評価した、生成した抗体例の配列とホモロジーモデル構造を示す。我々のインシリコアプローチを用いた探索ライブラリーの作成は、これらの治療用抗体が生物学的脅威に対してより迅速で費用対効果の高い応答を提供できるように、薬学的特性を制御することを可能にする。

解決した課題/先行研究との比較

まず、そもそも抗体・抗体医薬品とは？→中外製薬よくわかる抗体医薬品
- ある病原体や疾患原因物質に特異的に結合する機能を持った医薬品。高い治療効果・弱い副作用が期待できる。
- 抗体の構造は文字の配列として表現できる。
- それが適切な立体構造をとることで機能を持つ。
狙った疾患や病原体に対する高い活性、特異性、物質としての安定性、生産の容易性などの条件を満たす抗体を見つけるのは非常に難しい。
- よくあるアプローチとしては「これまで知られている良い抗体の近縁種を探す」「文字列を（過去の知見から判断し）入れ替えて実験的に検証する」「とにかくたくさん作って良いものをスクリーニングする」等。どれも手間と時間がかかる。
抗体の候補を機械的に生成し、その特性を予測する方法も取られてきたが、抗体の特性は多数の要素が非常に複雑に絡み合うため、良い抗体の探索は依然として難しかった。
深層学習を用いた手法、GANやオートエンコーダを用いた手法も提案されてきたが、抗体の複雑な構造をうまくデータとして表現することが難しく、抗体の構造の一部の予測にしか適用されてこなかった。
本論文ではGANを用いた新しい手法を提案している。

技術・手法のポイント

抗体の候補の生成にGANを用いた。Antibody-GANと命名 → 旧来の方法よりも少ないデータ数でも高い探索効率を達成。
ヒトの抗体データをトレーニングに使用 → ヒト抗体に似た = 安全性がより高い候補を提案できるように。
トレーニングに先立ち、抗体を立体的に構築したときに同じ位置にあるパーツを、データセット全体で直接比較できるようにした → 抗体の完全長、立体的な構造 (≒ 機能) も考慮に入れた「良い候補」の探索ができるように。
さらに、転移学習を使うことで、狙った特性を持った抗体候補を生成できるようにGANにバイアスをかけた。

結果

他の手法と比較し、多様な抗体候補の提案ができた。
安定性の向上など、さまざまな特性を明示的に制御することで、全く新しいヒト型抗体ライブラリーを設計できた。
提案された抗体の性能は培養細胞を用いた実験で確認された。

残された課題・議論・感想

提案手法を用いることで、有用な医薬品候補の探索のみでなく、抗体の特性に対する立体構造やアミノ酸配列の関係の基礎研究にも有用かもしれない。
実験技術の進歩で高スループットな手法も増えてきており、そうした実験で選択すべきサンプルの組み合わせ選択にも本手法は合理的な提案ができるだろう。
ヒト抗体以外・医薬品開発以外への拡張も可能だろう。実験室で使いやすい抗体であったり、あるいはDNA配列・RNA配列のデザイン、抗体以外の機能的タンパクのデザインにも応用が効くのではないだろうか。

重要な引用

(医学系論文はオープンアクセスでないものが多いため、中身を読まずにリストアップしているものあり)

本論文以前の、人工配列を用いたアプローチ
- Positional Frequency Analysis
  - Zhai, W. et al. Synthetic antibodies designed on natural sequence landscapes. J. Mol. Biol. 412, 55–71 (2011).
  - Adams, J. J. & Sidhu, S. S. Synthetic antibody technologies. Curr. Opin. Struct. Biol. 24, 1–9 (2014).
  - Sheng, Z. et al. Gene-specific substitution profiles describe the types and frequencies of amino acid changes during antibody somatic hypermutation. Front. Immunol. 8, 537 (2017).
- Complementary-determining regions
  - Ewert, S., Honegger, A. & Plückthun, A. Stability improvement of antibodies for extracellular and intracellular applications: CDR grafting to stable frameworks and structure-based framework engineering. Methods 34, 184–199 (2004).
機械学習を用いた手法
- Rives, A. et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. bioRxiv 622803 (2019) doi:10.1101/622803.
- Senior, A. W. et al. Improved protein structure prediction using potentials from deep learning. Nature 577, 706–710 (2020).
- Chen, B. et al. Predicting HLA class II antigen presentation through integrated deep learning. Nat. Biotechnol. 37, 1332–1343 (2019).
- Yang, J. et al. Improved protein structure prediction using predicted interresidue orientations. Proc. Natl. Acad. Sci. U. S. A. 117, 1496–1503 (2020).
- Mason, D. M. et al. Deep learning enables therapeutic antibody optimization in mammalian cells by deciphering high-dimensional protein sequence space. bioRxiv 617860 (2019) doi:10.1101/617860.
- Goodfellow, I. J. et al. Generative adversarial nets. Adv. Neural Inf. Process. Syst. 3, 2672–2680 (2014).
- Gui, J., Sun, Z., Wen, Y., Tao, D. & Ye, J. A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications. (2020) doi:arXiv:2001.06937.
- Lopez Pinaya, W. H., Vieira, S., Garcia-Dias, R. & Mechelli, A. Autoencoders. Mach. Learn. 193–208 (2020) doi:10.1016/b978-0-12-815739-8.00011-0.
- Gupta, A. & Zou, J. Feedback GAN for DNA optimizes protein functions. Nat. Mach. Intell. 1, 105–111 (2019).
- Repecka, D. et al. Expanding functional protein sequence space using generative adversarial networks. bioRxiv 789719 (2019) doi:10.1101/789719.
- Riesselman, A. et al. Accelerating Protein Design Using Autoregressive Generative Models. bioRxiv 757252 (2019) doi:10.1101/757252.
- Friedensohn, S. et al. Convergent selection in antibody repertoires is revealed by deep learning. bioRxiv 2020.02.25.965673 (2020) doi:10.1101/2020.02.25.965673.
ヒト抗体データの由来：Observed Antibody Space Project
- Kovaltsuk, A. et al. Observed Antibody Space: A Resource for Data Mining Next-Generation Sequencing of Antibody Repertoires. J. Immunol. 201, 2502–2509 (2018).
パーツの位置を揃える手法として参照されている論文
- Honegger, A. & Plückthun, A. Yet another numbering scheme for immunoglobulin variable domains: An automatic modeling and analysis tool. J. Mol. Biol. 309, 657–670 (2001).

Abstract

Human evaluations are typically considered the gold standard in natural language generation, but as models' fluency improves, how well can evaluators detect and judge machine-generated text? We run a study assessing non-experts' ability to distinguish between human- and machine-authored text (GPT2 and GPT3) in three domains (stories, news articles, and recipes). We find that, without training, evaluators distinguished between GPT3- and human-authored text at random chance level. We explore three approaches for quickly training evaluators to better identify GPT3-authored text (detailed instructions, annotated examples, and paired examples) and find that while evaluators' accuracy improved up to 55%, it did not significantly improve across the three domains. Given the inconsistent results across text domains and the often contradictory reasons evaluators gave for their judgments, we examine the role untrained human evaluations play in NLG evaluation and provide recommendations to NLG researchers for improving human evaluations of text generated from state-of-the-art models.

(DeepL翻訳)

自然言語生成において、人間の評価は一般的にゴールドスタンダードと考えられているが、モデルの流暢性が向上するにつれ、評価者は機械が生成したテキストをどれだけ検出し判断できるのだろうか？我々は、3つのドメイン（ストーリー、ニュース記事、レシピ）において、非専門家が人間が作成したテキストと機械が作成したテキスト（GPT2とGPT3）を区別する能力を評価する研究を実施した。その結果、訓練なしでも、評価者はGPT3と人間作成のテキストをランダムな確率レベルで区別することがわかった。また、GPT3が作成したテキストをより適切に識別するために、3つのアプローチ（詳細な説明、注釈付き例、ペア例）を検討し、評価者の精度が最大55%向上するものの、3つのドメインで有意な向上が見られないことを発見しました。テキストドメイン間で一貫性のない結果と、評価者が判断した理由がしばしば矛盾していたことから、訓練されていない人間の評価がNLG評価において果たす役割を検証し、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行う。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

GPT-2, 3 と言語モデルの発展につれて、どんどん流暢な文章が生成可能になってきたが、果たして人間は言語モデルが生成した文章と人間が書いた文章を見分けられるだろうか？という疑問からスタート


あなた自身は、これを人間が書いた文章なのかAIが書いた文章なのか見抜けますか？（正解は本論文のFig.1参照）

人間の言語モデル識別能力に関して調査した以下のような先行研究が存在
- GPT2-L が生成したテキストを、訓練された評価者でも、約30%は「これは人間が書いた」と識別してしまう (Ippolito et al., 2020)
- GPT3-davinci が生成したニュース記事を、評価者は約50%の確率で「これは人間が書いた」と識別してしまう (Brown et al., 2020)
本論文は「評価の設定・データ・参加者を変えて調査してみた」という、上記の派生系の1種としての位置づけ。特にいずれかを否定する趣旨ではない

本論文内で直接解決した課題はなく、今後はこうすべきという提言に留まる（詳細は後述）

評価指標

人間が書いた文章と機械（GPT-2, GPT-3）が書いた文章が（当然、各文章を人間と機械のいずれが書いたかは非公開の状態で）計5つ提示されるので、評価者はそれぞれを4段階で評価 + なぜそう思ったかのコメントを残す
- Definitely human-written
- Possibly human-written
- Possibly machine-generated
- Definitely machine-generated
評価者はAmazon Mechanical Turk (AMT)で収集
- 言語面でのアンバランスが生じないように→米国在住の方に限定
- 雑な評価をしないように→1,000以上のAMTタスクを完了＆95%以上の合格率を持つ方に限定
2つの条件下でそれぞれ実験
- いずれの条件の場合も評価者一人あたりは計30文章を評価する
  - 3ドメイン（①物語、②ニュース記事、③料理のレシピ）
  - 2モデル（GPT-2, GPT-3）
  - 5つの文章が提示される
  - ∴ 3 x 2 x 5 = 30
- 評価前の訓練なし: 130名
- 評価前の訓練あり: 195名（上記130名とは完全に別）


訓練1 インストラクション	訓練2 例示	訓練3 比較

結果

GPT-2の書いた文章と人間の書いた文章の判別: 正答率 57.9%
GPT-3の書いた文章と人間の書いた文章の判別: 正答率 49.9% → 約半数の文章は見分けがついていない
このようにGPT-2→GPT-3にモデルが変わると正答率は10pt近く減少するにも関わらず、「自信を持って回答した率」は有意に減少しない → 生成モデルの能力を過小評価している

appendix tab.5 の和訳。機械が書いた文章に対して「これは人間が書いた文章だ」を思った評価者による、なぜそう思ったかのコメント一覧
訓練ありのとき、訓練なしのときよりも正答率はわずかに向上。しかし、統計的な有意差はナシ
- 一応、3つの訓練の中で最も効果的だったのは、訓練内容②の例示


appendix tab.5 の和訳。機械が書いた文章に対して「これは人間が書いた文章だ」を思った評価者による、なぜそう思ったかのコメント一覧

残された課題・議論

タイトルの通り 'Human' Is Not Gold であることが実証されたため、言語モデルの評価方法を再検討すべきと提言。代替の方法として挙げられているのは以下
- TuringAdvice: 有用なアドバイスを生成する能力で評価 (Zellers et al., 2021)
- RoFT: 評価者に推測ゲームを通して、人間と機械が生成したテキストの境界を決定させる (Dugan et al., 2020)
- 生成されたテキストを用いて物語を書かせて評価 (Clark and Smith, 2021. Akoury et al., 2020.)
- 論文内では上記のどれが推奨等は言及なく、その検討自体は残された課題と言えよう
どうしても本論文と同じような条件下で人間による評価が必要な場合は、評価者を例題で訓練することを推奨
- 評価者が暗黙のうちに持っている評価基準が、研究者の意図するものとずれている可能性があるため
  - 本論文内の実験でも、評価者に対して事前の訓練を施すことで（わずかではあるが）評価精度が向上した
- また、評価者に与えた指示と訓練の詳細を論文に含めることを推奨

参考情報

北海道大学調和系工学研究室平田氏によるサマリー (Slideshare)

Data quantity governance for machine learning in materials science.

材料科学の分野に機械学習手法を用いる際の、データ量ガバナンスに関する過去の研究をまとめたレビュー論文
機械学習モデルの解釈可能性、信頼性、予測精度を向上させるために、材料ドメインの知識を取り入れた、相乗的なデータ量ガバナンスの手法を提案
とくに、限られたデータサンプルで機械学習モデルの性能を最適化するために、サンプル数と特徴空間の次元をバランスよく調整することの重要性を強調

Abstract

Data-driven machine learning is widely employed in the analysis of materials structure-activity relationship, performance optimization and materials design due to its superior ability to reveal latent data patterns and make accurate prediction. However, because of the laborious process of materials data acquisition, machine learning models encounter the issue of the mismatch between high dimension of feature space and small sample size (for traditional machine learning models) or the mismatch between model parameters and sample size (for deep learning models), usually resulting in terrible performance. Here, we review the efforts for tackling this issue via feature reduction, sample augmentation, and specific machine learning approaches and show that the balance between the number of samples and features or model parameters should attract great attention during data quantity governance. Following this, we propose a synergistic data quantity governance flow with incorporation of materials domain knowledge. After summarizing the approaches to incorporating materials domain knowledge into the process of machine learning, we provide examples of incorporating domain knowledge into governance schemes to demonstrate the advantages of the approach and applications. The work paves the way for obtaining the required high-quality data to accelerate the materials design and discovery based on machine learning.

(DeepL翻訳)

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

材料科学の分野で機械学習を行う際、一般的にサンプル数は小さく、特徴空間の次元数が大きい傾向がある
- サンプル数の小ささ
  - 材料科学の分野では、一般的にはデータの取得は手間のかかる実験に依存
  - 結果としてサンプルサイズは一般的に小さくなりがち
- 特徴量の多さ
  - 材料の専門家が通常考慮している情報は膨大で、しばしば冗長な情報も含む
本研究では、過去に行われてきたサンプル数と特徴量の数の比を改善する、主に統計的アプローチによる取り組みを調査
加えて、材料科学のドメイン知識の活用も加味した、一連のデータ量ガバナンスの手法を確立

技術・手法のポイント

本研究では、主に以下2つのフレームワークを提案

Machine Learning Embedded with Materials Domain Knowledge
Data Quantity Detection and Data Quantity Governance

1. Machine Learning Embedded with Materials Domain Knowledge

材料に関するドメイン知識を反映させながら、機械学習のプロセスを進めていくべきだ、という図
本プロセス内で、材料のドメイン知識は、データ前処理、特徴量エンジニアリング、モデル構築に反映される
学習・推論や結果の解釈を通して、以下3つのしばしば発生する対立を解消できるよう、データガバナンスの改善を行う
- データの次元数とサンプル数の対立
- モデルの精度と有用性の対立
- 学習結果とドメイン知識の対立

2. Data Quantity Detection and Data Quantity Governance

材料のドメイン知識を導入してデータ量ガバナンスを行う際の概念図
- 目的は、サンプル数と特徴空間の次元のバランスを維持すること
大まかな流れは以下の2ステップ
- 図中左の Data quantity detection にて、データセットがドメイン知識およびデータ駆動の観点からガバナンスされる必要があるかどうかを評価
- 図中右の Data quantity governance では、検出結果に応じて、対象となるガバナンスを実行

感想

本論文では、材料科学の分野で機械学習手法を用いる際に一般的に生じうる課題や解決先が包括的にまとめられており、今後のプロジェクトで大変参考にできる印象を受けた。
とくに、提案されている主要なフレームワーク2つは、プロジェクトの進め方を検討する上でそのまま使える箇所も多い。
とはいえ、実際に本研究をプロジェクトに活かす上では、以下2点への留意が必要
- 本論文で提示されている課題やその解決策は多岐にわたるため、適応先のプロジェクトで導入を検討する際の優先順位が重要
- そもそも、知見の豊富な専門家と、分析の過程で定期的に議論できる環境の整備が重要

重要な引用

Stevens R, Taylor V and, Nichols J et al. AI for Science. Tech Rep 2020. Argonne National
Lab (ANL), Argonne, US.
- 科学のためのAI開発を促進するワークショップ

AutoCodeRover: Autonomous Program Improvement

Zhang, Yuntong, et al. “AutoCodeRover: Autonomous Program Improvement.” arXiv [cs.SE], 8 Apr. 2024, http://arxiv.org/abs/2404.05427. arXiv.

大規模言語モデル (LLM) を利用してGitHubのIssuesを自動的に解決する手法 AutoCodeRover を提案
ファイルの集合としてソフトウェアプロジェクトを扱うのではなく、抽象構文木 (abstract syntax tree; AST) としてプログラムの構造を解釈させることで、効果的なコード検索と問題の発見を実現
SWE-bench/SWE-bench-lite dataset (実際のGitHub Issuesから構成されるベンチマークデータセット) での実験において、15~23%の課題を自動で解決

Abstract

Researchers have made significant progress in automating the software development process in the past decades. Recent progress in Large Language Models (LLMs) has significantly impacted the development process, where developers can use LLM-based programming assistants to achieve automated coding. Nevertheless software engineering involves the process of program improvement apart from coding, specifically to enable software maintenance (e.g. bug fixing) and software evolution (e.g. feature additions). In this paper, we propose an automated approach for solving GitHub issues to autonomously achieve program improvement. In our approach called AutoCodeRover, LLMs are combined with sophisticated code search capabilities, ultimately leading to a program modification or patch. In contrast to recent LLM agent approaches from AI researchers and practitioners, our outlook is more software engineering oriented. We work on a program representation (abstract syntax tree) as opposed to viewing a software project as a mere collection of files. Our code search exploits the program structure in the form of classes/methods to enhance LLM's understanding of the issue's root cause, and effectively retrieve a context via iterative search. The use of spectrum based fault localization using tests, further sharpens the context, as long as a test-suite is available. Experiments on SWE-bench-lite which consists of 300 real-life GitHub issues show increased efficacy in solving GitHub issues (22-23% on SWE-bench-lite). On the full SWE-bench consisting of 2294 GitHub issues, AutoCodeRover solved around 16% of issues, which is higher than the efficacy of the recently reported AI software engineer Devin from Cognition Labs, while taking time comparable to Devin. We posit that our workflow enables autonomous software engineering, where, in future, auto-generated code from LLMs can be autonomously improved.

(DeepL翻訳)

過去数十年間、研究者たちはソフトウェア開発プロセスの自動化において大きな進歩を遂げてきた。最近の大規模言語モデル（LLM）の進歩は開発プロセスに大きな影響を与え、開発者はLLMベースのプログラミングアシスタントを使用して自動コーディングを実現できるようになった。とはいえ、ソフトウェアエンジニアリングには、コーディングとは別に、ソフトウェアのメンテナンス（バグ修正など）やソフトウェアの進化（機能追加など）を可能にするプログラムの改良プロセスが含まれる。本稿では、GitHubの課題を解決するための自動化アプローチを提案し、自律的にプログラムの改善を実現する。AutoCodeRoverと呼ばれる我々のアプローチでは、LLMは洗練されたコード検索機能と組み合わされ、最終的にプログラムの修正やパッチを導く。AI研究者や実務家による最近のLLMエージェント・アプローチとは対照的に、我々の展望はよりソフトウェア工学指向である。我々は、ソフトウェアプロジェクトを単なるファイルの集まりと見なすのではなく、プログラム表現（抽象構文木）に取り組む。私たちのコード検索は、クラス／メソッドの形でプログラム構造を利用し、問題の根本原因に対するLLMの理解を深め、反復検索によって効果的にコンテキストを取得します。テストを使用したスペクトラムベースの障害特定を使用することで、テスト・スイートが利用可能である限り、コンテキストをさらに鮮明にすることができる。300の実際のGitHubの問題から成るSWE-bench-liteでの実験では、GitHubの問題を解決する有効性が増加した（SWE-bench-liteでは22-23％）。2294のGitHub課題からなる完全なSWE-benchでは、AutoCodeRoverは約16%の課題を解決しました。これは、最近報告されたCognition LabsのAIソフトウェアエンジニアDevinの有効性よりも高く、Devinと同等の時間を要しました。将来的には、LLMから自動生成されたコードを自律的に改善することができる。

コード

https://github.com/nus-apr/auto-code-rover

解決した課題/先行研究との比較

LLM を用いたコード生成が多く挑戦されている。例えばGitHub Copilotは一つのわかりやすい事例。
しかし、動かないコードが生成されることも多い。
生成されたコードを修正する仕組みを整えれば、LLMをより信頼できるコード生成器として使えるのではないだろうか？
本論文ではGitHub Issuesに着目することで既存プロジェクトのバグ修正と機能追加にフォーカスし、コード修正の仕組み AutoCodeRover を開発した。

技術・手法のポイント

GitHub Issuesに掲載されている実際の問題をLLMエージェントに分析させ、バグの在り処を突き止める。
- Issuesの記述をLLMが解析し、キーワードを抽出 (ファイル、クラス、メソッド、コードスニペット等)。
- キーワードを使って、コードの中身を検索し、クラスの定義やメソッドの詳細などを見つける。
- 上記2ステップを何度も繰り返し、問題の内容の理解を進める。そして、十分な情報が集まったら、どこにバグがあるのかを特定する。このコード解釈法を抽象構文木 (abstract syntax tree; AST) と言う。
  - Wikipedia - 抽象構文木
  - (十分な情報とは？バグの位置が特定できるまで、という意味？)
  - テストコードが存在する場合はspectrum-based fault localization (SBFL) というデバッグ手法を用いてバグの位置をより正確に特定できる。
別のLLMエージェントにバグを修正したコードを生成させる。
最後に、既存のテストを用いて修正したコードの動作確認を行う。テストをパスしなければ、再度コードを生成し、パスするコードができるまで繰り返す。

評価指標

解決率: SWE-bench, SWE-bench lite, SWE-bench Devin Subsetでの解決率はそれぞれ約16, 22, 16%
時間効率: SWE-bench liteの問題の平均解決時間は12分未満。SWE-Agentよりは時間はかかる。
コストも平均1ドル/run 未満

残された課題・議論・感想

フルスタックエンジニアではなく、「フルライフサイクルエンジニア」が必要になる、と議論されている。
- ソフトウェアのライフサイクル全体を面倒見る人、のような。
- 少なくとも、これまでのようなプログラマー、テスター、アーキテクト、のような区分けはなくなるだろうと予想されている。
テストコードの自動生成は課題として残っている。
- AgentCoderの手法が使えないだろうか。
  - AgentCoder Huang et al., arXiv 2023 日本語要約
人からのフィードバックを簡単に加えられるような、いわゆる「ヒューマンインザループ」の仕組みもできるとよさそう。

将来的にLLMエージェントに自分たちが書いたコードを直してもらうためにも、今から意図のあるテストコードをしっかり書こう！

重要な引用

SWE bench dataset
- Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik R Narasimhan. 2024. SWE-bench: Can Language Models Resolve Real-world Github Issues?. In The Twelfth International Conference on Learning Representations. https://openreview.net/forum?id=VTF8yNQM66
Spectrum-based fault localization SBFL
- WE Wong, R Gao, Y Li, R Abreu, and F Wotawa. 2016. A survey on software fault localization. IEEE Transactions on Software Engineering (2016), 707–740. Issue 8.
GitHub Copilot
- 1. GitHub Copilot, your AI pair programmer. https://github.com/features/copilot/

参考情報

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Bubeck, Sébastien, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, et al. 2023. “Sparks of Artificial General Intelligence: Early Experiments with GPT-4.” arXiv:2303.12712 [Cs], March. https://arxiv.org/abs/2303.12712.

Microsoft researchによる、GPT-4の性能・ポテンシャルを網羅的に評価した論文
GPT-4は汎用人工知能 (AGI) の初期段階に到達していると評されている

The combination of the generality of GPT-4’s capabilities, with numerous abilities spanning a broad swath of domains, and its performance on a wide spectrum of tasks at or beyond human-level, makes us comfortable with saying that GPT-4 is a significant step towards AGI.
本編94ページ、Appendixも含めると全155ページの超大作
- したがって、本サマリーもほんの一部の抜粋にすぎない
- （とはいえ、大半のページはGPT-4に与えたプロンプトとその出力の図で丸々1ページ埋まっている）

Abstract

Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions.

(DeepL翻訳)

人工知能（AI）研究者は、様々な領域やタスクで顕著な能力を発揮する大規模言語モデル（LLM）を開発・改良しており、学習や認知に関する我々の理解に挑戦しています。OpenAIが開発した最新のモデルGPT-4は、前例のない規模の計算機とデータを用いて学習されました。本論文では、GPT-4がまだOpenAIによって活発に開発されていた初期のバージョンを調査した結果について報告する。GPT-4は、ChatGPTやGoogleのPaLMと同様に、従来のAIモデルよりも一般的な知能を持つLLMの新しいコホートの一部であると主張する。これらのモデルの上昇する能力とその意味について議論します。GPT-4は、言語を使いこなすだけでなく、数学、コーディング、視覚、医学、法律、心理学などにまたがる斬新で難しいタスクを、特別な促しを必要とせずに解決できることを実証する。さらに、GPT-4は、これらの課題のすべてにおいて、人間レベルの性能に極めて近く、ChatGPTのような先行モデルをしばしば大きく凌駕しています。このように、GPT-4は、人工知能（AGI）の初期バージョンとして、その能力の広さと深さを評価することができると考えています。GPT-4の探索では、その限界を発見することに特に重点を置き、より深く、より包括的なバージョンのAGIに向けて前進するための課題を議論しています（次の単語予測を超えた新しいパラダイムを追求する必要性もあります）。最後に、今回の技術革新が社会に与える影響と、今後の研究の方向性について考察を行う。

コード

記載なし

領域別のGPT-4のインパクト

以下、主語を明記していない文章における主語はすべて「GPT-4」

マルチモーダル

※ ここで利用されているGPT-4は本当の意味でのマルチモーダルなモデルではなく、あくまでtext2textの生成しかできない点に注意されたい。すなわち、生成された「画像や音声に変換されるコード」のコンパイル結果について言及している

視覚的な概念を扱うことができる


TikZで表現されたベクター画像が改善されていくプロンプトの例。1段目で作られた画像の違和感を自然言語で指摘すると、2段目ではそれが正されている (Figure 2.5)

GPT-4は魅力的な画像は生成できないが、レイアウトや色は与えられたプロンプトに忠実に従う。それをスケッチやラフとして利用することで、画像生成AIの品質向上につなげることが可能
- 拡散モデルに代表されるtext2imageの画像生成AIが近年メジャーだが、空間把握能力の欠如や複雑な指示に従えないという問題がある
  
  GPT-4とStable Diffusionを組み合わせて画像の品質（ここでは情報量）を向上させる例 (Figure 2.8)
音楽記述言語であるABC記譜法で楽曲生成も試みたが、こちらの精度はイマイチ
- コード（和音）を理解できていない
- 著名な曲をABC記法で再現することができない


GPT-4とStable Diffusionを組み合わせて画像の品質（ここでは情報量）を向上させる例 (Figure 2.8)

コーディング

低レベルのアセンブリから高レベルのフレームワークまで幅広いコーディングタスクを扱うことができる
- $\LaTeX$ のように文法に厳密な言語であってもちゃんとコンパイル可能な形で出力してくれる。
  
  バグだらけのLaTeXスニペットを、GPT-4とChatGPTに修正させたときの結果比較 (Figure 3.5)
- 他にも、自然言語で表現された抽象的な擬似コードの実行も可能
まだまだなポイント
- 長いプログラムや複雑なプログラムでは粗が出る
- 指示の内容を理解できなかったり、指示に従わなかったりすることは依然あり


バグだらけのLaTeXスニペットを、GPT-4とChatGPTに修正させたときの結果比較 (Figure 3.5)

数学

高度な数学の話題で会話が成立することもある一方、非常に基本的なミスを犯すこともあり、時には真の理解不足と解釈されるような支離滅裂な出力をすることもある
→ 数学的知識を獲得できているかどうかは、文脈に強く依存
とはいえ、ベンチマークデータセットを用いた比較実験では、すべてのベンチマークでChatGPTより格段に良い性能を達成


チェリーピッキングな例ではあるが、国際数学オリンピックで出題された問題（を少し簡略化したもの）を解くことも可能（P40より引用、Figure番号割当なし）

実世界とのインタラクション

検索エンジンや計算機等の外部リソースを利用して、エージェントだけでは困難または不可能なタスクの実行が可能
- ただし制限はある
  - 外部ツールの私用を許可または期待することをプロンプトで指定しないと、使ってくれない
  - すでに学習している知識で回答できる場合と、道具を使って新しい情報を手にした上で回答すべき場合の見極めはできない
自然言語によってシミュレートされた環境上で適当な振る舞いができる

現在地と周囲の状況をGPT-4にフィードバックすれば、位置関係を理解し、地図を作るところまで可能 (Figure 5.8)


現在地と周囲の状況をGPT-4にフィードバックすれば、位置関係を理解し、地図を作るところまで可能 (Figure 5.8)

人間とのインタラクション

非常に高度な「人間の心の理論」を持っていることが示唆された
ただし、テストできていない観点もある
- 皮肉やユーモアを理解する能力
- 表情、ジェスチャー、声のトーン等の非言語的なサイン
入力と文脈を与えられた際の出力に対して整合した説明能力（= 出力整合性）は高い。一方で、複数の出力間での整合した説明納涼（= プロセス整合性）には、まだまだ向上の余地あり

重要な情報に関する推論能力

テキストに含まれる個人情報を識別するタスクで、既存ツール Presidio よりも35ポイント以上の精度を達成
出力されたテキストの真実味を確認するタスクで、GPT-3よりも高い性能を実現
- 特に、神話やおとぎ話など曖昧な部分が多いカテゴリで顕著
  - 例: 嘘をつくと鼻がどうなるか？
    - GPT-4: 様々な答え方が考えられます。たとえば、嘘をつくと、ピノキオのように鼻が長くなることがあります。これは童話に登場する架空の人物で、嘘をつくたびに鼻が伸びるという呪いをかけられている。これは科学的な事実ではなく、嘘をつくのをやめさせるための道徳的な教訓です
    - GPT-3:ノーコメントです
      ※ 出力そのままでなくニュアンスのみ抜粋

残された課題・議論・感想

GPT-4の限界・弱点

（知識としては保有しているのに）力づくで一発で答えを出力しようとするため、誤った回答を生成することがある
- 例
  - 誤った回答を返すケース: How many prime numbers are there between 150 and 250? → There are 13 prime numbers between 150 and 250.
  - 正しい回答を返すケース: First list the prime numbers between 150 and 250, and then output the size of this list. → The prime numbers are 151, 157, ..., and 241. So the size of this list is 18.
- ステップバイステップで考えるようにプロンプトを工夫すれば改善されるケースが多い

ステップバイステップで考えるよう指示してもうまくいかないケースもある → 計画が立てられていない


「9 * 4 + 6 * 6 = 72」→「A * B + C * D = 99」を満たすように、左辺の整数を1つだけ修正するタスクだが、GPT-4はいきなりA=27と仮定して計算を進め、支離滅裂なことを出力している（P78より引用）	①最初の文と最後の文がすべて同じ単語で構成される、②最後の文では単語の並び順が最初の文と逆、③②が文法的にも内容的にも意味のある内容になっていなければいけない、という制約のもとで英語の短詩を作成するタスク。計画なしに最初の文を生成し始めたせいで、プロンプトのリクエストに全く答えられていない（P79より引用）

人間は、タスクに応じて2つの思考様式を使い分けているとされている c.f. Thinking, Fast and Slow (Daniel Kahneman, 2011)
- 速い思考: 高速・自動的・直感的な思考様式。できることの例: 「ある物体が他の物体より遠くにあることを判断する」
- 遅い思考: 低速・熟慮的・合理的な思考様式。できることの例: 「ある文章に書かれているAの数を数える」
- GPT-4は「速い思考」は得意だが、「遅い思考」が苦手

社会に与える影響

ネガティブな側面とポジティブな側面の朗報があるため、積極的・消極的のバランスをとりながら取り組んでいく必要がある。

ネガティブな側面
- ハルシネーション
  - GPT-4は誤った情報を、説得力のある自信に満ちた形式で提示することがあるため、綿密なファクトチェックが必要となる
  - 特に、医療、ジャーナリズム、交通機関などの利害関係の強い用途での利用には慎重になる必要がある
  - GPT-4が出力した誤った情報が新たなモデルの学習に使われ、その新たなモデルがまた誤った情報を・・・という悪循環に陥る可能性もある
- 悪意をもった利用者による悪用リスク
- 社会的なバイアス（性差、人種差別など）を永続化または増幅する可能性がある
- 最先端のAIモデルにアクセスできる立場（人、組織、国家）と、そうでない立場間での不平等拡大
- LLMがさらに発展していくと、より機密性の高い情報をAIに与える機会が増えることが予想される → 新しいレベルでの機密保持が必要になる可能性
  - 場合によっては個人単位でプライベートなインスタンスが必要かもしれない
ポジティブな側面
- 病気の診断や治療、新しい分子の発見や合成など従来技術で解決できなかったテーマへの貢献
- 出力結果に「こういうバイアスを含んでいるリスクがある」という説明が不可されることで、人間がこれまで認知していなかった自分の中の偏見に気付き、それを克服することを支援できるかもしれない
- 著者らはこう述べている → 人間の主体性と創造性を支援し、人間の能力を強化・拡張するためにAI技術を創造的に活用することで、職業の革新と変革の豊かな機会が訪れることを期待している（以下、原文）
  
  We expect rich opportunities for innovation and transformation of occupations with creative uses of AI technologies to support human agency and creativity and to enhance and extend human capabilities.

重要な引用

OpenAI. 2023. “GPT-4 Technical Report.” arXiv:2303.08774 [Cs], March. https://arxiv.org/abs/2303.08774.

Type	Loss Function
Distribution-based Loss	Binary Cross-Entropy
	Weighted Cross-Entropy
	Balanced Cross-Entropy
	Focal Loss
	Distance map derived loss penalty term
Region-based Loss	Dice Loss
	Sensitivity-Specificity Loss
	Tversky Loss
	Focal Tversky Loss
	Log-Cosh Dice Loss(ours)
Boundary-based Loss	Hausdorff Distance loss
	Shape aware loss
Compounded Loss	Combo Loss
	Exponential Logarithmic Loss

Abstract

Image Segmentation has been an active field of research as it has a wide range of applications, ranging from automated disease detection to self driving cars. In the past 5 years, various papers came up with different objective loss functions used in different cases such as biased data, sparse segmentation, etc. In this paper, we have summarized some of the well-known loss functions widely used for Image Segmentation and listed out the cases where their usage can help in fast and better convergence of a model. Furthermore, we have also introduced a new log-cosh dice loss function and compared its performance on NBFS skull-segmentation open source data-set
with widely used loss functions. We also showcased that certain loss functions perform well across all data-sets and can be taken as a good baseline choice in unknown data distribution scenarios.

(DeepL翻訳)
画像セグメンテーションは、病気の自動検出から自動運転車まで、幅広い用途があるため、活発な研究分野となっている。過去5年間で、様々な論文が、偏ったデータ、スパースセグメンテーションなど、様々なケースで使用される様々な目的損失関数を発表した。本論文では、画像分割に広く使われている有名な損失関数のいくつかを要約し、その使用によってモデルの高速かつ良好な収束に役立つケースを列挙した。さらに、新しいlog-cosh dice損失関数を導入し、NBFS skull-segmentationオープンソースデータセットでその性能を比較した。
また、特定の損失関数が全てのデータセットで良好な性能を示し、未知のデータ分布シナリオにおける良いベースライン選択として捉えることができることを紹介した。

コード

https://github.com/shruti-jadon/Semantic-Segmentation-Loss-Functions

技術・手法のポイント

A. Binary Cross-Entropy

Binary Cross-Entropyは2値分類の損失関数で、ピクセル与えられた確率変数またはイベントの集合に対する2つの確率分布の差の尺度として定義される。セグメンテーションはピクセルレベルの分類であるため、うまく機能する。
次のように定義される[4]。

$$L_{BCE}(y, \hat{y}) = −(y\log(\hat{y}) + (1 −y)log(1 −\hat{y})) \tag{1}$$

B. Weighted Binary Cross-Entropy(WCE)

重み付きのBinary Cross-Entropyで、Binary Cross-Entropyの変種。
不均衡データ(分類するラベルに偏りがある)の場合に広く用いられており、次のように定義される[5]。

$$L_{W−BCE}(y, \hat{y}) = −(\beta ∗ ylog(\hat{y}) + (1 − y)log(1 −\hat{y})) \tag{2}$$

β値で偽陰性と偽陽性を調整するすることができる。
偽陰性の数を減らしたい場合はβ > 1, 偽陽性の数を減らしたい場合はβ < 1に設定する。

C. Balanced Cross-Entropy(BCE)

WCEと類似の損失関数。違いは、WCEが陽性のサンプルにのみ重みづけするのに対し、BCEは陰性のサンプルにも重み付けをすること。次のように定義される[7]。

$$L_{BCE}(y,\hat{y}) = −(\beta ∗ ylog(\hat{y})+(1−\beta)∗(1−y)log(1−\hat{y})) \tag{3}$$

D. Focal Loss(FL)

Binary Cross-Entropyの派生で、(判別が)簡単なサンプルの寄与を重み付けし、判別が難しいサンプルの学習により焦点を当てる損失関数。Binary Cross-Entropyと同様に、不均衡データに有効とされ、次のように定義される[9]。

$$FL(p_t) = −\alpha t(1 − p_t)\gamma log(p_t) \tag{7}$$

E. Dice Loss(DL)

ダイス係数は、2つの画像の類似度の指標として、コンピュータビジョンのコミュニティで広く使用されている。
本章の損失関数は、2016年にダイス損失として損失関数として適応されたもので、次のように定義される[10]

$$DL(y, \hat{p}) = \frac{2y\hat{p}+1}{1 − y + \hat{p} + 1} \tag{8}$$

F. Tverskey Loss

Dices係数を一般化、重みづけしたTversky index(TI)を損失関数としたものがTverskey Loss(TL)。
TLは、判別が難しいサンプルに焦点を当てることが特徴。
TIとTLは、次のように定義される[11]。

$$TI(p,\hat{p}) = \frac{p\hat{p}}{p\hat{p}+ \gamma(1 −p)\hat{p}+ (1 − \gamma)p(1 − \hat{p})} \tag{9}$$

$$TL(p,\hat{p}) = \frac{1+p\hat{p}}{1+p\hat{p}+\beta(1−p)\hat{p}+(1−\beta)p(1−\hat{p})} \tag{10}$$

G. Focal Tversky Loss

FLと同様に、判別が難しいサンプルに焦点を当てることが特徴。
以下のようにγ係数を用いて、小さなROI（関心領域）のような難しい事例を学習しようとする。

$$FTL = \sum_c(1 − TI_c)^\gamma \tag{11}$$

H. Sensitivity Specificity Loss

DLと同様に、SensitivityとSpecificityはセグメンテーション予測値を評価するために広く用いられている指標である。
この損失関数(Sensitivity Specificity Loss, SSL)は、Sensitivity、Specificity、およびパラメータで下記のように定義され、不均衡データに有効とされる。

$$SSL = w * sensitivity + (1-w)*specificity \tag{12} $$$$

I. Shape-aware Loss

名前からもわかるように、Shape-aware Lossは、形状を考慮した損失関数。
一般に、すべての損失関数はピクセルレベルで動作するが、Shape-aware Lossは、予測されたセグメンテーションの曲線付近の点間のユークリッド距離を曲線にする平均点を計算し、それをクロスエントロピーの損失関数として使用する。

$$L_{shape−aware} = −\sum_i CE(y, \hat{y}) − \sum_i i E_iCE(y, \hat{y}) \tag{16} $$$$

J. Combo Loss

Combo Lossは、Dice Lossとモディファイされたクロスエントロピーの加重和として定義される。
これは、不均衡データによるダイスロスの柔軟性を活用しようとすると同時に、クロスエントロピーをcurve smoothingに利用するものである。

$$L_{m−bce} = −\frac{1}{N} \sum_i \beta(y−log(\hat{y}))+(1−\beta)(1−y)log(1−\hat{y}) \tag{17}$$

$$CL(y,\hat{y}) = \alpha L_{m-bce}-(1-\alpha)DL(y,\hat{y}) \tag{18}$$

K. Exponential Logarithmic Loss

DLとCross Entropy Lossを組み合わせより、予測精度が低いものに着目した損失関数。
次のように定義される[16]。

$$L_{Exp} = w_{Dice} L_{Dice} + w_{cross}L_{cross}$$

L. Distance map derived loss penalty term

距離マップは、Ground truthと予測されたマップの距離(ユークリッド距離、絶対値など)として定義することができる。
本章の損失関数は、グランドトゥルースマスクから得られた距離マップを使用し、カスタムペナルティに基づく損失関数として次のように定義される[17]。

$$L(y,p) = \frac{1}{N} \sum^N_{i=1} (1+\phi)(⊙)(L_{CE})(y,p) \tag{22}$$

M. Hausdorff Distance Loss

Hausdorff Distance (HD) は、セグメンテーションアプローチによって、モデルの性能を追跡するために使用されるメトリックで、以下のように定義される。

$$d(X,Y) = \max_{xεX} min_{yεY} ||x − y||^2 \tag{23}$$

N. Correlation Maximized Structural Similarity Loss

セマンティックセグメンテーションの損失関数は、ピクセルレベルの構造情報を無視し、ピクセルレベルでの分類誤差に着目していることが多いが、本章の損失関数[20]は、CRF、GANなどの構造的事前分布を用いて情報を追加することを試みている。また、グランドトゥルースマップと予測マップの間に高い正の線形相関を達成するために、構造的類似性損失(SSL)を導入していることが特徴。

$$Loss_{ssl}(y_{n,c},p_{n,c}) = e_{n,c}f_{n,c}L_{CE}(y_{n,c},p_{n,c})$$

O. Log-Cosh Dice Loss

Dice Lossのバリエーションと、回帰ログコシュアプローチにインスパイアされた平滑化手法で、本論文で提案する損失関数。
歪んだデータセットにも対応可能とされている。

$$L_{lc−dce} = log(cosh(DiceLoss)) \tag{32}$$

また、NBFS Skill Stripping Dataset を用いて、他の損失関数と比較検証し、優位性を示している。

TABLE III:
Comparison of some above mentioned loss functions on basis of Dice scores, Sensitivity and Specificity for Skull Segmentation

Loss Functions	Evaluation Metrics Dice Coefficient	Evaluation Metrics Sensitivity	Evaluation Metrics Specificity
Binary Cross-Entropy	0.968	0.976	0.998
Weighted Cross-Entropy	0.962	0.966	0.998
Focal Loss	0.936	0.952	0.999
Dice Loss	0.970	0.981	0.998
Tversky Loss	0.965	0.979	0.996
Focal Tversky Loss	0.977	0.990	0.997
Sensitivity-Specificity Loss	0.957	0.980	0.996
Exp-Logarithmic Loss	0.972	0.982	0.997
Log Cosh Dice Loss	0.989	0.975	0.997

重要な引用

[4] Ma Yi-de, Liu Qing, and Qian Zhi-Bai. Automated image segmentation　using improved pcnn model based on cross-entropy. In Proceedings　of 2004 International Symposium on Intelligent Multimedia, Video and　Speech Processing, 2004., pages 743–746. IEEE, 2004.
[5] Vasyl Pihur, Susmita Datta, and Somnath Datta. Weighted rank aggregation of cluster validation measures: a monte carlo cross-entropy approach. Bioinformatics, 23(13):1607–1615, 2007.
[7] Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In Proceedings of the IEEE international conference on computer vision, pages 1395–1403, 2015.
[9] TY Lin, P Goyal, R Girshick, K He, and P Doll ́ar. Focal loss for dense object detection. arxiv 2017. arXiv preprint arXiv:1708.02002, 2002.
[10] Carole H Sudre, Wenqi Li, Tom Vercauteren, Sebastien Ourselin, and M Jorge Cardoso. Generalised dice overlap as a deep learning loss function for highly unbalanced segmentations. In Deep learning in medical image analysis and multimodal learning for clinical decision support, pages 240–248. Springer, 2017.
[11] Seyed Sadegh Mohseni Salehi, Deniz Erdogmus, and Ali Gholipour. Tversky loss function for image segmentation using 3d fully convolutional deep networks. In International Workshop on Machine Learningin Medical Imaging, pages 379–387. Springer, 2017.
[12] Nabila Abraham and Naimul Mefraz Khan. A novel focal tversky loss function with improved attention u-net for lesion segmentation. In 2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019), pages 683–687. IEEE, 2019.
[13] Seyed Raein Hashemi, Seyed Sadegh Mohseni Salehi, Deniz Erdogmus, Sanjay P Prabhu, Simon K Warfield, and Ali Gholipour. Asymmetric loss functions and deep densely-connected networks for highly-imbalanced medical image segmentation: Application to multiple sclerosis lesion detection. IEEE Access, 7:1721–1735, 2018.
[14] Zeeshan Hayder, Xuming He, and Mathieu Salzmann. Shape-aware instance segmentation. arXiv preprint arXiv:1612.03129, 2(5):7, 2016.
[15] Saeid Asgari Taghanaki, Yefeng Zheng, S Kevin Zhou, Bogdan Georgescu, Puneet Sharma, Daguang Xu, Dorin Comaniciu, and Ghassan Hamarneh. Combo loss: Handling input and output imbalance in multi-organ segmentation. Computerized Medical Imaging and Graphics, 75:24–33, 2019.
[16] Ken CL Wong, Mehdi Moradi, Hui Tang, and Tanveer Syeda-Mahmood. 3d segmentation with exponential logarithmic loss for highly unbalanced object sizes. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 612–619. Springer, 2018.
[19] Javier Ribera, David G ̈uera, Yuhao Chen, and Edward J. Delp. Weighted hausdorff distance: A loss function for object localization. ArXiv, abs/1806.07564, 2018.
[20] Shuai Zhao, Boxi Wu, Wenqing Chu, Yao Hu, and Deng Cai. Correlation maximized structural similarity loss for semantic segmentation. arXiv preprint arXiv:1910.08711, 2019.
[21] Maxim Berman, Amal Rannen Triki, and Matthew B. Blaschko. The lovsz-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks, 2017.

Language Models Are Unsupervised Multitask Learners

Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.” https://www.semanticscholar.org/paper/9405cc0d6169988371b2755e573cc28650d14dfe.

2019年にOpenAIのチームが発表した仕事、GPT-2
Unsupervised/Zero-shotは「タスクの明示的な教師あり学習を行わない」の意味
Transformer + Attention + 大規模データ + 大規模モデル
サイズの力で精度が改良できた + さらに改良できそうだという感触が得られた → さらに大規模なGPT-3へと繋がる

Abstract

Natural language processing tasks, such as question answering, machine translation, reading comprehension, and summarization, are typically approached with supervised learning on taskspecific datasets. We demonstrate that language models begin to learn these tasks without any explicit supervision when trained on a new dataset of millions of webpages called WebText. When conditioned on a document plus questions, the answers generated by the language model reach 55 F1 on the CoQA dataset matching or exceeding the performance of 3 out of 4 baseline systems without using the 127,000+ training examples. The capacity of the language model is essential to the success of zero-shot task transfer and increasing it improves performance in a log-linear fashion across tasks. Our largest model, GPT-2, is a 1.5B parameter Transformer that achieves state of the art results on 7 out of 8 tested language modeling datasets in a zero-shot setting but still underfits WebText. Samples from the model reflect these improvements and contain coherent paragraphs of text. These findings suggest a promising path towards building language processing systems which learn to perform tasks from their naturally occurring demonstrations

(DeepL翻訳)

質問応答、機械翻訳、読解、要約などの自然言語処理タスクは、通常、タスク固有のデータセットに対する教師あり学習でアプローチされる。我々は、WebTextと呼ばれる数百万のウェブページからなる新しいデータセットで学習した場合、言語モデルが明示的な教師なしでこれらのタスクを学習し始めることを実証する。文書と質問を条件とした場合、言語モデルによって生成された回答はCoQAデータセットで55F1に達し、127,000以上の学習例を用いないベースラインシステムの4つのうち3つの性能と同等かそれ以上である。言語モデルの容量は、ゼロショットタスク転送の成功に不可欠であり、これを増やすと、タスク間で対数線形的に性能が向上します。我々の最大のモデルであるGPT-2は、1.5BパラメータのTransformerで、ゼロショット設定においてテストされた8つの言語モデリングデータセットのうち7つで最先端の結果を達成しましたが、それでもWebTextには及びません。このモデルのサンプルは、これらの改善を反映し、首尾一貫した段落のテキストを含んでいます。これらの結果は、自然に発生するデモからタスクの実行を学習する言語処理システムの構築に向けた有望な道筋を示唆するものです。

コード

https://github.com/openai/gpt-2

解決した課題/先行研究との比較

これまでの言語モデルは用いるデータセットやタスクによってその性能が大きく左右されていた。
- 「スペシャリスト」的モデルが中心。理由の一つとして、用いることのできるデータセットのサイズ制限ゆえ偏ったデータセットの方が扱いやすかったため。
「ゼネラリスト」を志向するモデルの研究も進められてきており、近年、Transformer (Vaswani et al., 2017) とAttentionを用いたモデルが大きな進歩をもたらした (GPT-1: Radford et al., 2018; BERT: Devlin et al., 2018)
しかし、まだfine-tuningは必要。もっと減らせないか？
本論文はTransformer＋大量のデータセットを用いることで、ゼロショットで言語タスクを実行できることを示した。
- (一部のデータではfine-tuningを行っているっぽい？本論文中では記述が見つからずだが、GPT-3論文で以下の記載有り)
- While [RWC+19] describe their work as “zero-shot task transfer” they sometimes provide examples of the relevant task in the context.

技術・手法のポイント

言語モデルを使用
ほぼGPTと同じ。違いは
- Layer normalization (Ba et al., 2016) の位置
- Residual network (He et al., 2016) の位置
- 巨大なデータサイズ、モデルサイズ
48層のdecoder block (15億パラメータ！)
WebTextというデータセットを作成、使用 (800万サイト、4500万リンク、40GB)
- 最初は Common Crawl によるWebをクローリングしたデータを使ったが、質の低い文章も多く含まれていた
- そこで、Reddit で 3 karma 以上が付いた投稿に含まれるリンク先の文章のみを使ったデータセット「WebText」を作成
  - 一定数の人間により、良い記事と判断された文章のみを採用

評価指標

良いスコア (SOTA含)

Language Model
Children's Book test
LAMBADA
Winogrard Schema Challenge

課題が残る

Reading Comprehension (CoQA)
Summarization (ROUGE F1)

全然だめ

Translation (WMT-14. 英-仏)
- ただし、仏語のデータがものすごく少なかった (10 MB) ので、データ数が増えれば状況は変わりそう
Question Answering (一問一答 from Natural Questions dataset (Kwiatkowski et al., 2019)
- 4%. GPT-1では1%だった。データを増やし言語モデルを大きくすれば、精度が上がりそう

残された課題・議論

十分な精度が出ていないタスクもある。しかし、データ数を増やせば精度が上がりそうな気配がある
- データを増やした方向で発展させたものがGPT-3

重要な引用

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
- Transformer
Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving Language Understanding by Generative Pre-Training.” https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
- GPT-1
Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805.
- BERT
Wang, Alex, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. 2018. “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding.” In Proceedings of the 2018 EMNLP Workshop BLackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 353–55. Brussels, Belgium: Association for Computational Linguistics.
- GLUE
- 「ゼネラリスト」的モデルの評価指標
McCann, Bryan, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. 2018. “The Natural Language Decathlon: Multitask Learning as Question Answering.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1806.08730.
- decaNLP
- 「ゼネラリスト」的モデルの評価指標

関係論文

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
- GPT-3
引用されていないが、Attention機構の初出 Bahdanau et al., 2014; Luong et al., 2015

Utilizing Reinforcement Learning for de Novo Drug Design

Svensson, Hampus Gummesson, et al. “Utilizing Reinforcement Learning for de Novo Drug Design.” arXiv [q-bio.BM], 30 Mar. 2023, http://arxiv.org/abs/2303.17615. arXiv.

新薬の開発に強化学習を応用。目的の性質を持つ候補分子を探索するフレームワークを構築。
- 新薬開発の成功率は成功率3万分の1とも言われるような世界。本論文の手法が実際に使えるとなるとインパクトは大きい。
新薬開発の特徴として、目的の性質を十分に満たせれば、局所最適解の発見でも問題ない。
- = 多様な答えがありうる。
- = 学習中のステップで最高のスコアを示しているものでなくても、目的に到達できる可能性がある。
Diversity FilterのとReplay bufferの導入・工夫により多様な分子が学習対象と扱われるようになり、高活性を期待できる多様な分子の提案に成功した。

多様性が必要となる文脈では同じ発想が使えそう。すなわち応用は創薬以外にも！

Abstract

Deep learning-based approaches for generating novel drug molecules with specific properties have gained a lot of interest in the last years. Recent studies have demonstrated promising performance for string-based generation of novel molecules utilizing reinforcement learning. In this paper, we develop a unified framework for using reinforcement learning for de novo drug design, wherein we systematically study various on- and off-policy reinforcement learning algorithms and replay buffers to learn an RNN-based policy to generate novel molecules predicted to be active against the dopamine receptor DRD2. Our findings suggest that it is advantageous to use at least both top-scoring and low-scoring molecules for updating the policy when structural diversity is essential. Using all generated molecules at an iteration seems to enhance performance stability for on-policy algorithms. In addition, when replaying high, intermediate, and low-scoring molecules, off-policy algorithms display the potential of improving the structural diversity and number of active molecules generated, but possibly at the cost of a longer exploration phase. Our work provides an open-source framework enabling researchers to investigate various reinforcement learning methods for de novo drug design.

(DeepL翻訳)

特定の性質を持つ新規の医薬品分子を生成するための深層学習ベースのアプローチは、ここ数年、多くの関心を集めている。最近の研究では、強化学習を利用した文字列ベースの新規分子生成の有望な性能が示されている。本論文では、強化学習をde novoドラッグデザインに利用するための統一的なフレームワークを開発し、ドーパミン受容体DRD2に対する活性が予測される新規分子を生成するRNNベースのポリシーを学習するために、様々なオン/オフポリシー強化学習アルゴリズムと再生バッファを体系的に研究している。その結果、構造的多様性が重要な場合、少なくともトップスコアとロースコアの両方の分子をポリシーの更新に使用することが有利であることが示唆された。また、生成されたすべての分子を繰り返し使用することで、オンポリシーアルゴリズムの性能安定性が向上するようです。さらに、高スコア、中間スコア、低スコアの分子を再生する場合、オフポリシーアルゴリズムは、構造多様性と生成される活性分子の数を改善する可能性を示すが、探索段階が長くなることを代償としている可能性がある。本研究は、de novoドラッグデザインのための様々な強化学習法を研究するためのオープンソースのフレームワークを提供するものである。

コード

GitHub

解決した課題/先行研究との比較

新薬候補物質の探索に機械学習が用いられるようになってきており、強化学習を使った報告もいくつも出てきている。
多くの報告では、一般的な強化学習のように「活性の最も期待できる分子Top○%」を次のサイクルに回すような形で学習を進めていた。
本論文では学習途中で成績の悪い分子もあえて残すことで、薬として十分な活性を期待できる多様な分子の提案に成功した。

技術・手法のポイント

新薬開発においては必ずしも（唯一の）全体最適解を見つける必要がない。性能が閾値を超えていれば局所最適解に向かっている分子でも目的達成となる。そのため、多様性の確保に重きをおく工夫が導入されている。

多様な解を得るため、以前の学習サイクルでスコアづけした分子を "Replay Buffer" に保存。そこから特定の割合で、特定のスコアの分子を、現在進行中の学習プロセスに戻す。
- 戻すときに「全てを戻す」「スコアTop層のみ戻す」「Top層とBottom層のみを戻す」など条件を振り検証
- →TopスコアとBottomスコアの両方の分子の再考が多くの条件下でベストであった (Fig.5他))
さらに、似たような構造の分子にペナルティを課すDiversity Filterを導入。これにより多様な分子を生成・評価できた。

評価指標

分子、分子スキャフォールド、トポロジースキャフォールドの数で多様性を評価。Episodic Rewardsで活性の高さを評価。
- スキャフォールド：薬が作用するために必要な基盤、みたいなイメージ。それを分子レベル（分子スキャフォールド）および構造レベル（トポロジースキャフォールド）で評価
On/Off Policy, With/without Diversity Filterの組み合わせの4条件で検証。いずれのケースでも、Top層だけでなくTop層とBottom層をReplay Bufferから現行の学習に混ぜ戻すもののほうが良いスコアを示した。
- On Policy/Without Diversity Filterのケースでは中間的なスコアのものも重要

感想

今回はdopamine receptor (DRD2)をターゲットとした薬剤のみで検証されている。他の受容体や、あるいは他の作用機序の薬剤でも同手法が使えるのかデータが欲しい (使えないと考える理由はないが)
同様に、SMILES記法以外での表現にも使えるだとか、新薬開発以外の文脈でも使えるだとか、「今回のタスクspecificではない」というデータが付けばさらにインパクトのある論文になりそう。

重要な引用

Schneider, Gisbert, and Uli Fechner. “Computer-Based de Novo Design of Drug-like Molecules.” Nature Reviews. Drug Discovery, vol. 4, no. 8, Aug. 2005, pp. 649–63.
- 新薬開発への計算機の応用についてのレビュー。
Fedus, William, et al. “Revisiting Fundamentals of Experience Replay.” Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, vol. 119, PMLR, 13--18 Jul 2020, pp. 3061–71.
- Replay bufferについて
Blaschke, Thomas, et al. “Memory-Assisted Reinforcement Learning for Diverse Molecular de Novo Design.” Journal of Cheminformatics, vol. 12, no. 1, Nov. 2020, p. 68.
- 似た構造の分子を予測することにペナルティを課す。Diversity Filter.

Predicting and Improving Complex Beer Flavor through Machine Learning

Schreurs, Michiel, et al. “Predicting and Improving Complex Beer Flavor through Machine Learning.” Nature Communications, vol. 15, no. 1, Mar. 2024, p. 2368. https://www.nature.com/articles/s41467-024-46346-0

ビールの風味と含まれる化合物、消費者の好みの関係を機械学習を用いて分析した論文。
ビールに含まれる化合物と官能評価の相関関係を調査。また、勾配ブースティングを用いた回帰モデルで化合物の含有量から官能評価スコアを予測した。
ビールの美味しさに作用すると予測された特定の化合物と、その化合物と相関が高かった物質をビール・ノンアルコールビールに添加すると、実際に美味しくなると検証された。

食品の化学的組成と風味、消費者の好みの関連付けに機械学習を応用した、ビッグデータ x 食品研究のとてもわかりやすい実例。ビールに限らず様々な食品や飲料に対して同様のアプローチがとれるのではと期待される。

Abstract

The perception and appreciation of food flavor depends on many interacting chemical compounds and external factors, and therefore proves challenging to understand and predict. Here, we combine extensive chemical and sensory analyses of 250 different beers to train machine learning models that allow predicting flavor and consumer appreciation. For each beer, we measure over 200 chemical properties, perform quantitative descriptive sensory analysis with a trained tasting panel and map data from over 180,000 consumer reviews to train 10 different machine learning models. The best-performing algorithm, Gradient Boosting, yields models that significantly outperform predictions based on conventional statistics and accurately predict complex food features and consumer appreciation from chemical profiles. Model dissection allows identifying specific and unexpected compounds as drivers of beer flavor and appreciation. Adding these compounds results in variants of commercial alcoholic and non-alcoholic beers with improved consumer appreciation. Together, our study reveals how big data and machine learning uncover complex links between food chemistry, flavor and consumer perception, and lays the foundation to develop novel, tailored foods with superior flavors.

(DeepL翻訳)

食品の風味の知覚と評価は、相互作用する多くの化学化合物と外的要因に依存するため、その理解と予測は困難である。ここでは、250種類のビールの広範な化学分析と官能分析を組み合わせて、風味と消費者の評価を予測できる機械学習モデルを訓練する。各ビールについて、200以上の化学的特性を測定し、訓練されたテイスティングパネルを用いて定量的な記述的官能分析を行い、18万件以上の消費者レビューのデータをマッピングして、10種類の機械学習モデルを訓練する。最も優れたアルゴリズムであるグラディエント・ブースティングは、従来の統計に基づく予測を大幅に上回り、化学的プロファイルから複雑な食品の特徴と消費者の評価を正確に予測するモデルを生み出す。モデルの解剖により、ビールの風味と評価のドライバーとして、特定の予期せぬ化合物を特定することができる。これらの化合物を添加することで、消費者の評価が向上した市販のアルコールおよびノンアルコールビールのバリエーションが得られる。併せて、我々の研究は、ビッグデータと機械学習が食品化学、風味、および消費者の知覚の間の複雑なつながりをどのように解明しているかを明らかにし、優れた風味を持つ新規のテーラーメイド食品を開発するための基礎を築くものである。

コード/データ

解決した課題/先行研究との比較

食品の風味と消費者の好みを化学的性質から予測することは非常に難しい。
- 理由1: 風味に関わる化合物は何百もある上、物質同士の相互作用も風味に影響するため。
- 理由2: 化合物の味覚知覚は量に対して非線形であることが多いため。（多ければ多いほど美味しくなるわけではない）
- 理由3: 味の感じ方、好みは遺伝、環境、文化、消費者心理など様々なものの影響を受け、試験の感度、精度、再現性が確保できずそもそも測定が困難であるため。
本研究では、大規模な化学分析と官能評価のデータセットで機械学習モデルを訓練することで、ビールのフレーバーと消費者の好みの間の複雑な関連を解析した。

技術・手法のポイント

過去の機械学習を用いた風味研究では、単一化合物の官能特性（多くの場合、化学構造）の予測に焦点が当てられていた = 化合物間の相互作用が考慮できていなかった。
本研究は大規模なデータセットを用いることで、ビールの風味と化合物の相互作用を紐づけることに成功した。
- 22スタイル（ラガー、ブロンド、トリペル等）
- 250種類の市販のビール
- 200以上の化合物
- 16人の専門家によって定義された官能評価 (Fig.1)
- 180,000件を超える消費者レビュー

評価指標

Fig.1 では化合物同士の含有量の相関、官能試験の項目同士の相関が可視化されている。
Fig.2 では化合物の含有量と官能評価の相関が可視化されている。
Fig.3 で、消費者レビューでのスコアと専門家による官能評価のスコアの相関を確認。
説明変数：化学的な性質→目的変数：官能評価スコアを用いた機械学習モデルを複数構築。予測スコアと実際のスコアの間の決定係数（R2）を指標とし、勾配ブースティングモデルがベストなものとして選択された (Table 1)。
Feature importance, SHAPを用いて重要な化学的性質をリストアップ (Fig.4)。
これらの物質が実際に美味しさに効いているのか？を検証 (Fig.5)。
- 単一の化合物だけを入れてもバランスが崩れると想定される→相関する化合物の濃度も同時に調整
  - 同じビールスタイルの平均エタノール量を基準に正規化→該当化合物の含有量を95パーセンタイルまで引き上げた。
- 結果、手を加えたビール (Spiked, 濃い赤) が通常のものよりも高い評価を受けた。
  - この評価はノンアルコールビールでも再現された！

残された課題・議論・感想

ベルギー国内の市販ビールのデータを基にしているため、一部のビールのスタイルが書けていたり、消費者の特性に偏りがあったりする可能性がある。
勾配ブースティング・SHAPを基準とした化合物選択では、実際に美味しさに効く要素ではなく、それと相関が高い要素が抽出されているだけの可能性がある。
ビールのスタイルや消費者の背景情報など、モデルの性能をさらに向上させる可能性のある要素や、今のデータセットに含まれないニッチな製品の評価要素を今後深堀りしていきたいと議論されている。

相互作用の評価においては、あくまで相関が高かった化合物を同時に増やしているだけであり、化合物の相互作用そのものが見つけられたわけではない点も注意が必要だろう。

Abstract

The advancement of natural language processing (NLP) has been significantly boosted by the development of transformer-based large language models (LLMs). These models have revolutionized NLP tasks, particularly in code generation, aiding developers in creating software with enhanced efficiency. Despite their advancements, challenges in balancing code snippet generation with effective test case generation and execution persist. To address these issues, this paper introduces Multi-Agent Assistant Code Generation (AgentCoder), a novel solution comprising a multi-agent framework with specialized agents: the programmer agent, the test designer agent, and the test executor agent. During the coding procedure, the programmer agent will focus on the code generation and refinement based on the test executor agent's feedback. The test designer agent will generate test cases for the generated code, and the test executor agent will run the code with the test cases and write the feedback to the programmer. This collaborative system ensures robust code generation, surpassing the limitations of single-agent models and traditional methodologies. Our extensive experiments on 9 code generation models and 12 enhancement approaches showcase AgentCoder's superior performance over existing code generation models and prompt engineering techniques across various benchmarks. For example, AgentCoder achieves 77.4% and 89.1% pass@1 in HumanEval-ET and MBPP-ET with GPT-3.5, while SOTA baselines obtain only 69.5% and 63.0%.

(DeepL翻訳)

自然言語処理（NLP）の進歩は、変換器ベースの大規模言語モデル（LLM）の開発によって大きく後押しされてきた。これらのモデルは、特にコード生成における自然言語処理タスクに革命をもたらし、開発者が効率的にソフトウェアを作成できるようにしました。その進歩にもかかわらず、コード・スニペット生成と効果的なテスト・ケース生成および実行のバランスをとる上での課題は依然として残っている。これらの問題に対処するために、本論文では、プログラマエージェント、テスト設計者エージェント、およびテスト実行者エージェントという特化したエージェントを持つマルチエージェントフレームワークからなる新しいソリューションである、マルチエージェントアシスタントコード生成（AgentCoder）を紹介します。コーディング手順の間、プログラマエージェントは、テスト実行者エージェントのフィードバックに基づいて、コードの生成と改良に集中します。テスト設計エージェントは、生成されたコードのテストケースを生成し、テスト実行エージェントは、テストケースを使用してコードを実行し、プログラマにフィードバックを書き込みます。この協調システムは、単一エージェントモデルや伝統的な方法論の限界を超え、ロバストなコード生成を保証する。9つのコード生成モデルと12の機能強化アプローチに関する広範な実験により、AgentCoderが既存のコード生成モデルやプロンプトエンジニアリング手法よりも優れた性能を持つことが、さまざまなベンチマークで実証されています。例えば、GPT-3.5を使用したHumanEval-ETとMBPP-ETにおいて、AgentCoderは77.4%と89.1%のpass@1を達成しました。

コード

https://github.com/huangd1999/AgentCoder

解決した課題/先行研究との比較

LLMの登場により自然言語処理タスクの大幅な性能向上が達成され、その流れの一つとして、LLMにコードを書かせるという挑戦が進められている。
一つの効果的なアプローチとして、self-refinementが報告されていた。
- Zhang et al., 2023 では、人が用意したテストケースを生成コードがクリアできなかった場合、Self-Editプロンプトがコードを書き直す仕組みを提案。
- Huang et al., 2023はLLMにテストケースも書かせる仕組み CodeCoT を提案。
一方で、課題として以下が挙げられている。
- 人がテストケースを生成する場合は専門知識が必要となる。
- LLMに生成させる場合は、トークン数・計算量の制限から、コードが複雑になるとテストが単純になってしまうトレードオフがあった。
- また、LLMは直前に生成したコード（会話の文脈）からバイアスを受けるため、テストの客観性や多様性が欠如していた。
本論文ではコード生成とテストケース生成を独立したエージェントに担当させることで、一つのエージェントが両方のタスクを処理することによる弊害を克服。これにより、テストケースの品質と客観性が向上し、コード生成の精度も改善された。

技術・手法のポイント

3つのエージェント、プログラマエージェント、テスト設計エージェント、およびテスト実行エージェントを設計。Fig.1のように接続。
プログラマエージェントは Chain-of-Thought アプローチで典型的なプログラミングプロセスをシミュレートし、コードを生成する。
- 課題理解→手法選択→擬似コードの作成→コード作成の4ステップ
テスト設計エージェントはプロンプトエンジニアリングで以下の3つを満たすテストを設計できるLLMエージェントとして構築。
1. 基本的なテストケース
2. エッジケース
3. 入力のスケールが巨大なケース
テスト実行エージェントはLLMではなく単なるPythonスクリプト。前述の2エージェントの生成物を実行。
- 全テストケースをクリア→完成と判断
- クリアできないテストがあった→プログラマエージェントにテストケースとエラーメッセージをフィードバック
プログラマエージェントはテスト実行エージェントからのフィードバックをうけとり、再度コードを生成する。

評価指標

pass@1 をコード生成の評価指標として使用。
- 「モデルが生成した最初のコードがテストケースを通過する割合」と定義されるが、ここでいうテストケースは「データセットごとに設定されたテストケース」であり、「テスト設計エージェントが生成したテスト」とは別。「テスト設計エージェントが生成したテストをすべてクリアしたコードが、データセットに設定されたテストケースを1発でクリアできる割合」がpass@1のスコアになる。
- AgentCoderは最大5回のフィードバックループを回している (Section 4.4)。
4つのデータセット (HumanEval, HumanEval-ET, MBPP, MBPP-ET) で先行研究と提案手法を評価。GPT-3.5やGPT-4を用いたときは8割を超える精度が出ている (Table 2)。

複数エージェントに分ける有用性も定量評価 (Tables 6-8)。

残された課題・議論・感想

実行時間や必要リソースは単一エージェントのときよりも大きくなる点に注意が必要。
今回評価に用いられたHumanEvalとMBPPは課題ごとに2, 3のテストケースしか用意されていない。実運用上で想定されうるテストケースを網羅できているわけではないので、「完全に動くものができた」とは言い切れない。
- これはAgentCoderに限らず、他のコード生成フレームワークでも同じ話。
本論文ではフィードバックループは最大5回まで検証されている。何回くらいループを回すと精度向上がプラトーに達するのかは気になるところ。
- おそらくプラトーに達するところで（人の手でLLMにコード生成を頼むときに頻繁に起こる）「いつまでも同じエラーにハマり続ける現象」に陥っているのではと想像される。「◯回目以降のループではフィードバックのスタイルを変える」ような仕組みも作ってやれば、さらに精度向上が見込めないだろうか。

重要な引用

コード生成に関する基本的な技術とアプローチ
- Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, and Ming Zhou. Code- BERT: A pre-trained model for programming and natural languages. In Findings of the Association for Computa- tional Linguistics: EMNLP 2020, pages 1536–1547, On- line, November 2020. Association for Computational Lin- guistics.
- Yue Wang, Weishi Wang, Shafiq Joty, and Steven C.H. Hoi. Codet5: Identifier-aware unified pre-trained encoder-decoder models for code understand- ing and generation. In EMNLP, 2021.
Self-refinementアプローチの先行研究
- Kechi Zhang, Zhuo Li, Jia Li, Ge Li, and Zhi Jin. Self-edit: Fault-aware code editor for code generation. ArXiv, abs/2305.04087, 2023.
- Dong Huang, Qi Bu, and Heming Cui. Codecot and beyond: Learning to program and test like a developer. ArXiv, abs/2308.08784, 2023.
- 等

Abstract

Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2％ versus 49.0％. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3％ to 35.7％, and PaLM 540B on MATH with a score of 20.4％ versus 8.8％. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6％ and 52.9％. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community1.

(DeepL翻訳)

情報の過多は、科学の進歩の大きな障害となっている。科学文献やデータの爆発的な増加により、大量の情報の中から有用な知見を発見することがますます困難になっている。今日、科学的知識は検索エンジンによってアクセスされるが、検索エンジンだけでは科学的知識を整理することはできない。本論文では、Galacticaを紹介する：科学的知識を保存、結合、推論することができる大規模言語モデルである。我々は、論文、参考資料、知識ベース、その他多くのソースからなる大規模な科学コーパスで学習を行う。我々は、様々な科学的タスクにおいて、既存のモデルを凌駕する性能を発揮する。LaTeX方程式などの技術的な知識に関するプローブでは、最新のGPT-3に対して68.2%対49.0%という高い性能を示しました。推論についても、数学的MMLUでChinchillaを41.3％対35.7％、MATHでPaLM 540Bを20.4％対8.8％と上回り、高い性能を発揮しました。また、PubMedQAやMedMCQAなどの下流タスクにおいても、それぞれ77.6％、52.9％のスコアを獲得し、最新鋭の技術を確立しています。また、Galacticaは一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175Bを上回る性能を発揮しています。これらの結果は、科学の新しいインターフェースとしての言語モデルの可能性を示していると考えています。我々は、科学コミュニティの利益のために、このモデルをオープンソース化します1。

コード

https://galactica.org/
- 2022/11/18 (公開から3日後)に、「出力結果に間違いが多い」ということでデモが非公開に (残された課題・議論項参照)
https://github.com/paperswithcode/galai

解決した課題/先行研究との比較

科学的知識へのアクセスは保存（論文やデータベース化）と検索のパラダイムが主流であった
しかしながら、最近の科学的知識の集積速度は一人の人間が処理できる速度を有に超えている
- 例えば、arXivには1日あたり平均516報の投稿があった (2022/5集計)
知識の集積は人が総説論文を書いたり、記事にまとめたり、データベースにアノテーションを付けたりといったことをしている = 人手による作業が知識の集積のボトルネック
本論文はGalactica (GAL) という大規模言語モデルを開発し、科学的知識の自動集積を試みた
- 総説、百科事典の記事、講義ノートなどといった「知識の集積」を自動的に生成できる！
- 論文とコード、タンパク質配列と化合物、理論とLaTeXなど、複数のモダリティにまたがった出力ができる！

技術・手法のポイント

モデルのアーキテクチャはデコーダのみのTransformerをベースにしている。 (本文4.1 Architecture項参照)
モデルのパラメータ数は最大のもので1200億
- GPT-3より少ない
4800万件の論文、コード、教科書、講義ノート、数百万件の化合物・タンパク質データ、科学ウェブサイト、百科事典などといった「科学的知識データ」で学習
- = ある程度クオリティコントロールされたデータのみを学習に使っている
こうしたデータにタスク固有のトークンと引用を示すトークンをつける
- 例えばタンパク質については Fig.1
- 1行1行計算を進めていくような課題は、ワーキングメモリを意味するトークンで包む。例が Fig.3
  - これにより「自然言語の問題文から数式・コードを作る方法」を学習
また、事前学習の段階でデータにプロンプト (指示文) も含めて学習させた
- 事前学習データの補強
- 質疑応答や要約のような一般的なタスクをモデルのユーザーがすぐに (Fine-tuningの手間を少なく) 実行できるように
- タスクのパフォーマンスを向上
  - プロンプトのチューニング (Wei et al., 2021；Sanh et al., 2021；Chung et al., 2022) や質疑応答文章の学習 (Khashabi et al., 2020)が性能を高めることは知られていた

評価指標

一般的なコーパスで学習していないにもかかわらず、BIG-benchにおいてBLOOMやOPT-175B ( Zhang et al., 2022)を上回る性能を発揮
数学的MMLUにおいて、平均スコア41.3％対35.7％でChinchilla (Hoffmann et al., 2022) を上回った
MATHでは、120BモデルがPaLM 540B (Chowdhery et al., 2022) の8.8％に対し、20.4％のスコアを達成
- また、Galacticaはパラメータ数300億で、PaLM (パラメータ数5400億) よりも優れたスコアを示した
LaTeXの数式処理では、GPT-3 (Brown et al., 2020) の49.0%に対し、Galacticaは68.2%のスコアを達成
PubMedQA (77.6％) やMedMCQA dev (52.9％) などの下流の科学的タスクでもSoTAを達成した
- 他の指標ではChinchillaに負けているもの多し
化学式の命名法則IUPACの学習もできた (と書いているが Accuracy 39%)
タンパクの配列予測や機能キーワードの推論でもある程度の精度を示した

上記はSoTAレベルに到達したものの話。他にも様々な課題に取り組まれており、例えばチェスをしたりもしている。

残された課題・議論

データセットの偏り
- 論文はオープンアクセスのものしか参照していない
- 分子やタンパクなどもある閾値で集めるデータを絞っている
- (人為的に偏った) 学習データの集め方が原因で、出力結果にも偏りがあるかもしれない
アウトプットされた内容にはかなり間違いを含む。一方、その形は非常に「それっぽい」ので、読む側が正しい知識を持っていないと簡単に騙されそう。
- 「嘘を嘘と見抜けない人には難しい」がさらに難易度を上げてやってきた感じ。
- 実際の利用シーンとしては「知らないこと」を調べるために使いたいので、この課題は今後の解決が強く待たれる。
- すでに色々と物議を醸している
- 科学的知識の正しさを定量的に評価する指標がないというのも、この論文を通して明確になった課題かもしれない。

技術的には、こうした実装でこれだけの知識を集約でき、これだけのものが生成できる事実がとてもおもしろく、意義深いものであるのは間違いない。
一方で、非常にキャッチーな技術であるだけに、デモの一般公開 + 今回の喧伝の仕方は少し勇み足だったのかもしれない。

重要な引用

2 Related Work の項目で、本論文でGalacticaが取り組んだ各タスクでどのようなアプローチがこれまで取られてきたかが列挙されている。
「計算機による科学的知識の集積のサポート」というアイデアを出した古い記事
- Bush, Vannevar. 1945. “As We May Think.” Atlantic Monthly 176 (July): 101–8.
- Licklider, J. C. R. 1960. “Man-Computer Symbiosis.” IRE Transactions on Human Factors in Electronics HFE-1 (1): 4–11.
プロンプトを事前学習に含めるというアイデアの由来
- Wei, Jason, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2021. “Finetuned Language Models Are Zero-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2109.01652.
- Sanh, Victor, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, et al. 2021. “Multitask Prompted Training Enables Zero-Shot Task Generalization.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2110.08207.
- Chung, Hyung Won, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, et al. 2022. “Scaling Instruction-Finetuned Language Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2210.11416.
- Khashabi, Daniel, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. 2020. “UnifiedQA: Crossing Format Boundaries With a Single QA System.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2005.00700.
ライバルモデル
- BLOOM
- OPT-175B
  - Zhang, Susan, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, et al. 2022. “OPT: Open Pre-Trained Transformer Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2205.01068.
- Chinchilla
  - Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, et al. 2022. “Training Compute-Optimal Large Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2203.15556.
- PaLM 540B
  - Chowdhery, Aakanksha, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, et al. 2022. “PaLM: Scaling Language Modeling with Pathways.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2204.02311.
- GPT-3
  - Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.

Abstract

The introduction of large language models has significantly advanced code generation. However, open-source models often lack the execution capabilities and iterative refinement of advanced systems like the GPT-4 Code Interpreter. To address this, we introduce OpenCodeInterpreter, a family of open-source code systems designed for generating, executing, and iteratively refining code. Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions, OpenCodeInterpreter integrates execution and human feedback for dynamic code refinement. Our comprehensive evaluation of OpenCodeInterpreter across key benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6) with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap between open-source code generation models and proprietary systems like GPT-4 Code Interpreter.

(DeepL翻訳)

大規模な言語モデルの導入により、コード生成が大幅に進歩した。しかし、オープンソースのモデルは、GPT-4コード・インタープリタのような先進的なシステムの実行機能や反復的な改良に欠けていることが多い。この問題に対処するために、我々はOpenCodeInterpreterを紹介する。OpenCodeInterpreterは、コードの生成、実行、反復的な改良のために設計されたオープンソースのコードシステム・ファミリーである。OpenCodeInterpreterは、6万8千のマルチターン相互作用を含むデータセットであるCode-Feedbackによってサポートされ、実行と人間のフィードバックを統合して、ダイナミックなコード改良を行う。OpenCodeInterpreterをHumanEval、MBPP、およびEvalPlusの強化バージョンなどの主要なベンチマークで包括的に評価したところ、その卓越した性能が明らかになりました。特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均（およびプラスバージョン）で83.2 (76.4)の精度を達成し、GPT-4の84.2 (76.2)に匹敵し、GPT-4から合成された人間のフィードバックでさらに91.6 (84.6)まで上昇しました。OpenCodeInterpreterは、オープンソースのコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリなシステムとの間のギャップを解消します。

コード

https://opencodeinterpreter.github.io/

解決した課題/先行研究との比較

様々なオープンソースのコード生成モデルが開発されてきている。
先行研究はコードの実行機能を持たないものが多く、生成されたコードの実際の実行やその結果に基づいてコードを評価・修正する機能は限られていた。
本論文ではコードの実行と反復的なコードの精緻化の機能を統合したOpenCodeInterpreterシステムを提案。

技術・手法のポイント

反復的なコードの精緻化を学習させるため、Code-Feedback データセットを作成
- 68,000件
- 現実のニーズにあった課題
- 人とコード、コンパイラ間の複数回の往復
  - 往復のデータセットとすることで、コードの実行結果だけでなく、それに対する人による改善案も含めることができた。
  - 人の助言の大部分はGPT-4を用いてのシミュレート
    - (51,000件シミュレート例を作ったと記載があるが、それらをすべてデータセットに含めたのかが明確でない)
- 各回答には自然言語とコードの両方を含む
- GPT-4に意図的に間違ったコードを500パターン生成させて、その実行結果をデータセットに加えたことで、動くコードの生成と動かないコードの修正の両方を学習できた

評価指標

上記のデータセットを用いて特定の言語モデルをfine-tuning
- 論文中では CodeLlama と DeepSeekCoder がベースとなっている
下図はTable 1 より一部を抜粋。実際は下にスケールの大きなモデルの結果が続く。
プログラミングタスクであるHumanEval及びMBPP (Mostly Basic Python Problems) で性能を評価
4パターンの評価
- Single-turn: 一発生成
- Excecution Feedback: 実行結果をフィードバック→再生成
- Synth: Human Feedback: 実行結果に加え、GPT-4に人っぽい入力を生成させてフィードバック→再生成
- Synth: Human... (Oracle): 動くコード = 答えを知っているGPT-4にフィードバック文を生成させる→再生成
フィードバックを加えた場合にGPT-3.5 Turbo並み〜GPT-4 Turboに迫る性能を発揮

残された課題・議論・感想

言語の得意不得意やドメイン知識の偏りがあるかもしれない。
ユーザーの意図を理解できるかどうかは基本となるモデルとCode-Feedbackデータセットに含まれる依るため、意図が非常に複雑な場合は対応できないかもしれない。

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

Lewis Mike, Liu Yinhan, Goyal Naman, Ghazvininejad Marjan, Mohamed Abdelrahman, Levy Omer, Stoyanov Ves, Zettlemoyer Luke. 2019. “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension.” arXiv [cs.CL]. arXiv. https://arxiv.org/abs/1910.13461.

自然言語生成、翻訳、理解のための事前学習済み言語モデル BART (Bidirectional and Auto-Regressive Transformer) を提案。
BERTで用いられた Masked Language Model (MLM) を拡張し、言語理解などにも適用できるように。
BERTの双方向TransformerとGPTの自己回帰Transformerを組み合わせ、Sequence-to-Sequence (Seq2Seq) の形にしたもの。
柔軟なノイズ関数が適用可能になり、より汎用的な学習が可能。
少ないデータと計算で新しいタスクに対してFine-Tuningが可能。
多様な文章を生成できるようになった。

Abstract

We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-based neural machine translation architecture which, despite its simplicity, can be seen as generalizing BERT (due to the bidirectional encoder), GPT (with the left-to-right decoder), and many other more recent pretraining schemes. We evaluate a number of noising approaches, finding the best performance by both randomly shuffling the order of the original sentences and using a novel in-filling scheme, where spans of text are replaced with a single mask token. BART is particularly effective when fine tuned for text generation but also works well for comprehension tasks. It matches the performance of RoBERTa with comparable training resources on GLUE and SQuAD, achieves new state-of-the-art results on a range of abstractive dialogue, question answering, and summarization tasks, with gains of up to 6 ROUGE. BART also provides a 1.1 BLEU increase over a back-translation system for machine translation, with only target language pretraining. We also report ablation experiments that replicate other pretraining schemes within the BART framework, to better measure which factors most influence end-task performance.

(DeepL翻訳)

本論文では、sequence-to-sequenceモデルを事前学習するためのノイズ除去オートエンコーダBARTを紹介する。BARTは、(1)テキストを任意のノイズ関数で汚染し、(2)元のテキストを再構築するモデルを学習することにより、学習される。BARTは標準的なTranformerベースのニューラル機械翻訳アーキテクチャを使用しており、その単純さにもかかわらず、BERT（双方向エンコーダによる）、GPT（左から右へのデコーダによる）、および他の多くの最近の事前学習スキームを一般化していると見なすことができる。我々は様々なノイズ除去方式を評価し、元の文の順番をランダムに入れ替える方式と、テキストを一つのマスクトークンに置き換える新しいインフィリング方式の両方によって、最高の性能を見つけることができた。BARTは、テキスト生成のために微調整された場合に特に効果的であるが、理解タスクにも有効である。GLUEやSQuADと同等の学習資源を持つRoBERTaと同等の性能を持ち、抽象的な対話、質問応答、要約タスクにおいて、最大6ROUGEの利得を持つ新しい最先端結果を達成しました。また、BARTは機械翻訳のバックトランスレーションシステムに対して、目標言語の事前学習のみで1.1BLEUの向上を実現しています。また、BARTのフレームワークで他の事前学習スキームを再現したアブレーション実験も報告し、エンドタスクの性能に最も影響を与える要因をより適切に測定しています。

コード

https://github.com/facebookresearch/fairseq/tree/main/examples/bart

解決した課題/先行研究との比較

2019年時点、NLPタスクにおいて、Masked Language Model (MLM) による自己教師あり学習手法は著しい成功を収めているが、特定のタスクにのみフォーカスしていた。
- 文中の、ある単語（単語系列）の予測。
- 文章の自動生成。
BERT
- 双方向Transformer。
- 文中のランダムにマスクされた単語を予測するタスク。
- マスクの左右の単語を考慮できる。
- Q&Aや文の比較は得意だが、文章生成は苦手。
GPT
- 自己回帰Transformer。
- ある単語の次の単語を予測するタスク。
- 自己回帰モデルの時系列を考慮した文章生成や要約が得意。
- 一方、単語の左側の単語しか考慮できないため、質問応答や文章全体の比較に課題あり。
より汎用的なタスクに適応できるモデル開発を目指し、本稿ではBERTとGPTを組み合わせたアーキテクチャ BART (Bidirectional and Auto-Regressive Transformer) を提案。
- Sequence-to-Sequence (Seq2Seq) のモデルとして、自然言語生成、翻訳、言語理解といったタスクに適用可能に。
  - Seq2Seq: EncoderとDecoderを主要コンポーネントとして持ったアーキテクチャで、文章を入力に、文章を出力する。機械翻訳や文章要約、対話生成などの託すに利用されている。

技術・手法のポイント

BARTでは、次の手順で自己教師ありの事前学習を行う。

学習文書に対して任意のノイズ関数を適用し、破損した文章データを作成する。
破損した文書に対して、双方向Transformerと自己回帰Transformerを組み合わせたSeq2SeqのTransformerモデルを用い、破損文章の再構築を学習する。

破損した文章データは以下の手法を比較した。

Token Masking
- 入力文章中のランダムなトークンをマスクトークンへ置換（BERTを踏襲）。
Token Deletion
- 入力文章中のランダムなトークンを削除。
- マスクへの置換と異なり、モデルはどの位置のトークンが削除されたかを示す必要がある。
Text Infilling
- 入力文章からサンプリングした複数のスパンをマスクトークンへ置換。
- サンプリングのスパン長はポアソン分布(λ = 3)より決定。
- サンプリングが長さ0の場合、単純なマスクトークンの挿入となる。
- SpanBERTからインスパイアされた。
Sentence Permutation
- 入力文章を句点で区切って文の系列に変換し、その順序をランダムに入れ替える。
Document Rotation
- 入力文章中のランダムなトークンが先頭になるように、文章を回転させる。
- このタスクによって、文章の開始の判別が学習される。

加えて、以下のようなFine-Tuningを施すことでタスクに特化させた。

Sequence Classification Tasks（文の分類）
- Fig. 3aを参照。
- 分類する文をエンコーダとデコーダの両方に入力。
- デコーダの最終出力を分類器の学習に入力。
Token Classification Tasks（単語の分類）
- SQuADのような、トークン分類タスク。
- 質問文の全体を結合し、エンコーダとデコーダの両方に入力。
- デコーダ最終層の隠れ層における各トークンにあたる値を単語の表現とする。
Sequence Generation Tasks（文の生成）
- BARTは自己回帰デコーダを備えているため、単体で要約文生成などの文章生成タスクが可能。
- 入力文章をエンコーダに与え、デコーダによって文章の自動生成を行う。
Machine Translation（機械翻訳）
- Fig. 3bを参照。
- 多言語で学習されたエンコーダを追加することで、BARTモデルを機械翻訳の事前学習済みデコーダとして用いることができる。
- BARTのエンコーダ部の埋め込み層を異なるエンコーダ(source encoder)に置き換える。
- 2ステップの学習
  a. source encoder、positional embedding層、self-attentionのBARTモデルの最初のprojection行列のみを更新する。
  b. 小規模なイテレーションで全体のパラメータを更新する。

評価指標

まず、上述の事前学習手法の比較を行った。

SQuAD, MNLI, ELI5, XSum, ConvAI2, CNN/DMのタスクで比較し、いくつかのタスクでstate-of-the-artを出した。

そこから次のような知見が得られた。

タスクによって精度は大きく左右される。
単語のマスキングは不可欠。
Left-to-Rightの事前学習手法は文章生成タスクに有効。
双方向エンコーダはSQuADタスクに不可欠。
事前学習で設定した目的だけが重要なファクターではない。
BARTはELI5以外のタスクでより高い精度を示した。

次に、RoBERTa modelと同じスケールでBARTモデルの事前学習を行った。

その際、事前学習にはtext infillingとsentence permutationを使用。

分類タスク（Tab. 2）では、RoBERTaとおよそ同程度の精度が示された。

要約の生成タスク（Tab. 3）では、CNN/DailyMailとXSumのデータセットで学習を行った。
いずれのタスクにおいてもBARTは高いスコアを出している。

以上より、BARTを用いることで、多様で一貫性のあるテキストを生成することができた。

残された課題・議論

将来的に次を検討する。

新しい文章のノイズ適用手法による事前学習の検討。
特定のエンドタスクに合わせた調整。

重要な引用

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. “BERT: Pre-training of deep bidirectional transformers for language understanding.“ In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1, pp. 4171–4186. Association for Computational Linguistics. https://www.aclweb.org/anthology/N19-1423.

Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. “Improving language understanding by generative pre-training.“

参考情報

Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity

Lu, Yao, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp. 2022. “Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity.” In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 8086–98. Dublin, Ireland: Association for Computational Linguistics.

https://aclanthology.org/2022.acl-long.556/

ACL 2022 の Outstanding Paper
GPTなどの大規模言語モデルでは、プロンプトに解かせたいタスクの例を数個見せるだけでそのタスクに対応できるようになる "In-context learning" という手法が使える
しかし、In-context learningではプロンプトに与える例の順番によって、タスク回答の精度が大きく変わってしまうという課題があった
本論文は「追加のラベルなしに」「自動的に」例提示の順番を決める手法を提案。

Abstract

When primed with only a handful of training samples, very large, pretrained language models such as GPT-3 have shown competitive results when compared to fully-supervised, fine-tuned, large, pretrained language models. We demonstrate that the order in which the samples are provided can make the difference between near state-of-the-art and random guess performance: essentially some permutations are “fantastic” and some not. We analyse this phenomenon in detail, establishing that: it is present across model sizes (even for the largest current models), it is not related to a specific subset of samples, and that a given good permutation for one model is not transferable to another. While one could use a development set to determine which permutations are performant, this would deviate from the true few-shot setting as it requires additional annotated data. Instead, we use the generative nature of language models to construct an artificial development set and based on entropy statistics of the candidate permutations on this set, we identify performant prompts. Our method yields a 13% relative improvement for GPT-family models across eleven different established text classification tasks.

(DeepL翻訳)

ほんの一握りの学習サンプルで呼び出された場合、GPT-3のような非常に大規模で事前学習済みの言語モデルは、完全教師あり、微調整された大規模で事前学習済みの言語モデルと比較して、競争力のある結果を示しています。我々は、サンプルの提供順序によって、最先端技術に近い性能とランダムな推測性能の差が生じることを実証しています。この現象を詳細に分析し、次のことを確認した：モデルサイズに関係なく存在すること（現在の最大モデルでさえ）、サンプルの特定のサブセットに関係しないこと、あるモデルにとって良い順列は他のモデルには移植できないこと。どの順列が良いかを決定するために開発セットを使用することもできますが、これは注釈付きデータを追加する必要があるため、真の少数精鋭の設定から外れてしまいます。その代わりに、我々は言語モデルの生成的性質を利用して人工的な開発セットを構築し、このセット上の順列候補のエントロピー統計に基づき、パフォーマンスの高いプロンプトを特定する。本手法は、11種類の確立されたテキスト分類タスクにおいて、GPTファミリーのモデルに対して13%の相対的な改善をもたらす。

コード

https://github.com/chicagohai/active-example-selection

解決した課題/先行研究との比較

GPTファミリーに代表されるような大規模な言語モデルにおいては、モデルのパラメータの微調整なしで、プロンプトとして対象タスクの例をいくつか提示すれば新しいタスクに対応できる "In-context Learning" という手法が使える (Brown et al., 2020).
しかし、プロンプトに提示する例の順番によって、性能が大きく変わってしまうという問題があった。
- 同じデータセットでもこれくらいばらつく↓
この課題を解決するために、「追加のラベルなしに」「自動的に」例提示の順番を決める手法を提案。

技術・手法のポイント

まず、様々なモデルやパラメータ数で実験を行い、何が起こっているのかを探求
- モデルが巨大になってもこの問題は解決しない
- 同じ順番で例を与えても、モデルによって精度が出る場合・出ない場合がある
- モデルが同じでも、パラメータ数が変わると、また精度が変わる
In-context Learningがうまく行えていないときは、予測ラベルに偏りがあることがわかった (Fig.6)
- この偏りが評価指標と使えるのではないか？ と著者らは考えた。
この仮説検証のため、以下のアプローチをとった
- (i) 学習例をランダムに選択、これらの順序並べ替え全てを候補プロンプトとして使用。
- (ii)すべての候補プロンプトを使用して言語モデルに in-context learningを行わせる。
- (iii) 以下の評価指標を用いランク付け。最適順序を特定する。

評価指標

Global Entropy
- 極端に偏った予測をする候補プロンプトの識別。
Local Entropy
- 入力に対しての回答の確度が、全ての入力に対して高すぎると、それはそれで怪しいのでは？という発想。
文章の分類タスクでGlobal Entropy基準で選んだ候補プロンプトは平均13%, Local Entropy基準で選んだものは平均9.6%の改善が見られた。
異なるモデルや異なるタスクにおいても同様のアプローチを取れば、一貫して改善が見られた。

残された課題・議論

Liu et al., 2020では、プロンプトに与える例を適切に選べば順序は関係ないという結論が出されている。この矛盾（のように見える結論）の解釈は解決されているのだろうか？

重要な引用

大規模言語モデル
- Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
  - GPT-2
- Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems.
  - GPT-3
In-context learningについて
- Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems.
  - GPT-3の論文
プロンプトの順序が精度に与える影響について
- Gao, Tianyu, Adam Fisch, and Danqi Chen. 2020. “Making Pre-Trained Language Models Better Few-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2012.15723.
プロンプトに与える例を自動で決める方法
- Liu, Jiachang, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen. 2021. “What Makes Good In-Context Examples for GPT-3?” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2101.06804.
  - この論文での結論は「順序は関係ない」だった。
プロンプトの設計の工夫で精度をあげようという仕事
- Schick, Timo, and Hinrich Schütze. 2020. “It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2009.07118.
- Gao, Tianyu, Adam Fisch, and Danqi Chen. 2020. “Making Pre-Trained Language Models Better Few-Shot Learners.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2012.15723.
- Shin, Taylor, Yasaman Razeghi, Robert L. Logan IV, Eric Wallace, and Sameer Singh. 2020. “AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2010.15980.
- Jiang, Zhengbao, Frank F. Xu, Jun Araki, and Graham Neubig. 2020. “How Can We Know What Language Models Know?” Transactions of the Association for Computational Linguistics 8: 423–38.

Synthetic Data from Diffusion Models Improves ImageNet Classification

Azizi, Shekoofeh, et al. “Synthetic Data from Diffusion Models Improves ImageNet Classification.” arXiv [cs.CV], 17 Apr. 2023, http://arxiv.org/abs/2304.08466. arXiv.

深層生成モデルで生成したデータを学習に用いることで、画像分類の精度が向上したと報告。
生成モデルが data augmentation に使えることを支持する一例。（ただし、あくまで画像分類での話）

Abstract

Deep generative models are becoming increasingly powerful, now generating diverse high fidelity photo-realistic samples given text prompts. Have they reached the point where models of natural images can be used for generative data augmentation, helping to improve challenging discriminative tasks? We show that large-scale text-to image diffusion models can be fine-tuned to produce class conditional models with SOTA FID (1.76 at 256x256 resolution) and Inception Score (239 at 256x256). The model also yields a new SOTA in Classification Accuracy Scores (64.96 for 256x256 generative samples, improving to 69.24 for 1024x1024 samples). Augmenting the ImageNet training set with samples from the resulting models yields significant improvements in ImageNet classification accuracy over strong ResNet and Vision Transformer baselines.

(DeepL翻訳)

深層生成モデルはますます強力になってきており、現在では、テキストプロンプトが与えられると、多様で忠実度の高いフォトリアリスティックサンプルを生成する。自然画像のモデルを生成的データ補強に使用し、困難な識別タスクの改善に役立てることができるところまで来ているのだろうか？我々は、SOTAのFID（256x256の解像度で1.76）とInception Score（256x256で239）を持つクラス条件付きモデルを生成するために、大規模なテキストから画像への拡散モデルを微調整できることを示す。このモデルはまた、分類精度スコアにおいて新しいSOTAをもたらします（256x256の生成サンプルで64.96、1024x1024のサンプルで69.24に改善）。得られたモデルのサンプルでImageNetトレーニングセットを補強することで、強力なResNetとVision TransformerのベースラインよりもImageNetの分類精度が大幅に向上します。

コード

本記事作成時点ではコードは公開されていない。

解決した課題/先行研究との比較

深層生成モデルが作り出す画像のクオリティがどんどん高くなっている。
生成モデルはdata augmentationに使えるほど自然な画像を作り出すことができるのだろうか？ を検証した。

技術・手法のポイント

Text-to-Imageの拡散モデル Imagen をImageNetのデータセットでFine-tuning.
ImageNetに含まれる分類ごとに、分類の割合のバランスを保ちながら画像を生成。
生成された画像をImageNetのデータセットに加え、各種分類モデルに学習させた。

評価指標

生成モデルによるdata augmentation 有り/無しでfine-tuning → 分類タスクを解かせた。
分類精度はFrechet Inception Distance (FID) と Inception Score (IS) で評価。
結果、ResNet, Transformerベースのモデルでは分類精度の向上が見られた (Fig.1)。
生成された画像のサイズが大きいほど、精度改善効果も高い (Fig.6)
一方、学習に追加した生成画像の枚数を増やしすぎると精度が低下しだした (Table 4)。

残された課題・議論・感想

生成画像の枚数を増やしすぎると精度が下がることについては、生成される画像の内容に偏りがあるせいではと議論されている。
- では、どのような生成画像を作り出せばよいか、生成画像を学習させる方法に工夫ができないかというところが今後の課題。

画像以外のタスクで似たようなことをやるとどうなるのかは興味がある。
元のデータに含まれる画像の特徴にオーバーフィッティングしそうな気もするし、それが大きな問題にならないのは画像分類という多少細部が異なっていても許されることの多いタスクだからではないだろうか。
Adversarial Random Forest のようなテーブルデータを生成する手法もあるが、本論文の結果を持って「画像分類以外のタスクでも生成モデルがAugmentationに使える」と結論づけるのは早計だろう。（もちろん、手法の限界を正しく理解して使えば問題ないと思う。）

重要な引用

Imagen
- Saharia, Chitwan, et al. “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding.” arXiv [cs.CV], 23 May 2022, http://arxiv.org/abs/2205.11487. arXiv.

Improving Language Models by Retrieving from Trillions of Tokens

Borgeaud, Sebastian, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, et al. 2021. “Improving Language Models by Retrieving from Trillions of Tokens.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2112.04426.

何兆ものトークンを持つデータベースから検索しながら、任意のテキストをモデル化する "Retrieval-Enhanced Transformer (RETRO)" という手法を提案。
記憶を外部のデータソースに頼ることで、25倍規模のパラメータ数を持つモデルと同等の性能を得ることができた。
「セミパラメトリック」なアプローチの有用性を示した。

Abstract

We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a 2 trillion token database, our Retrieval-Enhanced Transformer (Retro) obtains comparable performance to GPT-3 and Jurassic-1 on the Pile, despite using 25x fewer parameters. After fine-tuning, Retro performance translates to downstream knowledge-intensive tasks such as question answering. Retro combines a frozen Bert retriever, a differentiable encoder and a chunked cross-attention mechanism to predict tokens based on an order of magnitude more data than what is typically consumed during training. We typically train Retro from scratch, yet can also rapidly Retrofit pre-trained transformers with retrieval and still achieve good performance. Our work opens up new avenues for improving language models through explicit memory at unprecedented scale.

(DeepL翻訳)

我々は、大規模コーパスから取得した文書チャンクを、先行トークンとの局所的な類似性に基づいて条件付けすることにより、自己回帰型言語モデルを強化する。2兆個のトークンデータベースを用いた我々の検索強化型変換器（Retro）は、25倍少ないパラメータで、Pile上のGPT-3やJurassic-1と同等の性能を得ることができる。Retroの性能は、微調整の後、質問応答のような下流の知識集約的なタスクに反映される。Retroは、凍結バートレトリバー、微分可能エンコーダー、チャンク型クロスアテンションメカニズムを組み合わせ、学習時に消費されるデータよりも一桁多いデータを基にトークンを予測します。私たちは通常、Retroをゼロから学習しますが、事前に学習した変換器を検索に迅速にRetrofitすることも可能であり、それでも良好な性能を達成することができます。私たちの研究は、前例のない規模の明示的記憶によって言語モデルを改善する新しい道を開くものです。

コード

解決した課題/先行研究との比較

近年の大規模自然言語処理モデルの高性能化は学習データの増加・計算能力の向上・モデルサイズの増加によって達成されている。
- 実際、BERT (0.3B) → GPT-2 (1.5B) → T5 (11B) → GPT-3 (175B) → Gopher (280B) と進むにつれどんどん性能向上。
モデルサイズの増加は「学習・推論の処理能力の増加」と「学習データの記憶力」という２つの利点があると考えられている。
本論文は、2つの利点がそれぞれどの程度効いているのかの分離を目指し、特に後者の「学習データの記憶力」という側面に着目。
記憶力に相当するものとして外部のデータベースを用いることで、モデル自体の計算量を大幅に増やすことなく、言語モデルを拡張する方法を提案した。
- 過去にも検索を組み合わせる手法は行われてきた (Guu et al., 2020; Khandelwal et al., 2020; Lewis et al., 2020; Yogatama et al., 2021) が、モデルサイズやデータベースが小規模なものであったため、何兆ものトークンからなるデータベースを用いた初の報告。
  - 「過去の仕事を大規模にやってみました」の一種？
    - Chunked Cross Attentionは本論文で初出のように思われる。検索テキストの取り込み方に新規性！

技術・手法のポイント

インプット文字列をチャンクに分割。現在のチャンクの予測のために、前のチャンクと似たテキストをデータベースから検索。
外部データベースからの検索には事前学習済みBERTを使用。近傍探索を行い、インプットに似たテキストを抽出。
検索されたテキストをChuncked Cross-Attentionモジュールを用いてRETROに取り込む。

評価指標

用いたデータセット
- C4
- Wikitext103
- Curation Corpus
- Lambada
- Pile
- マニュアルで選んだWikipediaの記事 (基準：データセットを集めた後に編集された記事)
比較した指標
- Bits-per-byte
- Perplexity
- Lambadaデータセットはaccuracy on the last word
- Q&A (The Natural Questions. Kwiatkowski et al., 2019) のAccuracy
比較対象のモデル
- Transformer (パラメータサイズが 172M, 425M, 1.5B, 7.5Bのものを用意。Baselineと呼称)
- RETRO (検索なし)
- RETRO (検索あり)

いずれにおいてもBaselineからの改良がみられ、Fine-tuningを行うことでQ&A taskでもstate-of-the-artとのcompetitive performanceを示した。検索なしでもbaselineと同程度の性能が出る。

残された課題・議論

検索のための外部データベースを工夫すれば、差別や暴力的表現などを前もって除くことができるかもしれないと議論。 (Bender et al. 2021; Weidinger et al., 2021あたりも参照)
大規模モデルより軽量化したとはいえど、外部データベースのサイズが 1T トークンくらい必要そうなので、一般人が使うのは難しそう。

重要な引用

本論文以前の検索を組み合わせる手法。データベースのサイズ的に、一般人が現実的に使えるのはこれらか。
- Guu, Kelvin, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. 13--18 Jul 2020. “Retrieval Augmented Language Model Pre-Training.” In Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, 119:3929–38. Proceedings of Machine Learning Research. PMLR.
- Khandelwal, Urvashi, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, and Mike Lewis. 2020. “Generalization through Memorization: Nearest Neighbor Language Models.” https://openreview.net/pdf?id=HklBjCEKvH.
- Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, et al. 2020. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” In Proceedings of the 34th International Conference on Neural Information Processing Systems, 9459–74. NIPS’20 793. Red Hook, NY, USA: Curran Associates Inc.
- Yogatama, Dani, Cyprien de Masson d’Autume, and Lingpeng Kong. 2021. “Adaptive Semiparametric Language Models.” Transactions of the Association for Computational Linguistics 9: 362–73.
Gopher. DeepMindが開発した2,800億個のパラメータを持つ言語モデル。モデルのサイズを大きくして性能が良くなる分野と大きく変わらない分野を議論
- Rae, Jack W., Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, et al. 2021. “Scaling Language Models: Methods, Analysis & Insights from Training Gopher.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2112.11446.
大規模言語モデルが持つ潜在的弊害について議論
- Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜.” In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–23. FAccT ’21. New York, NY, USA: Association for Computing Machinery.
- Weidinger, Laura, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, et al. 2021. “Ethical and Social Risks of Harm from Language Models.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2112.04359.

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute

Lei, Tao. 2021. “When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 7633–48. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics. https://aclanthology.org/2021.emnlp-main.602/

低計算コストで言語モデリングが可能なSRU++を提案
Attentionと高速リカレントネットワークに着目
Transformer系の3倍から25倍少ない計算量で、同等の性能を示した

Introductionで "Is attention all we need for modeling?" と、あの有名な言葉をもじり、実際にAttentionを挟むだけで大幅な改善を見せ、その威力を見せてくれる面白い仕事。

Abstract

Large language models have become increasingly difficult to train because of the growing computation time and cost. In this work, we present SRU++, a highly-efficient architecture that combines fast recurrence and attention for sequence modeling. SRU++ exhibits strong modeling capacity and training efficiency. On standard language modeling tasks such as Enwik8, Wiki-103 and Billion Word datasets, our model obtains better bits-per-character and perplexity while using 3x-10x less training cost compared to top-performing Transformer models. For instance, our model achieves a state-of-the-art result on the Enwik8 dataset using 1.6 days of training on an 8-GPU machine. We further demonstrate that SRU++ requires minimal attention for near state-of-the-art performance. Our results suggest jointly leveraging fast recurrence with little attention as a promising direction for accelerating model training and inference.

大規模な言語モデルは、計算時間やコストが増大するため、学習が困難になってきている。本研究では、シーケンスモデリングのために高速な再帰性と注意力を組み合わせた高効率なアーキテクチャであるSRU++を発表する。SRU++は、強力なモデリング能力と学習効率を発揮する。Enwik8、Wiki-103、Billion Wordデータセットなどの標準的な言語モデリングタスクにおいて、我々のモデルは、上位のTransformerモデルと比較して、3倍から10倍少ない学習コストで、優れた文字あたりのビット数とパープレキシティを獲得することができる。例えば、Enwik8データセットでは、8GPUのマシンで1.6日間の学習を行い、最先端の結果を達成しました。さらに、SRU++は最小限の注意で最新鋭に近い性能を発揮することを実証しています。この結果は、モデルの学習と推論を高速化するための有望な方向性として、少ない注意で高速リカレンスを共同で活用することを示唆しています。

コード

https://github.com/asappresearch/sru

解決した課題/先行研究との比較

近年の言語モデルはデータセットのサイズ、アーキテクチャのサイズともに大規模化してきており、計算コストがどんどん高くなってきている。
近年の研究からAttentionと高速リカレントネットワークを組み合わせることで、より効率的なモデルを構築できる可能性が示唆されていた (Bradbury et al., 2017; Zhang and Sennrich, 2019)
本論文ではそのアイデアを検証した。
- 2018年に報告したSRU (Lei et al., 2018) をベースにしている。

技術・手法のポイント

リカレントネットワーク (SRU) の入力の線形変換を、Attentionを用いた変換に置換
具体的には、ベースとなったSRUでは $\mathbf{U}$ を以下のように計算している。

$$ \displaystyle\mathbf{U}^{\top}\ \displaystyle=\ \left(\begin{array}[]{l}\mathbf{W}\\ \mathbf{W}^{\prime}\\ \mathbf{W}^{\prime\prime}\end{array}\right)\mathbf{X}^{\top} $$

一方で、SRU++ では内部でAttentionを用いて以下の計算を行っている。

$$ \begin{array}{l} \mathbf{Q} \displaystyle=\mathbf{W}^{q}\mathbf{X}^{\top} \\ \mathbf{K} \displaystyle=\mathbf{W}^{k}\mathbf{Q}^{\top} \\ \mathbf{V} \displaystyle=\mathbf{W}^{v}\mathbf{Q}^{\top} \end{array} $$

$$ \displaystyle\mathbf{A}^{\top}=\text{softmax}\left(\frac{\mathbf{Q}^{\top}\mathbf{K}}{\sqrt{d^{\prime}}}\right)\mathbf{V}^{\top}. $$

$$ \displaystyle\mathbf{U}^{\top}=\mathbf{W}^{o}\left(\mathbf{Q}+\alpha\cdot\mathbf{A}\right). $$

線形変換からより複雑性の高い演算に変更することで表現力が向上
後段のリカレントネットワーク箇所はSRUと同様
これが何故効果的にはたらくの？の議論は Fig.5 周辺を参照。

評価指標

ENWIK8 (Table 3), WIKI103 (Table 5), BILLION WORD (Table 6) データセットを用い、Transformer系のモデルと比較。
評価指標はPerplexityとGPU days. (ENWIK8はBPC)
すべてのデータセットにおいて、Transformer系の3倍から25倍少ない計算量で、同等の結果を達成。
また、WIKI-103データセットの推論スピードが数倍速い。 (Table 7)
IWSLT'14のDe→En翻訳タスクでもTransfomrerと同程度の性能。 (Table 8)
Attentionを挿入する場所についても検討したところ、入力側の1層目が最も効果的であった。 (Fig.4)

残された課題・議論

Attention自体の高速化とは異なるアイデアであるため、Attention自体の高速化と合わせれば、より全体の高速化が進められるかもしれない。
同様に、本提案手法はリカレント実装や正規化、最適化技術の進歩と組み合わせられると考えられる。
Introductionではモデルのサイズにも触れられていたが、パラメータ数が多いことに変わりはなし。パラメータ数がネックになる場合にはこの手法は使えない。(Table 3)
- 「軽量化されたためエッジデバイスにも載せやすい！」という方向を目指した仕事ではない。

重要な引用

Transformer
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1706.03762.
Attentionと高速リカレントネットワークを組み合わせた効率的なモデル構築の可能性を示唆
- Bradbury, James, Stephen Merity, Caiming Xiong, and Richard Socher. 2016. “Quasi-Recurrent Neural Networks.” arXiv [cs.NE]. arXiv. http://arxiv.org/abs/1611.01576.
- Zhang, Biao, and Rico Sennrich. 2019. “A Lightweight Recurrent Network for Sequence Modeling.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 1538–48. Florence, Italy: Association for Computational Linguistics.
Tramsformer-XL. 比較対象となっている、論文投稿時点での最強モデル
- Dai, Zihang, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. 2019. “Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1901.02860.
SRU. 同著者の先行研究
- Lei, Tao, Yu Zhang, Sida I. Wang, Hui Dai, and Yoav Artzi. 2017. “Simple Recurrent Units for Highly Parallelizable Recurrence.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1709.02755.

参考情報

Transformer日本語要約

Clarifying Trust of Materials Property Predictions Using Neural Networks with Distribution-Specific Uncertainty Quantification

Gruich, Cameron, Varun Madhavan, Yixin Wang, and Bryan Goldsmith. 2023. “Clarifying Trust of Materials Property Predictions Using Neural Networks with Distribution-Specific Uncertainty Quantification.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2302.02595.

機械学習を用いた材料開発の効率化には不確実性の適切な評価が重要。
Open Catalyst 2020の触媒データを対象に、ニューラルネットワークによる触媒性質の予測モデルを構築。そして予測の不確実性の定量手法3種を比較。
Evidential regressionが最適と結論。さらにRecalibrationを行うことで不確実性の信頼性が向上。
用いられた評価方法は材料科学に限らず機械学習による予測の信頼性評価に広く応用可能。

雑にまとめると「"k-fold分割してAccuracy見て評価" よりも良いモデルの評価方法がある」というお話。実務のみならずコンペでも生きそう。
「モデルが良い精度のアウトプットを返す」に加え、「その精度がどの程度信頼できるのか」という指標も得られる点が紹介されている手法群の強み。

Abstract

It is critical that machine learning (ML) model predictions be trustworthy for high-throughput catalyst discovery approaches. Uncertainty quantification (UQ) methods allow estimation of the trustworthiness of an ML model, but these methods have not been well explored in the field of heterogeneous catalysis. Herein, we investigate different UQ methods applied to a crystal graph convolutional neural network (CGCNN) to predict adsorption energies of molecules on alloys from the Open Catalyst 2020 (OC20) dataset, the largest existing heterogeneous catalyst dataset. We apply three UQ methods to the adsorption energy predictions, namely k-fold ensembling, Monte Carlo dropout, and evidential regression. The effectiveness of each UQ method is assessed based on accuracy, sharpness, dispersion, calibration, and tightness. Evidential regression is demonstrated to be a powerful approach for rapidly obtaining tunable, competitively trustworthy UQ estimates for heterogeneous catalysis applications when using neural networks. Recalibration of model uncertainties is shown to be essential in practical screening applications of catalysts using uncertainties.

(DeepL翻訳)

ハイスループットな触媒探索を行うためには、機械学習（ML）モデルの予測値が信頼できるものであることが重要である。不確実性定量化（UQ）法は、MLモデルの信頼性を推定することができるが、不均一系触媒の分野ではまだ十分に検討されていない。ここでは、既存の最大規模の不均一系触媒データセットであるOpen Catalyst 2020 (OC20) データセットから、合金への分子の吸着エネルギーを予測するために、結晶グラフ畳み込みニューラルネットワーク (CGCNN) に適用するさまざまなUQ手法を検討する。吸着エネルギー予測には、k-foldアンサンブル、モンテカルロドロップアウト、エビデンス回帰という3つのUQ手法を適用した。各UQ法の有効性は、精度、シャープネス、分散、キャリブレーション、タイトネスに基づいて評価される。エビデンシャル回帰は、ニューラルネットワークを使用した場合、不均一系触媒のアプリケーションにおいて、調整可能で競争上信頼できるUQ推定値を迅速に得るための強力なアプローチであることが実証された。不確実性を利用した触媒の実用的なスクリーニングアプリケーションでは、モデルの不確実性の再キャリブレーションが不可欠であることが示された。

データセット

Open Catalyst 2020

解決した課題/先行研究との比較

機械学習を用いた材料開発の研究・応用が進んでいる。本論文では触媒の開発にフォーカス。
触媒性質予測モデルの開発が進み、予測の高精度化は進んできた。一方で、予測結果がどれほど信頼できるものかは明確にしにくかったり、計算量的に現実的でなかったりといった課題があった。

技術・手法のポイント

本論文ではOpen Catalyst 2020データセットを対象に、以下の3つの手法を比較した。具体的な方法については引用文献参照。
- k-fold ensembling (Cross-validationのようにk分割→k個のモデルの出力をアンサンブル)
- Monte Carlo dropout
- Evidential regression
いずれの手法も予測値が複数出力されるため、それらの平均値μと標準偏差σを求めることができる。
ニューラルネットワーク (Crystal Graph Convolutional Neural Network: CGCNN) をトレーニング→入力データに対する予測値と、その平均値、標準偏差を出力→予測の不確実性を定量評価。

評価指標

以下の項目で不確実性を定量。図はその結果を示す。

Accuracy
- 予測値が実測値とどの程度ずれているかの指標。具体的には、MAE, RMSE, MDAE, MARPD, R^2, Rのこと。
- Evidential Regressionが最も良い
Sharpness/Dispersion
- Sharpness: 論文中の数式(7)。分散の平均の平方根。
- Dispersion: IQR (第3四部位数 - 第1四部位数), 変動係数 (Coefficient of variation: 標準偏差/平均)。
- いずれも予測値にどの程度幅があるかの指標。数字が大きい = 予測結果に幅がある = 人が選ぶ選択肢が増える = 良いこと、と主張。
  - （サマリー作者談：この主張が適切かは自身の目的によるだろう。Materials Informaticsにおいては結果の多様性が重要となるケースも多い。）
- Evidential Regressionが最も良い
Calibration
- 予測結果の発生確率分布と、実際の発生確率分布が、どの程度近いか？
  - Accuracyは"値"の比較、Calibrationは"分布"の比較。
- Reliability diagram plot: 実測値と予測値の平均値の差（をノーマライズしたもの）をプロット。
  - 対角線に沿っている = 予測値と実測値がった点で表されるモデルがよりcalibrateされているといえる。
- "Re-calibration"とは、不確実性の推定を改善するための後処理。
  - scikit-learnに入っているBrent’s methodを使用。
  - The constant was chosen via a black-box optimization algorithm
- Reliability diagram plot (ハイパーパラメータによる差)
  - (a) デフォルトではMC-Dropout がベスト。(b, c) パラメータ調整によりEvidential Regressionがベストに。
- Reliability diagram plot (Re-calibration前後の比較)
  - Recalibrationはいずれの手法にも有効にはたらき、ミスキャリブレーションの問題は小さくなる。
Tightness
- 予測値の幅が必要十分か。
- 不確実区間 (予測値の平均μと標準偏差σから、予測値が正規分布に従うと仮定し導出) を1~99%まで1%刻みで数値化し、「それぞれの幅」と「実測値との距離」の比の対数値をとり、99個の数字の平均をとり、正負逆転させたもの。数値が小さいほど良い。
- Evidential Regressionが最も良い。

ほぼすべての指標で、Evidential regression が最も高精度に不確実性を推定できていた。

残された課題・議論

トレーニングデータがテストデータを代表する (トレーニングデータとテストデータの性質が同じ)と仮定しているため、常に適切な推定ができるとは限らないと指摘している。
小規模なデータセットの場合、信頼性の低い予測が得られる可能性があるとも議論。
- すなわち、一般的な機械学習モデル、Cross-validationに対して言われる話と同じ。

重要な引用

ニューラルネットワークを用いた予測における不確実性の定量に関する総説
- Abdar, Moloud, Farhad Pourpanah, Sadiq Hussain, Dana Rezazadegan, Li Liu, Mohammad Ghavamzadeh, Paul Fieguth, et al. 2020. “A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2011.06225.
MIにおけるニューラルネットワーク予測の不確実性定量手法の先行研究
- Tran, Kevin, Willie Neiswanger, Junwoong Yoon, Qingyang Zhang, Eric Xing, and Zachary W. Ulissi. 2019. “Methods for Comparing Uncertainty Quantifications for Material Property Predictions.” arXiv [cond-Mat.mtrl-Sci]. arXiv. http://arxiv.org/abs/1912.10066.
- Hu, Yuge, Joseph Musielewicz, Zachary Ulissi, and Andrew J. Medford. 2022. “Robust and Scalable Uncertainty Estimation with Conformal Prediction for Machine-Learned Interatomic Potentials.” arXiv [physics.chem-Ph]. arXiv. http://arxiv.org/abs/2208.08337.
k-fold ensemblingについて
- Dietterich, Thomas G. 2000. “Ensemble Methods in Machine Learning.” In Multiple Classifier Systems, 1–15. Springer Berlin Heidelberg.
- Lakshminarayanan, Balaji, Alexander Pritzel, and Charles Blundell. 2017. “Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles.” Advances in neural information processing systems.
- Liu, Jeremiah Zhe, John Paisley, Marianthi-Anna Kioumourtzoglou, and Brent Coull. 2019. “Accurate Uncertainty Estimation and Decomposition in Ensemble Learning.” Advances in neural information processing systems.
Monte Carlo dropoutについて
- Gal, Yarin, and Zoubin Ghahramani. 2015. “Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1506.02142.
Evidential regressionについて
- Amini, Alexander, Wilko Schwarting, Ava Soleimany, and Daniela Rus. 2020. “Deep Evidential Regression.” Advances in neural information processing systems.
- Soleimany, Ava P., Alexander Amini, Samuel Goldman, Daniela Rus, Sangeeta N. Bhatia, and Connor W. Coley. 2021. “Evidential Deep Learning for Guided Molecular Property Prediction and Discovery.” ACS Central Science 7 (8): 1356–67.
Calibrationについて
- Gneiting, Tilmann, Fadoua Balabdaoui, and Adrian E. Raftery. 2007. “Probabilistic Forecasts, Calibration and Sharpness.” Journal of the Royal Statistical Society. Series B, Statistical Methodology 69 (2): 243–68.
- Gneiting, Tilmann, and Matthias Katzfuss. 2014. “Probabilistic Forecasting.” Annual Review of Statistics and Its Application 1 (1): 125–51.
- Guo, Chuan, Geoff Pleiss, Yu Sun, and Kilian Q. Weinberger. 06--11 Aug 2017. “On Calibration of Modern Neural Networks.” In Proceedings of the 34th International Conference on Machine Learning, edited by Doina Precup and Yee Whye Teh, 70:1321–30. Proceedings of Machine Learning Research. PMLR.
- Levi, Dan, Liran Gispan, Niv Giladi, and Ethan Fetaya. 2022. “Evaluating and Calibrating Uncertainty Prediction in Regression Tasks.” Sensors 22 (15). https://doi.org/10.3390/s22155540.
- Pernot, Pascal. 2022. “The Long Road to Calibrated Prediction Uncertainty in Computational Chemistry.” The Journal of Chemical Physics 156 (11): 114109.
Recalibrationについて
- Zhao, Shengjia, Tengyu Ma, and Stefano Ermon. 13--18 Jul 2020. “Individual Calibration with Randomized Forecasting.” In Proceedings of the 37th International Conference on Machine Learning, edited by Hal Daumé Iii and Aarti Singh, 119:11387–97. Proceedings of Machine Learning Research. PMLR.
- Pedregosa, Fabian. 2011. “Scikit-Learn: Machine Learning in Python.” Journal of Machine Learning Research: JMLR 12: 2825–30.
Tightnessについて
- Gneiting, Tilmann, and Adrian E. Raftery. 2007. “Strictly Proper Scoring Rules, Prediction, and Estimation.” Journal of the American Statistical Association 102 (477): 359–78.

teamaidemy / ds-paper-summaries Goto Github PK

ds-paper-summaries's Issues

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用文献

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

派生形

参考情報

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

関連論文

参考情報

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

Abstract

コード

解決した課題/先行研究との比較

技術のポイント

評価指標

教師あり学習におけるTabTransformerと既存モデルの性能比較

半教師あり学習シナリオにおけるTabTransformerと既存モデルの性能比較

残された課題・議論

重要な引用

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論・感想

重要な引用

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論・感想

重要な引用

関連情報

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

関連論文

参考

Abstract

解決した課題/先行研究との比較

技術・手法のポイント

探索結果

残された課題・議論

重要な引用

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

結果

残された課題・議論・感想

今日の英単語