yutayamazaki / paper_reading Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 0.0 1 KB

paper_reading's People

Watchers

paper_reading's Issues

Dynamic Routing Between Capsules

どんなもの

論文

Dynamic Routing Between Capsules

著者・所属機関

Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton

投稿日

2017/11/7

Abstract

従来のNNはノードをスカラーが伝播したが，ベクトルが伝播するCapsNetの提案
poolingがあまりよくない -> Capsuleを用いることで，より普遍的な位置の不変性を手に入れうる

先行研究と比べて何がすごい？

スカラーからCapsuleへ
Dynamic Routingというback-propではないパラメータ更新が提案されている

技術や手法の肝はどこ？

Dynamic Routing

back-propしない(Dynamicな)Attentionのようなもの
coupling coefficientsというパラメータを用いる
繰り返しこのパラメータを更新することで，最適なCapsule間の結合の重みを獲得する

どうやって有効だと検証した？

MNISTのSOTA

議論はある？

ほんまにBack-propよりいいのか疑問...

次に読むべき論文は？

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

どんなもの

論文

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

著者・所属機関

Saihui Hou, Zilei Wang

投稿日

2019/1/??

Abstract

CNNにおいて，channel間のDropoutを導入した

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

GAPでチャネルの代表値を取り出しそれを各チャネルにかけるが，それを適当にDropoutする．

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Distilling the Knowledge in a Neural Network

どんなもの

論文

https://arxiv.org/abs/1503.02531?context=cs

著者・所属機関

Geoffrey Hinton, Oriol Vinyals, Jeff Dean
Google

投稿日

2015/05/09

Abstract

先行研究であるCaruanaらの取り組みに対する，異なるアプローチの提案とのこと．
結果としては，アンサンブルモデルを1つの比較的単純なモデルに学習した知識を受け継ぐ(蒸留する)ことができ，MNIST，Androidの音声認識で良い成果を上げた．

先行研究と比べて何がすごい？

技術や手法のキモはどこ？

学習にはハードターゲットとソフトターゲットの2種類のデータを用いる．

ハードターゲット
通常のデータセットと正解ラベルのこと．
ソフトターゲット
蒸留元の教師モデルの出力のこと．
蒸留では蒸留元のモデルのsoftmax出力をすべて学習させることで，知識を受け継がせる．

softmaxに対して，温度(temperature)Tを導入．
通常はT=1に設定するが，Tの値を上げると，出力の確率分布は滑らかに．
蒸留元のネットワークが学習したsoftmaxの出力には重要な情報が含まれる．
というのも，モデルが1番確率が高いと判断したものと2番目に確率が高いと判断したものとでは，見た目の性質上似ているといえるから．
MNISTデータセットでいうならば，2は3や7と似ているなど．
この情報をより伝えやすくするための仕組みとして導入されたのが温度．
出力が滑らかであれば，それぞれの差異が相対的に少なくなるので，こういった情報が伝わりやすくなる．

目的関数
目的関数はハードターゲット(通常のデータセットと正解ラベル)のクロスエントロピーと，ソフトターゲットでのクロスエントロピーの和をとる．そしてこの関数を最小化していくことで学習を進める．
また，ソフトターゲットのsoftmaxには温度Tを導入する．

どうやって有効と検証した？

MNIST，Androidの音声認識．

議論はある？

次に読むべき論文は？

Attention is All You Need

どんなもの

論文

Attention Is All You Need

著者・所属機関

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Google Brain

投稿日

2017/06/12

詳細

ブログに掲載：https://whey-yooguruto.hatenadiary.com/entry/2019/03/25/001842

Focal Loss for Dense Object Detection

どんなもの

論文

Focal Loss for Dense Object Detection

著者・所属機関

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár
Facebook AI Research

投稿日

2017/08/07

Abstract

Object Detectionのone-stage detectorsをより精度よく学習させるために提案されたloss
one-stage detector : YOLO, SSDなど
two-stage detector : R-CNNなど
物体検出は基本的にimbalancedなデータを扱うことになるため

先行研究と比べて何がすごい？

一般的によく使われる手法としてはCrossEntropyにクラスの出現数の逆数をかけたもの
Focal LossはNNの予測値を1から引いたものをn乗した重み付きのCrosEntropy
さらに通常のクラス出現数の逆数をかけたものを実験で使用
2乗するだけでも予測値90%のクラスはCrossEntropyの100分の1ほどの大きさになる

技術や手法の肝はどこ？

n乗のハイパーパラメータと計算コストの低さ

どうやって有効だと検証した？

-COCOでsota

議論はある？

次に読むべき論文は？

これの後続研究が相当あるはずなので調べたい

MEAL: Multi-Model Ensemble via Adversarial Learning

どんなもの

論文

MEAL: Multi-Model Ensemble via Adversarial Learning

著者・所属機関

Zhiqiang Shen, Zhankui He, Xiangyang Xue

投稿日

2018/12/6

Abstract

studentモデルが教師モデルの知識を敵対学習を用いて効率よく蒸留(アンサンブル)できる構造
最終的に1つのモデルに蒸留するので，テスト時のコストが非常に低い

先行研究と比べて何がすごい？

従来のアンサンブルはアンサンブルに用いるモデルが増加すればするほど，線形に推論に時間を要したが，提案手法はsingle modelによる推論になるので，テスト時に早い
またアンサンブルするモデルが必ずしもすべて多様な結果を出力するわけではないので，そのあたりをGANの機構を用いて効率よく学習

技術や手法の肝はどこ？

教師モデル(複数)をまずは学習させる
教師モデルのパラメータ更新を止め，訓練データXnを教師モデルに入力し，そのsoft-targetをstudentモデルのラベルにする
studentモデルのlossは教師モデルのsoft-targetとのsimilarity loss(KL-divergenceやL1, L2など)とDIscriminatorのlossの和(それぞれにalpha, betaの係数はあるが，論文中ではともに1を使用)
Discriminatorはstudent, teacherの出力をいれ，どちらかを識別できるように学習

どうやって有効だと検証した？

CIFAR-10, CIFAR-100などでSOTA

議論はある？

次に読むべき論文は？

AAAI19

(PyramidNet) Deep Pyramidal Residual Networks

どんなもの

論文

Deep Pyramidal Residual Networks

著者・所属機関

Dongyoon Han, Jiwhan Kim, Junmo Kim
EE, KAIST

投稿日

2017/9/6

Abstract

従来のResNetでは，チャネル数をdownsamplingの部分で急に大きくしたが，徐々に大きくするPyramidNetの提案
これにより，汎化性能が向上することを示した

先行研究と比べて何がすごい？

徐々にチャネル数を増やすことで，ResNetに比べて，より良いアンサンブルを実現したこと
- ResNetではダウンサンプリング以外の部分では，ひとつ層を消しても精度に影響があまりなかった
- また，ResNetはshortcut connectionによって薄いCNNのアンサンブルとみなされていた
- より良いアンサンブルを実現するためには，各residual blockが意味を持ったほうがいい

技術や手法の肝はどこ？

層の増やし方はadditive PyramidNetとmultiplicative PyramidNetの2種類
通常はidentity-mappingでshortcut connectionを実現するが，今回はzero-padded identity-mappingをすべてのresidual unitで用いる．パラメータがなくてoverfittingしないから．そして他の手法よりも汎化能力が高い
zero-padded identity-mappingは，通常のresidual networkと通常のCNNのアンサンブルのような解釈ができる
BNとReLUの位置は，通常のpre-activation ResNetから最初のReLUを取って，最後のConvの後にBNを置くのがベスト
(感想)αの設定などが大変そう

どうやって有効だと検証した？

CIFAR-10でほかのSOTAよりよかった

議論はある？

次に読むべき論文は？

Rich feature hierarchies for accurate object detection and semantic segmentation (R-CNN)

どんなもの

論文

Rich feature hierarchies for accurate object detection and semantic segmentation (R-CNN)

著者・所属機関

UC Berkeley

投稿日

2014/10/22

Abstract

特徴抽出部分にfine-tuningしたCNNを用いて物体検出でSOTA

先行研究と比べて何がすごい？

CNNを使ったことがすごいだけ

技術や手法の肝はどこ？

入力画像からresion proposalsという物体がありそうな部分をselective searchという手法で2k個ほど抽出
CNNは学習済みモデルをN+1(+1は背景)クラス分類にfine-tuning
先ほど取り出した画像をresizeして(今回は227*227)，CNNで特徴抽出して4096次元の特徴を抽出
クラスの分類は各クラスごとのSVMを学習させる
Bounding BoxのRegressionはRidgeを用いて，入力のペアを，出力のペアをとしてBBoxの補正を行う

どうやって有効だと検証した？

CNNを用いない従来手法と比較し，割とあらゆるベースラインでSOTA

議論はある？

遅い
SVM大量に学習させるのが面倒

次に読むべき論文は？

ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE

どんなもの

論文

著者・所属機関

Liangchen Luo, Yuanhao Xiong, Yan Liu , Xu Sun

投稿日

2019

Abstract

先行研究と比べて何がすごい？

SGDは良い汎化性能をもたらすが，収束に時間がかかる
Adamなどのadaptiveな手法は学習初期の収束は早いが，汎化性能が出ないのと最適解に最終的に近づかない
これらのいいとこどりをした手法

技術や手法の肝はどこ？

最初はAdam，後半はSGDを連続的に遷移する
参照：https://qiita.com/Phoeboooo/items/f610affdcaaae0a28f34

どうやって有効だと検証した？

CVとNLPのタスク

議論はある？

次に読むべき論文は？

Snapshot Ensembles: train 1, get M for free

どんなもの

論文

SNAPSHOT ENSEMBLES: TRAIN 1, GET M FOR FREE
https://openreview.net/pdf?id=BJYwwY9ll

著者・所属機関

Gao Huang∗
, Yixuan Li∗
, Geoff Pleiss
Cornell University

投稿日

2017

Abstract

アンサンブルは良いけど，複数のニューラルネットを学習するには計算コストがかかるので，1つのモデルを学習するだけでできるアンサンブルを提案する．
Snapshot Ensemblingと命名，最適解に比較的近い局所解いくつかの重みを保存して，それぞれのアンサンブルをすると精度が良い．

先行研究と比べて何がすごい？

計算コストが1回の学習だけで済むのに，アンサンブルとして非常に有用．

技術や手法の肝はどこ？

Cyclic Cosine Annealing
学習率を下げ，局所解の重みを保存してから，学習率を一気に上げることで局所解から脱して，別の局所解へと向かう．
通常のlearning rate scheduleの方が，cyclic scheduleよりもロスが小さくなることはあるが，cyclic scheduleのアンサンブルのほうが精度が良い．
どれだけの期間のスナップショットを用いるかはハイパーパラメータ．

どうやって有効だと検証した？

~CIFAR-10, CIFAR-100, SVHN, Tiny ImageNetのデータで，ResNet-110, Wide-ResNet-32, DenseNet40, DenseNet-100のモデルで検証．

議論はある？

次に読むべき論文は？

implicit ensemble, (Srivastava 2014)
Stochastic Depth technic (Huang 2016b)
Swapout (Singh 2016)

U-Net: Convolutional Networks for Biomedical Image Segmentation

どんなもの

論文

U-Net: Convolutional Networks for Biomedical
Image Segmentation

著者・所属機関

Olaf Ronneberger, Philipp Fischer, and Thomas Brox
University of Freiburg

投稿日

2015/5/18

Abstract

end-to-endで学習できる，少数のデータでも効率よく学習できるネットワークの提案

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

UNetのアーキテクチャ

図の左側がcontractive path，右側がexpansive path
contrastive pathは一般的なCNNのアーキテクチャで，paddingなしのConvとReLUが2つとその後に2*2でストライド2のmaxpoolが続く構造の繰り返し
それぞれのdownsamplingで，feature mapの数を倍にする
expansive pathでは，upsampling部分で22のup-convを行い，その後はcontrastive pathと同様の33のconvにReLUが2つの流れ

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

(scSE) Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks

どんなもの

論文

Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks

著者・所属機関

Abhijit Guha Roy, Nassir Navab, Christian Wachinger
Artificial Intelligence in Medical Imaging (AI-Med), KJP, LMU Mu ̈nchen, Germany
etc.

投稿日

2018/6/8

Abstract

sSEという手法の提案．pixelごとのチャンネル方向の重み付け
新たに提案するsSEと従来のcSEの組み合わせのscSEが計算コストの上昇をほどほどに精度をもっとも向上させることが可能

先行研究と比べて何がすごい？

cSEはチャンネルごとの特徴をenhanceでき，画像分類タスクでは非常に精度向上に寄与するがセグメンテーションではそこまで
sSEという手法はピクセル毎の特徴をとらえるので，よりセグメンテーションに特化したsqueeze and excitationになる
両方使えばもっとすごい

技術や手法の肝はどこ？

cSE
- x = GAP(input_x)
- x = Dense(x)
- x = ReLU(x)
- x = Dense(x)
- x = Sigmoid(x)
- out = mul([input_x, x])
sSE
- x = Conv(filters=1, kernel_size=1, stride=1)(input_x)
- x = Sigmoid(x)
- out = mul([input_x, x])
scSE
- out = cSE(input_x) + sSE(input_x)

どうやって有効だと検証した？

MALC Dataset, Visceral DatasetでDenseNet, SD-Net, U-Netでのセグメンテーション
cSE, sSE, scSEの順にスコアが良い

議論はある？

次に読むべき論文は？

(ResNet) Deep Residual Learning for Image Recognition

どんなもの

論文

Deep Residual Learning for Image Recognition
https://arxiv.org/abs/1512.03385

著者・所属機関

Kaiming He
Xiangyu Zhang
Shaoqing Ren
Jian Sun
Microsoft Research

投稿日

2015/12/10

Abstract

CNNでは層を深くすればするほど高レベルの特徴を獲得していくので，どんどん層を増やしたい．
しかし，層が増えれば増えるほど学習は困難になる．通常のバックプロパゲーションで学習可能な範囲でどのように層を増やせばよいかに対する解決策の一つがResNet．
提案手法のshortcut connectionという機構を導入すると，層を深くしても学習の難しさは変わらず，パラメータ数も非常に小さくすることが可能．

先行研究と比べて何がすごい？

CNNで層を深くすると，精度が層が浅い場合に比べて劣化する．これはoverfittingしているのではなく．単純に学習がうまく進んでいない．
ならばどのように層を増やせば学習をうまく進めることが可能か．

技術や手法の肝はどこ？

shortcut connection
- residual blockを導入
- 入力から予測値を直接求めるのではなく，直前の予測で生じた誤差を推定する層を追加した
- 仮に誤差が生じなくとも，重みを0にするだけでいい
- 機構の性質上，パラメータ数の増加も少なく，計算コストが非常に低いまま，層を追加出来る
- 普通のSGDで学習可能
building block(input_dim=64)
- shortcut connection
- 3×3, 64
- ReLU
- 3×3, 64
- concat
- ReLU
bottleneck building block(input_dim=256)
- shortcut connection
- 1×1, 64
- ReLU
- 3×3, 64
- ReLU
- 1×1, 256
- concat
- ReLU

どうやって有効だと検証した？

ILSVRC 2015 1st place

議論はある？

次に読むべき論文は？

Wide-ResNet
ResNeXt

(SENet) Squeeze-and-Excitation Networks

どんなもの

論文

Squeeze-and-Excitation Networks
https://arxiv.org/pdf/1709.01507.pdf

著者・所属機関

Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu

投稿日

2018/10/25

Abstract

チャンネル間の関係性を考慮したSE-blockの提案

先行研究と比べて何がすごい？

ResNetなど既存のCNNに簡単に追加できる
計算コストもあまりかからない

技術や手法の肝はどこ？

チャンネルごとの平均値(GAPの結果)をDense(ReLU)->Dense(Sigmoid)につないで学習
つまり，通常のCNNでは考慮しない，チャンネル間の重みを学習する機構が入った
それをsqueeze and excitation blockという
channel間の重みを学習する際は，GAPの情報を使うのがいいことが実験的にわかった

どうやって有効だと検証した？

ILSVRC2017 first place

議論はある？

次に読むべき論文は？

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, https://arxiv.org/abs/1506.01497
Dual Path Networks, https://arxiv.org/abs/1707.01629
Densely Connected Convolutional Networks, https://arxiv.org/abs/1608.06993
Deep Roots: Improving CNN Efficiency with Hierarchical Filter Groups, https://arxiv.org/abs/1605.06489
Genetic CNN, https://arxiv.org/abs/1703.01513
Progressive Neural Architecture Search, https://arxiv.org/abs/1712.00559
SMASH: One-Shot Model Architecture Search through HyperNetworks, https://arxiv.org/abs/1708.05344
Accelerating Neural Architecture Search using Performance Prediction, https://arxiv.org/abs/1705.10823
Designing Neural Network Architectures using Reinforcement Learning, https://arxiv.org/abs/1611.02167
Efficient Neural Architecture Search via Parameter Sharing, https://arxiv.org/abs/1802.03268
Attention Is All You Need, https://arxiv.org/abs/1706.03762
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning, https://arxiv.org/abs/1611.05594
CBAM: Convolutional Block Attention Module, https://arxiv.org/abs/1807.06521
Residual Attention Network for Image Classification, https://arxiv.org/abs/1704.06904
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices, https://arxiv.org/abs/1707.01083
Shake-Shake regularization, https://arxiv.org/abs/1705.07485
Deep Pyramidal Residual Networks, https://arxiv.org/abs/1610.02915
Exploring the Limits of Weakly Supervised Pretraining, https://arxiv.org/abs/1805.00932

mixup: Beyond Empirical Risk Minimization

どんなもの

論文

mixup: Beyond Empirical Risk Minimization

著者・所属機関

Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz
MIT, Facebook AI Research

投稿日

2018/4/27

Abstract

新たなdata augmentation手法
データと正解ラベル2つずつのペアを0~1の一様乱数λと(1-λ)をかけてmixupする手法

先行研究と比べて何がすごい？

CIFAR10, 100などでSOTA
通常の学習よりもadversarial ezamplesに対してロバストに学習できる
テーブルデータや音声データでも有用
GANの学習が安定する

技術や手法の肝はどこ？

x_hat = λx_i + (1-λ)x_j
y_hat = λy_i + (1-λ)y_j

どうやって有効だと検証した？

CIFAR-10, CIFAR-100などの画像認識，
音声データ
GAN

議論はある？

次に読むべき論文は？

Automatic salt deposits segmentation: A deep learning approach

どんなもの

論文

Automatic salt deposits segmentation: A deep learning approach
https://arxiv.org/pdf/1812.01429.pdf

実装
https://github.com/K-Mike/Automatic-salt-deposits-segmentation

著者・所属機関

Mikhail Karchevskiy
Aurteen Inc.

投稿日

2018/11/21

Abstract

kaggleの塩コンペの解説論文．

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

U-Net and ResNeXt-50 encoder(pretrained on imagenet)
Spatial-Channel Squeeze & Excitation
Lovasz loss
CoordConv
Hypercolumns
augumentation
- horizontalはめっちゃ良い
- brightness manipulationとhorizontal shifts, rotationは有効だが，vertical flip, big rotationsは精度が落ちた．
推論時はtest time augumentationした．
SE-ResNeXt-50 encoderの1つめのレイヤーのstrideを1にしたものをつかった．
snapshot ensemble のMは10を使用．
lossは0.1binary_crossentropy + 0.9lovasz_loss

どうやって有効だと検証した？

27th place solution
5-fold cv

議論はある？

次に読むべき論文は？

Squeeze-and-excitation networks
https://arxiv.org/pdf/1709.01507.pdf
The lovasz-softmax loss: A ´ tractable surrogate for the optimization of the intersection-over-union measure in neural networks
https://arxiv.org/pdf/1705.08790.pdf

Pneumonia Detection in Chest Radiographs

どんなもの

論文

Pneumonia Detection in Chest Radiographs
https://arxiv.org/pdf/1811.08939.pdf

著者・所属機関

The DeepRadiology Team1

投稿日

2018/11/21

Abstract

Kaggle肺炎コンペの解説．

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

CoupleNet
R-CNN
RoI Cropping

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

RoI Cropping
https://papers.nips.cc/paper/5854-spatial-transformer-networks.pdf
R-CNN
https://arxiv.org/pdf/1311.2524.pdf

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

どんなもの

論文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

著者・所属機関

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
Google AI Language

投稿日

2018/10/11

Abstract

Bidirectional Encoder Representations from Transformers; BERT
事前学習モデルとして汎用的に利用可能で，CVにおけるResNetのようなもの
この事前学習モデルを利用して11のタスクでSOTA(しかもまあまあ大幅に上回った)
事前学習のアプローチは大きく分けてfeature-basedとfine-tuningの2つ
feature-basedはELMoに代表される手法で，各タスクに特化したアーキテクチャを持ち，fine-tuningはOpenAI GPTに代表される手法で，各タスクに特化したパラメータの数が少ない(学習時間が早い)手法
BERTはfine-tuningアプローチのひとつ

先行研究と比べて何がすごい？

基本モデルはTransformer
少しの学習手法の変更だけでここまで汎用的にfine-tuningに用いれることがすごい

技術や手法の肝はどこ？

学習方法

入力データ
- トークン，セグメント，positionの3つをエンコーディングしたものの和を入力とする
Masked LMとNext Sentence Predictionという2つのタスクのlossの和で学習する

Masked LM

単語列を15%の確率でランダムにマスクし，そのマスクした単語が何かを予測するタスクを解いて学習させる
マスクの手順は
- 80%の確率でそのままマスクする
- 10%の確率で選択した単語を別の単語に置き換える
- 10%の確率で置き換えない

Next Sentence Prediction

Question AnsweringやNatural Language Inferenceでは2つの文章間の関係性が重要になるが，それはMasked LMでは学習できない
それを学習するため，ある文章のペアが与えられた時に，文章Aの次に続くのが文章Bであるかどうかを2値分類する
Bは50%の確率で次の文章で，残り50%の確率でランダムにサンプリングした文章

どうやって有効だと検証した？

めちゃめちゃSOTA

議論はある？

次に読むべき論文は？

IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS

どんなもの

論文

IMAGENET-TRAINED CNNS ARE BIASED TOWARDS
TEXTURE; INCREASING SHAPE BIAS IMPROVES
ACCURACY AND ROBUSTNESS

著者・所属機関

Robert Geirhos
University of Tubingen & IMPRS-IS

投稿日

2019/1/14

Abstract

CNNは物体の複雑なshapeを学習していると一般に考えられているが，実際には表面のテクスチャの統計量を見ているだけで，ImageNetで学習されたCNNはshapeに関してはほとんど学習していないのではないかという提案
shapeよりもtextureを学習するようにバイアスがかかっていることをいくつかの実験で示している
また学習データにスタイル変換を施し，textureを主に変更させたデータセットを用いることで，よりshapeに特化した学習が可能になり，そのモデルは通常のImageNetで学習したモデルよりも頑健であることがわかった

先行研究と比べて何がすごい？

先行研究のいくつかで，すでに提案されていたCNNがtexture中心に学習を行なっているという提案に関して，多様な実験を行い，それを裏付けた論文

技術や手法の肝はどこ？

以下の画像のように，スタイル変換されたデータセットでそれぞれ学習を行なった
silhouetteやedgesは主にshapeに対する変換であり，これらで大きく精度を落としている
ただし上記2手法は自然画像と統計量が大きく異なるため，さらに別のStylized-ImageNet(SIN)というデータセットで実験を行なった
そもそもImageNetは局所情報のみでも十分に高精度な学習が可能になるなど，タスクが簡単すぎる
textureに関してスタイル変換を行なっているSINを用いると，ResNet50でも79%ほどのtop-5 accuracyになるので十分にshapeの学習が行える(ImageNetとResNet50だとtop-5 accuracyが92.9%)
ImageNetで学習したモデルでSINのテストを行うとtop-5 accuracyで16.4%だが，SINで学習したモデルでImageNetのテストを行うと，fine-tuningなしで82.6%のtop-5 accuracyを得られる(非常に頑健性が高い)

どうやって有効だと検証した？

様々なスタイルの画像での学習
BagNetという局所受容野の小さいモデルでの対照実験

議論はある？

次に読むべき論文は？

Show and Tell: A Neural Image Caption Generator

どんなもの

論文

Show and Tell: A Neural Image Caption Generator

著者・所属機関

Google

投稿日

2015/11/17

Abstract

画像からキャプションを自動生成するモデル(Neural Image Caption; NIC)の提案
学習用の画像から，キャプションの文章の対数尤度を最大化するように学習
複数のデータセットのBLEUで，従来手法のスコアを上回った

先行研究と比べて何がすごい？

BLEUスコア
end-to-endのキャプション生成モデルを提案したこと

技術や手法の肝はどこ？

以下の式を満たすモデルのパラメータを求める．つまり，現時点のモデルと与えられた画像に対して，最もよいキャプションを生成するようにモデルを学習させる．

lossは以下の式でこのlossを使い，LSTMの全てのパラメータ，CNNの最終層，WordEmbeddingを学習する(CNNの基本部分は固定)

どうやって有効だと検証した？

BLEU-1スコアにおいて，複数のデータで従来手法のSOTAを大きく上回る
BLEU-1スコアでは人間にかなり近い結果に

議論はある？

次に読むべき論文は？

Video Summarization Using Fully Convolutional Sequence Networks

どんなもの

論文

Video Summarization Using Fully Convolutional Sequence Networks

著者・所属機関

University of Manitoba, Winnipeg MB R3T 2N2, Canada
Mrigank Rochan, Linwei Ye, Yang Wang

投稿日

2018

Abstract

動画要約をsequence labeling(系列ラベリング)と見なして解くfully convolutional sequence network (FCSN)の提案
従来使われてきたようなRNN系のモデルとは異なり，semnatic segmentationで用いられるfully convolutional sequence modelを用いる
動画要約が各フレームが要約に入るか否かの2値分類であることと，semantic segmentationが各ピクセルがそのクラスに属するかの2値分類をすることが似ているから
そのフレームが要約に含まれるべきかそうでないかのbinaryのラベルを用いて学習する手法を採用
各動画の全てのフレームをCNNで特徴抽出し，各特徴ベクトルを要約後の動画に入れるべきかを予測する．

先行研究と比べて何がすごい？

RNN系のモデルから時間方向の畳み込みで時系列性を考慮するようにしたこと

技術や手法の肝はどこ？

Fully Convolutional Sequence Networks

semantic segmentationでは2Dの畳み込みを行うが，この論文で提案されているモデルでは1Dの時間方向のみの畳み込みを行う
従来のRNN系のモデルとは異なり，時間方向二畳み込みを行うので，全フレームをまとめて一気に計算することになる
semantic segmentationのモデルは特徴抽出部分とその特徴からmaskを作成するencoder-decoderモデルと考えられるが，この提案モデルも同様で，各フレーム間の高次の特徴を抽出するencoder部分と要約に含まれるべきか否かの0or1を出力するdecoder部分から構成されるencoder-decoderモデルと捉えることができる
命名：fully convolutional sequence network (FCSN)で SUM-FCNともいう

SUM-FCN

入力次元はで，Tは動画の総フレーム数，Dが各フレームの特徴ベクトルの次元
出力次元はで，Cはkeyframe or non-keyframeの2値分類なら2
モデルのアーキテクチャ

Learning

keyframeはnon-keyframeに対してかなり少量しかないので，不均衡データに対応すべく重み付きのlossを導入する

がt番目のフレームでの正解ラベル
がt番目のフレームをクラスcであると予測したスコア
freq_cはクラスcの出現割合

Unsupervised SUM-FCN

先ほどと同様のSUM-FCNを用いた教師なしでの要約手法の提案
モデルの変更としては，decoderの出力のケツに1*1の畳み込みを入れて，抽出された特徴を再現するのみ
予測スコアからY個のフレームを選択し，畳み込みしてlossを計算する
要約された動画が視覚的に多様なフレームを含んでいる必要があるので，損失関数は多様性を担保する項のL_divとL_recon(MSE)の和

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

どんなもの

論文

Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

著者・所属機関

Kamil Bennani-Smires, Claudiu Musat, Andreea Hossmann, Michael Baeriswyl, Martin Jaggi
Data, Analytics & AI, Swisscom AG
Machine Learning and Optimization Laboratory, EPFL

投稿日

ACL2018

Abstract

EmbedRankという，単一文書からの教師なしキーフレーズ抽出
グラフベースの手法よりもF値で上回る
Maximal Marginal Relevance(MMR)という手法で，冗長なキーフレーズ抽出を避けることも実現

先行研究と比べて何がすごい？

教師なしでキーフレーズ抽出が可能
冗長な抽出をMaximal Marginal Relevance(MMR)で避けられる

技術や手法の肝はどこ？

EmbedRank

キーフレーズの候補を文章から選択
文章と1で取り出した候補の埋め込み表現を得る
それぞれのペアで類似度を計算し，類似度順にrankに

文章の埋め込み表現を得る際は，名詞と形容詞のみをしようした
文章の埋め込み表現を得るのに，Doc2VecとSent2Vecの両方を試している
Doc2Vec: 300次元，Sent2Vec: 700次元
English Wikipedia Corpusで学習
Doc2Vecは文章全体に対して推論を行うので，Sent2Vecより遅い
類似度計算にはcosine distanceを使用

EmbedRank++

EmbedRankにMMRを追加して，冗長なキーワード抽出を避けたもの

はキーフレーズの候補
は抽出されたキーフレーズ
は文章全体

どうやって有効だと検証した？

TextRankなどの手法と比較

議論はある？

かなり文章埋め込みの精度に依存しそう

次に読むべき論文は？

Sent2Vec

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

どんなもの

論文

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

著者・所属機関

Alec Radford & Luke Metz - indico Research
Soumith Chintala - Facebook AI Research

投稿日

2015/12/19

Abstract

CNNを用いたGANのDCGANの提案
教師なしでどれだけ画像の特徴抽出ができるかという側面でも書いている

先行研究と比べて何がすごい？

CNNによる高解像度の画像生成
CNNの教師なしでの事前学習が可能な点

技術や手法の肝はどこ？

以下の手法による学習の安定化
- CNNの導入
- GAPを使わないこと
- BatchNorm
- プーリングをstrideありのconvに変更

どうやって有効だと検証した？

画像生成の定性評価
DCGANのdescriminatorで特徴抽出し，CIFAR10を分類させたもののスコア

議論はある？

次に読むべき論文は？

Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks

どんなもの

論文

Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks

著者・所属機関

Dong-Hyun Lee
Nangman Computing, 117D Garden five Tools, Munjeong-dong Songpa-gu, Seoul, Korea

投稿日

Abstract

ラベル付けされていないデータを用いたsemi-supervised learning手法の提案
ラベル付けされていないデータをモデルに入力し，モデルが予測したクラスを擬似ラベルとして，ラベル付きデータと共に用いて学習を行う
Kaggleでは以下の手順で用いられている
- 学習データでモデル構築
- モデルでテストデータを予測し擬似ラベル生成
- 擬似ラベルでpretrain
- 学習データでfine-tuning
実用上はラベル付けをする時間が足りないとか，ドメインにfitさせるような使い方になりそう

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

モデルでラベルなしデータに擬似ラベルを付与する
ラベルありデータと擬似ラベルつきデータを用いて学習
重みの更新時に擬似ラベルを更新
Lossは徐々に擬似ラベルの重みが大きくなるようにかける

どうやって有効だと検証した？

議論はある？

実際Kaggleのはテストデータにoverfittingさせているだけな気持ちはある
アノテーションが辛いときや，ドメインを学習させたいときには有用だと思う

次に読むべき論文は？

Triplet Learning(Deep Metric Learnig)関連

論文リスト

概要

2015年ごろの論文
Metric LearningをDeepNNでやろうという試み
距離をDNNに出力させる
Lossはposが近くなるよう，negが遠くなるように設定

Metric Learning

類似度や距離を算出し，それに基づいて閾値設定や，K-Neighorsなどで識別
通常の分類問題よりはGANの異常検知に近いものがある
異常検知や不均衡なデータでの分類問題に強い

Triplet Learning

あるデータx，xと同じラベルのデータx_p，xと異なるラベルのx_nを1つのセットとして学習
3つの出力をFaceNetではTriplet Lossで学習
DMLの方の論文では別のlossを使用

N-Pair Sampling

論文：http://www.nec-labs.com/uploads/images/Department-Images/MediaAnalytics/papers/nips16_npairmetriclearning.pdf
Triplet Samplingのnegativeデータを一度にn(論文では5)個サンプリングし，anchor:positive:negativeを1:1:nで学習する手法
学習が進んだ時，十分離れたnegativeをサンプリングした時にlossが小さくなるので，学習を安定させるためにn個のnegativeを導入

L2-constrained softmax loss

論文；https://arxiv.org/abs/1703.09507
超球内にデータを分布させるように学習する
metricの出力を正規化し，それを用いてsoftmaxをとき，そのlossを流すという手法

center loss

Angular loss

論文：https://arxiv.org/abs/1708.01682
∠positive,negative,anchorを最小化することで距離を遠ざけようというloss
従来法ではpositiveとanchorの最小化，negativeとanchorの最大化だけを考えていたが，3点の相対的な位置を考慮した設計になている

(Wide-ResNet)Wide Residual Networks

どんなもの

論文

Wide Residual Networks
https://arxiv.org/abs/1605.07146

著者・所属機関

Sergey Zagoruyko, Nikos Komodakis
Université Paris-Est, École des Ponts
ParisTech

投稿日

2017/6/14

Abstract

Wide-ResNet

先行研究と比べて何がすごい？

パラメータ数が同じ程度のResNetと比べ，精度が高く計算が数倍速い
この時点でのSOTA

技術や手法の肝はどこ？

層の深さを減らし，幅を広げたResNet

resnetの層はほとんど良い情報を獲得できておらず，あまり精度の向上に役立っていない可能性がある
となるとresnetの主な利点は層を深く出来ることではなく．residual blockそれ自体
層を浅く幅を広くとると，16層で1000層のresnetと同様の精度を達成し，学習は2倍速かった

ベストな構造

Dropoutをresidual blockのConvとConvの間に入れた(conv, relu, dropout, conv, relu)
wide-resnetではchannel数をk倍する．k=1でoriginal resnetと同じ
residual blockをConv-BN-ReLUからBN-Conv-ReLUに変更した
各blockごとのConvの数は3×3がベスト
wide-resnetの構造はdepth=28, k=10でCIFAR10のベストを出している．depth=16, k=8でもまあまあ良い

他

BNはinternal covariate shift(内部共変量シフト)を削減し，層が深くパラメータ数の多いNNのoverfittingを防ぐ
深さや幅を広げたらそれだけ十分なregularizationを施してやる必要がある
同じパラメ―タ数のWide-ResNetの学習がうまく行ってるので，非常に層の深いResNetの構造がとくにregularizationの効果を持ってるわけじゃない
深さ方向に層を重ねるよりも，幅を取ったほうが計算的にコストが低そう

どうやって有効だと検証した？

各種データセットでのSOTA

議論はある？

次に読むべき論文は？

Net2Net: Accelerating Learning via Knowledge Transfer, https://arxiv.org/abs/1511.05641
Identity Mappings in Deep Residual Networks, https://arxiv.org/abs/1603.05027
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, https://arxiv.org/abs/1502.03167
Network In Network, https://arxiv.org/abs/1312.4400
Very Deep Convolutional Networks for Large-Scale Image Recognition, https://arxiv.org/abs/1409.1556
Dropout: A Simple Way to Prevent Neural Networks from Overfitting, http://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf
Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, https://arxiv.org/abs/1602.07261

(anoGAN)Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

どんなもの

論文

Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

著者・所属機関

Thomas Schlegl, Philipp Seeböck, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, Georg Langs

投稿日

2017/03/17

Abstract

GANを用いた異常検知に関する論文
正例だけを用いた教師なし学習で異常検知を行う

先行研究と比べて何がすごい？

正例のデータのみで学習可能
生成モデルによる分類であり，識別モデルによるものではない
そのため正例でないデータを全て例外として検出可能

技術や手法の肝はどこ？

概念的なきも

Generatorはlatent spaceのzを正例に写像するように学習する
よってあらゆる正例のデータはzに逆写像可能であり，zに逆写像できなければ異常とみなす

学習の手順

通常のGANの学習を行う
zの後にDense(in_shape=(100,), out_shape=(100,))をつけて，Denseの出力も含めてzとみなす
クエリからlatent spaceへの逆写像のため，zを乱数で生成した後，backpropagationによって最適な逆写像を探す
そのさいのlossはresidual lossとdiscrimination lossの線形和
residual lossはGeneratorによってどれだけ類似した画像を生成できたか
discrimination lossはDiscriminatorでどれだけ似たものと判断できたか
そして類似度はlossと同様に定義し，異常な画像をうまく識別できるように類似度の閾値を決める

どうやって有効だと検証した？

MRIかなんかの画像

議論はある？

多分学習に要する時間，推論に要する時間を考えると実用的かどうか難しい
zの初期値ガチャになる可能性

次に読むべき論文は？

ADGAN
Efficient GAN?

[Swish]Searching for Activation Functions

どんなもの

論文

Searching for Activation Functions

著者・所属機関

Prajit Ramachandran, Barret Zoph, Quoc V. Le
Google Brain

投稿日

2017/10/27

Abstract

新たな活性化関数Swishの提案
Swish(x) = x * sigmoid(x)
強化学習に基づく手法でよりよい活性化関数を探索した
複数タスクと複数モデル複数データセットでReLUを上回る性能を出した

先行研究と比べて何がすごい？

精度が出る
収束も早い
計算も複雑でない

技術や手法の肝はどこ？

出力の遷移がなめらか
xが十分大きいとき，ReLUとほぼ同じだが，負の値をある程度許容した

どうやって有効だと検証した？

-いろんなデータセット，モデル，タスク

議論はある？

もうちょい数学的な話も知りたい

次に読むべき論文は？

From RankNet to LambdaRank to LambdaMART: An Overview

どんなもの

論文

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.180.634&rep=rep1&type=pdf

著者・所属機関

Christopher J.C. Burges
Microsoft Research

投稿日

2010年

Abstract

MS ResearchによるLearning to Rankのサーベイ論文
RankNetからLmbdaMARTまで
詳しくはこれ
lambdaMARTはLightGBMに実装されてる

YOLO9000: Better, Faster, Stronger

どんなもの

論文

YOLO9000: Better, Faster, Stronger

著者・所属機関

Joseph Redmon, University of Washington
Ali Farhadi, Allen Institute for AI

投稿日

2016/1225

Abstract

YOLOを改善したYOLOv2の提案

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

Batch Normalization

convの後にBNを入れることで，mAPが2%上がった
BN導入でoverfittingなくdropoutを外せるようになった

High Resolution Classifier

画像サイズをYOLOの224224から448448に変更
448*448のImageNetで10epoch回してからfine-tuning
mAPが約4%上がった

Convolutional With Anchor Boxes

YOLOではbboxesを直接予測していたが，Faster-RCNNはhand-picked priorsを用いて予測
Faster-RCNNでは補正分とconfidenceを予測
YOLOの全結合層を外してanchor boxesを用いてbboxesを予測
anchor boxes導入でaccuracyは劣化するものの，1画像あたり1000個以上の物体を検出可能に(YOLOでは98が限界)
大量の物体を検出できるようにしたことで，mAPは少し下がるがrecall(実際に正を正と予測した割合)が約7%上昇

Dimension Clusters

YOLOでanchor boxesを用いるときの問題の1つにbox dimensions(prior)(なに？)を人力で決定する必要があるが，それをclusteringでやる
k-meansをtrain setのbboxesで実行しより良いprior(なに？)を自動で決定する
ユークリッド距離を用いると大きいbboxesでlossが大きくなるので，以下の指標を距離として用いた(結果k=5がいい感じ)

- k=5の時点でanchor boxesを上回るスコアが出て，k=9では圧倒

Direct location prediction

YOLOでanchor boxesを用いる際に生じる問題のもう1つは特に学習の初期に学習が不安定になることがあり，特にx, yの予測が不安定になることに起因する
RPNでは以下のようにbboxesを計算する
- t_x=1でanchor box右端，t_x=-1で左端を意味する
このやり方では画像中に収まるようにbboxを予測するという制約がないので，YOLOのようにグリッドセル内の相対的な位置を予測すると値が0~1に収まるのでロジスティック回帰で簡単に解ける
予測する領域が綺麗に収まることで学習が安定した

Fine-Grained Features

1313の特徴マップのみを使用していたYOLOとの差分として，2626の特徴マップもconcatしたことで1%のパフォーマンス向上

画像サイズを{320, 352, ..., 608}のように最小で320，最大で608になるようにランダムにreshapeした

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Distributed Representations of Sentences and Documents

どんなもの

論文

Distributed Representations of Sentences and Documents

著者・所属機関

Quoc Le, Tomas Mikolov
Google Inc

投稿日

2014年のいつか

Abstract

BOWは良いが，単語の順序関係や意味を保持しない
提案するParagraph Vector(のちにDoc2Vecと呼ばれる)は，Word2Vecに着想を得て，教師なし学習でBOWの弱点を解決する

先行研究と比べて何がすごい？

教師なしで文章を固定長のベクトルに変換できること
BOWの弱点である，順序関係と意味を学習(表現)可能なこと

技術や手法の肝はどこ？

PV-DM(Distributed Memory Model of Paragraph Vectors)

Word2VecのCBOWモデルと対応している
学習時に直近の数単語から次の単語を予測することで，意味表現を獲得している
入力は文書idと直近数単語，出力は次の単語
文書idをマッピングするParagraph Marix(D)，単語をマッピングするWord Vector Matrix(W)を学習
マッピング後に各表現がconcatされ，予測を行う
Paragraph Vectorは同一のパラグラフ内で共有されるが，Word Vector Matrixはパラグラフを超えて共有される
次の単語を予測することができるので，文章の順序関係を学習できており，そのため名前にMemoryがついている(はず)

PV-DBOW(Distributed Bag of Words of Paragraph Vectors)

Word2Vecにおけるskip-gramに対応する
BOW同様順序関係を気にしない
文書idのみを入力とし，文書に出てきそうな単語を出力するモデル
単体では精度はあまりだが，メモリ効率よく学習でき，PV-DMとともに用いると良い感じ

どうやって有効だと検証した？

文書分類タスクでBOWと比較

議論はある？

次に読むべき論文は？

SCDV

SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS

どんなもの

論文

SGDR: STOCHASTIC GRADIENT DESCENT WITH
WARM RESTARTS

著者・所属機関

Ilya Loshchilov & Frank Hutter
University of Freiburg

投稿日

Abstract

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

warm-restartありでlrを減衰させていく手法
lrの減衰は以下の式に従う

とは学習率の最小値と最大値
は直近のrestartから何epoch回したかで，バッチごとに更新する(各batch iterationが10回なら，1epoch目のときに，0.1, 0.2, ..., 1.0の値をとる)
そしてのとき，つまりrestartの直前で，cosineが-1を出力するので，lrは最小となる
というパラメータも導入し，これは各restartごとに，周期を何倍にするかを決定する(1で毎回同じepoch数でrestartし，2のときはT_0=10ならば,10, 20, 40などのように，restartする周期が長くなる)
は最初の周期数

どうやって有効だと検証した？

議論はある？

Kaggleではcosineannealingとsnapshotがベタ

次に読むべき論文は？

Deep Networks with Stochastic Depth

どんなもの

論文

Deep Networks with Stochastic Depth

著者・所属機関

Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger
Cornell University, Tsinghua University

投稿日

2016/7/28

Abstract

学習時には層が浅く，テスト時には層が深くなるネットワークの提案
各ミニバッチごとにランダムに層をスキップする(identity functionのみにする)
学習時間の大幅な減少と，テストエラーの大幅な減少

先行研究と比べて何がすごい？

Dropoutの層を消す版だが，層に対して制約を与えた方がより多様性の高いアンサンブルになる
DropoutはBNとともに使うと効果が出にくいが，層ごとであれば問題ない

技術や手法の肝はどこ？

各ミニバッチごとに層をスキップし，identity functionのみで通過させる
論文中のFig.2が非常にわかりやすい
また，層をスキップする確率に関しては式(4)を用いる．p_L=0.5がベスト
この条件だと各ミニバッチで学習させるResidual Blockがおおよそ3/4程度になる
そして学習時間が25%ほど減らせ，精度の向上も
p_L=0.2だと40%も学習速度が早くなる
推論時は各Residual Blockの出力を確率p_l倍する(Dropoutと理由は同じ)

どうやって有効だと検証した？

ImageNet

議論はある？

次に読むべき論文は？

SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations

どんなもの

論文

SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations

著者・所属機関

Dheeraj Mekala*, Harish Karnick, Microsoft Research
Vivek Gupta*, Bhargavi Paranjape, IITK

投稿日

2017/5/12

Abstract

文章ベクトルを計算する手法で，WordEmbeddingを複数の文脈における異なる意味に応じて，clusteringを用いて適切なベクトル空間に写像する手法．
従来のSOTAであるNTSGを上回った(multi class classification, multi label classification)

先行研究と比べて何がすごい？

より良いかつ頑健な文章ベクトルを，より高速に獲得できる
Word2Vecの平均では単語の並びを考慮できず，また長い文章において平均値に収束するため十分な精度が得られず，Doc2Vecはそもそも精度が出ない，という問題を克服するための提案
また本来単語は出現する文脈に応じて意味が異なるものであるため，同一のEmbeddingを用いるのはそもそも不適切な可能性
他にもトピックを用いる手法はあったが，計算コストが高いことや，単語と同様程度のベクトル空間で表現しようとしたため，あまり実用的でなかったり，精度が出なかったりした

技術や手法の肝はどこ？

論文中のアルゴリズムの式が全て

文章中の各単語のWordEmbeddingを計算する
idfを文章中の各単語について計算する
各単語をGMMでK個のクラスタにクラスタリング
各単語が各クラスタに属する確率を計算する
各単語に対して各クラスタの所属確率をかけて全て結合し，そのidfをとる
最終的に0で初期化したベクトルに，文章中の各単語を足し合わせていく
その後スパースにすることでSCDVを得る

どうやって有効だと検証した？

multi class classificationとmulti label classificationで精度評価し，従来手法を上回る

議論はある？

スパースにするので次元が増える
特別高速なわけではない

次に読むべき論文は？

Shake-Shake regularization

どんなもの

論文

Shake-Shake regularization

著者・所属機関

Xavier Gastaldi

投稿日

2017/5/21

Abstract

入力画像へのdata augmentationだけでなく，中間層においてもdata augmentationは有効ではないかという論文

先行研究と比べて何がすごい？

residual moduleで使用できる強力な正則化の役割を果たすこと

技術や手法の肝はどこ？

shortcut connectionの部分において，Conv3*3の流れを2つ作り，それぞれの出力に0~1の一様乱数alphaと(1-alpha)をかける
訓練時forward: 0~1の一様乱数
訓練時backward: forward時と異なる0~1の一様乱数
test時forward: 両方のパスに0.5をかける(Dropoutと同じ)
また乱数をどのように新規生成するかに関しては，
- ミニバッチごろに作り直す
- ミニバッチの各画像ごとに異なる乱数を用いる
- のがベスト
訓練を通常300epochで回すことが多いが，cosine annealingで学習率を徐々に下げる
1800epoch回しても，augmentationの効果でoverfittingしない？

どうやって有効だと検証した？

CIFAR-100

議論はある？

単純に分岐しているのでパラメータ数が増加している
分岐によって良いアンサンブルが得られそう, モデルを別に作るのとどっちがいいか...

次に読むべき論文は？

(ResNeXt)Aggregated Residual Transformations for Deep Neural Networks

どんなもの

論文

Aggregated Residual Transformations for Deep Neural Networks
https://arxiv.org/abs/1611.05431

著者・所属機関

Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He
UC San Diego
Facebook AI Research

投稿日

2017/4/11

Abstract

ResNetに新たな次元を追加したResNeXt
ResNetのbottleneck blockで，枝分かれさせてあとで足し合わせる構造
この新たな次元をcardinalityと呼び，NNの広さや層の数を深くすることよりも，この次元を大きくしたほうが効率よくモデルのキャパシティと精度を上げることができる

先行研究と比べて何がすごい？

parameter数が同じResNetやInceptionなどのモデルよりも精度がいい
parameter数を増加させるうえで，cardinalityを増加させるのがより効率の良い方法であること

技術や手法の肝はどこ？

新たな次元cardinalityの導入
直感的には各ブロックでアンサンブルしているから精度がいい？
通常のResNetのbottleneckアーキテクチャの，3×3のConvをGroupConvに変えたもの

どうやって有効だと検証した？

ILSVRC 2016 2nd place

議論はある？

次に読むべき論文は？

Wide-ResNet
ShakeNet

You Only Look Once: Unified, Real-Time Object Detection

どんなもの

論文

You Only Look Once: Unified, Real-Time Object Detection

著者・所属機関

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
University of Washington, Allen Institute for AI, Facebook AI Research

投稿日

2016/5/9

Abstract

画像をネットワークに1回通すだけでbouding boxesとクラスの両方を出力する物体検出モデル
そのおかげで推論速度がめちゃめちゃ早い

先行研究と比べて何がすごい？

画像を1回ネットワークに通すだけのend-to-endの学習・推論ができること(Faster-RCNNもそう)
Faster-RCNN比だと，bouding boxesの回帰とクラスの分類を同時にやることで推論速度が上がってること
背景の誤検出に強い

技術や手法の肝はどこ？

画像をS*Sのグリッドに分割し，各グリッドセルはB(=2)個の矩形を保持する
物体の中心が存在するセルがその物体の検出を担う
x, yはグリッドセルの境界を基準にした矩形領域の中心座標で，矩形の大きさがhとw
各セルはどのクラスに当てはまるかの確率も保持する
これによって矩形領域と確信度，各セルのクラスの予測確率が得られる
confidence scoreの閾値を30%にするとほとんどの矩形領域の候補が消える

confidence score

出力のshape

各セル毎にB5+Cの出力が得られ，全体ではSS*(B*5+C)の出力となる
論文中ではS=7，B=2が使用され，Cはクラス数

どうやって有効だと検証した？

議論はある？

セル内に複数の物体があるとダメ

次に読むべき論文は？

Attention Is All You Need

どんなもの

論文

Attention Is All You Need

著者・所属機関

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Google Brain

投稿日

2017/12/6

Abstract

従来のEncoder-Decoderモデルにおいて，EncoderとDecoderの接続部分で最もよかったのがAttentionを用いたものであった
そこに着想を得て提案されたのがこのTransformerというモデルで，ConvolutionもRNNも使用していない
英独と英仏の翻訳タスクにおいて，BLEUスコアでState of the Art

先行研究と比べて何がすごい？

RNNが存在しないので計算効率が良く，またAttention機構によって時系列を考慮することができる

技術や手法の肝はどこ？

Encoder

Encoder Layerが層あり，ひとつのEncoder Layerは，Multi-Head AttentionとFeedForwardのsub-layerで構成される
sub-layerはそれぞれの層のあとにLayer NormalizationとResidual Connectionが施される
Embeddingもすべてのsub-layerも次元を出力する

Scaled Dot-Product Attetion

additive attentionとdot-product attentionでは後者のほうが空間計算量的に効率が良いので採用
ただしadditive attentionと異なり，dot-product attentionではが大きくなったときに，softmaxに差が出すぎてしまい，勾配が消失することがあるので，スケーリングを加えたScaled Dot-Product Attetionを提案

Multi-Head Attention

モデル内でのアンサンブルみたいなもの
適用は以下の3通りでそれぞれquery, key, valueの決まり方が異なる
- encoder-decoder attention：queryは直前のdecoderの出力，keyとvalueはencoderの出力
- encoder：self attentionではkey, value, queryはすべて直前の層の出力
- decoder：Scaled Dot-Product内で-infのmaskをする

Position-wise Feed Forward Networks

Linear -> ReLU -> Linearで入力と出力が次元あり，隠れ層の次元が
Linearじゃなくてkernel_size=1のConvでもいいよ
EncoderとDecoderのEmbeddingの重みは共通

Positional Encoding

モデルがsequenceの位置情報を得るために，Positional Encodingを導入
次元はで，Embeddingされた値にこの出力を足す
posはpositionでiが次元

ハイパーパラメータなど

Baseモデル(パラメータ数：)
Optimizer Adam: , ,
warmup_steps = 4000
Dropoutを各sub-layerの出力とEmbeddingとPositional Encodingの和の出力にもかけた

どうやって有効だと検証した？

英独と英仏の翻訳タスクにおいて，BLEUスコアでState of the Art

議論はある？

次に読むべき論文は？

YOLOv3: An Incremental Improvement

どんなもの

論文

YOLOv3: An Incremental Improvement

著者・所属機関

Joseph Redmon, University of Washington
Ali Farhadi, University of Washington

投稿日

2018/4/8

Abstract

YOLOと比較しやや推論が遅くなったもののより精度を上げたもの
ベンチマークではSSDと同じ精度で推論速度が3倍早い

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

Class Prediction

精度向上のためにsoftmaxは使わずにロジスティック回帰で分類し，binary cross entropyで学習
これによってOpen Images Datasetのような物体が重なるような状況での精度の改善をもたらした

Predictions Across Scales

feature pyramid networksのように異なるスケールでの予測を行い，YOLOでは3つの異なるスケールを使用する
3d-tensorで予測を行い，tensorの出力次元はになる
Nは1313，2626，52*52の3段階
がfeature mapのheightとwidth，3が3つの異なるスケールでの予測，(4+1+80)はbounding boxの予測の4，1は物体の信頼性，80クラスそれぞれの予測確率を表す
CNNの手前の層の出力が獲得する特徴は深い層の特徴に比較してリッチでないので，深い層の出力をupsampleしてconcatすることでより良い特報を得る

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

(ADGAN)Anomaly Detection with Generative Adversarial Networks

どんなもの

論文

Anomaly Detection with Generative Adversarial Networks

著者・所属機関

Lucas Deecke, Robert Vandermeulen, Lukas Ruff, Stephan Mandt, Marius Kloft

投稿日

2018/02/16

Abstract

anoGANを改良したGANの異常検知手法
anoGANと同様に，正例画像ならばlatent spaceにはそれに対応するzが存在する
そのzをbackpropで求め，Generatorに入力して復元した画像との距離を測ることで異常検知する

先行研究と比べて何がすごい？

効率的な学習と初期値依存の軽減ができた点

技術や手法の肝はどこ？

anoGANではGANの学習をした後ではGもDもパラメータを固定したが，ADGANではzのbackprop時にGのパラメータを更新する
初期値依存を防ぐために，Gによる残差はzの探索回数の平均をとって異常度とする
またloss自体もanoGANから変更があり，Dが介入しない