paper_reading's People
paper_reading's Issues
Dynamic Routing Between Capsules
どんなもの
論文
Dynamic Routing Between Capsules
著者・所属機関
- Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton
投稿日
- 2017/11/7
Abstract
- 従来のNNはノードをスカラーが伝播したが,ベクトルが伝播するCapsNetの提案
- poolingがあまりよくない -> Capsuleを用いることで,より普遍的な位置の不変性を手に入れうる
先行研究と比べて何がすごい?
- スカラーからCapsuleへ
- Dynamic Routingというback-propではないパラメータ更新が提案されている
技術や手法の肝はどこ?
Dynamic Routing
- back-propしない(Dynamicな)Attentionのようなもの
- coupling coefficientsというパラメータを用いる
- 繰り返しこのパラメータを更新することで,最適なCapsule間の結合の重みを獲得する
どうやって有効だと検証した?
- MNISTのSOTA
議論はある?
- ほんまにBack-propよりいいのか疑問...
次に読むべき論文は?
Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network
どんなもの
論文
Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network
著者・所属機関
Saihui Hou, Zilei Wang
投稿日
2019/1/??
Abstract
- CNNにおいて,channel間のDropoutを導入した
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
- GAPでチャネルの代表値を取り出しそれを各チャネルにかけるが,それを適当にDropoutする.
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
Distilling the Knowledge in a Neural Network
どんなもの
論文
https://arxiv.org/abs/1503.02531?context=cs
著者・所属機関
Geoffrey Hinton, Oriol Vinyals, Jeff Dean
Google
投稿日
2015/05/09
Abstract
先行研究であるCaruanaらの取り組みに対する,異なるアプローチの提案とのこと.
結果としては,アンサンブルモデルを1つの比較的単純なモデルに学習した知識を受け継ぐ(蒸留する)ことができ,MNIST,Androidの音声認識で良い成果を上げた.
先行研究と比べて何がすごい?
技術や手法のキモはどこ?
学習にはハードターゲットとソフトターゲットの2種類のデータを用いる.
-
ハードターゲット
通常のデータセットと正解ラベルのこと. -
ソフトターゲット
蒸留元の教師モデルの出力のこと.
蒸留では蒸留元のモデルのsoftmax出力をすべて学習させることで,知識を受け継がせる.
softmaxに対して,温度(temperature)Tを導入.
通常はT=1に設定するが,Tの値を上げると,出力の確率分布は滑らかに.
蒸留元のネットワークが学習したsoftmaxの出力には重要な情報が含まれる.
というのも,モデルが1番確率が高いと判断したものと2番目に確率が高いと判断したものとでは,見た目の性質上似ているといえるから.
MNISTデータセットでいうならば,2は3や7と似ているなど.
この情報をより伝えやすくするための仕組みとして導入されたのが温度.
出力が滑らかであれば,それぞれの差異が相対的に少なくなるので,こういった情報が伝わりやすくなる.
- 目的関数
目的関数はハードターゲット(通常のデータセットと正解ラベル)のクロスエントロピーと,ソフトターゲットでのクロスエントロピーの和をとる.そしてこの関数を最小化していくことで学習を進める.
また,ソフトターゲットのsoftmaxには温度Tを導入する.
どうやって有効と検証した?
MNIST,Androidの音声認識.
議論はある?
次に読むべき論文は?
Attention is All You Need
どんなもの
論文
著者・所属機関
- Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
- Google Brain
投稿日
- 2017/06/12
詳細
Focal Loss for Dense Object Detection
どんなもの
論文
著者・所属機関
- Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár
- Facebook AI Research
投稿日
- 2017/08/07
Abstract
- Object Detectionのone-stage detectorsをより精度よく学習させるために提案されたloss
- one-stage detector : YOLO, SSDなど
- two-stage detector : R-CNNなど
- 物体検出は基本的にimbalancedなデータを扱うことになるため
先行研究と比べて何がすごい?
- 一般的によく使われる手法としてはCrossEntropyにクラスの出現数の逆数をかけたもの
- Focal LossはNNの予測値を1から引いたものをn乗した重み付きのCrosEntropy
- さらに通常のクラス出現数の逆数をかけたものを実験で使用
- 2乗するだけでも予測値90%のクラスはCrossEntropyの100分の1ほどの大きさになる
技術や手法の肝はどこ?
- n乗のハイパーパラメータと計算コストの低さ
どうやって有効だと検証した?
-COCOでsota
議論はある?
次に読むべき論文は?
- これの後続研究が相当あるはずなので調べたい
MEAL: Multi-Model Ensemble via Adversarial Learning
どんなもの
論文
MEAL: Multi-Model Ensemble via Adversarial Learning
著者・所属機関
Zhiqiang Shen, Zhankui He, Xiangyang Xue
投稿日
2018/12/6
Abstract
- studentモデルが教師モデルの知識を敵対学習を用いて効率よく蒸留(アンサンブル)できる構造
- 最終的に1つのモデルに蒸留するので,テスト時のコストが非常に低い
先行研究と比べて何がすごい?
- 従来のアンサンブルはアンサンブルに用いるモデルが増加すればするほど,線形に推論に時間を要したが,提案手法はsingle modelによる推論になるので,テスト時に早い
- またアンサンブルするモデルが必ずしもすべて多様な結果を出力するわけではないので,そのあたりをGANの機構を用いて効率よく学習
技術や手法の肝はどこ?
- 教師モデル(複数)をまずは学習させる
- 教師モデルのパラメータ更新を止め,訓練データXnを教師モデルに入力し,そのsoft-targetをstudentモデルのラベルにする
- studentモデルのlossは教師モデルのsoft-targetとのsimilarity loss(KL-divergenceやL1, L2など)とDIscriminatorのlossの和(それぞれにalpha, betaの係数はあるが,論文中ではともに1を使用)
- Discriminatorはstudent, teacherの出力をいれ,どちらかを識別できるように学習
どうやって有効だと検証した?
- CIFAR-10, CIFAR-100などでSOTA
議論はある?
次に読むべき論文は?
- AAAI19
(PyramidNet) Deep Pyramidal Residual Networks
どんなもの
論文
Deep Pyramidal Residual Networks
著者・所属機関
Dongyoon Han, Jiwhan Kim, Junmo Kim
EE, KAIST
投稿日
2017/9/6
Abstract
- 従来のResNetでは,チャネル数をdownsamplingの部分で急に大きくしたが,徐々に大きくするPyramidNetの提案
- これにより,汎化性能が向上することを示した
先行研究と比べて何がすごい?
- 徐々にチャネル数を増やすことで,ResNetに比べて,より良いアンサンブルを実現したこと
- ResNetではダウンサンプリング以外の部分では,ひとつ層を消しても精度に影響があまりなかった
- また,ResNetはshortcut connectionによって薄いCNNのアンサンブルとみなされていた
- より良いアンサンブルを実現するためには,各residual blockが意味を持ったほうがいい
技術や手法の肝はどこ?
- 層の増やし方はadditive PyramidNetとmultiplicative PyramidNetの2種類
- 通常はidentity-mappingでshortcut connectionを実現するが,今回はzero-padded identity-mappingをすべてのresidual unitで用いる.パラメータがなくてoverfittingしないから.そして他の手法よりも汎化能力が高い
- zero-padded identity-mappingは,通常のresidual networkと通常のCNNのアンサンブルのような解釈ができる
- BNとReLUの位置は,通常のpre-activation ResNetから最初のReLUを取って,最後のConvの後にBNを置くのがベスト
- (感想)αの設定などが大変そう
どうやって有効だと検証した?
- CIFAR-10でほかのSOTAよりよかった
議論はある?
次に読むべき論文は?
Rich feature hierarchies for accurate object detection and semantic segmentation (R-CNN)
どんなもの
論文
Rich feature hierarchies for accurate object detection and semantic segmentation (R-CNN)
著者・所属機関
UC Berkeley
投稿日
2014/10/22
Abstract
- 特徴抽出部分にfine-tuningしたCNNを用いて物体検出でSOTA
先行研究と比べて何がすごい?
- CNNを使ったことがすごいだけ
技術や手法の肝はどこ?
- 入力画像からresion proposalsという物体がありそうな部分をselective searchという手法で2k個ほど抽出
- CNNは学習済みモデルをN+1(+1は背景)クラス分類にfine-tuning
- 先ほど取り出した画像をresizeして(今回は227*227),CNNで特徴抽出して4096次元の特徴を抽出
- クラスの分類は各クラスごとのSVMを学習させる
- Bounding BoxのRegressionはRidgeを用いて,入力のペアを,出力のペアをとしてBBoxの補正を行う
どうやって有効だと検証した?
- CNNを用いない従来手法と比較し,割とあらゆるベースラインでSOTA
議論はある?
- 遅い
- SVM大量に学習させるのが面倒
次に読むべき論文は?
ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE
どんなもの
論文
著者・所属機関
- Liangchen Luo, Yuanhao Xiong, Yan Liu , Xu Sun
投稿日
- 2019
Abstract
先行研究と比べて何がすごい?
- SGDは良い汎化性能をもたらすが,収束に時間がかかる
- Adamなどのadaptiveな手法は学習初期の収束は早いが,汎化性能が出ないのと最適解に最終的に近づかない
- これらのいいとこどりをした手法
技術や手法の肝はどこ?
- 最初はAdam,後半はSGDを連続的に遷移する
- 参照:https://qiita.com/Phoeboooo/items/f610affdcaaae0a28f34
どうやって有効だと検証した?
- CVとNLPのタスク
議論はある?
次に読むべき論文は?
Snapshot Ensembles: train 1, get M for free
どんなもの
論文
SNAPSHOT ENSEMBLES: TRAIN 1, GET M FOR FREE
https://openreview.net/pdf?id=BJYwwY9ll
著者・所属機関
Gao Huang∗
, Yixuan Li∗
, Geoff Pleiss
Cornell University
投稿日
2017
Abstract
- アンサンブルは良いけど,複数のニューラルネットを学習するには計算コストがかかるので,1つのモデルを学習するだけでできるアンサンブルを提案する.
- Snapshot Ensemblingと命名,最適解に比較的近い局所解いくつかの重みを保存して,それぞれのアンサンブルをすると精度が良い.
先行研究と比べて何がすごい?
- 計算コストが1回の学習だけで済むのに,アンサンブルとして非常に有用.
技術や手法の肝はどこ?
- Cyclic Cosine Annealing
- 学習率を下げ,局所解の重みを保存してから,学習率を一気に上げることで局所解から脱して,別の局所解へと向かう.
- 通常のlearning rate scheduleの方が,cyclic scheduleよりもロスが小さくなることはあるが,cyclic scheduleのアンサンブルのほうが精度が良い.
- どれだけの期間のスナップショットを用いるかはハイパーパラメータ.
どうやって有効だと検証した?
~CIFAR-10, CIFAR-100, SVHN, Tiny ImageNetのデータで,ResNet-110, Wide-ResNet-32, DenseNet40, DenseNet-100のモデルで検証.
議論はある?
次に読むべき論文は?
- implicit ensemble, (Srivastava 2014)
- Stochastic Depth technic (Huang 2016b)
- Swapout (Singh 2016)
U-Net: Convolutional Networks for Biomedical Image Segmentation
どんなもの
論文
U-Net: Convolutional Networks for Biomedical
Image Segmentation
著者・所属機関
Olaf Ronneberger, Philipp Fischer, and Thomas Brox
University of Freiburg
投稿日
2015/5/18
Abstract
- end-to-endで学習できる,少数のデータでも効率よく学習できるネットワークの提案
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
- UNetのアーキテクチャ
- 図の左側がcontractive path,右側がexpansive path
- contrastive pathは一般的なCNNのアーキテクチャで,paddingなしのConvとReLUが2つとその後に2*2でストライド2のmaxpoolが続く構造の繰り返し
- それぞれのdownsamplingで,feature mapの数を倍にする
- expansive pathでは,upsampling部分で22のup-convを行い,その後はcontrastive pathと同様の33のconvにReLUが2つの流れ
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
(scSE) Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks
どんなもの
論文
Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks
著者・所属機関
Abhijit Guha Roy, Nassir Navab, Christian Wachinger
Artificial Intelligence in Medical Imaging (AI-Med), KJP, LMU Mu ̈nchen, Germany
etc.
投稿日
2018/6/8
Abstract
- sSEという手法の提案.pixelごとのチャンネル方向の重み付け
- 新たに提案するsSEと従来のcSEの組み合わせのscSEが計算コストの上昇をほどほどに精度をもっとも向上させることが可能
先行研究と比べて何がすごい?
- cSEはチャンネルごとの特徴をenhanceでき,画像分類タスクでは非常に精度向上に寄与するがセグメンテーションではそこまで
- sSEという手法はピクセル毎の特徴をとらえるので,よりセグメンテーションに特化したsqueeze and excitationになる
- 両方使えばもっとすごい
技術や手法の肝はどこ?
-
cSE
- x = GAP(input_x)
- x = Dense(x)
- x = ReLU(x)
- x = Dense(x)
- x = Sigmoid(x)
- out = mul([input_x, x])
-
sSE
- x = Conv(filters=1, kernel_size=1, stride=1)(input_x)
- x = Sigmoid(x)
- out = mul([input_x, x])
-
scSE
- out = cSE(input_x) + sSE(input_x)
どうやって有効だと検証した?
- MALC Dataset, Visceral DatasetでDenseNet, SD-Net, U-Netでのセグメンテーション
- cSE, sSE, scSEの順にスコアが良い
議論はある?
次に読むべき論文は?
(ResNet) Deep Residual Learning for Image Recognition
どんなもの
論文
Deep Residual Learning for Image Recognition
https://arxiv.org/abs/1512.03385
著者・所属機関
Kaiming He
Xiangyu Zhang
Shaoqing Ren
Jian Sun
Microsoft Research
投稿日
2015/12/10
Abstract
- CNNでは層を深くすればするほど高レベルの特徴を獲得していくので,どんどん層を増やしたい.
- しかし,層が増えれば増えるほど学習は困難になる.通常のバックプロパゲーションで学習可能な範囲でどのように層を増やせばよいかに対する解決策の一つがResNet.
- 提案手法のshortcut connectionという機構を導入すると,層を深くしても学習の難しさは変わらず,パラメータ数も非常に小さくすることが可能.
先行研究と比べて何がすごい?
- CNNで層を深くすると,精度が層が浅い場合に比べて劣化する.これはoverfittingしているのではなく.単純に学習がうまく進んでいない.
- ならばどのように層を増やせば学習をうまく進めることが可能か.
技術や手法の肝はどこ?
-
shortcut connection
- residual blockを導入
- 入力から予測値を直接求めるのではなく,直前の予測で生じた誤差を推定する層を追加した
- 仮に誤差が生じなくとも,重みを0にするだけでいい
- 機構の性質上,パラメータ数の増加も少なく,計算コストが非常に低いまま,層を追加出来る
- 普通のSGDで学習可能
-
building block(input_dim=64)
- shortcut connection
- 3×3, 64
- ReLU
- 3×3, 64
- concat
- ReLU
-
bottleneck building block(input_dim=256)
- shortcut connection
- 1×1, 64
- ReLU
- 3×3, 64
- ReLU
- 1×1, 256
- concat
- ReLU
どうやって有効だと検証した?
- ILSVRC 2015 1st place
議論はある?
次に読むべき論文は?
- Wide-ResNet
- ResNeXt
(SENet) Squeeze-and-Excitation Networks
どんなもの
論文
Squeeze-and-Excitation Networks
https://arxiv.org/pdf/1709.01507.pdf
著者・所属機関
Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu
投稿日
2018/10/25
Abstract
- チャンネル間の関係性を考慮したSE-blockの提案
先行研究と比べて何がすごい?
- ResNetなど既存のCNNに簡単に追加できる
- 計算コストもあまりかからない
技術や手法の肝はどこ?
- チャンネルごとの平均値(GAPの結果)をDense(ReLU)->Dense(Sigmoid)につないで学習
- つまり,通常のCNNでは考慮しない,チャンネル間の重みを学習する機構が入った
- それをsqueeze and excitation blockという
- channel間の重みを学習する際は,GAPの情報を使うのがいいことが実験的にわかった
どうやって有効だと検証した?
- ILSVRC2017 first place
議論はある?
次に読むべき論文は?
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, https://arxiv.org/abs/1506.01497
- Dual Path Networks, https://arxiv.org/abs/1707.01629
- Densely Connected Convolutional Networks, https://arxiv.org/abs/1608.06993
- Deep Roots: Improving CNN Efficiency with Hierarchical Filter Groups, https://arxiv.org/abs/1605.06489
- Genetic CNN, https://arxiv.org/abs/1703.01513
- Progressive Neural Architecture Search, https://arxiv.org/abs/1712.00559
- SMASH: One-Shot Model Architecture Search through HyperNetworks, https://arxiv.org/abs/1708.05344
- Accelerating Neural Architecture Search using Performance Prediction, https://arxiv.org/abs/1705.10823
- Designing Neural Network Architectures using Reinforcement Learning, https://arxiv.org/abs/1611.02167
- Efficient Neural Architecture Search via Parameter Sharing, https://arxiv.org/abs/1802.03268
- Attention Is All You Need, https://arxiv.org/abs/1706.03762
- SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning, https://arxiv.org/abs/1611.05594
- CBAM: Convolutional Block Attention Module, https://arxiv.org/abs/1807.06521
- Residual Attention Network for Image Classification, https://arxiv.org/abs/1704.06904
- ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices, https://arxiv.org/abs/1707.01083
- Shake-Shake regularization, https://arxiv.org/abs/1705.07485
- Deep Pyramidal Residual Networks, https://arxiv.org/abs/1610.02915
- Exploring the Limits of Weakly Supervised Pretraining, https://arxiv.org/abs/1805.00932
mixup: Beyond Empirical Risk Minimization
どんなもの
論文
mixup: Beyond Empirical Risk Minimization
著者・所属機関
Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz
MIT, Facebook AI Research
投稿日
2018/4/27
Abstract
- 新たなdata augmentation手法
- データと正解ラベル2つずつのペアを0~1の一様乱数λと(1-λ)をかけてmixupする手法
先行研究と比べて何がすごい?
- CIFAR10, 100などでSOTA
- 通常の学習よりもadversarial ezamplesに対してロバストに学習できる
- テーブルデータや音声データでも有用
- GANの学習が安定する
技術や手法の肝はどこ?
- x_hat = λx_i + (1-λ)x_j
- y_hat = λy_i + (1-λ)y_j
どうやって有効だと検証した?
- CIFAR-10, CIFAR-100などの画像認識,
- 音声データ
- GAN
議論はある?
次に読むべき論文は?
Automatic salt deposits segmentation: A deep learning approach
どんなもの
論文
Automatic salt deposits segmentation: A deep learning approach
https://arxiv.org/pdf/1812.01429.pdf
著者・所属機関
Mikhail Karchevskiy
Aurteen Inc.
投稿日
2018/11/21
Abstract
kaggleの塩コンペの解説論文.
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
- U-Net and ResNeXt-50 encoder(pretrained on imagenet)
- Spatial-Channel Squeeze & Excitation
- Lovasz loss
- CoordConv
- Hypercolumns
- augumentation
- horizontalはめっちゃ良い
- brightness manipulationとhorizontal shifts, rotationは有効だが,vertical flip, big rotationsは精度が落ちた.
- 推論時はtest time augumentationした.
- SE-ResNeXt-50 encoderの1つめのレイヤーのstrideを1にしたものをつかった.
- snapshot ensemble のMは10を使用.
- lossは0.1binary_crossentropy + 0.9lovasz_loss
どうやって有効だと検証した?
27th place solution
5-fold cv
議論はある?
次に読むべき論文は?
-
Squeeze-and-excitation networks
https://arxiv.org/pdf/1709.01507.pdf -
The lovasz-softmax loss: A ´ tractable surrogate for the optimization of the intersection-over-union measure in neural networks
https://arxiv.org/pdf/1705.08790.pdf
Pneumonia Detection in Chest Radiographs
どんなもの
論文
Pneumonia Detection in Chest Radiographs
https://arxiv.org/pdf/1811.08939.pdf
著者・所属機関
The DeepRadiology Team1
投稿日
2018/11/21
Abstract
- Kaggle肺炎コンペの解説.
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
- CoupleNet
- R-CNN
- RoI Cropping
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
どんなもの
論文
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
著者・所属機関
- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
- Google AI Language
投稿日
- 2018/10/11
Abstract
- Bidirectional Encoder Representations from Transformers; BERT
- 事前学習モデルとして汎用的に利用可能で,CVにおけるResNetのようなもの
- この事前学習モデルを利用して11のタスクでSOTA(しかもまあまあ大幅に上回った)
- 事前学習のアプローチは大きく分けてfeature-basedとfine-tuningの2つ
- feature-basedはELMoに代表される手法で,各タスクに特化したアーキテクチャを持ち,fine-tuningはOpenAI GPTに代表される手法で,各タスクに特化したパラメータの数が少ない(学習時間が早い)手法
- BERTはfine-tuningアプローチのひとつ
先行研究と比べて何がすごい?
- 基本モデルはTransformer
- 少しの学習手法の変更だけでここまで汎用的にfine-tuningに用いれることがすごい
技術や手法の肝はどこ?
学習方法
- 入力データ
- トークン,セグメント,positionの3つをエンコーディングしたものの和を入力とする
- Masked LMとNext Sentence Predictionという2つのタスクのlossの和で学習する
Masked LM
- 単語列を15%の確率でランダムにマスクし,そのマスクした単語が何かを予測するタスクを解いて学習させる
- マスクの手順は
- 80%の確率でそのままマスクする
- 10%の確率で選択した単語を別の単語に置き換える
- 10%の確率で置き換えない
Next Sentence Prediction
- Question AnsweringやNatural Language Inferenceでは2つの文章間の関係性が重要になるが,それはMasked LMでは学習できない
- それを学習するため,ある文章のペアが与えられた時に,文章Aの次に続くのが文章Bであるかどうかを2値分類する
- Bは50%の確率で次の文章で,残り50%の確率でランダムにサンプリングした文章
どうやって有効だと検証した?
- めちゃめちゃSOTA
議論はある?
次に読むべき論文は?
IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS
どんなもの
論文
著者・所属機関
Robert Geirhos
University of Tubingen & IMPRS-IS
投稿日
2019/1/14
Abstract
- CNNは物体の複雑なshapeを学習していると一般に考えられているが,実際には表面のテクスチャの統計量を見ているだけで,ImageNetで学習されたCNNはshapeに関してはほとんど学習していないのではないかという提案
- shapeよりもtextureを学習するようにバイアスがかかっていることをいくつかの実験で示している
- また学習データにスタイル変換を施し,textureを主に変更させたデータセットを用いることで,よりshapeに特化した学習が可能になり,そのモデルは通常のImageNetで学習したモデルよりも頑健であることがわかった
先行研究と比べて何がすごい?
- 先行研究のいくつかで,すでに提案されていたCNNがtexture中心に学習を行なっているという提案に関して,多様な実験を行い,それを裏付けた論文
技術や手法の肝はどこ?
-
以下の画像のように,スタイル変換されたデータセットでそれぞれ学習を行なった
-
silhouetteやedgesは主にshapeに対する変換であり,これらで大きく精度を落としている
-
ただし上記2手法は自然画像と統計量が大きく異なるため,さらに別のStylized-ImageNet(SIN)というデータセットで実験を行なった
-
そもそもImageNetは局所情報のみでも十分に高精度な学習が可能になるなど,タスクが簡単すぎる
-
textureに関してスタイル変換を行なっているSINを用いると,ResNet50でも79%ほどのtop-5 accuracyになるので十分にshapeの学習が行える(ImageNetとResNet50だとtop-5 accuracyが92.9%)
-
ImageNetで学習したモデルでSINのテストを行うとtop-5 accuracyで16.4%だが,SINで学習したモデルでImageNetのテストを行うと,fine-tuningなしで82.6%のtop-5 accuracyを得られる(非常に頑健性が高い)
どうやって有効だと検証した?
- 様々なスタイルの画像での学習
- BagNetという局所受容野の小さいモデルでの対照実験
議論はある?
次に読むべき論文は?
Show and Tell: A Neural Image Caption Generator
どんなもの
論文
Show and Tell: A Neural Image Caption Generator
著者・所属機関
投稿日
2015/11/17
Abstract
- 画像からキャプションを自動生成するモデル(Neural Image Caption; NIC)の提案
- 学習用の画像から,キャプションの文章の対数尤度を最大化するように学習
- 複数のデータセットのBLEUで,従来手法のスコアを上回った
先行研究と比べて何がすごい?
- BLEUスコア
- end-to-endのキャプション生成モデルを提案したこと
技術や手法の肝はどこ?
以下の式を満たすモデルのパラメータを求める.つまり,現時点のモデルと与えられた画像に対して,最もよいキャプションを生成するようにモデルを学習させる.
lossは以下の式でこのlossを使い,LSTMの全てのパラメータ,CNNの最終層,WordEmbeddingを学習する(CNNの基本部分は固定)
どうやって有効だと検証した?
- BLEU-1スコアにおいて,複数のデータで従来手法のSOTAを大きく上回る
- BLEU-1スコアでは人間にかなり近い結果に
議論はある?
次に読むべき論文は?
Video Summarization Using Fully Convolutional Sequence Networks
どんなもの
論文
Video Summarization Using Fully Convolutional Sequence Networks
著者・所属機関
- University of Manitoba, Winnipeg MB R3T 2N2, Canada
- Mrigank Rochan, Linwei Ye, Yang Wang
投稿日
2018
Abstract
- 動画要約をsequence labeling(系列ラベリング)と見なして解くfully convolutional sequence network (FCSN)の提案
- 従来使われてきたようなRNN系のモデルとは異なり,semnatic segmentationで用いられるfully convolutional sequence modelを用いる
- 動画要約が各フレームが要約に入るか否かの2値分類であることと,semantic segmentationが各ピクセルがそのクラスに属するかの2値分類をすることが似ているから
- そのフレームが要約に含まれるべきかそうでないかのbinaryのラベルを用いて学習する手法を採用
- 各動画の全てのフレームをCNNで特徴抽出し,各特徴ベクトルを要約後の動画に入れるべきかを予測する.
先行研究と比べて何がすごい?
- RNN系のモデルから時間方向の畳み込みで時系列性を考慮するようにしたこと
技術や手法の肝はどこ?
Fully Convolutional Sequence Networks
- semantic segmentationでは2Dの畳み込みを行うが,この論文で提案されているモデルでは1Dの時間方向のみの畳み込みを行う
- 従来のRNN系のモデルとは異なり,時間方向二畳み込みを行うので,全フレームをまとめて一気に計算することになる
- semantic segmentationのモデルは特徴抽出部分とその特徴からmaskを作成するencoder-decoderモデルと考えられるが,この提案モデルも同様で,各フレーム間の高次の特徴を抽出するencoder部分と要約に含まれるべきか否かの0or1を出力するdecoder部分から構成されるencoder-decoderモデルと捉えることができる
- 命名:fully convolutional sequence network (FCSN)で SUM-FCNともいう
SUM-FCN
Learning
- keyframeはnon-keyframeに対してかなり少量しかないので,不均衡データに対応すべく重み付きのlossを導入する
Unsupervised SUM-FCN
- 先ほどと同様のSUM-FCNを用いた教師なしでの要約手法の提案
- モデルの変更としては,decoderの出力のケツに1*1の畳み込みを入れて,抽出された特徴を再現するのみ
- 予測スコアからY個のフレームを選択し,畳み込みしてlossを計算する
- 要約された動画が視覚的に多様なフレームを含んでいる必要があるので,損失関数は多様性を担保する項のL_divとL_recon(MSE)の和
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings
どんなもの
論文
Simple Unsupervised Keyphrase Extraction using Sentence Embeddings
著者・所属機関
Kamil Bennani-Smires, Claudiu Musat, Andreea Hossmann, Michael Baeriswyl, Martin Jaggi
Data, Analytics & AI, Swisscom AG
Machine Learning and Optimization Laboratory, EPFL
投稿日
ACL2018
Abstract
- EmbedRankという,単一文書からの教師なしキーフレーズ抽出
- グラフベースの手法よりもF値で上回る
- Maximal Marginal Relevance(MMR)という手法で,冗長なキーフレーズ抽出を避けることも実現
先行研究と比べて何がすごい?
- 教師なしでキーフレーズ抽出が可能
- 冗長な抽出をMaximal Marginal Relevance(MMR)で避けられる
技術や手法の肝はどこ?
EmbedRank
- キーフレーズの候補を文章から選択
- 文章と1で取り出した候補の埋め込み表現を得る
- それぞれのペアで類似度を計算し,類似度順にrankに
- 文章の埋め込み表現を得る際は,名詞と形容詞のみをしようした
- 文章の埋め込み表現を得るのに,Doc2VecとSent2Vecの両方を試している
- Doc2Vec: 300次元,Sent2Vec: 700次元
- English Wikipedia Corpusで学習
- Doc2Vecは文章全体に対して推論を行うので,Sent2Vecより遅い
- 類似度計算にはcosine distanceを使用
EmbedRank++
- EmbedRankにMMRを追加して,冗長なキーワード抽出を避けたもの
どうやって有効だと検証した?
- TextRankなどの手法と比較
議論はある?
- かなり文章埋め込みの精度に依存しそう
次に読むべき論文は?
- Sent2Vec
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
どんなもの
論文
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
著者・所属機関
- Alec Radford & Luke Metz - indico Research
- Soumith Chintala - Facebook AI Research
投稿日
- 2015/12/19
Abstract
- CNNを用いたGANのDCGANの提案
- 教師なしでどれだけ画像の特徴抽出ができるかという側面でも書いている
先行研究と比べて何がすごい?
- CNNによる高解像度の画像生成
- CNNの教師なしでの事前学習が可能な点
技術や手法の肝はどこ?
- 以下の手法による学習の安定化
- CNNの導入
- GAPを使わないこと
- BatchNorm
- プーリングをstrideありのconvに変更
どうやって有効だと検証した?
- 画像生成の定性評価
- DCGANのdescriminatorで特徴抽出し,CIFAR10を分類させたもののスコア
議論はある?
次に読むべき論文は?
Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks
どんなもの
論文
Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks
著者・所属機関
Dong-Hyun Lee
Nangman Computing, 117D Garden five Tools, Munjeong-dong Songpa-gu, Seoul, Korea
投稿日
?
Abstract
- ラベル付けされていないデータを用いたsemi-supervised learning手法の提案
- ラベル付けされていないデータをモデルに入力し,モデルが予測したクラスを擬似ラベルとして,ラベル付きデータと共に用いて学習を行う
- Kaggleでは以下の手順で用いられている
- 学習データでモデル構築
- モデルでテストデータを予測し擬似ラベル生成
- 擬似ラベルでpretrain
- 学習データでfine-tuning
- 実用上はラベル付けをする時間が足りないとか,ドメインにfitさせるような使い方になりそう
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
- モデルでラベルなしデータに擬似ラベルを付与する
- ラベルありデータと擬似ラベルつきデータを用いて学習
- 重みの更新時に擬似ラベルを更新
- Lossは徐々に擬似ラベルの重みが大きくなるようにかける
どうやって有効だと検証した?
議論はある?
- 実際Kaggleのはテストデータにoverfittingさせているだけな気持ちはある
- アノテーションが辛いときや,ドメインを学習させたいときには有用だと思う
次に読むべき論文は?
Triplet Learning(Deep Metric Learnig)関連
論文リスト
- Deep metric learning using Triplet network
- FaceNet: A Unified Embedding for Face Recognition and Clustering
- Improved Deep Metric Learning with
Multi-class N-pair Loss Objective - L2-constrained Softmax Loss for Discriminative Face Verification
- Deep Metric Learning with Angular Loss
- Additive Margin Softmax for Face Verification
概要
- 2015年ごろの論文
- Metric LearningをDeepNNでやろうという試み
- 距離をDNNに出力させる
- Lossはposが近くなるよう,negが遠くなるように設定
Metric Learning
- 類似度や距離を算出し,それに基づいて閾値設定や,K-Neighorsなどで識別
- 通常の分類問題よりはGANの異常検知に近いものがある
- 異常検知や不均衡なデータでの分類問題に強い
Triplet Learning
- あるデータx,xと同じラベルのデータx_p,xと異なるラベルのx_nを1つのセットとして学習
- 3つの出力をFaceNetではTriplet Lossで学習
- DMLの方の論文では別のlossを使用
N-Pair Sampling
- 論文:http://www.nec-labs.com/uploads/images/Department-Images/MediaAnalytics/papers/nips16_npairmetriclearning.pdf
- Triplet Samplingのnegativeデータを一度にn(論文では5)個サンプリングし,anchor:positive:negativeを1:1:nで学習する手法
- 学習が進んだ時,十分離れたnegativeをサンプリングした時にlossが小さくなるので,学習を安定させるためにn個のnegativeを導入
L2-constrained softmax loss
- 論文;https://arxiv.org/abs/1703.09507
- 超球内にデータを分布させるように学習する
- metricの出力を正規化し,それを用いてsoftmaxをとき,そのlossを流すという手法
center loss
Angular loss
- 論文:https://arxiv.org/abs/1708.01682
- ∠positive,negative,anchorを最小化することで距離を遠ざけようというloss
- 従来法ではpositiveとanchorの最小化,negativeとanchorの最大化だけを考えていたが,3点の相対的な位置を考慮した設計になている
(Wide-ResNet)Wide Residual Networks
どんなもの
論文
Wide Residual Networks
https://arxiv.org/abs/1605.07146
著者・所属機関
Sergey Zagoruyko, Nikos Komodakis
Université Paris-Est, École des Ponts
ParisTech
投稿日
2017/6/14
Abstract
- Wide-ResNet
先行研究と比べて何がすごい?
- パラメータ数が同じ程度のResNetと比べ,精度が高く計算が数倍速い
- この時点でのSOTA
技術や手法の肝はどこ?
層の深さを減らし,幅を広げたResNet
- resnetの層はほとんど良い情報を獲得できておらず,あまり精度の向上に役立っていない可能性がある
- となるとresnetの主な利点は層を深く出来ることではなく.residual blockそれ自体
- 層を浅く幅を広くとると,16層で1000層のresnetと同様の精度を達成し,学習は2倍速かった
ベストな構造
- Dropoutをresidual blockのConvとConvの間に入れた(conv, relu, dropout, conv, relu)
- wide-resnetではchannel数をk倍する.k=1でoriginal resnetと同じ
- residual blockをConv-BN-ReLUからBN-Conv-ReLUに変更した
- 各blockごとのConvの数は3×3がベスト
- wide-resnetの構造はdepth=28, k=10でCIFAR10のベストを出している.depth=16, k=8でもまあまあ良い
他
- BNはinternal covariate shift(内部共変量シフト)を削減し,層が深くパラメータ数の多いNNのoverfittingを防ぐ
- 深さや幅を広げたらそれだけ十分なregularizationを施してやる必要がある
- 同じパラメ―タ数のWide-ResNetの学習がうまく行ってるので,非常に層の深いResNetの構造がとくにregularizationの効果を持ってるわけじゃない
- 深さ方向に層を重ねるよりも,幅を取ったほうが計算的にコストが低そう
どうやって有効だと検証した?
- 各種データセットでのSOTA
議論はある?
次に読むべき論文は?
- Net2Net: Accelerating Learning via Knowledge Transfer, https://arxiv.org/abs/1511.05641
- Identity Mappings in Deep Residual Networks, https://arxiv.org/abs/1603.05027
- Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, https://arxiv.org/abs/1502.03167
- Network In Network, https://arxiv.org/abs/1312.4400
- Very Deep Convolutional Networks for Large-Scale Image Recognition, https://arxiv.org/abs/1409.1556
- Dropout: A Simple Way to Prevent Neural Networks from Overfitting, http://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf
- Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, https://arxiv.org/abs/1602.07261
(anoGAN)Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery
どんなもの
論文
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery
著者・所属機関
Thomas Schlegl, Philipp Seeböck, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, Georg Langs
投稿日
2017/03/17
Abstract
- GANを用いた異常検知に関する論文
- 正例だけを用いた教師なし学習で異常検知を行う
先行研究と比べて何がすごい?
- 正例のデータのみで学習可能
- 生成モデルによる分類であり,識別モデルによるものではない
- そのため正例でないデータを全て例外として検出可能
技術や手法の肝はどこ?
概念的なきも
- Generatorはlatent spaceのzを正例に写像するように学習する
- よってあらゆる正例のデータはzに逆写像可能であり,zに逆写像できなければ異常とみなす
学習の手順
- 通常のGANの学習を行う
- zの後にDense(in_shape=(100,), out_shape=(100,))をつけて,Denseの出力も含めてzとみなす
- クエリからlatent spaceへの逆写像のため,zを乱数で生成した後,backpropagationによって最適な逆写像を探す
- そのさいのlossはresidual lossとdiscrimination lossの線形和
- residual lossはGeneratorによってどれだけ類似した画像を生成できたか
- discrimination lossはDiscriminatorでどれだけ似たものと判断できたか
- そして類似度はlossと同様に定義し,異常な画像をうまく識別できるように類似度の閾値を決める
どうやって有効だと検証した?
- MRIかなんかの画像
議論はある?
- 多分学習に要する時間,推論に要する時間を考えると実用的かどうか難しい
- zの初期値ガチャになる可能性
次に読むべき論文は?
- ADGAN
- Efficient GAN?
[Swish]Searching for Activation Functions
どんなもの
論文
著者・所属機関
- Prajit Ramachandran, Barret Zoph, Quoc V. Le
- Google Brain
投稿日
- 2017/10/27
Abstract
- 新たな活性化関数Swishの提案
- Swish(x) = x * sigmoid(x)
- 強化学習に基づく手法でよりよい活性化関数を探索した
- 複数タスクと複数モデル複数データセットでReLUを上回る性能を出した
先行研究と比べて何がすごい?
- 精度が出る
- 収束も早い
- 計算も複雑でない
技術や手法の肝はどこ?
- 出力の遷移がなめらか
- xが十分大きいとき,ReLUとほぼ同じだが,負の値をある程度許容した
どうやって有効だと検証した?
-いろんなデータセット,モデル,タスク
議論はある?
- もうちょい数学的な話も知りたい
次に読むべき論文は?
From RankNet to LambdaRank to LambdaMART: An Overview
どんなもの
論文
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.180.634&rep=rep1&type=pdf
著者・所属機関
Christopher J.C. Burges
Microsoft Research
投稿日
2010年
Abstract
- MS ResearchによるLearning to Rankのサーベイ論文
- RankNetからLmbdaMARTまで
- 詳しくはこれ
- lambdaMARTはLightGBMに実装されてる
YOLO9000: Better, Faster, Stronger
どんなもの
論文
YOLO9000: Better, Faster, Stronger
著者・所属機関
- Joseph Redmon, University of Washington
- Ali Farhadi, Allen Institute for AI
投稿日
2016/1225
Abstract
- YOLOを改善したYOLOv2の提案
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
Batch Normalization
- convの後にBNを入れることで,mAPが2%上がった
- BN導入でoverfittingなくdropoutを外せるようになった
High Resolution Classifier
- 画像サイズをYOLOの224224から448448に変更
- 448*448のImageNetで10epoch回してからfine-tuning
- mAPが約4%上がった
Convolutional With Anchor Boxes
-
YOLOではbboxesを直接予測していたが,Faster-RCNNはhand-picked priorsを用いて予測
-
Faster-RCNNでは補正分とconfidenceを予測
-
YOLOの全結合層を外してanchor boxesを用いてbboxesを予測
-
anchor boxes導入でaccuracyは劣化するものの,1画像あたり1000個以上の物体を検出可能に(YOLOでは98が限界)
-
大量の物体を検出できるようにしたことで,mAPは少し下がるがrecall(実際に正を正と予測した割合)が約7%上昇
Dimension Clusters
- YOLOでanchor boxesを用いるときの問題の1つにbox dimensions(prior)(なに?)を人力で決定する必要があるが,それをclusteringでやる
- k-meansをtrain setのbboxesで実行しより良いprior(なに?)を自動で決定する
- ユークリッド距離を用いると大きいbboxesでlossが大きくなるので,以下の指標を距離として用いた(結果k=5がいい感じ)
Direct location prediction
- YOLOでanchor boxesを用いる際に生じる問題のもう1つは特に学習の初期に学習が不安定になることがあり,特にx, yの予測が不安定になることに起因する
- RPNでは以下のようにbboxesを計算する
- このやり方では画像中に収まるようにbboxを予測するという制約がないので,YOLOのようにグリッドセル内の相対的な位置を予測すると値が0~1に収まるのでロジスティック回帰で簡単に解ける
- 予測する領域が綺麗に収まることで学習が安定した
Fine-Grained Features
- 1313の特徴マップのみを使用していたYOLOとの差分として,2626の特徴マップもconcatしたことで1%のパフォーマンス向上
- 画像サイズを{320, 352, ..., 608}のように最小で320,最大で608になるようにランダムにreshapeした
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
Distributed Representations of Sentences and Documents
どんなもの
論文
Distributed Representations of Sentences and Documents
著者・所属機関
Quoc Le, Tomas Mikolov
Google Inc
投稿日
2014年のいつか
Abstract
- BOWは良いが,単語の順序関係や意味を保持しない
- 提案するParagraph Vector(のちにDoc2Vecと呼ばれる)は,Word2Vecに着想を得て,教師なし学習でBOWの弱点を解決する
先行研究と比べて何がすごい?
- 教師なしで文章を固定長のベクトルに変換できること
- BOWの弱点である,順序関係と意味を学習(表現)可能なこと
技術や手法の肝はどこ?
PV-DM(Distributed Memory Model of Paragraph Vectors)
- Word2VecのCBOWモデルと対応している
- 学習時に直近の数単語から次の単語を予測することで,意味表現を獲得している
- 入力は文書idと直近数単語,出力は次の単語
- 文書idをマッピングするParagraph Marix(D),単語をマッピングするWord Vector Matrix(W)を学習
- マッピング後に各表現がconcatされ,予測を行う
- Paragraph Vectorは同一のパラグラフ内で共有されるが,Word Vector Matrixはパラグラフを超えて共有される
- 次の単語を予測することができるので,文章の順序関係を学習できており,そのため名前にMemoryがついている(はず)
PV-DBOW(Distributed Bag of Words of Paragraph Vectors)
- Word2Vecにおけるskip-gramに対応する
- BOW同様順序関係を気にしない
- 文書idのみを入力とし,文書に出てきそうな単語を出力するモデル
- 単体では精度はあまりだが,メモリ効率よく学習でき,PV-DMとともに用いると良い感じ
どうやって有効だと検証した?
- 文書分類タスクでBOWと比較
議論はある?
次に読むべき論文は?
SCDV
SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS
どんなもの
論文
SGDR: STOCHASTIC GRADIENT DESCENT WITH
WARM RESTARTS
著者・所属機関
Ilya Loshchilov & Frank Hutter
University of Freiburg
投稿日
?
Abstract
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
- warm-restartありでlrを減衰させていく手法
- lrの減衰は以下の式に従う
- とは学習率の最小値と最大値
- は直近のrestartから何epoch回したかで,バッチごとに更新する(各batch iterationが10回なら,1epoch目のときに,0.1, 0.2, ..., 1.0の値をとる)
- そしてのとき,つまりrestartの直前で,cosineが-1を出力するので,lrは最小となる
- というパラメータも導入し,これは各restartごとに,周期を何倍にするかを決定する(1で毎回同じepoch数でrestartし,2のときはT_0=10ならば,10, 20, 40などのように,restartする周期が長くなる)
- は最初の周期数
どうやって有効だと検証した?
議論はある?
- Kaggleではcosineannealingとsnapshotがベタ
次に読むべき論文は?
Deep Networks with Stochastic Depth
どんなもの
論文
Deep Networks with Stochastic Depth
著者・所属機関
Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger
Cornell University, Tsinghua University
投稿日
2016/7/28
Abstract
- 学習時には層が浅く,テスト時には層が深くなるネットワークの提案
- 各ミニバッチごとにランダムに層をスキップする(identity functionのみにする)
- 学習時間の大幅な減少と,テストエラーの大幅な減少
先行研究と比べて何がすごい?
- Dropoutの層を消す版だが,層に対して制約を与えた方がより多様性の高いアンサンブルになる
- DropoutはBNとともに使うと効果が出にくいが,層ごとであれば問題ない
技術や手法の肝はどこ?
- 各ミニバッチごとに層をスキップし,identity functionのみで通過させる
- 論文中のFig.2が非常にわかりやすい
- また,層をスキップする確率に関しては式(4)を用いる.p_L=0.5がベスト
- この条件だと各ミニバッチで学習させるResidual Blockがおおよそ3/4程度になる
- そして学習時間が25%ほど減らせ,精度の向上も
- p_L=0.2だと40%も学習速度が早くなる
- 推論時は各Residual Blockの出力を確率p_l倍する(Dropoutと理由は同じ)
どうやって有効だと検証した?
- ImageNet
議論はある?
次に読むべき論文は?
SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations
どんなもの
論文
SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations
著者・所属機関
Dheeraj Mekala*, Harish Karnick, Microsoft Research
Vivek Gupta*, Bhargavi Paranjape, IITK
投稿日
2017/5/12
Abstract
- 文章ベクトルを計算する手法で,WordEmbeddingを複数の文脈における異なる意味に応じて,clusteringを用いて適切なベクトル空間に写像する手法.
- 従来のSOTAであるNTSGを上回った(multi class classification, multi label classification)
先行研究と比べて何がすごい?
- より良いかつ頑健な文章ベクトルを,より高速に獲得できる
- Word2Vecの平均では単語の並びを考慮できず,また長い文章において平均値に収束するため十分な精度が得られず,Doc2Vecはそもそも精度が出ない,という問題を克服するための提案
- また本来単語は出現する文脈に応じて意味が異なるものであるため,同一のEmbeddingを用いるのはそもそも不適切な可能性
- 他にもトピックを用いる手法はあったが,計算コストが高いことや,単語と同様程度のベクトル空間で表現しようとしたため,あまり実用的でなかったり,精度が出なかったりした
技術や手法の肝はどこ?
論文中のアルゴリズムの式が全て
- 文章中の各単語のWordEmbeddingを計算する
- idfを文章中の各単語について計算する
- 各単語をGMMでK個のクラスタにクラスタリング
- 各単語が各クラスタに属する確率を計算する
- 各単語に対して各クラスタの所属確率をかけて全て結合し,そのidfをとる
- 最終的に0で初期化したベクトルに,文章中の各単語を足し合わせていく
- その後スパースにすることでSCDVを得る
どうやって有効だと検証した?
- multi class classificationとmulti label classificationで精度評価し,従来手法を上回る
議論はある?
- スパースにするので次元が増える
- 特別高速なわけではない
次に読むべき論文は?
Shake-Shake regularization
どんなもの
論文
著者・所属機関
Xavier Gastaldi
投稿日
2017/5/21
Abstract
- 入力画像へのdata augmentationだけでなく,中間層においてもdata augmentationは有効ではないかという論文
先行研究と比べて何がすごい?
- residual moduleで使用できる強力な正則化の役割を果たすこと
技術や手法の肝はどこ?
- shortcut connectionの部分において,Conv3*3の流れを2つ作り,それぞれの出力に0~1の一様乱数alphaと(1-alpha)をかける
- 訓練時forward: 0~1の一様乱数
- 訓練時backward: forward時と異なる0~1の一様乱数
- test時forward: 両方のパスに0.5をかける(Dropoutと同じ)
- また乱数をどのように新規生成するかに関しては,
- ミニバッチごろに作り直す
- ミニバッチの各画像ごとに異なる乱数を用いる
- のがベスト
- 訓練を通常300epochで回すことが多いが,cosine annealingで学習率を徐々に下げる
- 1800epoch回しても,augmentationの効果でoverfittingしない?
どうやって有効だと検証した?
- CIFAR-100
議論はある?
- 単純に分岐しているのでパラメータ数が増加している
- 分岐によって良いアンサンブルが得られそう, モデルを別に作るのとどっちがいいか...
次に読むべき論文は?
(ResNeXt)Aggregated Residual Transformations for Deep Neural Networks
どんなもの
論文
Aggregated Residual Transformations for Deep Neural Networks
https://arxiv.org/abs/1611.05431
著者・所属機関
Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He
UC San Diego
Facebook AI Research
投稿日
2017/4/11
Abstract
- ResNetに新たな次元を追加したResNeXt
- ResNetのbottleneck blockで,枝分かれさせてあとで足し合わせる構造
- この新たな次元をcardinalityと呼び,NNの広さや層の数を深くすることよりも,この次元を大きくしたほうが効率よくモデルのキャパシティと精度を上げることができる
先行研究と比べて何がすごい?
- parameter数が同じResNetやInceptionなどのモデルよりも精度がいい
- parameter数を増加させるうえで,cardinalityを増加させるのがより効率の良い方法であること
技術や手法の肝はどこ?
- 新たな次元cardinalityの導入
- 直感的には各ブロックでアンサンブルしているから精度がいい?
- 通常のResNetのbottleneckアーキテクチャの,3×3のConvをGroupConvに変えたもの
どうやって有効だと検証した?
- ILSVRC 2016 2nd place
議論はある?
次に読むべき論文は?
- Wide-ResNet
- ShakeNet
You Only Look Once: Unified, Real-Time Object Detection
どんなもの
論文
You Only Look Once: Unified, Real-Time Object Detection
著者・所属機関
- Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
- University of Washington, Allen Institute for AI, Facebook AI Research
投稿日
2016/5/9
Abstract
- 画像をネットワークに1回通すだけでbouding boxesとクラスの両方を出力する物体検出モデル
- そのおかげで推論速度がめちゃめちゃ早い
先行研究と比べて何がすごい?
- 画像を1回ネットワークに通すだけのend-to-endの学習・推論ができること(Faster-RCNNもそう)
- Faster-RCNN比だと,bouding boxesの回帰とクラスの分類を同時にやることで推論速度が上がってること
- 背景の誤検出に強い
技術や手法の肝はどこ?
- 画像をS*Sのグリッドに分割し,各グリッドセルはB(=2)個の矩形を保持する
- 物体の中心が存在するセルがその物体の検出を担う
- x, yはグリッドセルの境界を基準にした矩形領域の中心座標で,矩形の大きさがhとw
- 各セルはどのクラスに当てはまるかの確率も保持する
- これによって矩形領域と確信度,各セルのクラスの予測確率が得られる
- confidence scoreの閾値を30%にするとほとんどの矩形領域の候補が消える
confidence score
出力のshape
- 各セル毎にB5+Cの出力が得られ,全体ではSS*(B*5+C)の出力となる
- 論文中ではS=7,B=2が使用され,Cはクラス数
どうやって有効だと検証した?
議論はある?
- セル内に複数の物体があるとダメ
次に読むべき論文は?
Attention Is All You Need
どんなもの
論文
著者・所属機関
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Google Brain
投稿日
2017/12/6
Abstract
- 従来のEncoder-Decoderモデルにおいて,EncoderとDecoderの接続部分で最もよかったのがAttentionを用いたものであった
- そこに着想を得て提案されたのがこのTransformerというモデルで,ConvolutionもRNNも使用していない
- 英独と英仏の翻訳タスクにおいて,BLEUスコアでState of the Art
先行研究と比べて何がすごい?
- RNNが存在しないので計算効率が良く,またAttention機構によって時系列を考慮することができる
技術や手法の肝はどこ?
Encoder
-
Encoder Layerが層あり,ひとつのEncoder Layerは,Multi-Head AttentionとFeedForwardのsub-layerで構成される
-
sub-layerはそれぞれの層のあとにLayer NormalizationとResidual Connectionが施される
Embeddingもすべてのsub-layerも次元を出力する
Scaled Dot-Product Attetion
- additive attentionとdot-product attentionでは後者のほうが空間計算量的に効率が良いので採用
- ただしadditive attentionと異なり,dot-product attentionではが大きくなったときに,softmaxに差が出すぎてしまい,勾配が消失することがあるので,スケーリングを加えたScaled Dot-Product Attetionを提案
Multi-Head Attention
- モデル内でのアンサンブルみたいなもの
- 適用は以下の3通りでそれぞれquery, key, valueの決まり方が異なる
- encoder-decoder attention:queryは直前のdecoderの出力,keyとvalueはencoderの出力
- encoder:self attentionではkey, value, queryはすべて直前の層の出力
- decoder:Scaled Dot-Product内で-infのmaskをする
Position-wise Feed Forward Networks
-
Linearじゃなくてkernel_size=1のConvでもいいよ
-
EncoderとDecoderのEmbeddingの重みは共通
Positional Encoding
ハイパーパラメータなど
どうやって有効だと検証した?
- 英独と英仏の翻訳タスクにおいて,BLEUスコアでState of the Art
議論はある?
次に読むべき論文は?
YOLOv3: An Incremental Improvement
どんなもの
論文
YOLOv3: An Incremental Improvement
著者・所属機関
- Joseph Redmon, University of Washington
- Ali Farhadi, University of Washington
投稿日
2018/4/8
Abstract
- YOLOと比較しやや推論が遅くなったもののより精度を上げたもの
- ベンチマークではSSDと同じ精度で推論速度が3倍早い
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
Class Prediction
- 精度向上のためにsoftmaxは使わずにロジスティック回帰で分類し,binary cross entropyで学習
- これによってOpen Images Datasetのような物体が重なるような状況での精度の改善をもたらした
Predictions Across Scales
- feature pyramid networksのように異なるスケールでの予測を行い,YOLOでは3つの異なるスケールを使用する
- 3d-tensorで予測を行い,tensorの出力次元はになる
- Nは1313,2626,52*52の3段階
- がfeature mapのheightとwidth,3が3つの異なるスケールでの予測,(4+1+80)はbounding boxの予測の4,1は物体の信頼性,80クラスそれぞれの予測確率を表す
- CNNの手前の層の出力が獲得する特徴は深い層の特徴に比較してリッチでないので,深い層の出力をupsampleしてconcatすることでより良い特報を得る
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
(ADGAN)Anomaly Detection with Generative Adversarial Networks
どんなもの
論文
Anomaly Detection with Generative Adversarial Networks
著者・所属機関
- Lucas Deecke, Robert Vandermeulen, Lukas Ruff, Stephan Mandt, Marius Kloft
投稿日
- 2018/02/16
Abstract
- anoGANを改良したGANの異常検知手法
- anoGANと同様に,正例画像ならばlatent spaceにはそれに対応するzが存在する
- そのzをbackpropで求め,Generatorに入力して復元した画像との距離を測ることで異常検知する
先行研究と比べて何がすごい?
- 効率的な学習と初期値依存の軽減ができた点
技術や手法の肝はどこ?
- anoGANではGANの学習をした後ではGもDもパラメータを固定したが,ADGANではzのbackprop時にGのパラメータを更新する
- 初期値依存を防ぐために,Gによる残差はzの探索回数の平均をとって異常度とする
- またloss自体もanoGANから変更があり,Dが介入しない
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.