Code Monkey home page Code Monkey logo

paper_reading's People

Watchers

 avatar

paper_reading's Issues

Dynamic Routing Between Capsules

どんなもの

論文

Dynamic Routing Between Capsules

著者・所属機関

  • Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton

投稿日

  • 2017/11/7

Abstract

  • 従来のNNはノードをスカラーが伝播したが,ベクトルが伝播するCapsNetの提案
  • poolingがあまりよくない -> Capsuleを用いることで,より普遍的な位置の不変性を手に入れうる

先行研究と比べて何がすごい?

  • スカラーからCapsuleへ
  • Dynamic Routingというback-propではないパラメータ更新が提案されている

技術や手法の肝はどこ?

Dynamic Routing

  • back-propしない(Dynamicな)Attentionのようなもの
  • coupling coefficientsというパラメータを用いる
  • 繰り返しこのパラメータを更新することで,最適なCapsule間の結合の重みを獲得する

どうやって有効だと検証した?

  • MNISTのSOTA

議論はある?

  • ほんまにBack-propよりいいのか疑問...

次に読むべき論文は?

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

どんなもの

論文

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network

著者・所属機関

Saihui Hou, Zilei Wang

投稿日

2019/1/??

Abstract

  • CNNにおいて,channel間のDropoutを導入した

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

  • GAPでチャネルの代表値を取り出しそれを各チャネルにかけるが,それを適当にDropoutする.

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

Distilling the Knowledge in a Neural Network

どんなもの

論文

https://arxiv.org/abs/1503.02531?context=cs

著者・所属機関

Geoffrey Hinton, Oriol Vinyals, Jeff Dean
Google

投稿日

2015/05/09

Abstract

先行研究であるCaruanaらの取り組みに対する,異なるアプローチの提案とのこと.
結果としては,アンサンブルモデルを1つの比較的単純なモデルに学習した知識を受け継ぐ(蒸留する)ことができ,MNIST,Androidの音声認識で良い成果を上げた.

先行研究と比べて何がすごい?

技術や手法のキモはどこ?

学習にはハードターゲットとソフトターゲットの2種類のデータを用いる.

  • ハードターゲット
    通常のデータセットと正解ラベルのこと.

  • ソフトターゲット
    蒸留元の教師モデルの出力のこと.
    蒸留では蒸留元のモデルのsoftmax出力をすべて学習させることで,知識を受け継がせる.

softmaxに対して,温度(temperature)Tを導入.
通常はT=1に設定するが,Tの値を上げると,出力の確率分布は滑らかに.
蒸留元のネットワークが学習したsoftmaxの出力には重要な情報が含まれる.
というのも,モデルが1番確率が高いと判断したものと2番目に確率が高いと判断したものとでは,見た目の性質上似ているといえるから.
MNISTデータセットでいうならば,2は3や7と似ているなど.
この情報をより伝えやすくするための仕組みとして導入されたのが温度.
出力が滑らかであれば,それぞれの差異が相対的に少なくなるので,こういった情報が伝わりやすくなる.

  • 目的関数
    目的関数はハードターゲット(通常のデータセットと正解ラベル)のクロスエントロピーと,ソフトターゲットでのクロスエントロピーの和をとる.そしてこの関数を最小化していくことで学習を進める.
    また,ソフトターゲットのsoftmaxには温度Tを導入する.

どうやって有効と検証した?

MNIST,Androidの音声認識.

議論はある?

次に読むべき論文は?

Focal Loss for Dense Object Detection

どんなもの

論文

著者・所属機関

  • Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár
  • Facebook AI Research

投稿日

  • 2017/08/07

Abstract

  • Object Detectionのone-stage detectorsをより精度よく学習させるために提案されたloss
  • one-stage detector : YOLO, SSDなど
  • two-stage detector : R-CNNなど
  • 物体検出は基本的にimbalancedなデータを扱うことになるため

先行研究と比べて何がすごい?

  • 一般的によく使われる手法としてはCrossEntropyにクラスの出現数の逆数をかけたもの
  • Focal LossはNNの予測値を1から引いたものをn乗した重み付きのCrosEntropy
  • さらに通常のクラス出現数の逆数をかけたものを実験で使用
  • 2乗するだけでも予測値90%のクラスはCrossEntropyの100分の1ほどの大きさになる

技術や手法の肝はどこ?

  • n乗のハイパーパラメータと計算コストの低さ

どうやって有効だと検証した?

-COCOでsota

議論はある?

次に読むべき論文は?

  • これの後続研究が相当あるはずなので調べたい

MEAL: Multi-Model Ensemble via Adversarial Learning

どんなもの

論文

MEAL: Multi-Model Ensemble via Adversarial Learning

著者・所属機関

Zhiqiang Shen, Zhankui He, Xiangyang Xue

投稿日

2018/12/6

Abstract

  • studentモデルが教師モデルの知識を敵対学習を用いて効率よく蒸留(アンサンブル)できる構造
  • 最終的に1つのモデルに蒸留するので,テスト時のコストが非常に低い

先行研究と比べて何がすごい?

  • 従来のアンサンブルはアンサンブルに用いるモデルが増加すればするほど,線形に推論に時間を要したが,提案手法はsingle modelによる推論になるので,テスト時に早い
  • またアンサンブルするモデルが必ずしもすべて多様な結果を出力するわけではないので,そのあたりをGANの機構を用いて効率よく学習

技術や手法の肝はどこ?

  • 教師モデル(複数)をまずは学習させる
  • 教師モデルのパラメータ更新を止め,訓練データXnを教師モデルに入力し,そのsoft-targetをstudentモデルのラベルにする
  • studentモデルのlossは教師モデルのsoft-targetとのsimilarity loss(KL-divergenceやL1, L2など)とDIscriminatorのlossの和(それぞれにalpha, betaの係数はあるが,論文中ではともに1を使用)
  • Discriminatorはstudent, teacherの出力をいれ,どちらかを識別できるように学習

どうやって有効だと検証した?

  • CIFAR-10, CIFAR-100などでSOTA

議論はある?

次に読むべき論文は?

  • AAAI19

(PyramidNet) Deep Pyramidal Residual Networks

どんなもの

論文

Deep Pyramidal Residual Networks

著者・所属機関

Dongyoon Han, Jiwhan Kim, Junmo Kim
EE, KAIST

投稿日

2017/9/6

Abstract

  • 従来のResNetでは,チャネル数をdownsamplingの部分で急に大きくしたが,徐々に大きくするPyramidNetの提案
  • これにより,汎化性能が向上することを示した

先行研究と比べて何がすごい?

  • 徐々にチャネル数を増やすことで,ResNetに比べて,より良いアンサンブルを実現したこと
    • ResNetではダウンサンプリング以外の部分では,ひとつ層を消しても精度に影響があまりなかった
    • また,ResNetはshortcut connectionによって薄いCNNのアンサンブルとみなされていた
    • より良いアンサンブルを実現するためには,各residual blockが意味を持ったほうがいい

技術や手法の肝はどこ?

  • 層の増やし方はadditive PyramidNetとmultiplicative PyramidNetの2種類
  • 通常はidentity-mappingでshortcut connectionを実現するが,今回はzero-padded identity-mappingをすべてのresidual unitで用いる.パラメータがなくてoverfittingしないから.そして他の手法よりも汎化能力が高い
  • zero-padded identity-mappingは,通常のresidual networkと通常のCNNのアンサンブルのような解釈ができる
  • BNとReLUの位置は,通常のpre-activation ResNetから最初のReLUを取って,最後のConvの後にBNを置くのがベスト
  • (感想)αの設定などが大変そう

どうやって有効だと検証した?

  • CIFAR-10でほかのSOTAよりよかった

議論はある?

次に読むべき論文は?

Rich feature hierarchies for accurate object detection and semantic segmentation (R-CNN)

どんなもの

論文

Rich feature hierarchies for accurate object detection and semantic segmentation (R-CNN)

著者・所属機関

UC Berkeley

投稿日

2014/10/22

Abstract

  • 特徴抽出部分にfine-tuningしたCNNを用いて物体検出でSOTA

先行研究と比べて何がすごい?

  • CNNを使ったことがすごいだけ

技術や手法の肝はどこ?

  • 入力画像からresion proposalsという物体がありそうな部分をselective searchという手法で2k個ほど抽出
  • CNNは学習済みモデルをN+1(+1は背景)クラス分類にfine-tuning
  • 先ほど取り出した画像をresizeして(今回は227*227),CNNで特徴抽出して4096次元の特徴を抽出
  • クラスの分類は各クラスごとのSVMを学習させる
  • Bounding BoxのRegressionはRidgeを用いて,入力のペアを,出力のペアをとしてBBoxの補正を行う

どうやって有効だと検証した?

  • CNNを用いない従来手法と比較し,割とあらゆるベースラインでSOTA

議論はある?

  • 遅い
  • SVM大量に学習させるのが面倒

次に読むべき論文は?

ADAPTIVE GRADIENT METHODS WITH DYNAMIC BOUND OF LEARNING RATE

どんなもの

論文

著者・所属機関

  • Liangchen Luo, Yuanhao Xiong, Yan Liu , Xu Sun

投稿日

  • 2019

Abstract

先行研究と比べて何がすごい?

  • SGDは良い汎化性能をもたらすが,収束に時間がかかる
  • Adamなどのadaptiveな手法は学習初期の収束は早いが,汎化性能が出ないのと最適解に最終的に近づかない
  • これらのいいとこどりをした手法

技術や手法の肝はどこ?

どうやって有効だと検証した?

  • CVとNLPのタスク

議論はある?

次に読むべき論文は?

Snapshot Ensembles: train 1, get M for free

どんなもの

論文

SNAPSHOT ENSEMBLES: TRAIN 1, GET M FOR FREE
https://openreview.net/pdf?id=BJYwwY9ll

著者・所属機関

Gao Huang∗
, Yixuan Li∗
, Geoff Pleiss
Cornell University

投稿日

2017

Abstract

  • アンサンブルは良いけど,複数のニューラルネットを学習するには計算コストがかかるので,1つのモデルを学習するだけでできるアンサンブルを提案する.
  • Snapshot Ensemblingと命名,最適解に比較的近い局所解いくつかの重みを保存して,それぞれのアンサンブルをすると精度が良い.

先行研究と比べて何がすごい?

  • 計算コストが1回の学習だけで済むのに,アンサンブルとして非常に有用.

技術や手法の肝はどこ?

  • Cyclic Cosine Annealing
  • 学習率を下げ,局所解の重みを保存してから,学習率を一気に上げることで局所解から脱して,別の局所解へと向かう.
  • 通常のlearning rate scheduleの方が,cyclic scheduleよりもロスが小さくなることはあるが,cyclic scheduleのアンサンブルのほうが精度が良い.
  • どれだけの期間のスナップショットを用いるかはハイパーパラメータ.

どうやって有効だと検証した?

~CIFAR-10, CIFAR-100, SVHN, Tiny ImageNetのデータで,ResNet-110, Wide-ResNet-32, DenseNet40, DenseNet-100のモデルで検証.

議論はある?

次に読むべき論文は?

  • implicit ensemble, (Srivastava 2014)
  • Stochastic Depth technic (Huang 2016b)
  • Swapout (Singh 2016)

U-Net: Convolutional Networks for Biomedical Image Segmentation

どんなもの

論文

U-Net: Convolutional Networks for Biomedical
Image Segmentation

著者・所属機関

Olaf Ronneberger, Philipp Fischer, and Thomas Brox
University of Freiburg

投稿日

2015/5/18

Abstract

  • end-to-endで学習できる,少数のデータでも効率よく学習できるネットワークの提案

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

  • UNetのアーキテクチャ

スクリーンショット 2019-08-05 18 30 48

  • 図の左側がcontractive path,右側がexpansive path
  • contrastive pathは一般的なCNNのアーキテクチャで,paddingなしのConvとReLUが2つとその後に2*2でストライド2のmaxpoolが続く構造の繰り返し
  • それぞれのdownsamplingで,feature mapの数を倍にする
  • expansive pathでは,upsampling部分で22のup-convを行い,その後はcontrastive pathと同様の33のconvにReLUが2つの流れ

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

(scSE) Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks

どんなもの

論文

Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks

著者・所属機関

Abhijit Guha Roy, Nassir Navab, Christian Wachinger
Artificial Intelligence in Medical Imaging (AI-Med), KJP, LMU Mu ̈nchen, Germany
etc.

投稿日

2018/6/8

Abstract

  • sSEという手法の提案.pixelごとのチャンネル方向の重み付け
  • 新たに提案するsSEと従来のcSEの組み合わせのscSEが計算コストの上昇をほどほどに精度をもっとも向上させることが可能

先行研究と比べて何がすごい?

  • cSEはチャンネルごとの特徴をenhanceでき,画像分類タスクでは非常に精度向上に寄与するがセグメンテーションではそこまで
  • sSEという手法はピクセル毎の特徴をとらえるので,よりセグメンテーションに特化したsqueeze and excitationになる
  • 両方使えばもっとすごい

技術や手法の肝はどこ?

  • cSE

    • x = GAP(input_x)
    • x = Dense(x)
    • x = ReLU(x)
    • x = Dense(x)
    • x = Sigmoid(x)
    • out = mul([input_x, x])
  • sSE

    • x = Conv(filters=1, kernel_size=1, stride=1)(input_x)
    • x = Sigmoid(x)
    • out = mul([input_x, x])
  • scSE

    • out = cSE(input_x) + sSE(input_x)

どうやって有効だと検証した?

  • MALC Dataset, Visceral DatasetでDenseNet, SD-Net, U-Netでのセグメンテーション
  • cSE, sSE, scSEの順にスコアが良い

議論はある?

次に読むべき論文は?

(ResNet) Deep Residual Learning for Image Recognition

どんなもの

論文

Deep Residual Learning for Image Recognition
https://arxiv.org/abs/1512.03385

著者・所属機関

Kaiming He
Xiangyu Zhang
Shaoqing Ren
Jian Sun
Microsoft Research

投稿日

2015/12/10

Abstract

  • CNNでは層を深くすればするほど高レベルの特徴を獲得していくので,どんどん層を増やしたい.
  • しかし,層が増えれば増えるほど学習は困難になる.通常のバックプロパゲーションで学習可能な範囲でどのように層を増やせばよいかに対する解決策の一つがResNet.
  • 提案手法のshortcut connectionという機構を導入すると,層を深くしても学習の難しさは変わらず,パラメータ数も非常に小さくすることが可能.

先行研究と比べて何がすごい?

  • CNNで層を深くすると,精度が層が浅い場合に比べて劣化する.これはoverfittingしているのではなく.単純に学習がうまく進んでいない.
  • ならばどのように層を増やせば学習をうまく進めることが可能か.

技術や手法の肝はどこ?

  • shortcut connection

    • residual blockを導入
    • 入力から予測値を直接求めるのではなく,直前の予測で生じた誤差を推定する層を追加した
    • 仮に誤差が生じなくとも,重みを0にするだけでいい
    • 機構の性質上,パラメータ数の増加も少なく,計算コストが非常に低いまま,層を追加出来る
    • 普通のSGDで学習可能
  • building block(input_dim=64)

    • shortcut connection
    • 3×3, 64
    • ReLU
    • 3×3, 64
    • concat
    • ReLU
  • bottleneck building block(input_dim=256)

    • shortcut connection
    • 1×1, 64
    • ReLU
    • 3×3, 64
    • ReLU
    • 1×1, 256
    • concat
    • ReLU

どうやって有効だと検証した?

  • ILSVRC 2015 1st place

議論はある?

次に読むべき論文は?

  • Wide-ResNet
  • ResNeXt

(SENet) Squeeze-and-Excitation Networks

どんなもの

論文

Squeeze-and-Excitation Networks
https://arxiv.org/pdf/1709.01507.pdf

著者・所属機関

Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu

投稿日

2018/10/25

Abstract

  • チャンネル間の関係性を考慮したSE-blockの提案

先行研究と比べて何がすごい?

  • ResNetなど既存のCNNに簡単に追加できる
  • 計算コストもあまりかからない

技術や手法の肝はどこ?

  • チャンネルごとの平均値(GAPの結果)をDense(ReLU)->Dense(Sigmoid)につないで学習
  • つまり,通常のCNNでは考慮しない,チャンネル間の重みを学習する機構が入った
  • それをsqueeze and excitation blockという
  • channel間の重みを学習する際は,GAPの情報を使うのがいいことが実験的にわかった

どうやって有効だと検証した?

  • ILSVRC2017 first place

議論はある?

次に読むべき論文は?

mixup: Beyond Empirical Risk Minimization

どんなもの

論文

mixup: Beyond Empirical Risk Minimization

著者・所属機関

Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz
MIT, Facebook AI Research

投稿日

2018/4/27

Abstract

  • 新たなdata augmentation手法
  • データと正解ラベル2つずつのペアを0~1の一様乱数λと(1-λ)をかけてmixupする手法

先行研究と比べて何がすごい?

  • CIFAR10, 100などでSOTA
  • 通常の学習よりもadversarial ezamplesに対してロバストに学習できる
  • テーブルデータや音声データでも有用
  • GANの学習が安定する

技術や手法の肝はどこ?

  • x_hat = λx_i + (1-λ)x_j
  • y_hat = λy_i + (1-λ)y_j

どうやって有効だと検証した?

  • CIFAR-10, CIFAR-100などの画像認識,
  • 音声データ
  • GAN

議論はある?

次に読むべき論文は?

Automatic salt deposits segmentation: A deep learning approach

どんなもの

論文

Automatic salt deposits segmentation: A deep learning approach
https://arxiv.org/pdf/1812.01429.pdf

著者・所属機関

Mikhail Karchevskiy
Aurteen Inc.

投稿日

2018/11/21

Abstract

kaggleの塩コンペの解説論文.

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

  • U-Net and ResNeXt-50 encoder(pretrained on imagenet)
  • Spatial-Channel Squeeze & Excitation
  • Lovasz loss
  • CoordConv
  • Hypercolumns
  • augumentation
    • horizontalはめっちゃ良い
    • brightness manipulationとhorizontal shifts, rotationは有効だが,vertical flip, big rotationsは精度が落ちた.
  • 推論時はtest time augumentationした.
  • SE-ResNeXt-50 encoderの1つめのレイヤーのstrideを1にしたものをつかった.
  • snapshot ensemble のMは10を使用.
  • lossは0.1binary_crossentropy + 0.9lovasz_loss

どうやって有効だと検証した?

27th place solution
5-fold cv

議論はある?

次に読むべき論文は?

Pneumonia Detection in Chest Radiographs

どんなもの

論文

Pneumonia Detection in Chest Radiographs
https://arxiv.org/pdf/1811.08939.pdf

著者・所属機関

The DeepRadiology Team1

投稿日

2018/11/21

Abstract

  • Kaggle肺炎コンペの解説.

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

  • CoupleNet
  • R-CNN
  • RoI Cropping

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

どんなもの

論文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

著者・所属機関

  • Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
  • Google AI Language

投稿日

  • 2018/10/11

Abstract

  • Bidirectional Encoder Representations from Transformers; BERT
  • 事前学習モデルとして汎用的に利用可能で,CVにおけるResNetのようなもの
  • この事前学習モデルを利用して11のタスクでSOTA(しかもまあまあ大幅に上回った)
  • 事前学習のアプローチは大きく分けてfeature-basedとfine-tuningの2つ
  • feature-basedはELMoに代表される手法で,各タスクに特化したアーキテクチャを持ち,fine-tuningはOpenAI GPTに代表される手法で,各タスクに特化したパラメータの数が少ない(学習時間が早い)手法
  • BERTはfine-tuningアプローチのひとつ

先行研究と比べて何がすごい?

  • 基本モデルはTransformer
  • 少しの学習手法の変更だけでここまで汎用的にfine-tuningに用いれることがすごい

技術や手法の肝はどこ?

学習方法

  • 入力データ
    • トークン,セグメント,positionの3つをエンコーディングしたものの和を入力とする
  • Masked LMとNext Sentence Predictionという2つのタスクのlossの和で学習する

Masked LM

  • 単語列を15%の確率でランダムにマスクし,そのマスクした単語が何かを予測するタスクを解いて学習させる
  • マスクの手順は
    • 80%の確率でそのままマスクする
    • 10%の確率で選択した単語を別の単語に置き換える
    • 10%の確率で置き換えない

Next Sentence Prediction

  • Question AnsweringやNatural Language Inferenceでは2つの文章間の関係性が重要になるが,それはMasked LMでは学習できない
  • それを学習するため,ある文章のペアが与えられた時に,文章Aの次に続くのが文章Bであるかどうかを2値分類する
  • Bは50%の確率で次の文章で,残り50%の確率でランダムにサンプリングした文章

どうやって有効だと検証した?

  • めちゃめちゃSOTA

議論はある?

次に読むべき論文は?

IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS

どんなもの

論文

IMAGENET-TRAINED CNNS ARE BIASED TOWARDS
TEXTURE; INCREASING SHAPE BIAS IMPROVES
ACCURACY AND ROBUSTNESS

著者・所属機関

Robert Geirhos
University of Tubingen & IMPRS-IS

投稿日

2019/1/14

Abstract

  • CNNは物体の複雑なshapeを学習していると一般に考えられているが,実際には表面のテクスチャの統計量を見ているだけで,ImageNetで学習されたCNNはshapeに関してはほとんど学習していないのではないかという提案
  • shapeよりもtextureを学習するようにバイアスがかかっていることをいくつかの実験で示している
  • また学習データにスタイル変換を施し,textureを主に変更させたデータセットを用いることで,よりshapeに特化した学習が可能になり,そのモデルは通常のImageNetで学習したモデルよりも頑健であることがわかった

先行研究と比べて何がすごい?

  • 先行研究のいくつかで,すでに提案されていたCNNがtexture中心に学習を行なっているという提案に関して,多様な実験を行い,それを裏付けた論文

技術や手法の肝はどこ?

  • 以下の画像のように,スタイル変換されたデータセットでそれぞれ学習を行なった

  • silhouetteやedgesは主にshapeに対する変換であり,これらで大きく精度を落としている

  • ただし上記2手法は自然画像と統計量が大きく異なるため,さらに別のStylized-ImageNet(SIN)というデータセットで実験を行なった
    スクリーンショット 2019-07-11 21 32 26

  • そもそもImageNetは局所情報のみでも十分に高精度な学習が可能になるなど,タスクが簡単すぎる

  • textureに関してスタイル変換を行なっているSINを用いると,ResNet50でも79%ほどのtop-5 accuracyになるので十分にshapeの学習が行える(ImageNetとResNet50だとtop-5 accuracyが92.9%)

  • ImageNetで学習したモデルでSINのテストを行うとtop-5 accuracyで16.4%だが,SINで学習したモデルでImageNetのテストを行うと,fine-tuningなしで82.6%のtop-5 accuracyを得られる(非常に頑健性が高い)

どうやって有効だと検証した?

  • 様々なスタイルの画像での学習
  • BagNetという局所受容野の小さいモデルでの対照実験

議論はある?

次に読むべき論文は?

Show and Tell: A Neural Image Caption Generator

どんなもの

論文

Show and Tell: A Neural Image Caption Generator

著者・所属機関

Google

投稿日

2015/11/17

Abstract

  • 画像からキャプションを自動生成するモデル(Neural Image Caption; NIC)の提案
  • 学習用の画像から,キャプションの文章の対数尤度を最大化するように学習
  • 複数のデータセットのBLEUで,従来手法のスコアを上回った

先行研究と比べて何がすごい?

  • BLEUスコア
  • end-to-endのキャプション生成モデルを提案したこと

技術や手法の肝はどこ?

以下の式を満たすモデルのパラメータを求める.つまり,現時点のモデルと与えられた画像に対して,最もよいキャプションを生成するようにモデルを学習させる.

lossは以下の式でこのlossを使い,LSTMの全てのパラメータ,CNNの最終層,WordEmbeddingを学習する(CNNの基本部分は固定)

どうやって有効だと検証した?

  • BLEU-1スコアにおいて,複数のデータで従来手法のSOTAを大きく上回る
  • BLEU-1スコアでは人間にかなり近い結果に

議論はある?

次に読むべき論文は?

Video Summarization Using Fully Convolutional Sequence Networks

どんなもの

論文

Video Summarization Using Fully Convolutional Sequence Networks

著者・所属機関

  • University of Manitoba, Winnipeg MB R3T 2N2, Canada
  • Mrigank Rochan, Linwei Ye, Yang Wang

投稿日

2018

Abstract

  • 動画要約をsequence labeling(系列ラベリング)と見なして解くfully convolutional sequence network (FCSN)の提案
  • 従来使われてきたようなRNN系のモデルとは異なり,semnatic segmentationで用いられるfully convolutional sequence modelを用いる
  • 動画要約が各フレームが要約に入るか否かの2値分類であることと,semantic segmentationが各ピクセルがそのクラスに属するかの2値分類をすることが似ているから
  • そのフレームが要約に含まれるべきかそうでないかのbinaryのラベルを用いて学習する手法を採用
  • 各動画の全てのフレームをCNNで特徴抽出し,各特徴ベクトルを要約後の動画に入れるべきかを予測する.

先行研究と比べて何がすごい?

  • RNN系のモデルから時間方向の畳み込みで時系列性を考慮するようにしたこと

技術や手法の肝はどこ?

Fully Convolutional Sequence Networks

  • semantic segmentationでは2Dの畳み込みを行うが,この論文で提案されているモデルでは1Dの時間方向のみの畳み込みを行う
  • 従来のRNN系のモデルとは異なり,時間方向二畳み込みを行うので,全フレームをまとめて一気に計算することになる
  • semantic segmentationのモデルは特徴抽出部分とその特徴からmaskを作成するencoder-decoderモデルと考えられるが,この提案モデルも同様で,各フレーム間の高次の特徴を抽出するencoder部分と要約に含まれるべきか否かの0or1を出力するdecoder部分から構成されるencoder-decoderモデルと捉えることができる
  • 命名:fully convolutional sequence network (FCSN)で SUM-FCNともいう

SUM-FCN

  • 入力次元はで,Tは動画の総フレーム数,Dが各フレームの特徴ベクトルの次元
  • 出力次元はで,Cはkeyframe or non-keyframeの2値分類なら2
  • モデルのアーキテクチャ

スクリーンショット 2019-09-03 17 58 33

Learning

  • keyframeはnon-keyframeに対してかなり少量しかないので,不均衡データに対応すべく重み付きのlossを導入する

  • がt番目のフレームでの正解ラベル
  • がt番目のフレームをクラスcであると予測したスコア
  • freq_cはクラスcの出現割合

Unsupervised SUM-FCN

  • 先ほどと同様のSUM-FCNを用いた教師なしでの要約手法の提案
  • モデルの変更としては,decoderの出力のケツに1*1の畳み込みを入れて,抽出された特徴を再現するのみ
  • 予測スコアからY個のフレームを選択し,畳み込みしてlossを計算する
  • 要約された動画が視覚的に多様なフレームを含んでいる必要があるので,損失関数は多様性を担保する項のL_divとL_recon(MSE)の和

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

どんなもの

論文

Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

著者・所属機関

Kamil Bennani-Smires, Claudiu Musat, Andreea Hossmann, Michael Baeriswyl, Martin Jaggi
Data, Analytics & AI, Swisscom AG
Machine Learning and Optimization Laboratory, EPFL

投稿日

ACL2018

Abstract

  • EmbedRankという,単一文書からの教師なしキーフレーズ抽出
  • グラフベースの手法よりもF値で上回る
  • Maximal Marginal Relevance(MMR)という手法で,冗長なキーフレーズ抽出を避けることも実現

先行研究と比べて何がすごい?

  • 教師なしでキーフレーズ抽出が可能
  • 冗長な抽出をMaximal Marginal Relevance(MMR)で避けられる

技術や手法の肝はどこ?

EmbedRank

  1. キーフレーズの候補を文章から選択
  2. 文章と1で取り出した候補の埋め込み表現を得る
  3. それぞれのペアで類似度を計算し,類似度順にrankに
  • 文章の埋め込み表現を得る際は,名詞と形容詞のみをしようした
  • 文章の埋め込み表現を得るのに,Doc2VecとSent2Vecの両方を試している
  • Doc2Vec: 300次元,Sent2Vec: 700次元
  • English Wikipedia Corpusで学習
  • Doc2Vecは文章全体に対して推論を行うので,Sent2Vecより遅い
  • 類似度計算にはcosine distanceを使用

EmbedRank++

  • EmbedRankにMMRを追加して,冗長なキーワード抽出を避けたもの

  • はキーフレーズの候補
  • は抽出されたキーフレーズ
  • は文章全体

どうやって有効だと検証した?

  • TextRankなどの手法と比較

議論はある?

  • かなり文章埋め込みの精度に依存しそう

次に読むべき論文は?

  • Sent2Vec

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

どんなもの

論文

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

著者・所属機関

  • Alec Radford & Luke Metz - indico Research
  • Soumith Chintala - Facebook AI Research

投稿日

  • 2015/12/19

Abstract

  • CNNを用いたGANのDCGANの提案
  • 教師なしでどれだけ画像の特徴抽出ができるかという側面でも書いている

先行研究と比べて何がすごい?

  • CNNによる高解像度の画像生成
  • CNNの教師なしでの事前学習が可能な点

技術や手法の肝はどこ?

  • 以下の手法による学習の安定化
    • CNNの導入
    • GAPを使わないこと
    • BatchNorm
    • プーリングをstrideありのconvに変更

どうやって有効だと検証した?

  • 画像生成の定性評価
  • DCGANのdescriminatorで特徴抽出し,CIFAR10を分類させたもののスコア

議論はある?

次に読むべき論文は?

Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks

どんなもの

論文

Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks

著者・所属機関

Dong-Hyun Lee
Nangman Computing, 117D Garden five Tools, Munjeong-dong Songpa-gu, Seoul, Korea

投稿日

?

Abstract

  • ラベル付けされていないデータを用いたsemi-supervised learning手法の提案
  • ラベル付けされていないデータをモデルに入力し,モデルが予測したクラスを擬似ラベルとして,ラベル付きデータと共に用いて学習を行う
  • Kaggleでは以下の手順で用いられている
    • 学習データでモデル構築
    • モデルでテストデータを予測し擬似ラベル生成
    • 擬似ラベルでpretrain
    • 学習データでfine-tuning
  • 実用上はラベル付けをする時間が足りないとか,ドメインにfitさせるような使い方になりそう

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

  • モデルでラベルなしデータに擬似ラベルを付与する
  • ラベルありデータと擬似ラベルつきデータを用いて学習
  • 重みの更新時に擬似ラベルを更新
  • Lossは徐々に擬似ラベルの重みが大きくなるようにかける

どうやって有効だと検証した?

議論はある?

  • 実際Kaggleのはテストデータにoverfittingさせているだけな気持ちはある
  • アノテーションが辛いときや,ドメインを学習させたいときには有用だと思う

次に読むべき論文は?

Triplet Learning(Deep Metric Learnig)関連

論文リスト

概要

  • 2015年ごろの論文
  • Metric LearningをDeepNNでやろうという試み
  • 距離をDNNに出力させる
  • Lossはposが近くなるよう,negが遠くなるように設定

Metric Learning

  • 類似度や距離を算出し,それに基づいて閾値設定や,K-Neighorsなどで識別
  • 通常の分類問題よりはGANの異常検知に近いものがある
  • 異常検知や不均衡なデータでの分類問題に強い

Triplet Learning

  • あるデータx,xと同じラベルのデータx_p,xと異なるラベルのx_nを1つのセットとして学習
  • 3つの出力をFaceNetではTriplet Lossで学習
  • DMLの方の論文では別のlossを使用

N-Pair Sampling

L2-constrained softmax loss

  • 論文;https://arxiv.org/abs/1703.09507
  • 超球内にデータを分布させるように学習する
  • metricの出力を正規化し,それを用いてsoftmaxをとき,そのlossを流すという手法

center loss

Angular loss

  • 論文:https://arxiv.org/abs/1708.01682
  • ∠positive,negative,anchorを最小化することで距離を遠ざけようというloss
  • 従来法ではpositiveとanchorの最小化,negativeとanchorの最大化だけを考えていたが,3点の相対的な位置を考慮した設計になている

(Wide-ResNet)Wide Residual Networks

どんなもの

論文

Wide Residual Networks
https://arxiv.org/abs/1605.07146

著者・所属機関

Sergey Zagoruyko, Nikos Komodakis
Université Paris-Est, École des Ponts
ParisTech

投稿日

2017/6/14

Abstract

  • Wide-ResNet

先行研究と比べて何がすごい?

  • パラメータ数が同じ程度のResNetと比べ,精度が高く計算が数倍速い
  • この時点でのSOTA

技術や手法の肝はどこ?

層の深さを減らし,幅を広げたResNet

  • resnetの層はほとんど良い情報を獲得できておらず,あまり精度の向上に役立っていない可能性がある
  • となるとresnetの主な利点は層を深く出来ることではなく.residual blockそれ自体
  • 層を浅く幅を広くとると,16層で1000層のresnetと同様の精度を達成し,学習は2倍速かった

ベストな構造

  • Dropoutをresidual blockのConvとConvの間に入れた(conv, relu, dropout, conv, relu)
  • wide-resnetではchannel数をk倍する.k=1でoriginal resnetと同じ
  • residual blockをConv-BN-ReLUからBN-Conv-ReLUに変更した
  • 各blockごとのConvの数は3×3がベスト
  • wide-resnetの構造はdepth=28, k=10でCIFAR10のベストを出している.depth=16, k=8でもまあまあ良い

  • BNはinternal covariate shift(内部共変量シフト)を削減し,層が深くパラメータ数の多いNNのoverfittingを防ぐ
  • 深さや幅を広げたらそれだけ十分なregularizationを施してやる必要がある
  • 同じパラメ―タ数のWide-ResNetの学習がうまく行ってるので,非常に層の深いResNetの構造がとくにregularizationの効果を持ってるわけじゃない
  • 深さ方向に層を重ねるよりも,幅を取ったほうが計算的にコストが低そう

どうやって有効だと検証した?

  • 各種データセットでのSOTA

議論はある?

次に読むべき論文は?

(anoGAN)Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

どんなもの

論文

Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

著者・所属機関

Thomas Schlegl, Philipp Seeböck, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, Georg Langs

投稿日

2017/03/17

Abstract

  • GANを用いた異常検知に関する論文
  • 正例だけを用いた教師なし学習で異常検知を行う

先行研究と比べて何がすごい?

  • 正例のデータのみで学習可能
  • 生成モデルによる分類であり,識別モデルによるものではない
  • そのため正例でないデータを全て例外として検出可能

技術や手法の肝はどこ?

概念的なきも

  • Generatorはlatent spaceのzを正例に写像するように学習する
  • よってあらゆる正例のデータはzに逆写像可能であり,zに逆写像できなければ異常とみなす

学習の手順

  • 通常のGANの学習を行う
  • zの後にDense(in_shape=(100,), out_shape=(100,))をつけて,Denseの出力も含めてzとみなす
  • クエリからlatent spaceへの逆写像のため,zを乱数で生成した後,backpropagationによって最適な逆写像を探す
  • そのさいのlossはresidual lossとdiscrimination lossの線形和
  • residual lossはGeneratorによってどれだけ類似した画像を生成できたか
  • discrimination lossはDiscriminatorでどれだけ似たものと判断できたか
  • そして類似度はlossと同様に定義し,異常な画像をうまく識別できるように類似度の閾値を決める

どうやって有効だと検証した?

  • MRIかなんかの画像

議論はある?

  • 多分学習に要する時間,推論に要する時間を考えると実用的かどうか難しい
  • zの初期値ガチャになる可能性

次に読むべき論文は?

  • ADGAN
  • Efficient GAN?

[Swish]Searching for Activation Functions

どんなもの

論文

著者・所属機関

  • Prajit Ramachandran, Barret Zoph, Quoc V. Le
  • Google Brain

投稿日

  • 2017/10/27

Abstract

  • 新たな活性化関数Swishの提案
  • Swish(x) = x * sigmoid(x)
  • 強化学習に基づく手法でよりよい活性化関数を探索した
  • 複数タスクと複数モデル複数データセットでReLUを上回る性能を出した

先行研究と比べて何がすごい?

  • 精度が出る
  • 収束も早い
  • 計算も複雑でない

技術や手法の肝はどこ?

  • 出力の遷移がなめらか
  • xが十分大きいとき,ReLUとほぼ同じだが,負の値をある程度許容した

どうやって有効だと検証した?

-いろんなデータセット,モデル,タスク

議論はある?

  • もうちょい数学的な話も知りたい

次に読むべき論文は?

YOLO9000: Better, Faster, Stronger

どんなもの

論文

YOLO9000: Better, Faster, Stronger

著者・所属機関

  • Joseph Redmon, University of Washington
  • Ali Farhadi, Allen Institute for AI

投稿日

2016/1225

Abstract

  • YOLOを改善したYOLOv2の提案

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

Batch Normalization

  • convの後にBNを入れることで,mAPが2%上がった
  • BN導入でoverfittingなくdropoutを外せるようになった

High Resolution Classifier

  • 画像サイズをYOLOの224224から448448に変更
  • 448*448のImageNetで10epoch回してからfine-tuning
  • mAPが約4%上がった

Convolutional With Anchor Boxes

  • YOLOではbboxesを直接予測していたが,Faster-RCNNはhand-picked priorsを用いて予測

  • Faster-RCNNでは補正分とconfidenceを予測

  • YOLOの全結合層を外してanchor boxesを用いてbboxesを予測

  • anchor boxes導入でaccuracyは劣化するものの,1画像あたり1000個以上の物体を検出可能に(YOLOでは98が限界)

  • 大量の物体を検出できるようにしたことで,mAPは少し下がるがrecall(実際に正を正と予測した割合)が約7%上昇

Dimension Clusters

  • YOLOでanchor boxesを用いるときの問題の1つにbox dimensions(prior)(なに?)を人力で決定する必要があるが,それをclusteringでやる
  • k-meansをtrain setのbboxesで実行しより良いprior(なに?)を自動で決定する
  • ユークリッド距離を用いると大きいbboxesでlossが大きくなるので,以下の指標を距離として用いた(結果k=5がいい感じ)

- k=5の時点でanchor boxesを上回るスコアが出て,k=9では圧倒

Direct location prediction

  • YOLOでanchor boxesを用いる際に生じる問題のもう1つは特に学習の初期に学習が不安定になることがあり,特にx, yの予測が不安定になることに起因する
  • RPNでは以下のようにbboxesを計算する
    • t_x=1でanchor box右端,t_x=-1で左端を意味する
  • このやり方では画像中に収まるようにbboxを予測するという制約がないので,YOLOのようにグリッドセル内の相対的な位置を予測すると値が0~1に収まるのでロジスティック回帰で簡単に解ける
  • 予測する領域が綺麗に収まることで学習が安定した

Fine-Grained Features

  • 1313の特徴マップのみを使用していたYOLOとの差分として,2626の特徴マップもconcatしたことで1%のパフォーマンス向上

  • 画像サイズを{320, 352, ..., 608}のように最小で320,最大で608になるようにランダムにreshapeした

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

Distributed Representations of Sentences and Documents

どんなもの

論文

Distributed Representations of Sentences and Documents

著者・所属機関

Quoc Le, Tomas Mikolov
Google Inc

投稿日

2014年のいつか

Abstract

  • BOWは良いが,単語の順序関係や意味を保持しない
  • 提案するParagraph Vector(のちにDoc2Vecと呼ばれる)は,Word2Vecに着想を得て,教師なし学習でBOWの弱点を解決する

先行研究と比べて何がすごい?

  • 教師なしで文章を固定長のベクトルに変換できること
  • BOWの弱点である,順序関係と意味を学習(表現)可能なこと

技術や手法の肝はどこ?

PV-DM(Distributed Memory Model of Paragraph Vectors)

  • Word2VecのCBOWモデルと対応している
  • 学習時に直近の数単語から次の単語を予測することで,意味表現を獲得している
  • 入力は文書idと直近数単語,出力は次の単語
  • 文書idをマッピングするParagraph Marix(D),単語をマッピングするWord Vector Matrix(W)を学習
  • マッピング後に各表現がconcatされ,予測を行う
  • Paragraph Vectorは同一のパラグラフ内で共有されるが,Word Vector Matrixはパラグラフを超えて共有される
  • 次の単語を予測することができるので,文章の順序関係を学習できており,そのため名前にMemoryがついている(はず)

PV-DBOW(Distributed Bag of Words of Paragraph Vectors)

  • Word2Vecにおけるskip-gramに対応する
  • BOW同様順序関係を気にしない
  • 文書idのみを入力とし,文書に出てきそうな単語を出力するモデル
  • 単体では精度はあまりだが,メモリ効率よく学習でき,PV-DMとともに用いると良い感じ

どうやって有効だと検証した?

  • 文書分類タスクでBOWと比較

議論はある?

次に読むべき論文は?

SCDV

SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS

どんなもの

論文

SGDR: STOCHASTIC GRADIENT DESCENT WITH
WARM RESTARTS

著者・所属機関

Ilya Loshchilov & Frank Hutter
University of Freiburg

投稿日

?

Abstract

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

  • warm-restartありでlrを減衰させていく手法
  • lrの減衰は以下の式に従う

  • は学習率の最小値と最大値
  • は直近のrestartから何epoch回したかで,バッチごとに更新する(各batch iterationが10回なら,1epoch目のときに,0.1, 0.2, ..., 1.0の値をとる)
  • そしてのとき,つまりrestartの直前で,cosineが-1を出力するので,lrは最小となる
  • というパラメータも導入し,これは各restartごとに,周期を何倍にするかを決定する(1で毎回同じepoch数でrestartし,2のときはT_0=10ならば,10, 20, 40などのように,restartする周期が長くなる)
  • は最初の周期数

どうやって有効だと検証した?

議論はある?

  • Kaggleではcosineannealingとsnapshotがベタ

次に読むべき論文は?

Deep Networks with Stochastic Depth

どんなもの

論文

Deep Networks with Stochastic Depth

著者・所属機関

Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger
Cornell University, Tsinghua University

投稿日

2016/7/28

Abstract

  • 学習時には層が浅く,テスト時には層が深くなるネットワークの提案
  • 各ミニバッチごとにランダムに層をスキップする(identity functionのみにする)
  • 学習時間の大幅な減少と,テストエラーの大幅な減少

先行研究と比べて何がすごい?

  • Dropoutの層を消す版だが,層に対して制約を与えた方がより多様性の高いアンサンブルになる
  • DropoutはBNとともに使うと効果が出にくいが,層ごとであれば問題ない

技術や手法の肝はどこ?

  • 各ミニバッチごとに層をスキップし,identity functionのみで通過させる
  • 論文中のFig.2が非常にわかりやすい
  • また,層をスキップする確率に関しては式(4)を用いる.p_L=0.5がベスト
  • この条件だと各ミニバッチで学習させるResidual Blockがおおよそ3/4程度になる
  • そして学習時間が25%ほど減らせ,精度の向上も
  • p_L=0.2だと40%も学習速度が早くなる
  • 推論時は各Residual Blockの出力を確率p_l倍する(Dropoutと理由は同じ)

どうやって有効だと検証した?

  • ImageNet

議論はある?

次に読むべき論文は?

SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations

どんなもの

論文

SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations

著者・所属機関

Dheeraj Mekala*, Harish Karnick, Microsoft Research
Vivek Gupta*, Bhargavi Paranjape, IITK

投稿日

2017/5/12

Abstract

  • 文章ベクトルを計算する手法で,WordEmbeddingを複数の文脈における異なる意味に応じて,clusteringを用いて適切なベクトル空間に写像する手法.
  • 従来のSOTAであるNTSGを上回った(multi class classification, multi label classification)

先行研究と比べて何がすごい?

  • より良いかつ頑健な文章ベクトルを,より高速に獲得できる
  • Word2Vecの平均では単語の並びを考慮できず,また長い文章において平均値に収束するため十分な精度が得られず,Doc2Vecはそもそも精度が出ない,という問題を克服するための提案
  • また本来単語は出現する文脈に応じて意味が異なるものであるため,同一のEmbeddingを用いるのはそもそも不適切な可能性
  • 他にもトピックを用いる手法はあったが,計算コストが高いことや,単語と同様程度のベクトル空間で表現しようとしたため,あまり実用的でなかったり,精度が出なかったりした

技術や手法の肝はどこ?

論文中のアルゴリズムの式が全て

  1. 文章中の各単語のWordEmbeddingを計算する
  2. idfを文章中の各単語について計算する
  3. 各単語をGMMでK個のクラスタにクラスタリング
  4. 各単語が各クラスタに属する確率を計算する
  5. 各単語に対して各クラスタの所属確率をかけて全て結合し,そのidfをとる
  6. 最終的に0で初期化したベクトルに,文章中の各単語を足し合わせていく
  7. その後スパースにすることでSCDVを得る

スクリーンショット 2019-08-10 1 20 03

どうやって有効だと検証した?

  • multi class classificationとmulti label classificationで精度評価し,従来手法を上回る

議論はある?

  • スパースにするので次元が増える
  • 特別高速なわけではない

次に読むべき論文は?

Shake-Shake regularization

どんなもの

論文

Shake-Shake regularization

著者・所属機関

Xavier Gastaldi

投稿日

2017/5/21

Abstract

  • 入力画像へのdata augmentationだけでなく,中間層においてもdata augmentationは有効ではないかという論文

先行研究と比べて何がすごい?

  • residual moduleで使用できる強力な正則化の役割を果たすこと

技術や手法の肝はどこ?

  • shortcut connectionの部分において,Conv3*3の流れを2つ作り,それぞれの出力に0~1の一様乱数alphaと(1-alpha)をかける
  • 訓練時forward: 0~1の一様乱数
  • 訓練時backward: forward時と異なる0~1の一様乱数
  • test時forward: 両方のパスに0.5をかける(Dropoutと同じ)
  • また乱数をどのように新規生成するかに関しては,
    • ミニバッチごろに作り直す
    • ミニバッチの各画像ごとに異なる乱数を用いる
    • のがベスト
  • 訓練を通常300epochで回すことが多いが,cosine annealingで学習率を徐々に下げる
  • 1800epoch回しても,augmentationの効果でoverfittingしない?

どうやって有効だと検証した?

  • CIFAR-100

議論はある?

  • 単純に分岐しているのでパラメータ数が増加している
  • 分岐によって良いアンサンブルが得られそう, モデルを別に作るのとどっちがいいか...

次に読むべき論文は?

(ResNeXt)Aggregated Residual Transformations for Deep Neural Networks

どんなもの

論文

Aggregated Residual Transformations for Deep Neural Networks
https://arxiv.org/abs/1611.05431

著者・所属機関

Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He
UC San Diego
Facebook AI Research

投稿日

2017/4/11

Abstract

  • ResNetに新たな次元を追加したResNeXt
  • ResNetのbottleneck blockで,枝分かれさせてあとで足し合わせる構造
  • この新たな次元をcardinalityと呼び,NNの広さや層の数を深くすることよりも,この次元を大きくしたほうが効率よくモデルのキャパシティと精度を上げることができる

先行研究と比べて何がすごい?

  • parameter数が同じResNetやInceptionなどのモデルよりも精度がいい
  • parameter数を増加させるうえで,cardinalityを増加させるのがより効率の良い方法であること

技術や手法の肝はどこ?

  • 新たな次元cardinalityの導入
  • 直感的には各ブロックでアンサンブルしているから精度がいい?
  • 通常のResNetのbottleneckアーキテクチャの,3×3のConvをGroupConvに変えたもの

どうやって有効だと検証した?

  • ILSVRC 2016 2nd place

議論はある?

次に読むべき論文は?

  • Wide-ResNet
  • ShakeNet

You Only Look Once: Unified, Real-Time Object Detection

どんなもの

論文

You Only Look Once: Unified, Real-Time Object Detection

著者・所属機関

  • Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
  • University of Washington, Allen Institute for AI, Facebook AI Research

投稿日

2016/5/9

Abstract

  • 画像をネットワークに1回通すだけでbouding boxesとクラスの両方を出力する物体検出モデル
  • そのおかげで推論速度がめちゃめちゃ早い

先行研究と比べて何がすごい?

  • 画像を1回ネットワークに通すだけのend-to-endの学習・推論ができること(Faster-RCNNもそう)
  • Faster-RCNN比だと,bouding boxesの回帰とクラスの分類を同時にやることで推論速度が上がってること
  • 背景の誤検出に強い

技術や手法の肝はどこ?

  • 画像をS*Sのグリッドに分割し,各グリッドセルはB(=2)個の矩形を保持する
  • 物体の中心が存在するセルがその物体の検出を担う
  • x, yはグリッドセルの境界を基準にした矩形領域の中心座標で,矩形の大きさがhとw
  • 各セルはどのクラスに当てはまるかの確率も保持する
  • これによって矩形領域と確信度,各セルのクラスの予測確率が得られる
  • confidence scoreの閾値を30%にするとほとんどの矩形領域の候補が消える

confidence score

出力のshape

  • 各セル毎にB5+Cの出力が得られ,全体ではSS*(B*5+C)の出力となる
  • 論文中ではS=7,B=2が使用され,Cはクラス数

どうやって有効だと検証した?

議論はある?

  • セル内に複数の物体があるとダメ

次に読むべき論文は?

Attention Is All You Need

どんなもの

論文

Attention Is All You Need

著者・所属機関

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Google Brain

投稿日

2017/12/6

Abstract

  • 従来のEncoder-Decoderモデルにおいて,EncoderとDecoderの接続部分で最もよかったのがAttentionを用いたものであった
  • そこに着想を得て提案されたのがこのTransformerというモデルで,ConvolutionもRNNも使用していない
  • 英独と英仏の翻訳タスクにおいて,BLEUスコアでState of the Art

先行研究と比べて何がすごい?

  • RNNが存在しないので計算効率が良く,またAttention機構によって時系列を考慮することができる

技術や手法の肝はどこ?

Encoder

  • Encoder Layerが層あり,ひとつのEncoder Layerは,Multi-Head AttentionとFeedForwardのsub-layerで構成される

  • sub-layerはそれぞれの層のあとにLayer NormalizationとResidual Connectionが施される
    Embeddingもすべてのsub-layerも次元を出力する

Scaled Dot-Product Attetion

  • additive attentionとdot-product attentionでは後者のほうが空間計算量的に効率が良いので採用
  • ただしadditive attentionと異なり,dot-product attentionではが大きくなったときに,softmaxに差が出すぎてしまい,勾配が消失することがあるので,スケーリングを加えたScaled Dot-Product Attetionを提案

Multi-Head Attention

  • モデル内でのアンサンブルみたいなもの
  • 適用は以下の3通りでそれぞれquery, key, valueの決まり方が異なる
    • encoder-decoder attention:queryは直前のdecoderの出力,keyとvalueはencoderの出力
    • encoder:self attentionではkey, value, queryはすべて直前の層の出力
    • decoder:Scaled Dot-Product内で-infのmaskをする

Position-wise Feed Forward Networks

  • Linear -> ReLU -> Linearで入力と出力が次元あり,隠れ層の次元が

  • Linearじゃなくてkernel_size=1のConvでもいいよ

  • EncoderとDecoderのEmbeddingの重みは共通

Positional Encoding

  • モデルがsequenceの位置情報を得るために,Positional Encodingを導入
  • 次元はで,Embeddingされた値にこの出力を足す
  • posはpositionでiが次元

ハイパーパラメータなど

  • Baseモデル(パラメータ数:)

  • Optimizer Adam: , ,

  • warmup_steps = 4000

  • Dropoutを各sub-layerの出力とEmbeddingとPositional Encodingの和の出力にもかけた

どうやって有効だと検証した?

  • 英独と英仏の翻訳タスクにおいて,BLEUスコアでState of the Art

議論はある?

次に読むべき論文は?

YOLOv3: An Incremental Improvement

どんなもの

論文

YOLOv3: An Incremental Improvement

著者・所属機関

  • Joseph Redmon, University of Washington
  • Ali Farhadi, University of Washington

投稿日

2018/4/8

Abstract

  • YOLOと比較しやや推論が遅くなったもののより精度を上げたもの
  • ベンチマークではSSDと同じ精度で推論速度が3倍早い

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

Class Prediction

  • 精度向上のためにsoftmaxは使わずにロジスティック回帰で分類し,binary cross entropyで学習
  • これによってOpen Images Datasetのような物体が重なるような状況での精度の改善をもたらした

Predictions Across Scales

  • feature pyramid networksのように異なるスケールでの予測を行い,YOLOでは3つの異なるスケールを使用する
  • 3d-tensorで予測を行い,tensorの出力次元はになる
  • Nは1313,2626,52*52の3段階
  • がfeature mapのheightとwidth,3が3つの異なるスケールでの予測,(4+1+80)はbounding boxの予測の4,1は物体の信頼性,80クラスそれぞれの予測確率を表す
  • CNNの手前の層の出力が獲得する特徴は深い層の特徴に比較してリッチでないので,深い層の出力をupsampleしてconcatすることでより良い特報を得る

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

(ADGAN)Anomaly Detection with Generative Adversarial Networks

どんなもの

論文

Anomaly Detection with Generative Adversarial Networks

著者・所属機関

  • Lucas Deecke, Robert Vandermeulen, Lukas Ruff, Stephan Mandt, Marius Kloft

投稿日

  • 2018/02/16

Abstract

  • anoGANを改良したGANの異常検知手法
  • anoGANと同様に,正例画像ならばlatent spaceにはそれに対応するzが存在する
  • そのzをbackpropで求め,Generatorに入力して復元した画像との距離を測ることで異常検知する

先行研究と比べて何がすごい?

  • 効率的な学習と初期値依存の軽減ができた点

技術や手法の肝はどこ?

  • anoGANではGANの学習をした後ではGもDもパラメータを固定したが,ADGANではzのbackprop時にGのパラメータを更新する
  • 初期値依存を防ぐために,Gによる残差はzの探索回数の平均をとって異常度とする
  • またloss自体もanoGANから変更があり,Dが介入しない

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.