Code Monkey home page Code Monkey logo

deep_research's Introduction

Deep Learning Papers

To summarize the information of machine learning. This repository mainly focuses on the image processing and satellite image classification.

Issuesのテンプレ

テンプレに記載。

有名論文

Image Classification

衛星画像解析

Image Segmentation

Detection

Visualization

Annotation

その他

deep_research's People

Stargazers

 avatar  avatar  avatar

Watchers

 avatar  avatar

deep_research's Issues

Building Change Detection Using High Resolution Remotely Sensed Data and GIS

概要

  • アルゴリズム論文(2016)
  • GISから建物の形状を抽出し,それぞれの建物に対して災害後の建物がIntact/ destructedを識別する手法

アルゴリズム

  • GISから建物の形状と位置を取得
  • 衛星画像の輝度調整等のフィルタリング
  • GISから得た建物の該当範囲からそれぞれ特徴量を計算
    • Canny法でエッジ検出し,Detected Part of Contour(DPC)と呼ばれるエッジがどの程度変化しているかを表す指標の計算
    • テクスチャをCoocurrence Matrixを用いて計算
      • グレースケール画像において輝度がどの程度一様か
  • k近傍法(k-NN)を用いて2値分類

実装

  • 東北震災時の釜石の画像を解析
  • 画像とGISはそれぞれWorld-view3とOpenStreetMapを使用
  • All study caseで精度8割を超えた
    2019-11-04_18h29_48

所感

  • 今までの建物の差分検知は前後の画像を取得して行われてきたが,撮影条件がほぼ同じ出ない限り比較が難しかったため,GISを利用しその拡張性を上げた
  • 建物単体の比較であるため専用の特徴量を開発して精度を上げた
  • GIS情報を積極的に活用した例として面白い,GISを補助的に用いる例は多いようだが,GISのみで建物の情報を取得するのはあまり行われていないらしい
  • 影除去,スペクトル情報の付与,3D画像情報の付与などで精度が向上できそう

Object-Based Convolutional Neural Network for High-Resolution Imagery Classification

概要

  • アルゴリズム系論文(2017)
  • CNNによる特徴量抽出とObject-based の分類を繰り合わせ9割以上の精度建物の識別に成功
    • CNNが高度の特徴量抽出を可能とするがPixelレベルの形状を識別するのが困難である欠点をObejct-basedのアルゴリズムを統合することで補完可能

アルゴリズム

  • Train dataからCNNで特徴量計算
  • 同時に統計特徴量用いて似た要素を持つ領域をセグメンテーション
  • セグメンテーション結果からShape constraintを先ほどのCNNの特徴量に付与
  • 各領域に対して2層の全結合層で識別
    2019-10-25_16h02_24

実装

  • Beijing, Pavia, Vailingen (China, Italy, Germany)の画像を利用
    • それぞれWorld-view2, ROSIS sensor data, German Association of Photogrammetry and Remote sensing
  • 畳み込み層は1-5層で実装,
    • 層が増すにつれ精度が向上
  • Soilの精度が最も低い(7割くらい)が既存のアルゴリズムより大幅に精度向上
    • SVM, EMAP, Pixel based CNN, SSFC

所感

  • CNNによるアップサンプリングの弱点である正確なセグメンテーションを統計量を利用することで向上したが特徴量エンジニアリングの要素が多い,
  • Obejct-basedの具体的なアルゴリズムの言及はないため要調査
  • CNNの弱点や傾向の勉強になった

Vehicle Detection in Aerial Images Based on Region Convolutional Neural Networks and Hard Negative Example Mining

概要

  • アルゴリズム系論文(2017)
  • 車に似た形状を持つfeature(建物etc)を候補から削除し精度を向上するHard Negative Example Miningを提案
    • Faster R-CNNにアーキテクチャを基にネットワーク構築

アルゴリズム

  • 元画像から切り取り,回転等のData augmentation
  • Faster R-CNNに用いられているRegional Proposal Network (RPN)を用いて車の候補を抽出
  • 決定木に基づくBoostingアルゴリズムで正例と負例を区別
    2019-10-23_15h06_39

実装

  • Munich vehicle datasetを利用
  • 既存のアルゴリズムより精度が少し向上
  • 木に隠れている車や隣接する車の識別は失敗が多く見られた

所感

  • 元画像とアノテーションデータとの誤差に着目して精度向上するのは面白い
  • トレーニングデータから最大限特徴を学習する手順としてはFeature engineering的アプローチ
  • End to endでできたら車以外にも応用可能?

論文要約 フォーマット

概要

  • 論文の種類 (アルゴリズム系,実験系,市場調査系)
  • アブストの要約,大まかな内容

アルゴリズム/実験手法

条件,結果

感想,所感

Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks

概要

  • アルゴリズム論文(2016)
  • 数百のチャンネルを持つHyperspectral imagesの植生分類をCNNを用いて実装し,代表的なHyperspectral Imagesの画像に対して高い精度を達成

アルゴリズム

  • 1D, 2D, 3Dのカーネルを用いてそれぞれ実装
  • 1Dは各ピクセル毎に全チャネルのSpectral Informationを畳み込みして識別
    • 5層の畳み込みとプーリング,1層のMLP
  • 2DはPCAをまず行い,第1成分のみを取り出し,普通の画像処理同様にCNNをかける
  • 3Dは全チャンネルに対して3次のカーネルをかけて識別
    • 3Dのカーネルは27*27でSpectral lengthは100-200の長さをとった
      2019-11-11_17h30_18

実装

  • 以下の3つの代表的なHyperspectral Imagesを使用
    • Indian Pine Tree by Airborne Visible Infrared Imaging Spectrometer (AVIRIS)
    • the city of Pavia, Italy by Reflective Optics System Imaging Spectrometer (ROSIS-3)
    • Kennedy Space Center, Florida by AVIRIS
  • すべてのケースにおいてCNNが1-3Dにおける精度の方が高いことを示した
    2019-11-11_17h30_05

所感

  • 今までのHyperspectral Imagesの解析手法やCNNの歴史や説明まで詳しく書かれていて勉強になる
  • 実際のHyperspectral imagesの中身を見るとかなりのデータは識別には寄与しないデータが多い(0だったり,同じ値),そのためPCAを行うことで2DのCNNは適切に学習できたと思われる
  • 1Dのケースでも精度が向上したのはCNNが適切に無駄なデータに対して学習の際に無相関であることを学習できているからか
  • 計算コストは言及されていないが3DCNNなんかは圧倒的にかかるので,その評価も見てみたい

U-Net: Convolutional Networks for Biomedical Image Segmentation

概要

  • アルゴリズム系

現在広く使われているCNNを用いた画像セグメンテーション手法。FCNを発展させたようなネットワーク構造になっている。ISBIと呼ばれるチャレンジで従来のsliding window手法を上回った。かつてのslidingwindowによるsegmentationのアプローチよりも高速なネットワーク。

アルゴリズム/実験手法

エンコーダ側はconvとpoolingを繰り返すことで、深さ方向(カーネルorフィルタサイズ)が増えていくが局所情報が失われていく。デコーダにおいてup-convを行っている際に、それぞれのエンコーダ側のpooling後の情報を重ね合わせることにより局所的な情報を保っている。up-convは以下が分かりやすい。

条件,結果

バイオメディカル用の画像のために作られたネットワーク。ImageNetのように数千枚の学習画像を用意するのは不可能なので、学習データが少なくても精度が出るように工夫されたネットワーク。

上の図のように、高解像度の画像に対しては、mirror paddingを行って、識別させる方法を取るといいと書かれている。

実装

実装はcaffeでsgdを使っているらしい。softmax関数を使用しているため、損失関数はクロスエントロピー誤差である。

data augmentation

一通りのことを行っているがelastic deformationsが有用だったと述べられている。

感想,所感

5ページ目の中盤のmorphological operationsというのがよくわからなかった。

Fully Convolutional Networks for Semantic Segmentation

概要

アルゴリズム/実験手法

  • 全結合層をconvolution層に置き替え、二次元マップを出力。これにより入力を任意のサイズとすることが出来る。ただし解像度が落ちるため、Upconvolutionを使用して解像度を上げている。

  • convolutionを繰り返した上位の層は高次元の情報を持っているが、局所的な情報は失われている。そこで、スキップアーキテクチャーと呼ばれるアルゴリズムが用いられる。低レイヤーの局所的なローカルな情報を持つ層の情報と上位の層を重ね合わせることにより精度を向上させている。

条件,結果

2015年の時点ではSOTAだったが、今はUnetなどに置き換わってしまっているので、参考までに読んでみた。

感想,所感

英語が難しく、よくわからなかったので、まとめサイトを参考に読み進めた。

Semantic Segmentation-Based Building Footprint Extraction Using Very High-Resolution Satellite Images and Multi-Source GIS Data

概要

  • アルゴリズム論文(2019)
  • U-netを用いたHRIにおける建物検出を行うSemantic Segmentation,Google Map等4つのGISを教師データの一部として活用し精度を大幅に向上

アルゴリズム

  • 対象とした都市ごとに最も詳細なGISを教師データの一部に選定(都市ごとにどのGISが詳しいかが異なる)
  • 画像のRescaleとRotationを行い,Data augmentation実施
  • 建物ラベルのみを教師データとしたモデルを学習
  • その後,GISを教師データとして付与し,転移学習を行う.
  • 合計4つの出力結果を統合し結果出力
    2019-10-29_17h30_43

実装

  • DatasetはSpaceNetを使用,
    • World-view3の4都市(Las Vegas, Paris, Shanghai, Khartoum)の画像と建物のラベル
    • 元々SpaceNetはDigitalGlobeの建物ラベルコンペでそのトップ3の精度と比較
  • GISを加えたモデルがほかに比べて大きく精度向上

所感

  • 論文の説明が丁寧で実装の条件もよくわかるので勉強にもいい
  • GISを用いる研究はあまり行われていないので,一つの代表例
    • 建物の識別しか行っていない
  • ただ,各データセットを用いたうえで補助的にGISを用いている程度で依然としてアノテーションデータが必要

Deep Residual Learning for Image Recognition

概要

  • Deep Residual Learning for Image Recognition
  • CVPR2015
  • アルゴリズム系
  • 従来のネットワークは層を深くしていくと勾配消失によって学習がうまく進まないところを、Residual Blockと呼ばれるSkip Connectionを導入し消失を回避。ここに良くまとまった解説がある。

アルゴリズム/実験手法

Residual blockを二層もしくは三層のconvごとに挿入する。これにより、畳み込みが必要ないidentity mappingなどの時には畳み込みではなく、このresidual blockのスキップコネクションがトンネル的な役割をする。

条件,結果

2015年の当時、imagenetなどで圧勝している。この際に比べたのがvggなどで、20層以下のvggに対して100層以上で対抗している。このような深い層を使えるのも、スキップコネクションで勾配消失を回避しているからである。

感想,所感

論文がめちゃ読みやすかった。

A survey on object detection in optical remote sensing images

概要

  • Survey論文 (2016)
  • 大きく以下の4つに分類(下ほど最近)
    • Template Matching
    • Knowledge Based
    • Object Based
    • Machine Learning Based
      2019-10-21_18h04_08

所感

  • Remote Sensing Imagery (RSI)と普通の画像認識の処理との違いが判るのでRSI解析やる前に読むといいかも
  • Machine Learning Basedも特徴量エンジニアリングについて言及
    • CNN等での特徴量抽出の自動化は研究テーマとしては乏しい
  • 画像中の情報のみを基本的に利用

Image-to-Image Translation with Conditional Adversarial Networks

概要

  • アルゴリズム系論文(2018)
  • GANを利用し,2つのペア画像から画像間の関係を学習し,1枚の画像から補完しペア画像を生成する技術

2020-02-05_13h30_21

アルゴリズム

  • Conditional GANを使用,通常のDCGANと異なりGeneratorに入力したinput とoutput画像を両方学習に利用,イメージ的には正解ペアなのか不正解ペアなのかを学習
  • GeneratorにはUnet等のEncoder/ Decoderモデルを使用
  • またcGANモデルにL1正則化を組み込み精度を向上

2020-02-05_13h30_50

実装

  • 建物,物,景色の写真や衛星画像とその線画(またはセグメンテーション,地図)の変換を実施
    • 夏冬や昼夜画像の変換等も実施
  • Unetの方がEncoder/ Decoderモデルより基本構造を維持
    • Skip結合による特徴量の保持
  • L1項を追加するとより鮮明な画像生成

2020-02-05_13h31_43

所感

  • GANを一躍有名にした潜在変数を補完することで別の要素を加えた画像を生成した研究の代表例
  • 衛星画像と地図の変換もしていたのは知らなかった
  • 異常検知をGANで行う研究を応用すれば車の検知にも使える?

Contextually guided very-high-resolution imagery classification with semantic segments

概要

  • Algorithm論文 (Link)
  • Semantic-free segments (Semantic segments: 建物,木,道など) を持つVHR画像に対してのSegmentation論文

Algorithm

  • CNNで識別,ここではFCNではなくObject検出(FCNはVHRの表現量に向かない)
  • Contour情報を識別結果に追加しCRFで後処理
  • 輪郭エッジを保存したSegmentationを実現

実装

  • 3枚の画像使用,**とドイツの画像(解像度9㎝のArial Image)
  • EMPなどより精度大幅に向上

所感

  • CNNと後処理の工夫を加えて精度向上を示した
  • 2017年の発表だが,CNNの初歩的な導入がようやく登場
  • CNNを用いた研究はいろいろ余地ありそう,
    • FCN,転移学習への応用,
    • 筆者も言及しているが,VHRは表現量が多くFCNは困難らしい

Object Detection in Optical Remote Sensing Images Based on Weakly Supervised Learning and High-Level Feature Learning

概要

  • アルゴリズム論文(2015)
  • モチベーション:データアノテーションを簡易化
  • WSL(Weakly Supervised Learning)
  • 画像に正解ラベル(飛行機,車,空港)が存在するかどうかのみを教師とする

アルゴリズム

  • 各Image patchクロップ
  • Sift計算,Kmeansで各特徴量の距離算出
  • 距離が近いもののHistogram取得しImage patch同士で連結(LLC: Locally-restricted Linear Coding)
  • DBM (Deep Boltzman Machine)で高次特徴量取得
  • 各画像から特徴量自動生成
  • 生成されたImage patchのクラス間およびクラス内の分布を繰り返しGMMで計算し,Mislabelingを修正
  • Bayesianで識別
    2019-10-10_18h18_03

実装

  • Dataset (Resolution): Google Earth (0.5m), ISPRS (8-15cm), Landsat (30m)
    • それぞれ飛行機,車,空港の検出に使用
  • 既存のWSLより精度向上(精度0.5くらい)だが,教師あり学習(SVM)の精度に少し劣る

所感

  • クラシックな特徴量抽出を行ってアノテーションを自動化する発想は面白い
  • 職人芸の域を脱していない

DEEP DOUBLE DESCENT: WHERE BIGGER MODELS AND MORE DATA HURT

概要

  • アルゴリズム系論文(2019)
  • 過学習の挙動で従来とは異なるDouble Descentと呼ばれる現象の定量的な分析
  • こちらも

アルゴリズム

  • 最新の大きな学習モデルの過学習の挙動で従来とは異なるDouble Descentと呼ばれる現象が見られた
    • EMC (Effective Model Complexity)という大きさの導入: モデルが学習可能なデータの数
  • Test Errorが一度増加したのち(過学習)に再び減少する
  • モデルが学習データ数に対して十分に大きい場合に見られる

実装

  • Resnet18を用いてCifer10とCifer100で確認
  • ノイズを付加するとより顕著にみられた
  • 原因はまだわかっていない
    2020-01-15_10h35_04

所感

  • 学習データを覚えきれるほどモデルが大きい場合,Double Descentが生じるということは直感から反する
  • モデルの大きさとデータ量次第でテストデータの精度改善のための学習回数が異なってくるのでEMCの評価が大事になりそう
  • 実際には,EMCの計算と実際の学習回数は単純なモデルを高スペックPCで回す時以外最適化は難しそう

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

概要

  • アルゴリズム論文(2019)
  • 今までのモデルは深さ,幅,解像度に比例して精度が向上してきたが,途中で学習が収束してしまう問題があった.
  • そのため,深さ,幅,解像度を適切な値にすれば計算量を抑えながら精度向上できるのではという発想
  • Resnet等に比べて10分の1程度のパラメータでImageNetの最高精度達成
    2019-10-30_13h41_55

アルゴリズム

  • モデルのスケーリング(深さ,幅,解像度)とその精度を定量的に評価,
  • 均一のスケーリングで深さ,幅,解像度を調整したモデルを生成し,それらを合成
    • スケーリングの係数はグリッドサーチの一種で探索
    • 同著者のMnasNetで提案している探索手法を用いている
  • スケーリングの大きさによって複数のモデルを生成し,それらの精度を検証
    2019-10-30_13h42_07

実装

  • ImageNetで精度検証
  • Compound Scalingモデルがそれまでの最新モデル(GPipe,ResNet)と同程度の精度を6倍の速度で達成
  • 転移学習での有効性もCifer10等の8つのデータセットで検証
    • ファインチューニングを行って5つのデータセットで精度改善

所感

  • モデルそのものを新しくするのではなく,今までのネットワークの層の深さ,幅,画像の解像度ごとにモデルをそれぞれ最適化した結果,かなり精度が上がっている
  • 全探索をうまいことやったらかなりネットワークの縮小化が期待できそう
  • 実装例やパラメータ最適化にグリッドサーチを用いるなど,相当な計算リソースを割いており,そのチューニング方法そのものはいたってシンプル
  • ImageNetやCifer10など写っているものが似ているものを扱っており,よりVarianceの高いモデルになっている可能性あり
    • 衛星画像等の異なるデータで転移学習させた場合うまくできない?

Vehicle Detection in Satellite Images by Hybrid Deep Convolutional Neural Networks

概要

  • アルゴリズム系論文(2014)
  • Hybrid Deep Neural Network (HDNN) を自動車検知に適用し,精度を大幅に向上
    • HDNNは複数の畳み込みをを行って複数のネットワークで学習する手法
    • 普通のDNNは畳み込み層のカーネルサイズによって取得できる特徴量のPixelサイズに制限が生じ,大きさが大きく異なる物体の検知難しい

アルゴリズム

  • 画像のピクセル勾配を利用して3種類のエッジ画像抽出
  • それぞれのエッジ画像に対して異なるサイズのSliding windowで切り取り
    • 各windowで重心計算
    • その中心にwindowを移動
    • 大きさ変更
  • HDNNで各Crop画像識別
    • 畳み込み層3層のうちの最後の1つを三種類設けて,3つのネットワークを構築
    • MLPで識別
      2019-10-23_12h24_17

実装

  • Google Earthからサンフランシスコの画像63枚取得,半分を学習,半分をテストに使用
  • SVM + HOG, LBP + SVM, Adaboostと比較

所感

  • 自動車検知をCNNで実装した研究例の中では初期のものっぽい
  • Sliding windowの取得の仕方の工夫が精度向上の要因と思われる
    • Crop画像の中心に車が位置する
  • HDNNにした効果はそこまでない印象
  • Sliding windowやエッジ抽出の際のパラメータ設定は実験で求めているため,前処理における統計手法のパラメータ最適化の手間は減らしたい

Computing Ocean Surface Currents From GOCI Ocean Color Satellite Imagery

概要

  • アルゴリズム適応論文(2017)
  • 静止衛星の日本近海画像から海流の流れを可視化および計算の高速化
    • 日本近海の海流は太平洋の海洋学上重要

アルゴリズム

  • Maximum Cross Correlation (MCC)を利用
    • 各search window内のtemplate window同士の相関を比較
    • 最大となるwindow同士の中心点をつなげた点をVelocity vectorと定義
    • 隣接する値,毎時間のデータの平均を取得し,全範囲に適用
      2019-10-21_17h55_44

実装

  • 韓国の静止軌道衛星の搭載されているNASAのセンサGOCIのデータ使用
  • 年間の平均,各季節ごと,月ごとの傾向を可視化
  • 計算コストを20分の1に抑え,カバー率を25%増加

所感

  • 衛星データから物理的要素を取り出す応用例として研究例が多数ある模様
  • 気候モデルなど地球規模の物理モデルを学習する際に有効になりそう
  • 本研究は統計手法だが,CNN等の近年の機械学習手法で同等のことができないか
    • できれば,特徴量抽出の自動化,効率化できる?

An unsupervised approach to geographical knowledge discovery using street level and street network images

概要

  • アルゴリズム論文(2019)
  • StreetMapと地図画像をCAE(自己符号化器)を用いて次元圧縮したのちにPCAをかけ,教師なし学習で潜在的な地形情報?を学習することを目的とする
  • PCAをかけた後に特徴量空間でノイズを増減させ,学習量を可視化

アルゴリズム

  • CAEを用いて256×256 pixelの画像を64×64に圧縮
  • PCAで次元削減
  • 各コンポーネントごとに値の大小を異なる画像を作図して意味を類推
  • それぞれのコンポーネントを用いて都市のUrbanityや道の開放度をニューラルネットを用いて予測
    2019-11-08_17h04_59

実装

  • StreetMapと地図画像はGoogleMap,Openstreetmapをそれぞれ使用,前者はロンドン,後者は世界の主要都市110000箇所から抽出
  • 都市のUrbanityや道の密度をPCAから可視化
  • MLPでの予測は精度7割程度,Street closeness centralityの予測はうまくいかず
    2019-11-08_17h05_07

所感

  • PCA後に特徴量空間でノイズを増減させてから可視化することで各コンポーネントでの特徴を理解する発想は面白い,多くのアプリケーションがありそう
  • ここで可視化/分類できたのは都市のUrbanityや道路の密度のみで詳細なGeographical Knowledgeの取得は難しい
    • 著者も述べているが,ラベル済みのデータとコンポーネント成分を比較することでより詳細な意味を理解できる可能性がある
  • PCA後の解釈は人間によって行われているため,大まかな傾向しかつかめていない,解釈をいかにするかはComputer Visionにおいて大きな課題のよう

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.