deepresearchteam / deep_research Goto Github PK

3.0 2.0 0.0 25 KB

To summarize the information of machine learning

convolutional-neural-networks satellite-images image-segmentation arxivtimes

deep_research's Introduction

Deep Learning Papers

To summarize the information of machine learning. This repository mainly focuses on the image processing and satellite image classification.

Issuesのテンプレ

テンプレに記載。

有名論文

Image Classification

衛星画像解析

Image Segmentation

Detection

Visualization

Annotation

Object Detection in Optical Remote Sensing Images Based on Weakly Supervised Learning and High-Level Feature Learning

その他

An unsupervised approach to geographical knowledge　discovery using street level and street network images

deep_research's People

Stargazers

Watchers

deep_research's Issues

Building Change Detection Using High Resolution　Remotely Sensed Data and GIS

概要

アルゴリズム論文(2016)
GISから建物の形状を抽出し，それぞれの建物に対して災害後の建物がIntact/ destructedを識別する手法

アルゴリズム

GISから建物の形状と位置を取得
衛星画像の輝度調整等のフィルタリング
GISから得た建物の該当範囲からそれぞれ特徴量を計算
- Canny法でエッジ検出し，Detected Part of Contour(DPC)と呼ばれるエッジがどの程度変化しているかを表す指標の計算
- テクスチャをCoocurrence Matrixを用いて計算
  - グレースケール画像において輝度がどの程度一様か
k近傍法(k-NN)を用いて2値分類

実装

東北震災時の釜石の画像を解析
画像とGISはそれぞれWorld-view3とOpenStreetMapを使用
All study caseで精度8割を超えた

所感

今までの建物の差分検知は前後の画像を取得して行われてきたが，撮影条件がほぼ同じ出ない限り比較が難しかったため，GISを利用しその拡張性を上げた
建物単体の比較であるため専用の特徴量を開発して精度を上げた
GIS情報を積極的に活用した例として面白い，GISを補助的に用いる例は多いようだが，GISのみで建物の情報を取得するのはあまり行われていないらしい
影除去，スペクトル情報の付与，3D画像情報の付与などで精度が向上できそう

Object-Based Convolutional Neural Network for High-Resolution Imagery Classification

概要

アルゴリズム系論文(2017)
CNNによる特徴量抽出とObject-based の分類を繰り合わせ9割以上の精度建物の識別に成功
- CNNが高度の特徴量抽出を可能とするがPixelレベルの形状を識別するのが困難である欠点をObejct-basedのアルゴリズムを統合することで補完可能

アルゴリズム

Train dataからCNNで特徴量計算
同時に統計特徴量用いて似た要素を持つ領域をセグメンテーション
セグメンテーション結果からShape constraintを先ほどのCNNの特徴量に付与
各領域に対して2層の全結合層で識別

実装

Beijing, Pavia, Vailingen (China, Italy, Germany)の画像を利用
- それぞれWorld-view2, ROSIS sensor data, German Association of Photogrammetry and Remote sensing
畳み込み層は1-5層で実装，
- 層が増すにつれ精度が向上
Soilの精度が最も低い(7割くらい)が既存のアルゴリズムより大幅に精度向上
- SVM, EMAP, Pixel based CNN, SSFC

所感

CNNによるアップサンプリングの弱点である正確なセグメンテーションを統計量を利用することで向上したが特徴量エンジニアリングの要素が多い，
Obejct-basedの具体的なアルゴリズムの言及はないため要調査
CNNの弱点や傾向の勉強になった

Pyramid Scene Parsing Network

概要

PSPNet

アルゴリズム/実験手法

条件，結果

感想，所感

Feature Pyramid Networks for Object Detection

概要

FPNについて。Facebookが2017年に発表。

アブストの要約，大まかな内容

アルゴリズム/実験手法

条件，結果

感想，所感

Vehicle Detection in Aerial Images Based on Region Convolutional Neural Networks and Hard Negative Example Mining

概要

アルゴリズム系論文(2017)
車に似た形状を持つfeature(建物etc)を候補から削除し精度を向上するHard Negative Example Miningを提案
- Faster R-CNNにアーキテクチャを基にネットワーク構築

アルゴリズム

元画像から切り取り，回転等のData augmentation
Faster R-CNNに用いられているRegional Proposal Network (RPN)を用いて車の候補を抽出
決定木に基づくBoostingアルゴリズムで正例と負例を区別

実装

Munich vehicle datasetを利用
既存のアルゴリズムより精度が少し向上
木に隠れている車や隣接する車の識別は失敗が多く見られた

所感

元画像とアノテーションデータとの誤差に着目して精度向上するのは面白い
トレーニングデータから最大限特徴を学習する手順としてはFeature engineering的アプローチ
End to endでできたら車以外にも応用可能？

論文要約　フォーマット

概要

論文の種類　(アルゴリズム系，実験系，市場調査系)
アブストの要約，大まかな内容

アルゴリズム/実験手法

条件，結果

感想，所感

Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks

概要

アルゴリズム論文(2016)
数百のチャンネルを持つHyperspectral imagesの植生分類をCNNを用いて実装し，代表的なHyperspectral Imagesの画像に対して高い精度を達成

アルゴリズム

1D, 2D, 3Dのカーネルを用いてそれぞれ実装
1Dは各ピクセル毎に全チャネルのSpectral Informationを畳み込みして識別
- 5層の畳み込みとプーリング，1層のMLP
2DはPCAをまず行い，第1成分のみを取り出し，普通の画像処理同様にCNNをかける
3Dは全チャンネルに対して3次のカーネルをかけて識別
- 3Dのカーネルは27*27でSpectral lengthは100-200の長さをとった

実装

以下の3つの代表的なHyperspectral Imagesを使用
- Indian Pine Tree by Airborne Visible Infrared Imaging Spectrometer (AVIRIS)
- the city of Pavia, Italy by Reflective Optics System Imaging Spectrometer (ROSIS-3)
- Kennedy Space Center, Florida by AVIRIS
すべてのケースにおいてCNNが1-3Dにおける精度の方が高いことを示した

所感

今までのHyperspectral Imagesの解析手法やCNNの歴史や説明まで詳しく書かれていて勉強になる
実際のHyperspectral imagesの中身を見るとかなりのデータは識別には寄与しないデータが多い(0だったり，同じ値)，そのためPCAを行うことで2DのCNNは適切に学習できたと思われる
1Dのケースでも精度が向上したのはCNNが適切に無駄なデータに対して学習の際に無相関であることを学習できているからか
計算コストは言及されていないが3DCNNなんかは圧倒的にかかるので，その評価も見てみたい

U-Net: Convolutional Networks for Biomedical Image Segmentation

概要

U-Net: Convolutional Networks for Biomedical Image Segmentation

アルゴリズム系

現在広く使われているCNNを用いた画像セグメンテーション手法。FCNを発展させたようなネットワーク構造になっている。ISBIと呼ばれるチャレンジで従来のsliding window手法を上回った。かつてのslidingwindowによるsegmentationのアプローチよりも高速なネットワーク。

アルゴリズム/実験手法

エンコーダ側はconvとpoolingを繰り返すことで、深さ方向(カーネルorフィルタサイズ)が増えていくが局所情報が失われていく。デコーダにおいてup-convを行っている際に、それぞれのエンコーダ側のpooling後の情報を重ね合わせることにより局所的な情報を保っている。up-convは以下が分かりやすい。

条件，結果

バイオメディカル用の画像のために作られたネットワーク。ImageNetのように数千枚の学習画像を用意するのは不可能なので、学習データが少なくても精度が出るように工夫されたネットワーク。

上の図のように、高解像度の画像に対しては、mirror paddingを行って、識別させる方法を取るといいと書かれている。

実装

実装はcaffeでsgdを使っているらしい。softmax関数を使用しているため、損失関数はクロスエントロピー誤差である。

data augmentation

一通りのことを行っているがelastic deformationsが有用だったと述べられている。

感想，所感

5ページ目の中盤のmorphological operationsというのがよくわからなかった。

LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

概要

LinkNet

アルゴリズム/実験手法

条件，結果

感想，所感

Fully Convolutional Networks for Semantic Segmentation

概要

Fully Convolutional Networks for Semantic Segmentation
アルゴリズム系
semantic segmentation. CNNの最後の全結合層をconvolutionに置き替えることによって、二次元マップを出力。

アルゴリズム/実験手法

全結合層をconvolution層に置き替え、二次元マップを出力。これにより入力を任意のサイズとすることが出来る。ただし解像度が落ちるため、Upconvolutionを使用して解像度を上げている。
convolutionを繰り返した上位の層は高次元の情報を持っているが、局所的な情報は失われている。そこで、スキップアーキテクチャーと呼ばれるアルゴリズムが用いられる。低レイヤーの局所的なローカルな情報を持つ層の情報と上位の層を重ね合わせることにより精度を向上させている。

条件，結果

2015年の時点ではSOTAだったが、今はUnetなどに置き換わってしまっているので、参考までに読んでみた。

感想，所感

英語が難しく、よくわからなかったので、まとめサイトを参考に読み進めた。

Semantic Segmentation-Based Building Footprint　Extraction Using Very High-Resolution Satellite Images and Multi-Source GIS Data

概要

アルゴリズム論文(2019)
U-netを用いたHRIにおける建物検出を行うSemantic Segmentation，Google Map等4つのGISを教師データの一部として活用し精度を大幅に向上

アルゴリズム

対象とした都市ごとに最も詳細なGISを教師データの一部に選定(都市ごとにどのGISが詳しいかが異なる)
画像のRescaleとRotationを行い，Data augmentation実施
建物ラベルのみを教師データとしたモデルを学習
その後，GISを教師データとして付与し，転移学習を行う．
合計4つの出力結果を統合し結果出力

実装

DatasetはSpaceNetを使用，
- World-view3の4都市(Las Vegas, Paris, Shanghai, Khartoum)の画像と建物のラベル
- 元々SpaceNetはDigitalGlobeの建物ラベルコンペでそのトップ3の精度と比較
GISを加えたモデルがほかに比べて大きく精度向上

所感

論文の説明が丁寧で実装の条件もよくわかるので勉強にもいい
GISを用いる研究はあまり行われていないので，一つの代表例
- 建物の識別しか行っていない
ただ，各データセットを用いたうえで補助的にGISを用いている程度で依然としてアノテーションデータが必要

Deep Residual Learning for Image Recognition

概要

Deep Residual Learning for Image Recognition
CVPR2015
アルゴリズム系
従来のネットワークは層を深くしていくと勾配消失によって学習がうまく進まないところを、Residual Blockと呼ばれるSkip Connectionを導入し消失を回避。ここに良くまとまった解説がある。

アルゴリズム/実験手法

Residual blockを二層もしくは三層のconvごとに挿入する。これにより、畳み込みが必要ないidentity mappingなどの時には畳み込みではなく、このresidual blockのスキップコネクションがトンネル的な役割をする。

条件，結果

2015年の当時、imagenetなどで圧勝している。この際に比べたのがvggなどで、20層以下のvggに対して100層以上で対抗している。このような深い層を使えるのも、スキップコネクションで勾配消失を回避しているからである。

感想，所感

論文がめちゃ読みやすかった。

A survey on object detection in optical remote sensing images

概要

Survey論文 (2016)
大きく以下の4つに分類(下ほど最近)
- Template Matching
- Knowledge Based
- Object Based
- Machine Learning Based

所感

Remote Sensing Imagery (RSI)と普通の画像認識の処理との違いが判るのでRSI解析やる前に読むといいかも
Machine Learning Basedも特徴量エンジニアリングについて言及
- CNN等での特徴量抽出の自動化は研究テーマとしては乏しい
画像中の情報のみを基本的に利用

Image-to-Image Translation with Conditional Adversarial Networks

概要

アルゴリズム系論文(2018)
GANを利用し，2つのペア画像から画像間の関係を学習し，1枚の画像から補完しペア画像を生成する技術

アルゴリズム

Conditional GANを使用，通常のDCGANと異なりGeneratorに入力したinput とoutput画像を両方学習に利用，イメージ的には正解ペアなのか不正解ペアなのかを学習
GeneratorにはUnet等のEncoder/ Decoderモデルを使用
またcGANモデルにL1正則化を組み込み精度を向上

実装

建物，物，景色の写真や衛星画像とその線画(またはセグメンテーション，地図)の変換を実施
- 夏冬や昼夜画像の変換等も実施
Unetの方がEncoder/ Decoderモデルより基本構造を維持
- Skip結合による特徴量の保持
L1項を追加するとより鮮明な画像生成

所感

GANを一躍有名にした潜在変数を補完することで別の要素を加えた画像を生成した研究の代表例
衛星画像と地図の変換もしていたのは知らなかった
異常検知をGANで行う研究を応用すれば車の検知にも使える？

Contextually guided very-high-resolution imagery classification with semantic segments

概要

Algorithm論文 (Link)
Semantic-free segments (Semantic segments: 建物，木，道など) を持つVHR画像に対してのSegmentation論文

Algorithm

CNNで識別，ここではFCNではなくObject検出(FCNはVHRの表現量に向かない)
Contour情報を識別結果に追加しCRFで後処理
輪郭エッジを保存したSegmentationを実現

実装

3枚の画像使用，**とドイツの画像(解像度9㎝のArial Image)
EMPなどより精度大幅に向上

所感

CNNと後処理の工夫を加えて精度向上を示した
2017年の発表だが，CNNの初歩的な導入がようやく登場
CNNを用いた研究はいろいろ余地ありそう，
- FCN，転移学習への応用，
- 筆者も言及しているが，VHRは表現量が多くFCNは困難らしい

Object Detection in Optical Remote Sensing Images Based on Weakly Supervised Learning and High-Level Feature Learning

概要

アルゴリズム論文(2015)
モチベーション：データアノテーションを簡易化
WSL(Weakly Supervised Learning)
画像に正解ラベル(飛行機，車，空港)が存在するかどうかのみを教師とする

アルゴリズム

各Image patchクロップ
Sift計算，Kmeansで各特徴量の距離算出
距離が近いもののHistogram取得しImage patch同士で連結(LLC: Locally-restricted Linear Coding)
DBM (Deep Boltzman Machine)で高次特徴量取得
各画像から特徴量自動生成
生成されたImage patchのクラス間およびクラス内の分布を繰り返しGMMで計算し，Mislabelingを修正
Bayesianで識別

実装

Dataset (Resolution): Google Earth (0.5m), ISPRS (8-15cm), Landsat (30m)
- それぞれ飛行機，車，空港の検出に使用
既存のWSLより精度向上(精度0.5くらい)だが，教師あり学習(SVM)の精度に少し劣る

所感

クラシックな特徴量抽出を行ってアノテーションを自動化する発想は面白い
職人芸の域を脱していない

DEEP DOUBLE DESCENT: WHERE BIGGER MODELS AND MORE DATA HURT

概要

アルゴリズム系論文(2019)
過学習の挙動で従来とは異なるDouble Descentと呼ばれる現象の定量的な分析
こちらも

アルゴリズム

最新の大きな学習モデルの過学習の挙動で従来とは異なるDouble Descentと呼ばれる現象が見られた
- EMC (Effective Model Complexity)という大きさの導入: モデルが学習可能なデータの数
Test Errorが一度増加したのち(過学習)に再び減少する
モデルが学習データ数に対して十分に大きい場合に見られる

実装

Resnet18を用いてCifer10とCifer100で確認
ノイズを付加するとより顕著にみられた
原因はまだわかっていない

所感

学習データを覚えきれるほどモデルが大きい場合，Double Descentが生じるということは直感から反する
モデルの大きさとデータ量次第でテストデータの精度改善のための学習回数が異なってくるのでEMCの評価が大事になりそう
実際には，EMCの計算と実際の学習回数は単純なモデルを高スペックPCで回す時以外最適化は難しそう

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

概要

アルゴリズム論文(2019)
今までのモデルは深さ，幅，解像度に比例して精度が向上してきたが，途中で学習が収束してしまう問題があった．
そのため，深さ，幅，解像度を適切な値にすれば計算量を抑えながら精度向上できるのではという発想
Resnet等に比べて10分の1程度のパラメータでImageNetの最高精度達成

アルゴリズム

モデルのスケーリング(深さ，幅，解像度)とその精度を定量的に評価，
均一のスケーリングで深さ，幅，解像度を調整したモデルを生成し，それらを合成
- スケーリングの係数はグリッドサーチの一種で探索
- 同著者のMnasNetで提案している探索手法を用いている
スケーリングの大きさによって複数のモデルを生成し，それらの精度を検証

実装

ImageNetで精度検証
Compound Scalingモデルがそれまでの最新モデル(GPipe，ResNet)と同程度の精度を6倍の速度で達成
転移学習での有効性もCifer10等の8つのデータセットで検証
- ファインチューニングを行って5つのデータセットで精度改善

所感

モデルそのものを新しくするのではなく，今までのネットワークの層の深さ，幅，画像の解像度ごとにモデルをそれぞれ最適化した結果，かなり精度が上がっている
全探索をうまいことやったらかなりネットワークの縮小化が期待できそう
実装例やパラメータ最適化にグリッドサーチを用いるなど，相当な計算リソースを割いており，そのチューニング方法そのものはいたってシンプル
ImageNetやCifer10など写っているものが似ているものを扱っており，よりVarianceの高いモデルになっている可能性あり
- 衛星画像等の異なるデータで転移学習させた場合うまくできない？

Vehicle Detection in Satellite Images by Hybrid Deep Convolutional Neural Networks

概要

アルゴリズム系論文(2014)
Hybrid Deep Neural Network (HDNN) を自動車検知に適用し，精度を大幅に向上
- HDNNは複数の畳み込みをを行って複数のネットワークで学習する手法
- 普通のDNNは畳み込み層のカーネルサイズによって取得できる特徴量のPixelサイズに制限が生じ，大きさが大きく異なる物体の検知難しい

アルゴリズム

画像のピクセル勾配を利用して3種類のエッジ画像抽出
それぞれのエッジ画像に対して異なるサイズのSliding windowで切り取り
- 各windowで重心計算
- その中心にwindowを移動
- 大きさ変更
HDNNで各Crop画像識別
- 畳み込み層3層のうちの最後の1つを三種類設けて，3つのネットワークを構築
- MLPで識別

実装

Google Earthからサンフランシスコの画像63枚取得，半分を学習，半分をテストに使用
SVM + HOG, LBP + SVM, Adaboostと比較

所感

自動車検知をCNNで実装した研究例の中では初期のものっぽい
Sliding windowの取得の仕方の工夫が精度向上の要因と思われる
- Crop画像の中心に車が位置する
HDNNにした効果はそこまでない印象
Sliding windowやエッジ抽出の際のパラメータ設定は実験で求めているため，前処理における統計手法のパラメータ最適化の手間は減らしたい

Computing Ocean Surface Currents From GOCI Ocean Color Satellite Imagery

概要

アルゴリズム適応論文(2017)
静止衛星の日本近海画像から海流の流れを可視化および計算の高速化
- 日本近海の海流は太平洋の海洋学上重要

アルゴリズム

Maximum Cross Correlation (MCC)を利用
- 各search window内のtemplate window同士の相関を比較
- 最大となるwindow同士の中心点をつなげた点をVelocity vectorと定義
- 隣接する値，毎時間のデータの平均を取得し，全範囲に適用

実装

韓国の静止軌道衛星の搭載されているNASAのセンサGOCIのデータ使用
年間の平均，各季節ごと，月ごとの傾向を可視化
計算コストを20分の1に抑え，カバー率を25％増加

所感

衛星データから物理的要素を取り出す応用例として研究例が多数ある模様
気候モデルなど地球規模の物理モデルを学習する際に有効になりそう
本研究は統計手法だが，CNN等の近年の機械学習手法で同等のことができないか
- できれば，特徴量抽出の自動化，効率化できる？

An unsupervised approach to geographical knowledge　discovery using street level and street network images

概要

アルゴリズム論文(2019)
StreetMapと地図画像をCAE(自己符号化器)を用いて次元圧縮したのちにPCAをかけ，教師なし学習で潜在的な地形情報？を学習することを目的とする
PCAをかけた後に特徴量空間でノイズを増減させ，学習量を可視化

アルゴリズム

CAEを用いて256×256 pixelの画像を64×64に圧縮
PCAで次元削減
各コンポーネントごとに値の大小を異なる画像を作図して意味を類推
それぞれのコンポーネントを用いて都市のUrbanityや道の開放度をニューラルネットを用いて予測

実装

StreetMapと地図画像はGoogleMap，Openstreetmapをそれぞれ使用，前者はロンドン，後者は世界の主要都市110000箇所から抽出
都市のUrbanityや道の密度をPCAから可視化
MLPでの予測は精度7割程度，Street closeness centralityの予測はうまくいかず

所感

PCA後に特徴量空間でノイズを増減させてから可視化することで各コンポーネントでの特徴を理解する発想は面白い，多くのアプリケーションがありそう
ここで可視化/分類できたのは都市のUrbanityや道路の密度のみで詳細なGeographical Knowledgeの取得は難しい
- 著者も述べているが，ラベル済みのデータとコンポーネント成分を比較することでより詳細な意味を理解できる可能性がある
PCA後の解釈は人間によって行われているため，大まかな傾向しかつかめていない，解釈をいかにするかはComputer Visionにおいて大きな課題のよう