yskim0 / cs-paper-review Goto Github PK

View Code? Open in Web Editor NEW

1.0 1.0 0.0 1.06 MB

논문 읽기 스터디

cs-paper-review's People

Contributors

Watchers

cs-paper-review's Issues

Unsupervised Intra-domain Adaptation for Semantic Segmentation 리뷰

DA는 처음이라, 너 리뷰 보면서 이해하고 정리 하면서 읽었어. 기울임체는 질문이 아니라 내가 이해한대로 정리한 거니까 맞다면 그냥 넘어가고, 틀리면 지적해줘 ㅋㅋ

Introduction

Synthetic data

여기서 말하는 Synthetic data가 위에서 언급한 시뮬레이터나 게임 엔진에서 나온 데이터지??
그래서 리얼 데이터랑 다른 지점이 있다는 거고...
암튼 synthetic data를 획득해서 원하는 도메인에 real data와 domain-difference 와 거의 차이없게 하는 게 domain adaptation 맞아?

Source Domain vs. Target Domain

여기서 source domain : GTA, simulation ,
target domain : real data 이다.

Inter-domain vs. Intra-domain

Inter-domain : Target-Source 간의 Gap
Intra-domain : Target 내부의 domain gap

Target domain은 Hard, Easy로 나눌 수 있고
easy, hard 사이의 gap을 줄이는 것이 목표다.

Model

어느정도는 이해한 듯

이 연구가 Oral로 선정된 이유는 기존 DA 연구들은 inter-domain에 집중했는데 여기서는 intra-domain을 집중적으로 조명해서 성능향상을 이끌었기 때문인가? 점점 딥러닝이 발전하면서 데이터셋의 부족하다든지, 너무 비용이 비싸서 만들기도 힘들다든지 그렇다는데
그래서 도메인 adaptation도 유망한 부분인 것 같아 ㅋㅋ GTA나 시뮬레이션으로도 좋은 데이터를 많이 만들게 될 수 있으니...
재밌는 연구네 👍

TO READ LIST

Image + Transformer 관련
- DETR
- iGPT3
- DeformableDETR
- ViT

PI-REC 리뷰

[Model]

"Imitation Phase, Generating Phase and Refinement Phase 로 구성되어 있으며 하나의 Generator와 Discrriminator 이용."

이거랑 figure 봤을 때 헷갈리는데, 각 phase마다 Generator가 있는 것 같은데(G1_1, G1_2, G1_3), 이게 다 이어져있고 결국엔 마지막에 하나의 G1이 된다는 거? Discriminator도 그런건가?
G1과 G1_1, G1_2, G1_3 간의 관계가 어떤건지 더 궁금합니닷

[Preprocessing of training Data]

오소프에서 배운 내용이 많이 나와서 재밌네 ㅋㅋㅋ

extracted edge의 each pixel은 8%의 확률로 0 값으로 reset 될 수 있음 (스케치의 선이 edge일 확률을 92%로 가정한 것.): generalization ability 향상

92%라 가정한 건 실험적인 결과로 얻은 거겠지??

[Loss]

loss가 뭐 존ㄴ나 많네 ㄷ ㄷ...
LSGAN도 얘기 많이 들어봤는데 GAN 쪽으로 갈거면 꼭 읽어봐야할듯!

[Result]

(b) 그림이 되게 인상깊다.
내가 그지같이 그려도 애니같이 만들어주는건가?
저런 거 웹서비스로 만드는 프로젝트도 재밌을 듯 ㅋㅋㅋ

[기타 피드백]

항상 생각하지만 GAN이 재밌긴 해.. 근데 (회의 때 더 얘기 나눠봐야겠지만) 명확한 활용분야를 잘 모르겠어 ㅋㅋ
너가 읽은 논문처럼 2D 더 나아가서 3D 이미지를 reconstruction해서 활용할 수 있는 게 뭐가 있을까?
재미나 가벼운 의도가 아닌 진짜 큰 큰 큰 활용분야!
object detection, semantic segmentation, 최근에는 더 나아가 panoptic segmentation .. 이런 분야 연구들이 계속 진행될 수밖에 없는게 우리 생활이랑 밀접하게 도움을 줄 수 있는 관련 분야가 정말 많아서인 것 같거든. 더 의미도 있고 그래서 재미도 더 생기고

GAN으로는 style transfer같은 걸 해서 이미지 변환, colorization 등을 하고
또 GTA 포함해서 게임 같은 분야에서 GAN을 사용하려고도 하고, 연구하려고도 한다는데 ..
난 이런 활용분야는 뭔가 세상을 좀 더 발전시킬 수 있는 ,, 그런 방향의 기술은 또 아닌 것 같거든 ㅋㅋㅋ

실제 우리 생활에서 GAN 기술을 통해서 크게 benefit을 이용할 수 있는 게 명확하게 떠오르지 않아
실생활에서 재밌게, 개쩔게, 의미있게 적용될 수 있는 게 뭔가 더 같이 생각해보고 싶음ㅋㅋㅋ
(잠깐 생각한 게 GAN으로 fake data들을 만들어서 사회에 물의를 일으키는 경우가 많잖아. 대표적인게 딥페이크고, 이게 더 발전되면 음성으로도 만들어내서 사기칠 수 있다 하더라고 ㄷㄷ... 이런걸 detect할 수 있는 기술? GAN-detect 느낌의 연구도 재밌을 것 같아 ㅋㅋ)

ViT: 질문 및 further research

하지만 pre-trained position embedding이 의미 없어질 수 있음

input image에 fitting된 결과라서 그런가?

Transformer는 CNN과 다르게 translation equivariance, locality 같은 inductive biases(=weight sharing)이 없기 때문에 데이터셋이 적으면 generalize되기 어려움

image generation을 통해 해결해보는 건 어떨까?

일단 다양한 분야에 적용시켜 볼 수 있겠다. classification에 더해서 일단 여기서 언급한 image resolution도 그렇고.
그리고 patch에서 sequence를 추출한다는게 image reconstruction이랑 비슷한 맥락인 것 같아. 그런 의미에서 image reconstruction에서 position embedding이 input specific한 정보라서 얘를 보완해서 나온 method가 내가 리뷰한 논문이거든? 비슷한 관점에서 ViT가 가진 한계점을 보완할 수 있지 않을까?
암튼 재밌는 연구다.!!

yskim0 / cs-paper-review Goto Github PK

cs-paper-review's People

Contributors

Watchers

cs-paper-review's Issues

Unsupervised Intra-domain Adaptation for Semantic Segmentation 리뷰

Introduction

TO READ LIST

PI-REC 리뷰

[Model]

[Preprocessing of training Data]

[Loss]

[Result]

[기타 피드백]

ViT: 질문 및 further research

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent