Code Monkey home page Code Monkey logo

cs-paper-review's People

Contributors

leahincom avatar yskim0 avatar

Watchers

 avatar  avatar

cs-paper-review's Issues

Unsupervised Intra-domain Adaptation for Semantic Segmentation 리뷰

DA는 처음이라, 너 리뷰 보면서 이해하고 정리 하면서 읽었어. 기울임체는 질문이 아니라 내가 이해한대로 정리한 거니까 맞다면 그냥 넘어가고, 틀리면 지적해줘 ㅋㅋ

Introduction

Synthetic data

  • 여기서 말하는 Synthetic data가 위에서 언급한 시뮬레이터나 게임 엔진에서 나온 데이터지??
    그래서 리얼 데이터랑 다른 지점이 있다는 거고...
  • 암튼 synthetic data를 획득해서 원하는 도메인에 real data와 domain-difference 와 거의 차이없게 하는 게 domain adaptation 맞아?

Source Domain vs. Target Domain

여기서 source domain : GTA, simulation ,
target domain : real data 이다.

Inter-domain vs. Intra-domain

Inter-domain : Target-Source 간의 Gap
Intra-domain : Target 내부의 domain gap

  • Target domain은 Hard, Easy로 나눌 수 있고
  • easy, hard 사이의 gap을 줄이는 것이 목표다.

Model

어느정도는 이해한 듯


이 연구가 Oral로 선정된 이유는 기존 DA 연구들은 inter-domain에 집중했는데 여기서는 intra-domain을 집중적으로 조명해서 성능향상을 이끌었기 때문인가? 점점 딥러닝이 발전하면서 데이터셋의 부족하다든지, 너무 비용이 비싸서 만들기도 힘들다든지 그렇다는데
그래서 도메인 adaptation도 유망한 부분인 것 같아 ㅋㅋ GTA나 시뮬레이션으로도 좋은 데이터를 많이 만들게 될 수 있으니...
재밌는 연구네 👍

TO READ LIST

  • Image + Transformer 관련
    • DETR
    • iGPT3
    • DeformableDETR
    • ViT

PI-REC 리뷰

[Model]

"Imitation Phase, Generating Phase and Refinement Phase 로 구성되어 있으며 하나의 Generator와 Discrriminator 이용."

이거랑 figure 봤을 때 헷갈리는데, 각 phase마다 Generator가 있는 것 같은데(G1_1, G1_2, G1_3), 이게 다 이어져있고 결국엔 마지막에 하나의 G1이 된다는 거? Discriminator도 그런건가?
G1과 G1_1, G1_2, G1_3 간의 관계가 어떤건지 더 궁금합니닷

[Preprocessing of training Data]

오소프에서 배운 내용이 많이 나와서 재밌네 ㅋㅋㅋ

extracted edge의 each pixel은 8%의 확률로 0 값으로 reset 될 수 있음 (스케치의 선이 edge일 확률을 92%로 가정한 것.): generalization ability 향상

92%라 가정한 건 실험적인 결과로 얻은 거겠지??

[Loss]

loss가 뭐 존ㄴ나 많네 ㄷ ㄷ...
LSGAN도 얘기 많이 들어봤는데 GAN 쪽으로 갈거면 꼭 읽어봐야할듯!

[Result]

(b) 그림이 되게 인상깊다.
내가 그지같이 그려도 애니같이 만들어주는건가?
저런 거 웹서비스로 만드는 프로젝트도 재밌을 듯 ㅋㅋㅋ

[기타 피드백]

항상 생각하지만 GAN이 재밌긴 해.. 근데 (회의 때 더 얘기 나눠봐야겠지만) 명확한 활용분야를 잘 모르겠어 ㅋㅋ
너가 읽은 논문처럼 2D 더 나아가서 3D 이미지를 reconstruction해서 활용할 수 있는 게 뭐가 있을까?
재미나 가벼운 의도가 아닌 진짜 큰 큰 큰 활용분야!
object detection, semantic segmentation, 최근에는 더 나아가 panoptic segmentation .. 이런 분야 연구들이 계속 진행될 수밖에 없는게 우리 생활이랑 밀접하게 도움을 줄 수 있는 관련 분야가 정말 많아서인 것 같거든. 더 의미도 있고 그래서 재미도 더 생기고

GAN으로는 style transfer같은 걸 해서 이미지 변환, colorization 등을 하고
또 GTA 포함해서 게임 같은 분야에서 GAN을 사용하려고도 하고, 연구하려고도 한다는데 ..
난 이런 활용분야는 뭔가 세상을 좀 더 발전시킬 수 있는 ,, 그런 방향의 기술은 또 아닌 것 같거든 ㅋㅋㅋ

실제 우리 생활에서 GAN 기술을 통해서 크게 benefit을 이용할 수 있는 게 명확하게 떠오르지 않아
실생활에서 재밌게, 개쩔게, 의미있게 적용될 수 있는 게 뭔가 더 같이 생각해보고 싶음ㅋㅋㅋ
(잠깐 생각한 게 GAN으로 fake data들을 만들어서 사회에 물의를 일으키는 경우가 많잖아. 대표적인게 딥페이크고, 이게 더 발전되면 음성으로도 만들어내서 사기칠 수 있다 하더라고 ㄷㄷ... 이런걸 detect할 수 있는 기술? GAN-detect 느낌의 연구도 재밌을 것 같아 ㅋㅋ)

ViT: 질문 및 further research

하지만 pre-trained position embedding이 의미 없어질 수 있음

input image에 fitting된 결과라서 그런가?

Transformer는 CNN과 다르게 translation equivariance, locality 같은 inductive biases(=weight sharing)이 없기 때문에 데이터셋이 적으면 generalize되기 어려움

image generation을 통해 해결해보는 건 어떨까?

일단 다양한 분야에 적용시켜 볼 수 있겠다. classification에 더해서 일단 여기서 언급한 image resolution도 그렇고.
그리고 patch에서 sequence를 추출한다는게 image reconstruction이랑 비슷한 맥락인 것 같아. 그런 의미에서 image reconstruction에서 position embedding이 input specific한 정보라서 얘를 보완해서 나온 method가 내가 리뷰한 논문이거든? 비슷한 관점에서 ViT가 가진 한계점을 보완할 수 있지 않을까?
암튼 재밌는 연구다.!!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.