crop disease diagnosis service application with image-captioning and object-detection(deep learning)
- paper
- Lee, D.I.; Lee, J.H.; Jang, S.H.; Oh, S.J.; Doo, I.C. Crop Disease Diagnosis with Deep Learning-Based Image Captioning and Object Detection. Appl. Sci. 2023, 13, 3148. https://doi.org/10.3390/app13053148
- Team
- Requirement
- Keywords
- Motivation & Purpose
- Goals
- System Structure
- Service Flow
- Disease Diagnostic Results
- Project Flow
- Deep Learning
- App
- Benefits
- References
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์บก์ ๋๊ณผ ๊ฐ์ฒด ์ธ์์ ์ด์ฉํ ์๋ฌผ ์ง๋ณ ์ง๋จ ์๋น์ค
- ํ๊ตญ๋ฐ์ดํฐ์ฐ์ ์งํฅ์ ๋ฐ์ดํฐ์ฒญ๋ ์บ ํผ์ค ํ๊ตญ์ธ๊ตญ์ด๋ํ๊ต ๊ณผ์
- 2022 ๋ฐ์ดํฐ์ฒญ๋ ์บ ํผ์ค ์ต์ฐ์์(ํ๊ตญ๋ฐ์ดํฐ์ฐ์ ์งํฅ์์ฅ์)
- apk download : https://github.com/DI-LEE/crop-disease-diagnosis-service/releases
- ์ค์ -> ์์ฒด ์ธ์ ๋ฐ ๋ณด์ -> ์ถ์ฒ๋ฅผ ์ ์ ์๋ ์ฑ ์ค์น -> ๋ด ํ์ผ ์ ํ ํ ํ์ฉ -> ๋ด ํ์ผ -> apk ์ ํ ํ
Dr.์ฅ์ฅ
์ฑ ์ค์น
For detail instructions : Service Flow
๋์๋ณ
Name | role | Contact |
---|---|---|
์ด๋์ธ | ํ์ฅ, ์ด๋ฏธ์ง์บก์ ๋ ๋ชจ๋ธ ๊ตฌ์ถ ๋ฐ ์ด์, ๋ฐฑ์๋ ์๋ฒ ๊ตฌ์ถ ๋ณด์กฐ, ์์คํ ๊ตฌ์กฐ ์ค๊ณ | [email protected] |
์ฅ์นํธ | ์ค๋ธ์ ํธ ๋ํ ์ ๋ชจ๋ธ ๊ตฌ์ถ ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ, ์ฑ ์๋น์ค ํ๋ก์ฐ ์ ์ | [email protected] |
์ด์งํ | ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ ๊ตฌ์ถ ๋ฐ ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต์ฐ๊ตฌ, ์ฑ ์๋น์ค ํ๋ก์ฐ ์ ์ | [email protected] |
๋ฅ์น๊ธฐ | ๋ฐฑ์๋ ๋ก์ง ์ค๊ณ ๋ฐ ๊ตฌ์ถ, ํ๋ก ํธ์๋ ๋ฐฑ์๋ ๊ฐ ํต์ ๋ฐ ์ฐ๊ฒฐ, ์๋ฒ ๊ตฌ์ถ ๋ฐ ๋ชจ๋ธ ์ด์ | [email protected] |
์ ํ์ | ์ค๋ธ์ ํธ ๋ํ ์ ๋ชจ๋ธ ๊ตฌ์ถ ๋ฐ ์ด์, ๋ฐฑ์๋ ์๋ฒ ๊ตฌ์ถ ๋ณด์กฐ, ์์คํ ๊ตฌ์กฐ ์ค๊ณ | [email protected] |
์ค์งํ | ๋ฐ์ดํฐ ์์ง ๋ฐ ๋ถ์, ๊ธฐํ ๋ฐ ๋ฐํ | [email protected] |
์๊ฑด์ | ํ๋ก ํธ์๋ ๋ก์ง ์ค๊ณ ๋ฐ ๊ตฌ์ถ, ํ๋ก ํธ์๋ ๋ฐฑ์๋ ๊ฐ ํต์ ๋ฐ ์ฐ๊ฒฐ, UX/UI ๋์์ธ | [email protected] |
๊น์ฌ์ | ๊ธฐํ ๋ฐ ๋ฐํ | [email protected] |
cd requirements
pip install -r img_cpt_requirements.txt # install
python==3.9
tensorflow-gpu==2.8.0
cd requirements
pip install -r ob_requirements.txt # install
torch==1.12.1
cd app_front
flutter pub get # install
cd requirements
pip install -r backend_requirements.txt # install
flutter==3.0.5
flask==2.2.2
-
flutter==3.0.5
-
Android Studio (version 2021.2)
-
Android SDK Platform
Android API 33
-
Android SDK Tools
Android SDK Build-Tools 33
Android SDK Command-line Tools
-
Android Emulator spec
- Pixel XL
- RAM : 5000
- VM heap : 1000
- Internel Storage : 5000
-
Additional setting (build ์ sound null ์ค๋ฅ ํด๊ฒฐ)
- terminal ์์ build : ์ต์
--no-sound-null-safety
์ถ๊ฐ
- terminal ์์ build : ์ต์
-
GUI ์์ build : Android Studio -> Run -> Edit Configurations -> Additional run args ->
--no-sound-null-safety
-> apply
RTX 2070
CUDA Version==11.2
cudnn==7.6.5
- Image-captioning
- Object-detection
- Natural Language Generation
- Diagnosis of crop disease
- Home farming
๋์๋์ ์ ๋ํ ๊ด์ฌ๋๊ฐ ๋งค๋ ๊พธ์คํ ์ฆ๊ฐํ๊ณ ์๋ค. ์์ธ์ ์ ๊ณต ์๋ฃ์ ๋ฐ๋ฅด๋ฉด ๋์๋๋ถ ์๋ 2010๋ 15๋ง๋ช ์์ 2020๋ 185๋ง๋ช ์ผ๋ก 10๋ ๋ง์ 10๋ฐฐ๋ ์ฆ๊ฐํ๋ค. ํนํ ์ต๊ทผ ๋ฌผ๊ฐ์์น์ ์ฌํ๋ก ์์์ฌ๊ฐ์ด ๊ธ๋ฑํ์ฌ ๋์๋ฌผ์ ๊ตฌ๋งคํ์ง ์๊ณ ์ง์ ์ง์์ ํค์ ์ญ์ทจํ๋ โํํ๋ฐโ ๋ฌธํ๊ฐ ํ์ฐ๋๊ณ ์๋ค. ์ด์ฒ๋ผ ๋์์ ๊ฐ์ ์์ ์ง์ ์๋ฌผ์ ๊ธธ๋ฌ ์๋นํ๋ ๋์๋์ ์์ฅ์ด ๊พธ์คํ ์ฆ๊ฐํ๊ณ ์์ง๋ง, ๋์๋๋ถ๋ค์ ๋์ฒด๋ก ์ ๋ฌธ ๋์ ์ธ์ด ์๋ ์๋ด๊ธฐ ๋๋ถ๊ฐ ๋ง์ ์๋๊ธฐ์ ๋ฐ ๋์ ๊ฒฝํ ๋ถ์กฑ์ผ๋ก ๋์๋ฌผ์ ์ง๋ณ์ ์ ๋ ์ง๋จํ์ง ๋ชปํด ์ ์ ํ ์น๋ฃ๋ฒ์ผ๋ก ์๋ฌผ์ ๊ด๋ฆฌํ์ง ๋ชปํ๊ณ ๊ฒฐ๊ตญ ์ํ์ ์คํจํ ์ฌ๋ก๋ฅผ ์ด๋ ต์ง ์๊ฒ ์ฐพ์๋ณผ ์ ์๋ค. ๋ฐ๋ผ์ ๋์๋๋ถ์ ์๋ฌผ ๊ด๋ฆฌ๋ฅผ ๋๊ธฐ ์ํด ์๋ฌผ์ ์ํ๋ฅผ ์์ธํ๊ฒ ๋ฌ์ฌํ๊ณ ํด๋น ์ง๋ณ์ ์ง๋จํ๋ ์ฑ ์๋น์ค๋ฅผ ๊ฐ๋ฐํ๊ฒ ๋์๋ค.
๋์๋๋ถ ๋ฑ ๋์ ์ ์ต์ํ์ง ์์ ์ด๋ณด ๋๋ถ๋ฅผ ๋์์ผ๋ก ํ ์๋ฌผ ๊ด๋ฆฌ ์ฑ์ ๊ฐ๋ฐํ๊ณ ์ ํ๋ค. ์ง๋ณ์ ๊ฐ์ผ๋ ๊ฒ์ผ๋ก ์์ฌ๋๋ ์๋ฌผ์ ์ฌ์ง์ ์ฐ์ผ๋ฉด ์ธ๊ณต์ง๋ฅ ๋ฅ๋ฌ๋ ๊ธฐ์ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ฑฐ์ณ ๊ฐ์ผ ํ๋ถ๋ฅผ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ํ์ํ๊ณ ํ๋ถ์ ๋ํ ์์ธํ ๋ฌ์ฌ์ ํจ๊ป ํด๋น ์ง๋ณ์ ์ง๋จํ๋ ๋ฌธ์ฅ์ ์์ฑํ๋๋ก ํ๋ค. ๋จ์ํ ์ด๋ค ์ง๋ณ์ ๊ฑธ๋ ธ๋์ง๋ง ์๋ ค์ฃผ๋ ๊ฒ์ด ์๋๋ผ ์ง๋ณ ๊ฐ์ผ ๋ถ์๋ฅผ ํ์ํ๊ณ ๊ฐ์ผ ๋ถ์๋ฅผ ์์ธํ๊ฒ ๋ฌ์ฌํ์ฌ ์ง๋ณ ์ง๋จ์ ๋ํ ๋ช ํํ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ ์ ์๋ค. ๋ํ ์ง๋ณ ์์ฒด๋ฅผ ์ง๋จํจ์ผ๋ก์จ ํด๋น ์ง๋ณ์ ๊ฐ์ผ๋ ์ ์๋ ๋ชจ๋ ์๋ฌผ์ ๋ํ ์ง๋ณ ์ง๋จ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ์๋ฌผ๋ณ๋ก ๋ณ์ ์ง๋จํ๋ ๋ฒ๊ฑฐ๋ก์์ ํด์ํ ์ ์๋๋ก ํ๋ค. ๋ํ ์ง๋จ์ ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ ์์ ์ธ ์ํ์ ์๋ฌผ ์ฌ์ง์ด๋ ์๋ฌผ์ด ์๋ ๋ฌผ์ฒด์ ์ฌ์ง์ ์ ๋ ฅํ์ ๋ ์ง๋ณ์ด ์ง๋จ๋์ง ์๋๋ก ์ถ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ์ฌ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ๊ฐ์ผ๋ ์๋ฌผ์ ์ง๋ณ์ด ์ง๋จ๋๋ฉด ํด๋น ์ง๋ณ์ ๋ฐ์ ํ๊ฒฝ๊ณผ ๊ด๋ฆฌ๋ฒ์ ์๊ฐํ์ฌ ์ง๋ณ์ ์น๋ฃํ๊ณ ์๋ฐฉํ๋ ๋ฐฉ๋ฒ์ ์ฝ๊ฒ ์๋ ค์ฃผ๋๋ก ํ๋ค.
default.mp4
์๋ฌผ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก๋ AI-hub์ ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด ์๋ โ๋ ธ์ง์๋ฌผ ์ง๋ณ ์ง๋จ ์ด๋ฏธ์งโ์ '์์ค ์๋ฌผ ์ง๋ณ ์ง๋จ ์ด๋ฏธ์ง' ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค. ํด๋น ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์๋ ์ ์์ ์ธ ์๋ฌผ ์ด๋ฏธ์ง์ ์ง๋ณ์ ๊ฑธ๋ฆฐ ์๋ฌผ ์ด๋ฏธ์ง๊ฐ ๊ณจ๊ณ ๋ฃจ ๋ค์ด์์ด ํ์ต์ฉ ๋ฐ์ดํฐ๋ก ์ ํฉํ๋ค๋ ํ๋จ์ ๋ด๋ ธ๋ค. ์ ์ฒด ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์์ โ๊ณ ์ถโ, โ์ ํธ๋ฐโ, โํ ๋งํ โ, โ์ฝฉโ, โํโ ๋ฑ ์ด 5๊ฐ์ ์๋ฌผ์ ์ ๋ณํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ์ฌ ์ด 9๊ฐ์ ์ง๋ณ์ ํ์งํ๊ณ ์ ํ๋ค. ๋ํ ๊ฐ ์ง๋ณ์ ํน์ง๊ณผ ์ค์ฆ๋๋ฅผ ๊ตฌ๋ถํ์ฌ ์ง๋ณ์ ํน์ง์ ๋ฌ์ฌํ๋ ์บก์ ๋ฌธ์ฅ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๋ค. ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ ํ์ต์๋ ์ด 123,913๊ฐ์ ์ด๋ฏธ์ง์ 619,565๊ฐ์ ์บก์ ์ ์ฌ์ฉํ์ผ๋ฉฐ ์ค๋ธ์ ํธ ๋ํ ์ ๋ชจ๋ธ ํ์ต์๋ ์ด 31,394๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ค.
Dataset and Weight Download : https://drive.google.com/drive/folders/1nT2tOmWdmjItQA_5MNHqByVcMas0bzKp?usp=sharing
Train | Validation | |
---|---|---|
Images | 123,913 | 303 |
Label | 619,565 | 1,515 |
Dataset and Weight Download :https://drive.google.com/drive/folders/1NmlqqYI_ePEpUEhjWU2qUO5R1MMMHy-L?usp=sharing
์์ฒ | Train | Validation |
---|---|---|
Images | 4,871 | 1,099 |
์ฆ๊ฐ | Train | Validation |
---|---|---|
Images | 20,587 | 4,837 |
Total | Train | Validation |
---|---|---|
Images | 25,458 | 5,936 |
Label | 144,172 | 33,717 |
- ์ด๋ฏธ์ง์ ๋ฉํ๋ฐ์ดํฐ๋ json ํํ๋ก ์ ์ฅ๋์ด์์
- ๋ฉํ๋ฐ์ดํฐ์ค โํ์ต์ฉ ์ ๋ณด(annotations)โ ๋ฅผ ์ฐธ๊ณ ํจ
- **์ง๋ณ/ํด์ถฉ ์ฝ๋(disease)**๋ก ์ง๋ณ์ ์ข ๋ฅ๋ฅผ ํ์
- **์๋ฌผ์ฝ๋(crop)**๋ก ์๋ฌผ์ ์ข ๋ฅ๋ฅผ ํ์
- **์ง๋ณ ํผํด ์ ๋(risk)**๋ก ์ง๋ณ์ ํผํด ์ ๋๋ฅผ ํ์
- json ํ์ผ์ annotations ๋ถ๋ถ์ด ์ด๋ฏธ์ง์ ์ ๋ชฉ์ ๋ฐ์๋์ด ์์์ ํ์ธ
<์ด๋ฏธ์ง>
<json ํ์์ ์ด๋ฏธ์ง ๋ฉํ๋ฐ์ดํฐ>
<AI-hub์ ์๋ก๋ ์ด๋ฏธ์ง ๋ฉํ๋ฐ์ดํฐ ์ ๋ณด>
- โ๊ตญ๊ฐ๋์๋ฌผ๋ณํด์ถฉ๊ด๋ฆฌ์์คํ โ ํํ์ด์ง์ โ๋ณํด์ถฉ์ ๋ณดโโโ๋ณํด์ถฉ๋ณ ๋๊ฐ์ ๋ณดโ ์ด๋
- ์ง๋ณ์ ๊ฒ์ํ๋ฉด ํด๋น ์ง๋ณ์ ๊ฑธ๋ฆด ์ ์๋ ์๋ฌผ์ ์ข ๋ฅ์ ํด๋น ์ง๋ณ์ ํน์ง์ ํ์ ํ ์ ์์
- '์ฆ์ ์ค๋ช
' ๋ถ๋ถ์์ ์ง๋ณ์ ํน์ง์ ๋ํ๋ด๋ ํค์๋๋ฅผ ํ์
ํ ์ ์์
- ๊ฐ๋ น, ๊ณ ์ถ ํ์ ๋ณ์์๋ ์ํ๋ฐ์ , ๋ดํฉ์ ๋ด์ง ํฉ๊ฐ์์ ํฌ์๋ฉ์ด๋ฆฌ, ๋ง๋ผ ๋นํ์ด์ง์ ํค์๋๋ฅผ ํ์ ํ ์ ์์
- ์ด๊ธฐ, ์ค๊ธฐ, ๋ง๊ธฐ๋ก ๋๋ ๋ผ๋ฒจ๋ง ์งํ
- ์ง๋ณ ํผํด ์ ๋์ ๋ฐ๋ผ ์ ์ฉ๋๋ ํค์๋์ ์ข
๋ฅ ๋ฐ ๊ฐ์๊ฐ ์๋ก ๋ค๋ฆ
- Ex) ๊ณ ์ถํ์ ๋ณ
- ์ด๊ธฐ: ์ํ ๋ฐ์
- ์ค๊ธฐ: ์ํ ๋ฐ์ + ํฉ๊ฐ์(๋ดํฉ์)์ ํฌ์
- ๋ง๊ธฐ: ์ํ ๋ฐ์ + ํฉ๊ฐ์(๋ดํฉ์)์ ํฌ์ + ๋ง๋ผ๋นํ์ด์ง
- Ex) ๊ณ ์ถํ์ ๋ณ
- ์๋ฌผ ์ข
๋ฅ, ์ง๋ณ ์ข
๋ฅ, ์ง๋ณ ํผํด์ ๋, ๊ทธ๋ฆฌ๊ณ ํค์๋๋ฅผ ํ์ฉํ์ฌ ์บก์
๋ฌธ์ฅ ์์ฑ
- Ex) ๊ณ ์ถํ์ ๋ณ
- ์ด๊ธฐ: ๊ณ ์ถ์ ์ํ ๋ฐ์ ์ด ๋ํ๋ ๊ณ ์ถํ์ ๋ณ์ผ๋ก ์์ฌ๋ฉ๋๋ค
- ์ค๊ธฐ: ๊ณ ์ถ์ ํฉ๊ฐ์์ ํฌ์์ ์ํ ๋ฐ์ ์ด ์๊ธด ๊ฒ์ผ๋ก ๋ณด์ ๊ณ ์ถํ์ ๋ณ์ผ๋ก ์์ฌ๋ฉ๋๋ค
- ๋ง๊ธฐ: ๊ณ ์ถ์ ์ํ ๋ฐ์ ์ด ๋ํ๋๊ณ ํฉ๊ฐ์์ด ํฌ์๊ฐ ๋ณด์ด๋ฉฐ ๋ง๋ผ ๋นํ์ด์ง ๊ฒ์ ๋ณด์ ๊ณ ์ถํ์ ๋ณ์ผ๋ก ์์ฌ๋ฉ๋๋ค
- Ex) ๊ณ ์ถํ์ ๋ณ
- ๋ชจ๋ธ์ด ๋ค์ํ ๋ฌธ๋งฅ์ ํ์ตํ ์ ์๋๋ก ๊ฐ์ ์๋ฏธ์ ์๋ก ๋ค๋ฅธ ๋ฌธ์ฅ์ ์์ฑํจ
- ์ด์ ๋ฐ๊พธ๊ธฐ
- ์๋์ ์ผ๋ก ์ด์์ด ์์ ๋ก์ด ํ๊ตญ์ด์ ํน์ฑ์ ํ์ฉํ์ฌ ๋ฌธ์ฅ ์ฑ๋ถ์ ์์๋ฅผ ๋ฐ๊พธ๋ฉฐ ์ฌ๋ฌ ํํ์ ๋ฌธ์ฅ์ ์์ฑ
- ํ
์คํธ ์ญ๋ฒ์ญ(Back Translation)
- ๋ค์ด๋ฒ 'ํํ๊ณ ' ๊ธฐ๊ณ๋ฒ์ญ๊ธฐ๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ฅ์ ์ธ๊ตญ์ด๋ก ๋ฒ์ญํ ํ ๋ค์ ํ๊ตญ์ด๋ก ๋ฒ์ญ
- 'ํ๊ตญ์ดโ์์ดโ์ผ๋ณธ์ดโํ๊ตญ์ด' ์์๋ก ๋ฒ์ญํ์ฌ ๊ธฐ์กด์ ๋ฌธ์ฅ๊ณผ๋ ๋ค๋ฅธ ํํ์ ์๋ก์ด ๋ฌธ์ฅ์ ์์ฑ
- ์ด์ ๋ฐ๊พธ๊ธฐ
์ด๋ฏธ์ง ์บก์ ๋๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก AI-hub์ ์๋ก๋์ด ์๋ ๋ฉํ๋ฐ์ดํฐ์ 'ํ์ต์ฉ ์ ๋ณด(annotations)'๋ฅผ ํ์ฉํ์ฌ ์๋ฌผ์ ์ด๋ฆ๊ณผ ์ง๋ณ์ ์ข ๋ฅ๋ฅผ ํ์ ํ ํ bounding box ์ฒ๋ฆฌ๋ฅผ ํด์ฃผ์๋ค. ์ด ๋ bounding box๋ ์ ์ฒด ์๋ฌผ ์ค ๋ณ๋ณ์ด ๋ฐ์ํ ํน์ ๋ถ๋ถ์ ํ์๋ฅผ ํด์ฃผ์์ผ๋ฉฐ, ์ง๋ณ์ด ์๋ฌผ ์ ์ฒด์ ์ผ๋ก ํผ์ ธ์๋ ๊ฒฝ์ฐ ๋ถ๋ถ์ด ์๋ ์๋ฌผ ์ ์ฒด์ bounding box์ฒ๋ฆฌ๋ฅผ ํด์ฃผ์๋ค.
-
InceptionV3 + Transformer
- ํ๋ จ ํ์ผ ๊ฒฝ๋ก: image-captioning/image_captioning_InceptionV3_Transformer.ipynb
-
yoloV5m
์ด๋ฏธ์ง ์บก์ ๋(Image Captioning)์ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๋ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ธฐ์ ๋ก, ์ด๋ฏธ์ง์ ์ฌ๋ฌ ๊ฐ์ง ํน์ง์ ์์ธํ ๋ฌ์ฌํ ๋ฌธ์ฅ์ ์์ฑํ๋ค. ํ๋ก์ ํธ์ ์ฌ์ฉ๋ ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ์ ์์ฐ์ด์ฒ๋ฆฌ์ ๊ธฐ๊ณ๋ฒ์ญ ๋งค์ปค๋์ฆ ์ค ํ๋์ธ ์ธ์ฝ๋-๋์ฝ๋ ํ์์ ์ฌ์ฉํ๋ค. ์ธ์ฝ๋์์ ์ด๋ฏธ์ง์ ํน์ง์ ์ถ์ถํ๊ณ ๋์ฝ๋์์๋ ์ธ์ฝ๋์์ ์ถ์ถ๋ ํน์ง์ ๋ฐํ์ผ๋ก ์บก์ ๋ฌธ์ฅ์ ์์ฑํ๋ค. ์ฐ๋ฆฌ์ ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ์ ์ธ์ฝ๋์๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์์ฃผ ์ฌ์ฉ๋๋ CNN ๋ชจ๋ธ์ ์ฌ์ฉํ๋๋ฐ ๊ทธ์ค โImageNetโ์ด๋ผ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต์ ๊ฑฐ์น InceptionV3 ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ฝ๋์๋ ์์ฐ์ด๋ฅผ ์์ฑํด๋ด๋ **์ธ์ด ๋ชจ๋ธ(Language Model)**์ ์ฌ์ฉํ๋๋ฐ ๋ํ์ ์ธ ์ธ์ด ๋ชจ๋ธ๋ก Attention๋ชจ๋ธ๊ณผ Transformer ๋ชจ๋ธ์ด ์๋ค. Attention ๋ชจ๋ธ์ ๋ฌธ์ฅ ๊ตฌ์ฑ ์์ ์ค ํน์ ๋จ์ด์ ์ง์คํ๋๋ก ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์ถ๊ฐ๋ RNN ๊ณ์ด์ ๋ฌธ์ฅ ์์ฑ ๋ชจ๋ธ์ด๋ฉฐ Transformer ๋ชจ๋ธ์ Attention ๋ชจ๋ธ์ ๋ณด์ํ ๊ฒ์ผ๋ก, RNN ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์๊ณ ๋ ์ฌ๋ฌ ๋ฒ์ โSelf-Attentionโ ๋ฐฉ์์ผ๋ก ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ๊ณผ ์๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ ๋ชจ๋ธ์ด๋ค. ๋ณธ ํ๋ก์ ํธ์ ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ ๋์ฝ๋์ ๋ ๋ชจ๋ธ ์ค ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ์ด ๋ ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ธฐ ์ํด BLEU ์ค์ฝ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ ๋ชจ๋ธ์ ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ์ ๋น๊ตํ๋ค.
BLEU ์ค์ฝ์ด๋ ์ธ๊ฐ์ด ์์ฑํ ๋ฌธ์ฅ๊ณผ ๋ชจ๋ธ์ด ์์ฑํ ๋ฌธ์ฅ์ ์ ์ฌ์ฑ์ ์ํ์ ์ผ๋ก ๊ณ์ฐํ์ฌ ์ ์๋ก ๋ํ๋ด๋ ๋ํ์ ์ธ ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ ์งํ๋ก ๊ธฐ๊ณ๋ฒ์ญ ๋ฑ์์ ์์ฃผ ์ด์ฉ๋๋ค. ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ์ด ์ข์์๋ก ๋์ ์ ์๊ฐ ์ฐ์ถ๋๋ค. ๊ฐ ๋ฌธ์ฅ์ ๊ตฌ์ฑ์์๋ฅผ ํ ํฐ์ผ๋ก ๋๋๊ณ ํ ํฐ์ ๋น๊ตํ์ฌ ๋ ๋ฌธ์ฅ์ด ์๋ก ๊ณต์ ํ๋ ํ ํฐ์ ๊ฐ์ ๋ฑ์ ์ํ์ ์ผ๋ก ๊ณ์ฐํ์ฌ ์ ์๋ฅผ ํ์ฐํ๋๋ฐ, ํ ํฐ์ ๋น๊ตํ ๋ n-gram ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ํ ํฐ ์์ ๋น๊ตํ ์ ์๊ณ ๊ฐ n-gram์ ์ ์ฉํ BLEU ์ค์ฝ์ด๋ โBLEU_Nโ์ผ๋ก ํํ๋๋ค. ๋ณธ ํ๋ก์ ํธ์์๋ 1-gram, 2-gram, 3-gram, 4-gram์ด ๊ฐ๊ฐ ์ ์ฉ๋ BLEU_1, BLEU_2, BLEU_3, BLEU_4, ๊ทธ๋ฆฌ๊ณ ์ด ๋ค๊ฐ์ง BLEU ์ค์ฝ์ด์ ํ๊ท ๊ฐ์ธ BLEU_AVG๋ฅผ ์ด์ฉํ์ฌ ๋ ๋ชจ๋ธ์ ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ์ ๋น๊ตํ๋ค. Validation ๋ฐ์ดํฐ ์ ์ ์ด์ฉํ์ฌ BLEU ์ค์ฝ์ด๋ฅผ ์ฐ์ถํ ๊ฒฐ๊ณผ, BLEU_3์ ์ ์ธํ ๋๋จธ์ง BLEU ์ค์ฝ์ด์ ๋ํด Transformer ๋ชจ๋ธ์ BLEU ์ค์ฝ์ด๊ฐ ๋ ๋์๋ค. ์ฆ, Attention ๋ชจ๋ธ๋ณด๋ค Transformer ๋ชจ๋ธ์ ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ์ด ๋ ์ข์๊ธฐ ๋๋ฌธ์ ๋ณธ ํ๋ก์ ํธ์ ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ ๋์ฝ๋์๋ Transformer ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
๋ณธ ํ๋ก์ ํธ์์ ์ฌ์ฉํ ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋จผ์ ์ด๋ฏธ์ง๊ฐ CNN๊ณ์ด์ InceptionV3 ์ ์ ๋ ฅ๋๋ฉด ๋ชจ๋ธ์ ์ด๋ฏธ์ง์์ ์ฌ๋ฌ ํน์ง์ ๋ถ์ํ๋ค. ๊ฐ๋ น ๋ ธ๊ท ๋ณ์ ๊ฐ์ผ๋ ์ ํธ๋ฐ ์์ฌ๊ท ์ด๋ฏธ์ง๊ฐ ์ ๋ ฅ๋๋ฉด ๋ชจ๋ธ์ ์์ ๊ฐ์ฅ์๋ฆฌ์ ๋ ธ๋ ์ ๋ฐ์ด๊ฐ ์๊ธด ๋ชจ์ต, ์์ ์์ ๋ฑ์ ๋ถ์ํ๊ฒ ๋๋ค. ๋ถ์๋ ํน์ง์ Transformer ๋ชจ๋ธ์ ์ ๋ ฅ๋๋ค. Transformer ๋ชจ๋ธ ์์ฒด๋ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ง๋๋๋ฐ, ์ฐ์ ์ด๋ฏธ์ง์ ํน์ง์ ๊ฐ ํน์ง์ ์์น ์ ๋ณด์ ํจ๊ป Transformer์ ์ธ์ฝ๋์ ์ ๋ ฅ๋์ด Self-Attention ๊ณผ์ ์ ๊ฑฐ์ณ ๋ถ์๋ ๋ค Transformer์ ๋์ฝ๋์ ์ ๋ ฅ๋๋ค. ๋ํ Transformer์ ๋์ฝ๋์๋ ํด๋น ์ด๋ฏธ์ง์ ๋ํ ์ ๋ต ๋ผ๋ฒจ์ธ ์ค์ ์บก์ ๋ฌธ์ฅ๋ ํจ๊ป ์ ๋ ฅ๋๋๋ฐ ์ด๋ Transformer์ ์ธ์ฝ๋์์ ๋ถ์๋ ์ด๋ฏธ์ง ํน์ง๊ณผ ๋์ฝ๋์ ์ ๋ ฅ๋ ์ค์ ์บก์ ๋ฌธ์ฅ์ด Self-Attention ๊ณผ์ ์ผ๋ก ์ข ํฉ์ ์ผ๋ก ๋ถ์๋๊ณ ์ต์ข ์ ์ผ๋ก Transformer ๋์ฝ๋์์ ํด๋น ์ด๋ฏธ์ง์ ๋ํด ๋ชจ๋ธ์ด ์์ธกํ ์บก์ ๋ฌธ์ฅ์ด ์์ฑ๋๋ค.
๊ฐ์ฒดํ์ง(object-detection)์ ํ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด์ ๊ทธ ๊ฒฝ๊ณ ์์(bounding box)๋ฅผ ํ์งํ๋ ๊ธฐ์ ์ด๋ค. ๊ฐ์ฒด ํ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ , ๊ฒฝ๊ณ ์์์ ๊ฐ์ฒด ํด๋์ค ๋ฆฌ์คํธ๋ฅผ ์ถ๋ ฅํ๋ฉฐ ์ด๋ ๊ฒฝ๊ณ ์์์ ๋์ํ๋ ์์ธก ํด๋์ค์ ํด๋์ค์ ์ ๋ขฐ๋(confidence)๋ฅผ ์ถ๋ ฅํ๋ค. 2012๋ ์ด์ ๊น์ง๋ non-neural network-based๋ฐฉ์์ด ์ฐ์ด๋ค๊ฐ 2012๋ ์ ๊ธฐ์ ์ผ๋ก neural network-based ๊ธฐ๋ฒ์ด ํ๋ฐํ ์ฐ๊ตฌ๋์๋ค. ์ด ์ค ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ๋ชจ๋ธ์ 2018๋ ์ ์ถ์๋ Yolo ๋ชจ๋ธ์ด๋ค. 2022๋ ํ์ฌ๊น์ง V7๊น์ง ์ถ์๋์์ผ๋ฉฐ V5๋ถํฐ๋ PyTorch๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋์๊ธฐ ๋๋ฌธ์ ํ์ด์ฌ ํ๊ฒฝ์์๋ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค. ์ฐ๋ฆฌ ์กฐ๋ ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ๋ง์ ์ฐธ๊ณ ๋ฌธํ์ ํ๋ณดํ ์ ์๋ YoloV5๋ฅผ ๋ชจ๋ธ์ ํ์ฉํ์๋ค.
๋ชจ๋ธ์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๊ตฌ์ถํ๊ธฐ ์ ์ ๋ฐ์ดํฐ ์์ง์ ์งํํ์๋ค. ์ด๋ฏธ์ง ์บก์ ๋๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก AI-hub์ ๋ ธ์ง ์๋ฌผ ์ง๋ณ ์ง๋จ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๊ณผ ์์ค ์๋ฌผ ์ง๋ณ ์ง๋จ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์์ผ๋ฉฐ ๊ณ ์ถ, ์ ํธ๋ฐ, ํ ๋งํ , ์ฝฉ, ํ ๋ฑ ์ด 5๊ฐ์ ์๋ฌผ์์ 9๊ฐ์ ์ง๋ณ์ ํ์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์๋ค. ๋ค๋ง ํฐ๊ฐ๋ฃจ๋ณ๊ณผ ์๋ง๋ฆ๋ณ์ 2๊ฐ์ ์๋ฌผ์์ ๋์์ ๋ฑ์ฅํ๋ ์ง๋ณ์ด์๊ธฐ ๋๋ฌธ์ ์ค์ ์์ธก ํด๋์ค๋ 7๊ฐ๋ก ์ง์ ํ์๋ค.
๋ฐ์ดํฐ ์์ง๊ณผ ์์ธก ํด๋์ค๋ฅผ ์ง์ ํ ํ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ ์งํํ์๋ค. LabelImg๋ผ๋ ํด์ ๋ค์ด๋ก๋ํ๊ณ ์๋ฌผ ํ๋ถ์ ๋ฐ์ด๋ฉ ๋ฐ์ค(Bounding Box)๋ฅผ ๋ง๋ค์๋ค.
ํ์ฉํ ์ ์๋ ์์ฒ ๋ฐ์ดํฐ ์ฌ์ง์ 6,000์ฌ ์ฅ์ด์๋๋ฐ, ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ์๋ ์ถฉ๋ถํ์ง ์์ ์์ด์๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ค์ํ์๋ค. ํ์ด์ฌ ๊ฐ๋ฐํ๊ฒฝ์์ imgaugํจํค์ง๋ฅผ ํ์ฉํ์ฌ ์ฆ๊ฐ ์ฝ๋๋ฅผ ๋ง๋ค์๊ณ , ๊ทธ ๊ฒฐ๊ณผ train 25,458์ฅ, valid 5,936์ฅ, ์ด 31,394์ฅ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋๋ฐ ์ฑ๊ณตํ๋ค. ์์ธ๋ฌ ๊ฐ๋ณ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ 640 * 640์ผ๋ก ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ์์ ๋ ์ค์ํ์๋ค.
์ดํ Yolov5 ์ฌ์ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ์ฌ ํ์ต์ ์งํํ์๋ค. Yolov5์์ ์ ๊ณตํ๋ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ Yolov5n, Yolov5s, Yolov5m, Yolov5l, Yolov5x ์ด 5๊ฐ์ด๋ค. n์์ x๋ก ๊ฐ์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ข์์ง์ง๋ง, ํ์ต์ํค๋๋ฐ ๋ ๋ง์ ์๊ฐ์ด ์์๋๋ค. ์ฐ๋ฆฌ ์กฐ๋ ํ์ต์ ์ฑ๋ฅ๊ณผ ํ์ต ์๊ฐ์ ์ ์ ํ ๊ณ ๋ คํ์ฌ Yolov5m๋ชจ๋ธ์ ์ฑํํ์ฌ ํ์ต์ ์์ผฐ๊ณ 15์๊ฐ์ ๊ฑธ์น ๋์ ๋ชจ๋ธ ๊ตฌ์ถ์ ์ฑ๊ณตํ๋ค.
์๋๋ Yolov5 ํ์ต ๊ฒฐ๊ณผ์ Confusion Matrix ์ด๋ค.
์ฑ ํ๋ก ํธ์๋ ๊ฐ๋ฐ์๋ ๊ตฌ๊ธ์์ ์ ๊ณตํ๋ Dart ์ธ์ด๊ธฐ๋ฐ์ ๋ฌด๋ฃ ํ๋ ์์ํฌ์ธ flutter์ ์ฌ์ฉํ์ผ๋ฉฐ ๋ฐฑ์๋ ๊ฐ๋ฐ์๋ python ์ธ์ด ๊ธฐ๋ฐ ์น ํ๋ ์์ํฌ์ธ flask๋ฅผ ์ฌ์ฉํ๋ค. ์๋ฒ๋ ์์ ์ ์ด๊ณ ํ๋ ฅ์ฑ์๋ ์ฑ๋ฅ์ผ๋ก ์ ๋ช ํ AWS EC2๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ ์ฑ UX/UI ๋์์ธ๊ณผ ์ฑ ์๋น์ค ํ๋ก์ฐ๋ ํ์ ๋์์ธ ํด์ธ Figma๋ฅผ ์ฌ์ฉํ๋ค.
์ ํ๋ฆฌ์ผ์ด์ ์ด๋ฆ์ธ Dr.์ฅ์ฅ์ ์๋ฌผ์ ์ง๋ณ์ ์ง๋จํ๋ โ์๋ฌผ ์์ฌโ์ ๋ป์ ๋ดํฌํ๊ณ ์๋ค. ์๋ฌผ ์์ฌ๋ผ๋ ์ปจ์ ์ ๋ง๊ฒ ์ ์ฒด์ ์ผ๋ก ๊ทธ๋ฆฐ ํ์คํ ํค์ ์ฌ์ฉํ์ฌ ๋์์ธํ๊ณ ๋๊ตฌ๋ ์ฌ์ฉํ๊ธฐ ์ฝ๊ฒ ์ฌํํ UX/UI๋ก ํ๋ฉด์ ๊ตฌ์ฑํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋ก ํธ์๋ ๋ถ๋ถ์์ ๊ธฐ์กด์ ๊ธฐํํ๋ ์นด๋ฉ๋ผ, ๋ ์จ, ์ง๋ณ ์ง๋จ, ๊ทธ๋ฆฌ๊ณ ๋ฐฉ์ ๋ฐฉ๋ฒ ์ ๊ณต ๊ธฐ๋ฅ์ ๊ตฌํํ๋ค. ์นด๋ฉ๋ผ ๊ธฐ๋ฅ์ flutter์์ ์ ๊ณตํ๋ image_picker ํจํค์ง๋ฅผ ์ด์ฉํด ๊ตฌํํ๊ณ ๋ ์จ์ ์ง๋ณ ์ง๋จ ๊ธฐ๋ฅ์ ์๋ฒ์ ํด๋ผ์ด์ธํธ์ API ํต์ ์ ํตํด ์๋น์ค์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ์ฑ ํ๋ฉด์ ์ถ๋ ฅํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํํ์๋ค. ๋ง์ง๋ง์ผ๋ก ์ง๋ณ์ ๋ฐ๋ผ ์๋ก ๋ค๋ฅธ ๋ฐฉ์ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ ํ์ด์ง๋ก ์ด๋ํ ์ ์๋๋ก ์ฑ์ ๊ตฌํํ๋ค.
๋จผ์ ๊ฐ๋ฐ ํ๊ฒฝ ๊ตฌ์ถ์ด ์ค์ํ๋ค๊ณ ์๊ฐํ๊ธฐ์ ์ด์ ํ์ํ ๊ฐ ํจํค์ง์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฑ์ ๋ฒ์ ์ ํต์ผํ๊ณ ๊ณต์ ํ๋ ๊ณผ์ ์ ์ถฉ๋ถํ ์๊ฐ์ ํฌ์ํ๋ค.
์ดํ ํ๋ก ํธ์๋์ ์ฐ๋ํ๋๋ฐ ํ์ํ API๋ฅผ ์ค๊ณํ๊ธฐ ์ํด ์ง์ ๊ตฌ์กฐ๋๋ฅผ ๊ทธ๋ ค๋ณด๊ณ ๊ตฌ์ฒดํํ๋ฉด์ ํต์ฌ ๋ฐฑ์๋ ์ฝ๋๋ฅผ ์์ฑํ์๋ค.
์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ๊ณผ ์ค๋ธ์ ํธ ๋ํ ์ ๋ชจ๋ธ์ด ์์ฑ๋ ์ดํ์๋ ์ฌ์ ์ ๊ตฌ์ถ๋ ๋ฐฑ์๋ ์๋ฒ์ ๋ ๋ชจ๋ธ์ ์ด์ํ๋๋ฐ ๋ง์ ๊ณต์ ๋ค์๋ค. ๋ ๋ชจ๋ธ์ ํ ํ๋ฉด์ ๋์์ ๋ณด์ฌ์ค์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ก์ง ๊ตฌ์ฑ ๋จ๊ณ์์ ๊ณ ๋ คํด์ผ ํ ๊ฒ๋ค์ด ๋ง์๊ณ , ๊ฒฐ๊ตญ ํ๋ก ํธ์๋์์ ์ ๋ฌ๋ ์ฌ์ง์ ์ ์ฅํ์ฌ ๋ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฌผ์ธ ์บก์ ๊ณผ ๋ํ ์ ๋ ์ฌ์ง์ ํ ๋ฒ์ ํ๋ก ํธ์๋๋ก ์ ๋ฌํ๋ ๋ก์ง์ผ๋ก ๋ชจ๋ธ ์ด์์ ์๋ฃํ์๋ค.
์ด ๊ณผ์ ์์ AWS EC2์์ ๋ฌด๋ฃ๋ก ์ฌ์ฉํ ์ ์๋ ์ธ์คํด์ค ์ ํ์ CPU(1GB)/๋ฉ๋ชจ๋ฆฌ(RAM 1GB) ํ๊ณ์ ์ฐ๋ฆฌ๊ฐ ์ ์ํ ๋ชจ๋ธ์ ์ฉ๋ ๋ฌธ์ ๋ก ์ธํด ์๋ฒ์ ๊ณผ๋ถํ๊ฐ ์ผ์ด๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ โAWS EC2โ์ ํ๋๋์คํฌ์ ์ผ๋ถ ์ฉ๋์ swap memory๋ก ํ ๋นํ์๋ค. ์ด ๊ณผ์ ์ ํตํด ๋ฉ๋ชจ๋ฆฌ์ ์ฌ์ ๋ฅผ ์ฃผ๊ณ , ์๋ฒ์ ๋ถ๋ด์ด ์ค์ด๋ค๋ฉด์ ์๋ฒ๊ฐ ์์ ํ๋๋ ํจ๊ณผ๋ฅผ ์ป์ ์ ์์๋ค.
๋จผ์ ๋์ ์ ๋ํ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ํ ์ ์๋ค. ์ ๋ฌธ์ ์ธ ๊ด๋ฆฌ ์ง์์ด ์๊ตฌ๋๋ค๋ ์ธ์์ ๊ฐ์ ํ์ฌ ๋์ ์ ๋ํ ์ ๊ทผ์ฑ์ ํฅ์ํ ์ ์๋ค.
๋ ๋ฒ์งธ๋ก ์ฌ๋ฌ ๋ถ๊ฐ ์๋น์ค๋ฅผ ํตํด ์๋ด๊ธฐ ๋๋ถ์ ๋ฒ ํ ๋ ๋๋ถ์ ๊ฐ๊ต์ญํ ์ ํ ์ ์๋ค. ์ง๋ณ์ด ๋ฐ์ํ๋ ํ๊ฒฝ๊ณผ ์ง๋ณ ์๋ฐฉ๋ฒ์ ์งง์ ๋ฌธ์ฅ์ผ๋ก ์๊ฐํ์ฌ ์์ผ๋ก ํด๋น ์ง๋ณ์ ์๋ฐฉํ๊ธฐ ์ํ ํ๊ฒฝ๊ณผ ์๋ฐฉ ๋ฐฉ๋ฒ์ ์ฝ๊ฒ ํ์ ํ ์ ์๋๋ก ํ๋ค.
๋ง์ง๋ง์ผ๋ก ๋์ ๋ฐ ์์ ์์ฅ์ ๋ฐ์ ์ ๊ธ์ ์ ์ํฅ์ ์ค ์ ์๋ค. ์ง๋ณ ์ง๋จ์ ๋์์ ๋ ๋ง์ ๋์๋ฌผ๋ก ํ๋ํ ์ ์๊ณ ๋ ๋์๊ฐ ํด๋น ์ง๋ณ์ ๊ฑธ๋ฆด ์ ์๋ ๋ฐ๋ ค ์๋ฌผ๋ก๋ ํ๋ํ ์ ์๋ค. ์ด์ฒ๋ผ ๋ ๋ง์ ์ข ๋ฅ์ ์๋ฌผ์ ๋ํ ์ง๋ณ์ ์ง๋จํ ์ ์๋ ๋ฐฉํฅ์ผ๋ก ์๋น์ค๋ฅผ ๋ฐ์ ์์ผ ๋ง์ ์ฌ๋์ด ์๋ฌผ ๊ด๋ฆฌ ์๋น์ค๋ฅผ ์ด์ฉํ๋๋ก ํ๊ณ ๊ถ๊ทน์ ์ผ๋ก ๋์ ๋ฐ ์์ ์์ฅ์ ๊ท๋ชจ๋ฅผ ํ๋ํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
Xu et al. "Show, attend and tell: Neural image caption generation with visual attention.", International conference on machine learning. PMLR, 2015.
Li et al. โEntangled Transformer for Image Captioningโ, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019.
Taraneh et al. โDeep Learning Approaches on Image Captioning: A Reviewโ, arXiv preprint arXiv:2201.12944, 2022.