Table of Contents
Table of Contents
๐ ์์ธ ์ ๋ฆฌ
#๋ฅ๋ฌ๋ ์ด์ ์ CV
#- ์ปดํจํฐ๋ ๋จ์ํ ํฝ์
๊ฐ๋ง์ ์๊ณ ์๋๋ฐ
- ์ปดํจํฐ ๋น์ ํ์คํฌ๋ฅผ ์ํด์ ์ด๋ฅผ ์๋ฏธ์๋ ์ ๋ณด๋ก ์ดํดํด์ผ ํ๋ค.
- ์ข์ Visual feature์ด๋ ๋ฌด์์ผ๊น?
- ์กฐ๋ช
์ด ๋ฌ๋ผ์ง๋๋ผ๋ ๊ฐ์ ์ธ๋ฌผ๋ก ์ธ์ํ ์ ์์ด์ผ ํ๊ณ
- ์์ ์ด ๋ค๋ฅด๋๋ผ๋ ๊ฐ์ ๊ฑด๋ฌผ๋ก ์ธ์ํ ์ ์์ด์ผ ํ๊ณ
- ์ฌ๋์ด ํน์ง์ ์ง์ ์ค๊ณ!
- ์ค์ํ ํน์ง์ ์ํ์ ์ผ๋ก ์ก์์ ํ๋
ธ๋ผ๋ง๋ก ๋ง๋ค๋๊ฐ, ํคํฌ์ธํธ๋ก ๋งคํํด์ 3D ๋ณต์์ ํ๋ค๋๊ฐ…
- ๊ฒฐ๊ตญ ๋ชฉํ๋ ์ข์ Visual Feature์ ์ฐพ๋ ๊ฒ
- edge, corner
- Harris corner detector
- ํํํ ๋ถ๋ถ์ x, y ๋ณํ๊ฐ ํฌ์ง ์์ง๋ง, ์ฝ๋๋ x, y ๋ณํ๊ฐ ํฌ๋ค
- ๋ฏธ๋ถ์ ์ด์ฉํด์ ๋ณํ๊ฐ ํฐ ์ง์ ์ ์ก์๋ด์
- filter
- ์ฌ๋ฌ๊ฐ์ง ํํฐ๋ฅผ ํตํด์ x๋ฐฉํฅ, y๋ฐฉํฅ์ ๋ณํ๋ฅผ ์ฐพ์ ์ ์๋ค
- ๋ฐฉ๋ฒ (์ค์ํ๊ฑด ์๋๋
)
- ์ด๋ฏธ์ง ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ
- ๊ณต๋ถ์ฐ ํ๋ ฌ ์์ฑ
- ๊ณ ์ณ๊ฐ์ด ์๊ณ์ ์ด์์ธ ๋ถ๋ฒ์ ์ฝ๋๋ก
- ๊ฐ์ ์ด๋ฏธ์ง์ฌ๋ ํฌ๊ธฐ์ ๋ฐ๋ผ corner / edge ๊ฐ ๋ฌ๋ผ์ง ์ ์๋ค.
- ์ฌ๋ฌ ํฌ๊ธฐ์์ ์งํํ๋ฉด ๋๊ธฐ์ผ ํ๊ฒ ๋ค๋ง…. ๋ฒ๊ฑฐ๋กญ๋ค
- SIFT
- Scale Invariant Feature Transform
- ๋ฒกํฐ๋ก ์ด์ผ์ ์ผ ํ๋ค๋๋
- ์กฐ๊ธ ๋ ๊ฐ๊ฑดํ ํผ์ณ๊น์ง ๋๋๋ฐ, ๊ฐ์๊ฐ ์ ๊ทธ๋ฐ์ง ์ด์ ๋ ๋ง์ ๋ชปํ๋ค๋๋ฏ?
CNN
#- ํน์ง ์ถ์ถ (Convolution) -> ์์ฝ (Pooling) -> ํ๋จ (FC)
- 1์ฐจ๋ก ๊ฐ๋จํ ํํฐ๋ฅผ ์์ฐ๊ณ , ์ ์ ๊ณ ๋ํ์ํจ๋ค.
- inductive bias
- ๋ชจ๋ธ์ด ํ์ต์ ์์ํ๊ธฐ๋ ์ ์ ๋ฏธ๋ฆฌ ๊ฐ์ง๊ณ ์๋ ๊ฐ์
- ๋ชจ๋ธ์ด ๋ ๋น ๋ฅด๊ฒ ํ์ต๋๊ณ , ๋ ๊ฐ๊ฑดํ๋๋ก
- Locality
- ์๋ก ๊ฐ๊น์ด ์๋ ํฝ์
๋ค์ ๋ ๊ฐํ ์ฐ๊ด์ฑ์ ๊ฐ๋๋ค.
- Translation invariance
- ์ด๋ฏธ์ง ์ ๊ฐ์ฒด์ ์์น๊ฐ ๋ณํ๋๋ผ๋ ๋ณธ์ง์ ๋ณํ์ง ์๋๋ค
- convolution
- ์๊น๋ถํฐ ๊ณ์ ๊ณฑํ๊ณ ์๋ ํํฐ!
- padding
- feature map์ด ์ ์ ์์์ง์ง ์๊ฒ ๊ฐ์ฅ์๋ฆฌ์ 0๊ฐ์๊ฑธ ๋๋ฅด๊ธฐ
- stride
- ํํฐ๊ฐ ํ๋ฒ์ ๋ช์นธ์ฉ ์ด๋ํ๋์ง
- pooling
- ์์ถํ๋ฏ์ด, ์์ญ์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ๋จ๊ธฐ๊ฑฐ๋ (max pooling) ํ๊ท ๊ฐ์ ๋จ๊ธฐ๊ฑฐ๋ (aver pooling)
- ์์ ๋ณํ ๋ฌด์
- receptive field ํ๋
- ์ฐ์ฐ๋ ๊ฐ์
- hierarchial structure (๊ณ์ธต์ ๊ตฌ์กฐ)
- ์ ์ receptive field์ ์ฑ๋ ์๋ฅผ ๋๋ ค ๋ณต์กํ feature
VIT
#- Transformer ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์ธ์ ๋ชจ๋ธ
- ์ด๋ฏธ์ง๋ฅผ ํํฐ๋ก ๋ณด๋๊ฒ ์๋๋ผ, ์๋ผ์ ๊ฐ patch๋ก ๋ณด๊ณ , ์ด๋ฅผ ๋ฒกํฐ๋ก ์๋ฒ ๋ฉ์ํค๋ ๊ฒ
- ํ์ต์ ํจ์ฌ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํจ
- Step 1: ์ด๋ฏธ์ง ๋ถํ
- $H*W*C$๋ฅผ $P*P$ ํฌ๊ธฐ์ ๊ฒฉ์๋ก ๋ถํ ํ์ฌ $\frac{HW}{P^2}$๊ฐ์ ํจ์น ์์ฑ
- Step 2: ์ดํ ๊ฐ ํจ์น๋ฅผ ํํํ ํ ์ ํ ์๋ฒ ๋ฉ $E \in R^{(P^2 \cdot C)*D}$
- Step 3: Transformer Encoder (ํต์ฌ ์ฐ์ฐ)
- Cls ํ ํฐ์ ํฌํจํ ์ํ์ค๋ฅผ ์ธ์ฝ๋์ ๋ฃ์ด์ ์ฐ์ฐํ๊ธฐ
Downstream tasks
#- ์ธต์ด ๊น์ด์ง์๋ก ์ ํ๋๊ฐ ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์๋ค
- ResNet
- Skip connection
- $H(x) = F(x) + x$๋ก ์ ์ํ์ฌ, $H(x) - x$ (์์ฐจ)๋ฅผ ํ์ต
- ๊น์ ๋คํธ์ํฌ๋ฅผ ํ์ตํด๋ ๋๊ฒ ๋์๋ค
- basic block vs bottleneck block
- basick block
- bottleneck block
- ์ฌ๋ฌ๊ฐ์ง ํฌ๊ธฐ์ convolution๋ค
- ์์ถํ๊ณ .. ํฐ๊ฑธ ๋จน์ด๊ณ .. ๋ฑ๋ฑ…
- ResNet34 ๊ตฌ์กฐ
- ํด์๋๋ ์ค์ด๋ฉด์ ์ ์ ๋๊บผ์์ง๋ ๊ตฌ์กฐ
- YOLO
- Object Detection์ ํ๋ ๋ชจ๋ธ
- ์ถ๋ ฅ์ ์์น / ๊ฐ์ฒด๊ฐ ๋ฌด์์ธ์ง / ์์ ํ๋ฅ ์ธ๊ฐ์ง๋ฅผ ๋ํ๋
- ๊ณผ๊ฑฐ์๋ ํ๋ณด์ง์ญ์ ์ฐพ์๋ธ ํ, CNN์ผ๋ก ๋ญ๊ฐ ์๋์ง ํ์ฒ๋ฆฌ๋ฅผ ํ์๋๋ฐ YOLO๋ ํ๋ฒ์ ๋๋ค!
- 24๊ฐ์ convolutional layer์์ ์ด๋ฏธ์ง์ ํน์ง์ ์ถ์ถํ๊ณ , ์ด๋ฅผ 2๊ฐ์ FC ๋ ์ด์ด์ ๋ฃ์ด์ ํด๋์ค์ ์์น๋ฅผ ์์ธก
- Unet
- Segmentation์ ํ๋ ๋ชจ๋ธ
- ๊ณ ์์ด๊ฐ ์๋ ํฝ์
์ ์ฌ๊ธฐ๋ค! ๋ผ๊ณ ํ๋ฉฐ mask๋ฅผ ์ถ๋ ฅํ๋ ๋ชจ๋ธ
- U์์ฒ๋ผ ์๊ฒจ์ Unet
- Decoder / Encoder / Skip connection๋ฑ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ชจ๋ธ
- encoder์ Feature๋ฅผ Decoder์ ์ ๋ฌํด์ฃผ๋ Skip connection
- ํด์๋๋ฅผ ์ค์ด๋ค๋ณด๋ฉด ์์น ์ ๋ณด๊ฐ ์์ค๋๋ค. (์์์ง๋๊น)
- ์ด๋ ์ด ๊ฐ์ ๊ทธ๋๋ก ์ค์ ์์น์ ๋ณด๊ฐ ์์ค๋์ง ์๋๋ก
- CLIP
- ์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ํ ๊ณต๊ฐ์์ ์ ๋ ฌ
- ๊ธฐ์กด ๋ฐฉ์์ ํ์ฅ์ฑ๋ ๋ถ์กฑํ๊ณ , ๋ผ๋ฒจ๋ง๋ ์ด๋ ต๋ค
- ์ธํฐ๋ท์์ ์ป์ ๋ฐ์ดํฐ์
๊ณผ ์บก์
์ผ๋ก ์ฌ์ ํ์ต์ ํ์!
- ๊ณ ์์ด๋ฅผ ๊ฒ์ํด์ ๋์จ ์ฌ์ง๊ณผ ํ
์คํธ๋ฅผ ์๋ฒ ๋ฉํ์
- ๋ผ๋ฒจ์ด ์๋๋ผ ์ด๋ฏธ์ง์ ํ
์คํธ ์์ผ๋ก ํ์ต๋๋ค
- ์ ๋ต ์ ๋ผ๋ฆฌ๋ ์ ์ฌ๋๊ฐ ๋๊ฒ, ์๋๋ฉด ๋ฎ๊ฒ
- ์ดํ “A photo of plane”, “A photo of dog”…์ ๋ฃ์ด์ ๋น๊ตํ๋ฉด? ์์ธก์ด ๊ฐ๋ฅํด์ง๋ค!
- ๊ธฐ์กด ๋ผ๋ฒจ๋ง์ด ๋น์ธ๋ค๋ ๋ฌธ์ ๋ฅผ ์บก์
์ ์ด์ฉํด์ ํด๊ฒฐํ๋ค
DINO
#- ML์ ๋ํ์ ์ธ ํ์ต ๋ฐฉ์
- ์ง๋ ํ์ต
- ๋น์ง๋ ํ์ต
- ์๊ธฐ์ง๋ ํ์ต
- ๋ฐ์ดํฐ ์์์ ๋ผ๋ฒจ์ ์ง์ ๋ง๋ค์ด์ ํ์ตํ๋ ๊ฒ
โ์ง๋ฌธ ์ฌํญ
#๐ ์ฐธ๊ณ ์๋ฃ
#