Skip to main content
  1. Posts/
  2. Study/
  3. YBIGTA/

YBIGTA CV

·543 words·3 mins
Jiho Kim
Author
Jiho Kim
๋‹ฌ๋ ค ๋˜ ๋‹ฌ๋ ค

๐Ÿ“ ์ƒ์„ธ ์ •๋ฆฌ
#

๋”ฅ๋Ÿฌ๋‹ ์ด์ „์˜ CV
#

  • ์ปดํ“จํ„ฐ๋Š” ๋‹จ์ˆœํžˆ ํ”ฝ์…€ ๊ฐ’๋งŒ์„ ์•Œ๊ณ  ์žˆ๋Š”๋ฐ
    • ์ปดํ“จํ„ฐ ๋น„์ „ ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•ด์„  ์ด๋ฅผ ์˜๋ฏธ์žˆ๋Š” ์ •๋ณด๋กœ ์ดํ•ดํ•ด์•ผ ํ•œ๋‹ค.
  • ์ข‹์€ Visual feature์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ?
    • ์กฐ๋ช…์ด ๋‹ฌ๋ผ์ง€๋”๋ผ๋„ ๊ฐ™์€ ์ธ๋ฌผ๋กœ ์ธ์‹ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๊ณ 
    • ์‹œ์ ์ด ๋‹ค๋ฅด๋”๋ผ๋„ ๊ฐ™์€ ๊ฑด๋ฌผ๋กœ ์ธ์‹ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๊ณ 
  • ์‚ฌ๋žŒ์ด ํŠน์ง•์„ ์ง์ ‘ ์„ค๊ณ„!
    • ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์žก์•„์„œ ํŒŒ๋…ธ๋ผ๋งˆ๋กœ ๋งŒ๋“ค๋˜๊ฐ€, ํ‚คํฌ์ธํŠธ๋กœ ๋งคํ•‘ํ•ด์„œ 3D ๋ณต์›์„ ํ•œ๋‹ค๋˜๊ฐ€…
    • ๊ฒฐ๊ตญ ๋ชฉํ‘œ๋Š” ์ข‹์€ Visual Feature์„ ์ฐพ๋Š” ๊ฒƒ
    • edge, corner
    • Harris corner detector
      • ํ‰ํ‰ํ•œ ๋ถ€๋ถ„์€ x, y ๋ณ€ํ™”๊ฐ€ ํฌ์ง€ ์•Š์ง€๋งŒ, ์ฝ”๋„ˆ๋Š” x, y ๋ณ€ํ™”๊ฐ€ ํฌ๋‹ค
        • ๋ฏธ๋ถ„์„ ์ด์šฉํ•ด์„œ ๋ณ€ํ™”๊ฐ€ ํฐ ์ง€์ ์„ ์žก์•„๋‚ด์ž
      • filter
        • ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํ•„ํ„ฐ๋ฅผ ํ†ตํ•ด์„œ x๋ฐฉํ–ฅ, y๋ฐฉํ–ฅ์˜ ๋ณ€ํ™”๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค
      • ๋ฐฉ๋ฒ• (์ค‘์š”ํ•œ๊ฑด ์•„๋‹Œ๋Ž…)
        • ์ด๋ฏธ์ง€ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐ
        • ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ ์ƒ์„ฑ
        • ๊ณ ์œณ๊ฐ’์ด ์ž„๊ณ„์  ์ด์ƒ์ธ ๋ถ€๋ฒˆ์„ ์ฝ”๋„ˆ๋กœ
      • ๊ฐ™์€ ์ด๋ฏธ์ง€์—ฌ๋„ ํฌ๊ธฐ์— ๋”ฐ๋ผ corner / edge ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.
        • ์—ฌ๋Ÿฌ ํฌ๊ธฐ์—์„œ ์ง„ํ–‰ํ•˜๋ฉด ๋˜๊ธฐ์•ผ ํ•˜๊ฒ ๋‹ค๋งŒ…. ๋ฒˆ๊ฑฐ๋กญ๋‹ค
    • SIFT
      • Scale Invariant Feature Transform
      • ๋ฒกํ„ฐ๋กœ ์ด์ผ€์ €์ผ€ ํ•œ๋‹ค๋Š”๋””
      • ์กฐ๊ธˆ ๋” ๊ฐ•๊ฑดํ•œ ํ”ผ์ณ๊นŒ์ง„ ๋๋Š”๋ฐ, ๊ฐ์ž๊ฐ€ ์™œ ๊ทธ๋Ÿฐ์ง€ ์ด์œ ๋Š” ๋ง์„ ๋ชปํ–ˆ๋‹ค๋Š”๋“ฏ?

CNN
#

  • ํŠน์ง• ์ถ”์ถœ (Convolution) -> ์š”์•ฝ (Pooling) -> ํŒ๋‹จ (FC)
  • 1์ฐจ๋กœ ๊ฐ„๋‹จํ•œ ํ•„ํ„ฐ๋ฅผ ์”Œ์šฐ๊ณ , ์ ์  ๊ณ ๋„ํ™”์‹œํ‚จ๋‹ค.
  • inductive bias
    • ๋ชจ๋ธ์ด ํ•™์Šต์„ ์‹œ์ž‘ํ•˜๊ธฐ๋„ ์ „์— ๋ฏธ๋ฆฌ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฐ€์ •
      • ๋ชจ๋ธ์ด ๋” ๋น ๋ฅด๊ฒŒ ํ•™์Šต๋˜๊ณ , ๋” ๊ฐ•๊ฑดํ•˜๋„๋ก
    • Locality
      • ์„œ๋กœ ๊ฐ€๊นŒ์ด ์žˆ๋Š” ํ”ฝ์…€๋“ค์€ ๋” ๊ฐ•ํ•œ ์—ฐ๊ด€์„ฑ์„ ๊ฐ–๋Š”๋‹ค.
    • Translation invariance
      • ์ด๋ฏธ์ง€ ์† ๊ฐ์ฒด์˜ ์œ„์น˜๊ฐ€ ๋ณ€ํ•˜๋”๋ผ๋„ ๋ณธ์งˆ์€ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค
    • convolution
      • ์•„๊นŒ๋ถ€ํ„ฐ ๊ณ„์† ๊ณฑํ•˜๊ณ ์žˆ๋Š” ํ•„ํ„ฐ!
    • padding
      • feature map์ด ์ ์  ์ž‘์•„์ง€์ง€ ์•Š๊ฒŒ ๊ฐ€์žฅ์ž๋ฆฌ์— 0๊ฐ™์€๊ฑธ ๋‘๋ฅด๊ธฐ
    • stride
      • ํ•„ํ„ฐ๊ฐ€ ํ•œ๋ฒˆ์— ๋ช‡์นธ์”ฉ ์ด๋™ํ•˜๋Š”์ง€
    • pooling
      • ์••์ถ•ํ•˜๋“ฏ์ด, ์˜์—ญ์—์„œ ๊ฐ€์žฅ ํฐ ๊ฐ’์„ ๋‚จ๊ธฐ๊ฑฐ๋‚˜ (max pooling) ํ‰๊ท ๊ฐ’์„ ๋‚จ๊ธฐ๊ฑฐ๋‚˜ (aver pooling)
      • ์ž‘์€ ๋ณ€ํ™” ๋ฌด์‹œ
      • receptive field ํ™•๋Œ€
      • ์—ฐ์‚ฐ๋Ÿ‰ ๊ฐ์†Œ
    • hierarchial structure (๊ณ„์ธต์  ๊ตฌ์กฐ)
      • ์ ์  receptive field์™€ ์ฑ„๋„ ์ˆ˜๋ฅผ ๋Š˜๋ ค ๋ณต์žกํ•œ feature

VIT
#

  • Transformer ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€ ์ธ์‹ ๋ชจ๋ธ
    • ์ด๋ฏธ์ง€๋ฅผ ํ•„ํ„ฐ๋กœ ๋ณด๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ, ์ž˜๋ผ์„œ ๊ฐ patch๋กœ ๋ณด๊ณ , ์ด๋ฅผ ๋ฒกํ„ฐ๋กœ ์ž„๋ฒ ๋”ฉ์‹œํ‚ค๋Š” ๊ฒƒ
    • ํ•™์Šต์— ํ›จ์”ฌ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•จ
  • Step 1: ์ด๋ฏธ์ง€ ๋ถ„ํ• 
    • $H*W*C$๋ฅผ $P*P$ ํฌ๊ธฐ์˜ ๊ฒฉ์ž๋กœ ๋ถ„ํ• ํ•˜์—ฌ $\frac{HW}{P^2}$๊ฐœ์˜ ํŒจ์น˜ ์ƒ์„ฑ
  • Step 2: ์ดํ›„ ๊ฐ ํŒจ์น˜๋ฅผ ํ‰ํƒ„ํ™” ํ›„ ์„ ํ˜• ์ž„๋ฒ ๋”ฉ $E \in R^{(P^2 \cdot C)*D}$
  • Step 3: Transformer Encoder (ํ•ต์‹ฌ ์—ฐ์‚ฐ)
    • Cls ํ† ํฐ์„ ํฌํ•จํ•œ ์‹œํ€€์Šค๋ฅผ ์ธ์ฝ”๋”์— ๋„ฃ์–ด์„œ ์—ฐ์‚ฐํ•˜๊ธฐ

Downstream tasks
#

  • ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค
  • ResNet
    • Skip connection
      • $H(x) = F(x) + x$๋กœ ์ •์˜ํ•˜์—ฌ, $H(x) - x$ (์ž”์ฐจ)๋ฅผ ํ•™์Šต
      • ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šตํ•ด๋„ ๋˜๊ฒŒ ๋˜์—ˆ๋‹ค
    • basic block vs bottleneck block
      • basick block
        • 3x3 convolution๊ณผ relu
      • bottleneck block
        • ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํฌ๊ธฐ์˜ convolution๋“ค
        • ์••์ถ•ํ•˜๊ณ .. ํฐ๊ฑธ ๋จน์ด๊ณ .. ๋“ฑ๋“ฑ…
      • ResNet34 ๊ตฌ์กฐ
        • ํ•ด์ƒ๋„๋Š” ์ค„์ด๋ฉด์„œ ์ ์  ๋‘๊บผ์›Œ์ง€๋Š” ๊ตฌ์กฐ
  • YOLO
    • Object Detection์„ ํ•˜๋Š” ๋ชจ๋ธ
    • ์ถœ๋ ฅ์€ ์œ„์น˜ / ๊ฐ์ฒด๊ฐ€ ๋ฌด์—‡์ธ์ง€ / ์žˆ์„ ํ™•๋ฅ  ์„ธ๊ฐ€์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ„
    • ๊ณผ๊ฑฐ์—๋Š” ํ›„๋ณด์ง€์—ญ์„ ์ฐพ์•„๋‚ธ ํ›„, CNN์œผ๋กœ ๋ญ๊ฐ€ ์žˆ๋Š”์ง€ ํ›„์ฒ˜๋ฆฌ๋ฅผ ํ•˜์˜€๋Š”๋ฐ YOLO๋Š” ํ•œ๋ฒˆ์— ๋œ๋‹ค!
      • You Only Live Once
    • 24๊ฐœ์˜ convolutional layer์—์„œ ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ 2๊ฐœ์˜ FC ๋ ˆ์ด์–ด์— ๋„ฃ์–ด์„œ ํด๋ž˜์Šค์™€ ์œ„์น˜๋ฅผ ์˜ˆ์ธก
  • Unet
    • Segmentation์„ ํ•˜๋Š” ๋ชจ๋ธ
      • ๊ณ ์–‘์ด๊ฐ€ ์žˆ๋Š” ํ”ฝ์…€์€ ์—ฌ๊ธฐ๋‹ค! ๋ผ๊ณ  ํ•˜๋ฉฐ mask๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ชจ๋ธ
    • U์ž์ฒ˜๋Ÿผ ์ƒ๊ฒจ์„œ Unet
    • Decoder / Encoder / Skip connection๋“ฑ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ชจ๋ธ
      • encoder์˜ Feature๋ฅผ Decoder์— ์ „๋‹ฌํ•ด์ฃผ๋Š” Skip connection
        • ํ•ด์ƒ๋„๋ฅผ ์ค„์ด๋‹ค๋ณด๋ฉด ์œ„์น˜ ์ •๋ณด๊ฐ€ ์†Œ์‹ค๋œ๋‹ค. (์ž‘์•„์ง€๋‹ˆ๊นŒ)
        • ์ด๋•Œ ์ด ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์ค˜์„œ ์œ„์น˜์ •๋ณด๊ฐ€ ์†Œ์‹ค๋˜์ง€ ์•Š๋„๋ก
  • CLIP
    • ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ํ•œ ๊ณต๊ฐ„์—์„œ ์ •๋ ฌ
    • ๊ธฐ์กด ๋ฐฉ์‹์€ ํ™•์žฅ์„ฑ๋„ ๋ถ€์กฑํ•˜๊ณ , ๋ผ๋ฒจ๋ง๋„ ์–ด๋ ต๋‹ค
      • ์ธํ„ฐ๋„ท์—์„œ ์–ป์€ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์บก์…˜์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต์„ ํ•˜์ž!
      • ๊ณ ์–‘์ด๋ฅผ ๊ฒ€์ƒ‰ํ•ด์„œ ๋‚˜์˜จ ์‚ฌ์ง„๊ณผ ํ…์ŠคํŠธ๋ฅผ ์ž„๋ฒ ๋”ฉํ•˜์ž
    • ๋ผ๋ฒจ์ด ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์Œ์œผ๋กœ ํ•™์Šต๋œ๋‹ค
    • ์ •๋‹ต ์Œ ๋ผ๋ฆฌ๋Š” ์œ ์‚ฌ๋„๊ฐ€ ๋†’๊ฒŒ, ์•„๋‹ˆ๋ฉด ๋‚ฎ๊ฒŒ
    • ์ดํ›„ “A photo of plane”, “A photo of dog”…์„ ๋„ฃ์–ด์„œ ๋น„๊ตํ•˜๋ฉด? ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค!
    • ๊ธฐ์กด ๋ผ๋ฒจ๋ง์ด ๋น„์‹ธ๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ์บก์…˜์„ ์ด์šฉํ•ด์„œ ํ•ด๊ฒฐํ–ˆ๋‹ค

DINO
#

  • ML์˜ ๋Œ€ํ‘œ์ ์ธ ํ•™์Šต ๋ฐฉ์‹
    • ์ง€๋„ ํ•™์Šต
    • ๋น„์ง€๋„ ํ•™์Šต
    • ์ž๊ธฐ์ง€๋„ ํ•™์Šต
      • ๋ฐ์ดํ„ฐ ์•ˆ์—์„œ ๋ผ๋ฒจ์„ ์ง์ ‘ ๋งŒ๋“ค์–ด์„œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ

โ”์งˆ๋ฌธ ์‚ฌํ•ญ
#

๐Ÿ”— ์ฐธ๊ณ  ์ž๋ฃŒ
#