4์žฅ word2vec ์†๋„ ๊ฐœ์„ 

๐Ÿ“ ์ƒ์„ธ ์ •๋ฆฌ

  • ๊ธฐ์กด์˜ CBOW๋ชจ๋ธ์€ ๋ง๋ญ‰์น˜์— ํฌํ•จ๋œ ์–ดํœ˜ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด ๊ณ„์‚ฐ๋Ÿ‰๋„ ์ปค์ง„๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์—ˆ๋‹ค.
  • ์ด๋ฅผ Embedding ๊ณ„์ธต๊ณผ ๋„ค๊ฑฐํ‹ฐ๋ธŒ์ƒ˜ํ”Œ๋ง์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์†ํžํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ฐœ์„ ํ•  ๊ฒƒ์ด๋‹ค.

4.1 word2vec ๊ฐœ์„  1

  • ๊ธฐ์กด์˜ CBOW๋ชจ๋ธ์—์„œ ์–ดํœ˜๊ฐ€ 100๋งŒ๊ฐœ๊ฐ€ ๋œ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.
    • ๊ทธ๋ ‡๋‹ค๋ฉด ์ž…๋ ฅ์ธต์€ $W_{in} = 1000000 * 100, W_{out} = 100 * 1000000$์˜ ํ–‰๋ ฌ์ด ๋œ๋‹ค.
      • ์‹ฌ์ง€์–ด ์›ํ•ซ ๋ฒกํ„ฐ๋ผ ์ƒ๋‹นํžˆ sparseํ•œ๋ฐ..
      • ์ด๋ฅผ Embedding ๊ณ„์ธต ๋„์ž…์œผ๋กœ ํ•ด๊ฒฐํ•ด๋ณด์ž.
      • $W_{in}$์€ Embedding์œผ๋กœ, $W_{out}$์€ ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง์œผ๋กœ ํ•ด๊ฒฐํ•  ๊ฒƒ์ด๋‹ค.
  • 4.1.1 Embedding ๊ณ„์ธต
    • ๋‹ค์‹œํ•œ๋ฒˆ ์–ดํœ˜ ์ˆ˜๊ฐ€ 100๋งŒ๊ฐœ์ธ ์ƒํ™ฉ์„ ์ƒ์ƒํ•ด๋ณด์ž.
      • ๋‹จ์–ด์˜ ์›ํ•ซ๋ฒกํ„ฐ๋Š” 100๋งŒ์ฐจ์›..
      • ๊ทธ๋Ÿฐ๋ฐ, ์ด ์—ฐ์‚ฐ์ด ๋ฌด์—‡์„ ์˜๋ฏธํ•˜๋Š”๊ฑธ๊นŒ?
      • ์ด๋Š” ๊ทธ์ € ํ–‰๋ ฌ์˜ ํŠน์ • ํ–‰์„ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ๋ฟ์ด๋‹ค!
      • ๋‹ค์‹œ๋งํ•ด, ์›ํ•ซํ‘œํ˜„์œผ๋กœ์˜ ๋ณ€ํ™˜๊ฐ€ ํ–‰๋ ฌ ๊ณฑ์—ฐ์‚ฐ์€ ์‚ฌ์‹ค ํฐ ํ•„์š”๊ฐ€ ์—†๋‹ค.
    • ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ๋ถ€ํ„ฐ ๋‹จ์–ด ID์— ํ•ด๋‹นํ•˜๋Š” ํ–‰์„ ์ถ”์ถœํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด ๋œ๋‹ค.
      • ํ•ด๋‹น ๊ณ„์ธต์„ ๋งŒ๋“ค์–ด๋ณด์ž.
      • ์ด๋ฅผ Embedding ๊ณ„์ธต์ด๋ผ๊ณ  ํ•˜๊ณ , ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์ด๋ผ๋Š” ์šฉ์–ด์—์„œ ์œ ๋ž˜ํ–ˆ๋‹ค.
        • Embedding ๊ณ„์ธต์— ๋‹จ์–ด์˜ ๋ถ„์‚ฐ ํ‘œํ˜„์„ ์ €์žฅํ•  ๊ฒƒ์ด๋‹ค.
  • 4.1.2 Embedding ๊ณ„์ธต ๊ตฌํ˜„
    • ํ–‰๋ ฌ์—์„œ ํŠน์ • ํ–‰์„ ์ถ”์ถœํ•˜๋Š”๊ฒƒ์€ ๊ฝค๋‚˜ ์‰ฝ๋‹ค.
      • $W$๊ฐ€ 2์ฐจ์› numpy ๋ฐฐ์—ด์ด๋ผ๋ฉด, W[2]์ฒ˜๋Ÿผ ์›ํ•˜๋Š” ํ–‰์„ ๋ช…์‹œํ•˜๋ฉด ๋
        • ์ž…๋ ฅ์ธต ๋‹จ์–ด๊ฐ€ ์ผ๋•Œ๋„ ์‰ฝ๊ฒŒ ๋œ๋‹ค.
      • ๋”ฐ๋ผ์„œ ๊ตฌํ˜„์—์„œ๋„ W[idx]๋กœ ์ธ๋ฑ์‹ฑ๋งŒ ์ง„ํ–‰ํ•˜๋ฉด ๋œ๋‹ค.
    • ์—ญ์ „ํŒŒ์—์„œ๋„ ๋˜‘๊ฐ™์ด ์ „ํ•ด์ง„ ๊ธฐ์šธ๊ธฐ๋ฅผ idx๋ฒˆ์งธ ํ–‰์— ์ „๋‹ฌํ•˜๋ฉด ๋œ๋‹ค.
      • ๊ทธ๋Ÿฐ๋ฐ ์—ฌ๊ธฐ์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
      • idx์˜ ์›์†Œ๊ฐ€ ์ค‘๋ณต๋œ๋‹ค๋ฉด? ์˜ˆ๋ฅผ ๋“ค์–ด ์ž…๋ ฅ์ธต์—์„œ ๋„ฃ์€ ๋‹จ์–ด์ธ๋ฑ์Šค ๋ฐฐ์—ด์ด [0, 2, 0, 4]๋ผ๋ฉด?
      • ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌํ˜„ ์‹œ dW์˜ ์ธต์„ 0์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ๊ฐ ์ธ๋ฑ์Šค์— ๋Œ€ํ•ด ๋”ํ•ด์ฃผ์ž.

4.2 word2vec ๊ฐœ์„  2

  • ์—ฌ๊ธฐ์„œ๋Š” ์€๋‹‰์ธต ์ดํ›„์˜ ์ฒ˜๋ฆฌ, ์ฆ‰ ํ–‰๋ ฌ๊ณฑ๊ณผ Softmax๊ณ„์ธต์˜ ๊ณ„์‚ฐ ํŒŒํŠธ์˜ ๋ณ‘๋ชฉ์„ ํ•ด์†Œํ•  ๊ฒƒ
    • ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง์„ ์ด์šฉํ•  ๊ฒƒ์ด๋‹ค.
  • 4.2.1 ์€๋‹‰์ธต ์ดํ›„ ๊ณ„์‚ฐ์˜ ๋ฌธ์ œ์ 
    • ์–ธ์ œ๋‚˜ ๊ทธ๋žฌ๋“ฏ ์–ดํœ˜๊ฐ€ 100๋งŒ๊ฐœ, ์€๋‹‰์ธต ๋‰ด๋Ÿฐ์ด 100๊ฐœ๋ผ๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž.
      1. $W_{out} = 100 * 1000000$ ์˜ ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ํ•ด์„œ 100๋งŒ ๊ธธ์ด์˜ ์ถœ๋ ฅ์ธต์„ ๋งŒ๋“ค๊ณ 
      2. ์ด์— softmax ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•ด์„œ ํ™•๋ฅ ์„ ์–ป์–ด๋‚ด์•ผ ํ•œ๋‹ค.
  • 4.2.2 ๋‹ค์ค‘ ๋ถ„๋ฅ˜์—์„œ ์ด์ง„ ๋ถ„๋ฅ˜๋กœ
    • ์ด ๊ธฐ๋ฒ•์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋‹ค์ค‘ ๋ถ„๋ฅ˜(multi-class classification)์„ ์ด์ค‘ ๋ถ„๋ฅ˜(binary classification)์œผ๋กœ ๊ทผ์‚ฌํ•˜๋Š”๋ฐ ์žˆ๋‹ค.
      • 100๋งŒ๊ฐœ์˜ ๋‹จ์–ด ์ค‘ ์˜ณ์€ ๋‹จ์–ด ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฌธ์ œ๋ฅผ, ๋งฅ๋ฝ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ํƒ€๊นƒ ๋‹จ์–ด๋Š” say ์ž…๋‹ˆ๊นŒ? ๋ผ๋Š” ์ด์ง„ ๋ถ„๋ฅ˜, ์ฆ‰ ๊ฒฐ์ • ๋ฌธ์ œ๋กœ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋‹ค.
      • ๊ทธ๋ ‡๋‹ค๋ฉด ์ถœ๋ ฅ์ธต์—๋Š” ๋‰ด๋Ÿฐ์„ ํ•˜๋‚˜๋งŒ ์ค€๋น„ํ•˜๋ฉด ๋œ๋‹ค!
      • ๋”ฐ๋ผ์„œ ์—ฐ์‚ฐ์€ $W_{out}[idx] = 100 * 1$ ๋กœ ๋ฐ”๋€Œ๊ฒŒ ๋˜๊ณ , ๊ธธ์ด 1์˜ ์ถœ๋ ฅ์ธต๋งŒ sigmoid๋ฅผ ์ ์šฉํ•˜๋ฉด ๋˜๊ฒŒ ๋˜์—ˆ๋‹ค.
  • 4.2.3 ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์™€ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์˜ค์ฐจ
    • ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋ฅผ ์‹ ๊ฒฝ๋ง์œผ๋กœ ํ’€ ๋•Œ์—๋Š”
      • ์ ์ˆ˜์— ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•ด ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ 
      • ์†์‹ค์„ ๊ตฌํ•  ๋•Œ์—๋Š” ์†์‹ค ํ•จ์ˆ˜๋กœ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์˜ค์ฐจ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
    • ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋Š” ์•ž์—์„œ ๋ฐฐ์šด๊ฒƒ๊ณผ ๊ฐ™์ด ๋‹ค์Œ๊ณผ ๊ฐ™๊ณ ,
      • $y = \frac{1}{1+e^{-x}}$
    • ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์˜ค์ฐจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
      • $L = -(t\log y + (1-t)\log (1-y))$
      • $y$๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์ถœ๋ ฅ, $t$๋Š” ์ •๋‹ต ๋ ˆ์ด๋ธ”
        • $t = 1$์ผ ๋•Œ Yes, $t = 0$์ผ๋•Œ No
        • ๋”ฐ๋ผ์„œ $t = 1$์ผ๋•Œ $-\log y$๊ฐ€, $t = 0$์ผ ๋•Œ $-\log (1-y)$๊ฐ€ ์ถœ๋ ฅ๋œ๋‹ค
    • ์ด๋•Œ ์—ญ์ „ํŒŒ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ, Chain Rule๋กœ ๊ณ„์‚ฐ์„ ์™„๋ฃŒํ•˜๋ฉด ์ „๋‹ฌ๋˜๋Š” ์˜ค์ฐจ(๊ธฐ์šธ๊ธฐ)๊ฐ€ $y-t$๊ฐ€ ๋œ๋‹ค.
      • $t = 0$์ผ๋•Œ๋Š” $y$๊ฐ€ ํฌ๋ฉด ํฌ๊ฒŒ ํ•™์Šตํ•˜๊ณ , $y$๊ฐ€ ์ž‘์œผ๋ฉด ์ž‘๊ฒŒ ํ•™์Šตํ•œ๋‹ค๋Š” ์˜๋ฏธ๋„ ๋œ๋‹ค!
  • 4.2.4 ๋‹ค์ค‘ ๋ถ„๋ฅ˜์—์„œ ์ด์ง„ ๋ถ„๋ฅ˜๋กœ
    • Image Description
    • ์œ„์˜ ๋ชจ๋“  ์ตœ์ ํ™”๋ฅผ ๊ฑฐ์นœ ๊ทธ๋ฆผ์€ ์œ„์™€ ๊ฐ™๋‹ค.
      • ์—ฌ๊ธฐ์„œ ์ถœ๋ ฅ์ธต์˜ Embedding ๊ณ„์ธต๊ณผ ๋‚ด์  ์—ฐ์‚ฐ์„ ํ•ฉ์ณ์„œ Embedding dot ๊ณ„์ธต์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์กฐ๊ธˆ ๋” ๊ฐ„๋‹จํ•˜๊ฒŒ๋„ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค.
      • Embedding dot ๊ณ„์ธต์€ $h, idx$๋ฅผ ์ž…๋ ฅ๋ฐ›์•„์„œ ์ ์ˆ˜๋ฅผ ๋ฐ˜ํ™˜ํ•œ๋‹ค.
        • ๋‚ด์ ์€ $\text{Score} = \sum\limits_{i=1}^d{h_i \cdot w_i} = h \cdot w_{target}$ ์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๊ณ ,
        • ๊ณฑ์˜ ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ ๋ฒกํ„ฐ๊ฐ€ ์‹ค์ œ ์ •๋‹ต๊ณผ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€์— ๋Œ€ํ•œ ๊ฐ’์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.
  • 4.2.5 ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง
    • ์œ„๋Š” ์ •๋‹ต์˜ ์˜ˆ๋งŒ ์‹ ๊ฒฝ์ผ๊ณ , ์˜ค๋‹ต์˜ ์˜ˆ๋ฅผ ์‹ ๊ฒฝ์“ฐ์ง€ ์•Š์•˜๋‹ค.
      • ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ํ•™์Šต์‹œํ‚ค๋ฉด ์ข‹์„๊นŒ?
      • ๋ชจ๋“  ์˜ค๋‹ต์— ๋Œ€ํ•ด์„œ ์ด์ง„ ๋ถ„๋ฅ˜๋ฅผ ํ•™์Šต์‹œํ‚ค๋ฉด ์–ด๋–จ๊นŒ?
        • ๊ทธ๋ ‡๋‹ค๋ฉด ๋‹ค์‹œ ์–ดํœ˜์˜ ์ˆ˜์— ์—ฐ์‚ฐ๋Ÿ‰์ด ๋น„๋ก€ํ•˜๊ฒŒ ๋œ๋‹ค….
        • ๋”ฐ๋ผ์„œ ๊ทผ์‚ฌ์ ์ธ ํ•ด๋ฒ•์œผ๋กœ, ๋ถ€์ •์ ์ธ ์˜ˆ๋ฅผ ์กฐ๊ธˆ๋งŒ ์„ ํƒํ•˜์ž!
          • ์ด๋ฅผ ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง์ด๋ผ๊ณ  ํ•œ๋‹ค.
  • 4.2.6 ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง์˜ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•
    • ์ƒ˜ํ”Œ๋ง์„ ๋‹จ์ˆœํžˆ ๋ฌด์ž‘์œ„๋กœ ํ•  ๊ฒƒ์ธ๊ฐ€?
      • ๋” ์ข‹์€ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.
      • ๋ง๋ญ‰์น˜์˜ ํ†ต๊ณ„ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์ดˆ๋กœ ์ƒ˜ํ”Œ๋งํ•˜์ž!
        • ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋ฅผ ๋งŽ์ด ์ถ”์ถœํ•˜๊ณ , ๋“œ๋ฌผ๊ฒŒ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋ฅผ ์ ๊ฒŒ ์ถ”์ถœํ•˜์ž.
        • ๋‹จ์–ด์˜ ์ถœํ˜„ ํšŸ์ˆ˜๋ฅผ ํ™•๋ฅ ๋ถ„ํฌ๋กœ ๋‚˜ํƒ€๋‚ด๊ณ , ๊ทธ ํ™•๋ฅ ๋ถ„ํฌ๋Œ€๋กœ ๋‹จ์–ด๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋ฉด ๋œ๋‹ค.
    • ๊ทธ๋Ÿฐ๋ฐ, word2vec์˜ ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง์—์„œ๋Š” ๊ฐ ํ™•๋ฅ ๋ถ„ํฌ์— 0.75์Šน์„ ํ•˜๋ผ๊ณ  ๊ถŒ์žฅํ•œ๋‹ค.
      • ์ด๋Š” ์ถœํ˜„ํ™•๋ฅ ์ด ๋‚ฎ์€ ๋‹จ์–ด๋ฅผ ๋ฒ„๋ฆฌ์ง€ ์•Š๊ฒŒํ•˜๊ธฐ ์œ„ํ•จ์œผ๋กœ, ๋‚ฎ์€ ์ถœํ˜„์œจ์˜ ๋‹จ์–ด์˜ ํ™•๋ฅ ์„ ์กฐ๊ธˆ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋‹ค.
  • 4.2.7 ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง ๊ตฌํ˜„
    • ์•ž๊ณผ ํฌ๊ฒŒ ๋‹ค๋ฅด์ง€ ์•Š๋‹ค.

4.3 ๊ฐœ์„ ํŒ word2vec ํ•™์Šต

  • PTB ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šตํ•ด๋ณด์ž.
  • 4.3.1 CBOW ๋ชจ๋ธ ๊ตฌํ˜„
  • 4.3.2 CBOW ๋ชจ๋ธ ํ•™์Šต ์ฝ”๋“œ
  • 4.3.3 CBOW ๋ชจ๋ธ ํ‰๊ฐ€

4.4 word2vec ๋‚จ์€ ์ฃผ์ œ

  • 4.4.1 word2vec์„ ์‚ฌ์šฉํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์˜ ์˜ˆ
    • ์ „์ด ํ•™์Šต
      • ํ•œ ๋ถ„์•ผ์—์„œ ๋ฐฐ์šด ์ง€์‹์„ ๋‹ค๋ฅธ ๋ถ„์•ผ์— ์ ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•
    • ์ž์—ฐ์–ด ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ, ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์œ„ํ‚ค๋ฐฑ๊ณผ๋‚˜ ๊ตฌ๊ธ€ ๋‰ด์Šค๋“ฑ์˜ ํฐ ๋ง๋ญ‰์น˜๋กœ ํ•™์Šต์„ ๋๋‚ธ ํ›„, ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์ž‘์—…์— ๋Œ์ž…ํ•˜์ž.
    • ๋ฌธ์žฅ์„ ๊ณ ์ •ํฌ๊ธฐ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•  ๋•Œ์—๋Š” ๋‹จ์–ด ๋ฒกํ„ฐ๋“ค์˜ ํ•ฉ์„ ์ด์šฉํ•˜์ž.
  • 4.4.2 ๋‹จ์–ด ๋ฒกํ„ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
    • ์šฐ๋ฆฌ๊ฐ€ ์–ป์–ด๋‚ธ ๋ถ„์‚ฐ ํ‘œํ˜„์ด ์ข‹์€์ง€๋Š” ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์„๊นŒ?
    • ๋‹จ์–ด์˜ ์œ ์‚ฌ์„ฑ
      • ์‚ฌ๋žŒ์ด ์ž‘์„ฑํ•œ ๋‹จ์–ด ์œ ์‚ฌ๋„๋ฅผ ๊ฒ€์ฆ ์„ธํŠธ๋กœ ์‚ฌ์šฉํ•ด ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ
    • ์œ ์ถ” ๋ฌธ์ œ๋ฅผ ์ด์šฉํ•œ ํ‰๊ฐ€
      • “king : queen = man : ?”
      • ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ์ถœ์ œํ•ด์„œ ์ •๋‹ต๋ฅ ๋กœ ์ธก์ •

4.5 ์ •๋ฆฌ

  • CBOW๋ชจ๋ธ์€ ๋ง๋ญ‰์น˜์˜ ์–ดํœ˜ ์ˆ˜ ์ฆ๊ฐ€์— ๋น„๋ก€ํ•ด ๊ณ„์‚ฐ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค.
    • ์ด๋ฅผ Embedding๊ณ„์ธต ๊ตฌํ˜„, ๋„ค๊ฑฐํ‹ฐ๋ธŒ ์ƒ˜ํ”Œ๋ง ๋‘๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•ด์„œ ํ•ด๊ฒฐํ•˜์˜€๋‹ค.
  • ํ•ต์‹ฌ์€ ์–ดํœ˜ ๋ชจ๋‘๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ผ๋ถ€ ๋‹จ์–ด๋งŒ์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

โ”์งˆ๋ฌธ ์‚ฌํ•ญ

  • yes / no ๊ฒฐ์ •๋ฌธ์ œ๋กœ ๋งŒ๋“ค๋ฉด no๊ฐ€ ๋‚˜์˜ค๋ฉด yes๊ฐ€ ๋‚˜์˜ฌ๋•Œ๊นŒ์ง€ ๋Œ๋ฆฌ๋Š”๊ฑด๊ฐ€? ๊ทผ๋ฐ ๊ทธ๋Ÿฌ๋ฉด ๋˜‘๊ฐ™์ด ์‹œ๊ฐ„๋ณต์žก๋„๊ฐ€ $O(N)$์ธ๊ฑฐ ์•„๋‹Œ๊ฐ€?
  • ์•„ํ•˜, ์œ„๋Š” ํ•™์Šต์—์„œ๋‚˜ ๋‚˜์˜ค๋Š” ์ด์•ผ๊ธฐ๊ณ , ๊ฒฐ๊ตญ ๋‚˜์ค‘์— ๋””์ฝ”๋”ฉํ• ๋•Œ๋Š” = ๋‹จ์–ด๋ฅผ ์ฐพ์„ ๋•Œ๋Š” ์–ด๋–ค ๋ฒกํ„ฐ์˜ ๊ฒฐ๊ณผ๊ฐ’์œผ๋กœ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋‹จ์–ด๋ฅผ ์ฐพ์•„๊ฐ€๋Š”๊ฑด๊ฐ€? ๊ทธ๊ฑด ์–ด๋–ป๊ฒŒ ์ด๋ฃจ์–ด์ง€์ง€? ๋ฒกํ„ฐ๊ณต๊ฐ„์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์  ์ฐพ๊ธฐ๊ฐ€ ์‰ฝ๋‚˜?

๐Ÿ”— ์ฐธ๊ณ  ์ž๋ฃŒ

  • https://word2vec.kr/search/

    • ํ•ด๋‹น ์‚ฌ์ดํŠธ์—์„œ ๋‹จ์–ด๋“ค ๋ผ๋ฆฌ์˜ ๋ฒกํ„ฐ ์—ฐ์‚ฐ์„ ์ง์ ‘ ์ˆ˜ํ–‰ํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
  • ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„

    • $\frac{\partial y}{\partial x} = y(1 - y)$
  • ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์˜ค์ฐจ ๋ฏธ๋ถ„

    • $$ \begin{aligned} \frac{\partial L}{\partial y} &= - \left( \frac{t}{y} - \frac{1 - t}{1 - y} \right) \\ &= - \left( \frac{t(1 - y) - y(1 - t)}{y(1 - y)} \right) \\ &= - \left( \frac{t - ty - y + ty}{y(1 - y)} \right) \\ &= \frac{y - t}{y(1 - y)} \end{aligned} $$
  • ์ตœ์ข… ์—ญ์ „ํŒŒ

    • $$ \begin{aligned} \frac{\partial L}{\partial x} &= \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \\ &= \frac{y - t}{y(1 - y)} \cdot y(1 - y) \\ &= y - t \end{aligned} $$