5์žฅ

๐Ÿ“ ์ƒ์„ธ ์ •๋ฆฌ

  • ์ง€๊ธˆ๊นŒ์ง€ ์‚ดํŽด๋ณธ ์‹ ๊ฒฝ๋ง์€ ํ”ผ๋“œํฌ์›Œ๋“œ ์œ ํ˜•์˜ ์‹ ๊ฒฝ๋ง์ด๋‹ค.
    • ์ด๋Š” ํ๋ฆ„์ด ๋‹จ๋ฐฉํ–ฅ์ธ ์‹ ๊ฒฝ๋ง์„ ๋งํ•œ๋‹ค.
    • ํ•˜์ง€๋งŒ ์ด์—๋Š” ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ๋‹ค๋ฃจ์ง€ ๋ชปํ•œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋Š”๋ฐ…
    • ๋”ฐ๋ผ์„œ ์—ฌ๊ธฐ์„œ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์ด ๋“ฑ์žฅํ•œ๋‹ค.

5.1 ํ™•๋ฅ ๊ณผ ์–ธ์–ด ๋ชจ๋ธ

  • 5.1.1 word2vec์„ ํ™•๋ฅ  ๊ด€์ ์—์„œ ๋ฐ”๋ผ๋ณด๋‹ค
    • $t$๋ฒˆ์งธ ๋‹จ์–ด๋ฅผ ํƒ€๊นƒ์œผ๋กœ, ๊ทธ ์ „ํ›„ ๋‹จ์–ด๋ฅผ ๋งฅ๋ฝ์œผ๋กœ ์ทจ๊ธ‰ํ•ด๋ณด์ž.
    • CBOW๋ชจ๋ธ์€ $w_{t-1}, w_{t+1}$๋กœ๋ถ€ํ„ฐ $w_t$๋ฅผ ์ถ”์ธกํ•˜๋Š” ์ผ์„ ์ˆ˜ํ–‰ํ•  ๊ฒƒ์ด๋‹ค.
    • ์ด ํ™•๋ฅ ์„ ์ˆ˜์‹์œผ๋กœ, $P(w_t | w_{t-1}, w_{t+1})$ ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๊ฒ ๋‹ค.
    • ๊ทธ๋Ÿฐ๋ฐ, ๋งฅ๋ฝ์ด ์ขŒ์šฐ๋Œ€์นญ์ด ์•„๋‹ˆ์–ด๋„ ๋˜์ง€ ์•Š๋‚˜? $P(w_t | w_{t-1}, w_{t-2})$๊ฐ™์€๊ฑธ ์ƒ๊ฐํ•ด๋ณด์ž.
      • ์ด๊ฑธ ์–ด๋”ฐ ์จ๋จน์ง€?
  • 5.1.2 ์–ธ์–ด ๋ชจ๋ธ
    • ์–ธ์–ด ๋ชจ๋ธ์€ ๋‹จ์–ด ๋‚˜์—ด์— ํ™•๋ฅ ์„ ๋ถ€์—ฌํ•œ๋‹ค.
    • ๋‹จ์–ด $w_1, w_2, \cdots , w_m$์ด ์žˆ๋‹ค๊ณ  ํ•ด๋ณด์ž.
      • ์ด๋“ค์ด ์ˆœ์„œ๋Œ€๋กœ ์ถœ์—ฐํ•  ํ™•๋ฅ ์€ $P(w_1, \cdots, w_m)$์ด๋‹ค.
      • ์ด๋Š” ๋ถ„ํ•ดํ•ด์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๋‹ค.
      • $P(w_1, \cdots, w_m) = P(w_m | w_1, \cdots, w_{m-1}) \cdots P(w_2 | w_1) P(w_1)$
  • 5.1.3 CBOW ๋ชจ๋ธ์„ ์–ธ์–ด ๋ชจ๋ธ๋กœ?
    • $P(w_1, \cdots, w_m) = \prod\limits_{t = 1}^mP(w_t|w_1, \cdots, w_{t-1} \approx \prod\limits_{t = 1}^mP(w_t | w_{t-2}, w_{t-1})$
      • ๋งฅ๋ฝ์„ ๋‘๊ฐœ ๋‹จ์–ด๋กœ ํ•œ์ •!
      • ์ด๋ฅผ 2์ธต ๋งˆ๋ฅด์ฝ”ํ”„ ์—ฐ์‡„๋ผ๊ณ ๋„ ๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋‹ค.
    • ํ•˜์ง€๋งŒ ๊ณ ์ • ๊ธธ์ด์˜ ํ•œ๊ณ„๋กœ, ๋Œ€๋‹ตํ•˜๊ธฐ ๊ณค๋ž€ํ•œ ๋ฌธ์žฅ๋“ค์ด ์ƒ๊ธด๋‹ค.
      • Tom was watching TV in his room. Mary came in to the room. Mary saind hi to $w$
    • ๋˜ํ•œ, ์€๋‹‰์ธต์—์„œ ํ‰๊ท ๋‚ด๋Š” ํŠน์ง•์ƒ ๋‹จ์–ด ์ˆœ์„œ๊ฐ€ ๋ฌด์‹œ๋œ๋‹ค.
      • ๊ทธ๋ ‡๋‹ค๋ฉด ํ‰๊ท ๋‚ด์ง€ ๋ง๊ณ  ์€๋‹‰์ธต์—์„œ ์—ฐ๊ฒฐํ•ด๋ณผ๊นŒ…?
        • ๊ทธ๋Ÿฌ๋ฉด ๋งฅ๋ฝ์˜ ํฌ๊ธฐ์— ๋น„๋ก€ํ•ด ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ์ปค์ง„๋‹ค.

5.2 RNN์ด๋ž€

  • Recurrent Neural Network
    • ์žฌ๋ฐœํ•˜๋‹ค / ์ฃผ๊ธฐ์ ์œผ๋กœ ์ผ์–ด๋‚˜๋‹ค / ์ˆœํ™˜ํ•˜๋‹ค๋ผ๋Š” ๋œป
  • 5.2.1 ์ˆœํ™˜ํ•˜๋Š” ์‹ ๊ฒฝ๋ง
    • ์ˆœํ™˜ํ•˜๋‹ค? ๋ฐ˜๋ณตํ•ด์„œ ๋˜๋Œ์•„๊ฐ€๋‹ค?
      • ์ด๋ฅผ ์œ„ํ•ด์„  ์–ด๋–ค ๋‹ซํžŒ ๊ฒฝ๋กœ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
      • Image Description
      • ์ด๋•Œ $x_t$๋ฅผ ์ž…๋ ฅ ๋ฐ›๋Š”๋ฐ, $t$๋Š” ์‹œ๊ฐ์„ ์˜๋ฏธํ•œ๋‹ค.
      • $x_t$๋Š” ๋ฒกํ„ฐ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌธ์žฅ (๋‹จ์–ด ์ˆœ์„œ)๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ฒฝ์šฐ ๊ฐ ๋‹จ์–ด์˜ ๋ถ„์‚ฐ ํ‘œํ˜„(๋‹จ์–ด ๋ฒกํ„ฐ)๊ฐ€ $x_t$๊ฐ€ ๋œ๋‹ค. ์ด๊ฒƒ์ด ์ˆœ์„œ๋Œ€๋กœ ํ•˜๋‚˜์”ฉ RNN์— ์ž…๋ ฅ๋˜๋Š” ๊ฒƒ.
    • ์œ„์˜ ์ˆœํ™˜ ๊ณผ์ •์„ ํŽผ์น˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
      • Image Description
      • ์ด์ œ ์—ฌํƒœ๊นŒ์ง€์˜ ํ”ผ๋“œํฌ์›Œ๋“œ ์‹ ๊ฒฝ๋ง๊ณผ ๋น„์Šทํ•˜๊ฒŒ ๋ณด์ธ๋‹ค!
        • ํ•˜์ง€๋งŒ, ์ด์ œ๋Š” ๋‹ค์ˆ˜์˜ RNN๊ณ„์ธต ๋ชจ๋‘๊ฐ€ ์‹ค์ œ๋กœ๋Š” ๊ฐ™์€ ๊ณ„์ธต์ด๋ผ๋Š” ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
        • ์ด ๊ณ„์‚ฐ์˜ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณ  ๊ฐ™๋‹ค. $h_t = tanh(h_{t-1}W_h + x_t W_x + b)$
          • $x$๋ฅผ $h$๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ€์ค‘์น˜ $W_x$
          • RNN ์ถœ๋ ฅ์„ ๋‹ค์Œ ์‹œ๊ฐ์˜ ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ€์ค‘์น˜ $W_h$
          • ํŽธํ–ฅ $b$
          • ์„ธ๊ฐ€์ง€๊ฐ€ ์กด์žฌํ•œ๋‹ค.
      • ํ–‰๋ ฌ ๊ณฑ์„ ๊ณ„์‚ฐํ•˜๊ณ , ๊ทธ ํ•ฉ์„ ๊ณ„์‚ฐํ•ด์„œ ์Œ๊ณกํƒ„์  ํŠธํ•จ์ˆ˜๋ฅผ ๋จน์ธ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ€ ์‹œ๊ฐ $t$์˜ ์ถœ๋ ฅ $h_t$๊ฐ€ ๋œ๋‹ค. ์ด๋Š” ๋‹ค๋ฅธ ๊ณ„์ธต์„ ํ–ฅํ•ด ์œ„์ชฝ์œผ๋กœ ์ถœ๋ ฅ๋˜๋Š” ๋™์‹œ์—, ๋‹ค์Œ ์‹œ๊ฐ์˜ RNN๊ณ„์ธต์„ ํ–ฅํ•ด ์˜ค๋ฅธ์ชฝ์œผ๋กœ๋„ ์ถœ๋ ฅ๋œ๋‹ค.
        • $h_t$๋Š” $h_{t-1}$์— ์˜ํ•ด ๊ณ„์‚ฐ๋˜๋ฏ€๋กœ, RNN ๊ณ„์ธต์„ ์ƒํƒœ๋ฅผ ๊ฐ€์ง€๋Š” ๊ณ„์ธต, ํ˜น์€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์žˆ๋Š” ๊ณ„์ธต์ด๋ผ๊ณ  ํ•œ๋‹ค.
  • 5.2.3 BPTT
    • Image Description
    • ์ˆœํ™˜ ๊ตฌ์กฐ์—์„œ๋„ ๋˜‘๊ฐ™์ด ์˜ค์ฐจ์—ญ์ „ํŒŒ๋ฒ•์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ์ด๋ฅผ ์‹œ๊ฐ„ ๋ฐฉํ–ฅ์œผ๋กœ ํŽผ์นœ ์‹ ๊ฒฝ๋ง์˜ ์˜ค์ฐจ์—ญ ์ „ํŒŒ๋ฒ•์ด๋ž€ ๋œป์œผ๋กœ
      • BPTT(BackPropagation Through Time) ๋ผ๊ณ  ํ•œ๋‹ค.
    • ํ•˜์ง€๋งŒ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ์‹œ๊ฐ„ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋Š”๊ฒƒ์— ๋น„๋ก€ํ•ด์„œ BPTT๊ฐ€ ์†Œ๋น„ํ•˜๋Š” ์ปดํ“จํŒ… ์ž์›์ด ๋Š˜์–ด๋‚œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค…
      • ๊ธฐ์šธ๊ธฐ๋„ ๋ถˆ์•ˆ์ •ํ•ด์ง€๊ณ 
  • 5.2.4 Truncated BPTT
    • ํฐ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ• ๋•Œ๋Š” ์‹ ๊ฒฝ๋ง ์—ฐ๊ฒฐ์„ ์ ๋‹นํ•œ ๊ธธ์ด๋กœ ๋Š์ž.
      • ์ž‘์€ ์‹ ๊ฒฝ๋ง ์—ฌ๋Ÿฌ๊ฐœ๋กœ ๋งŒ๋“ค์ž!
      • ์ด๊ฒƒ์„ Truncated BPTT๋ผ๊ณ  ํ•œ๋‹ค.
    • ์‚ฌ์‹ค ์ œ๋Œ€๋กœ ๊ตฌํ˜„ํ•˜๋ ค๋ฉด, ์ˆœ์ „ํŒŒ๋Š” ๊ทธ๋Œ€๋กœ ๋‘๊ณ  ์—ญ์ „ํŒŒ๋งŒ ๋Š์–ด์•ผ ํ•œ๋‹ค.
      • ๊ทธ๋ฆฌ๊ณ  ๊ทธ ์ž˜๋ฆฐ ๋‹จ์œ„๋กœ ํ•™์Šต
    • Image Description
      • 1000๊ฐœ ๊นŠ์ด์˜ RNN๊ณ„์ธต์ด๋ผ๋„ 10๊ฐœ๋‹จ์œ„๋กœ ํ•™์Šตํ•˜๋„๋ก ์ด๋ ‡๊ฒŒ ์ž๋ฅผ ์ˆ˜ ์žˆ๋‹ค!
        • ์ด ํ•˜๋‚˜์˜ ๋‹จ์œ„๋ฅผ ๋ธ”๋ก์ด๋ผ๊ณ  ํ•˜์ž.
  • 5.2.5 Truncated BPTT์˜ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ํ•™์Šต
    • Image Description
    • ๋‘๋ฒˆ์งธ ๋ฏธ๋‹ˆ๋ฐฐ์น˜๋ฅผ ํ•™์Šต ๋„ฃ์„ ๋•Œ ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ์ž‘ ์œ„์น˜๋กœ ์˜ฎ๊ฒจ์„œ ๋‹ค์‹œ ์ˆœ์„œ๋Œ€๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค.

5.3 RNN ๊ตฌํ˜„

  • ๊ตฌํ˜„๊ตฌํ˜„

5.4 ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ณ„์ธต ๊ตฌํ˜„

  • ๊ตฌํ˜„๊ตฌํ˜„

5.5 RNNLM ํ•™์Šต๊ณผ ํ‰๊ฐ€

  • 5.5.1 RNNLM ๊ตฌํ˜„
  • 5.5.2 ์–ธ์–ด ๋ชจ๋ธ์˜ ํ‰๊ฐ€
    • ์–ธ์–ด ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฒ™๋„๋กœ ํผํ”Œ๋ ‰์„œํƒ€๋ฅผ ์ด์šฉํ•œ๋‹ค.
      • Perplexity, ํ˜ผ๋ž€๋„
      • ์ด๋Š” ํ™•๋ฅ ์˜ ์—ญ์ˆ˜๊ฐ’
        • ์ด๋Š” ์ง๊ด€์ ์œผ๋กœ ๋ถ„๊ธฐ ์ˆ˜๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
      • ์ž…๋ ฅ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ๋ผ๋ฉด?
        • $L = -\frac{1}{N}\sum\limits_{n}\sum\limits_{k}t_{nk}\log y_{nk}$
        • $\text{perplexity} = e^L$

5.6 ์ •๋ฆฌ

  • ์ด๋ฒˆ ์žฅ์˜ ์ฃผ์ œ๋Š” ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง
    • ์ด๋ฅผ ์ด์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœํ™˜์‹œ์ผœ์„œ, ๊ณผ๊ฑฐ -> ํ˜„์žฌ -> ๋ฏธ๋ž˜๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜๋ ค๋ณด๋‚ธ๋‹ค.
  • ์ด๋ฅผ ์ด์šฉํ•ด์„œ ์–ธ์–ด ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๊ณ , ์ด๋Š” ๋‹จ์–ด ์‹œํ€€์Šค์— ํ™•๋ฅ ์„ ๋ถ€์—ฌํ•˜๊ณ  ๋‹ค์Œ์— ์ถœ์—ฐํ•  ๋‹จ์–ด์˜ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.
    • ์ด๋ก ์ ์œผ๋กœ๋Š” ์•„๋ฌด๋ฆฌ ๊ธด ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ผ๋„ RNN์˜ ์€๋‹‰์ƒํƒœ์— ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ์ž˜ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.
  • ๋‹ค์Œ์žฅ์—์„œ LSTM, GRU๋“ฑ์„ ์•Œ์•„๋ณด๊ฒ ๋‹ค.

โ”์งˆ๋ฌธ ์‚ฌํ•ญ

  • ๋ฏธ๋‹ˆ๋ฐฐ์น˜๋ฅผ ๋งŒ๋“ค ๋•Œ, ๋ฌธ์žฅ์˜ ์‹œ์ž‘์ด ์•„๋‹ ๋•Œ๋„ ์žˆ์ง€ ์•Š์„๊นŒ? ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ, ๋ฏธ๋‹ˆ๋ฐฐ์น˜์— ๋„ฃ๊ธฐ ์ข‹๊ฒŒ ๋ฌธ์žฅ์ด ์ƒ๊ธด ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹ ๊ฒฝ์šฐ๊ฐ€ ๋” ๋งŽ์„ ๊ฒƒ ๊ฐ™์€๋ฐ…

๐Ÿ”— ์ฐธ๊ณ  ์ž๋ฃŒ