๐ ์์ธ ์ ๋ฆฌ
- ์ง๊ธ๊น์ง ์ดํด๋ณธ ์ ๊ฒฝ๋ง์ ํผ๋ํฌ์๋ ์ ํ์ ์ ๊ฒฝ๋ง์ด๋ค.
- ์ด๋ ํ๋ฆ์ด ๋จ๋ฐฉํฅ์ธ ์ ๊ฒฝ๋ง์ ๋งํ๋ค.
- ํ์ง๋ง ์ด์๋ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋๋ฐ…
- ๋ฐ๋ผ์ ์ฌ๊ธฐ์ ์ํ ์ ๊ฒฝ๋ง์ด ๋ฑ์ฅํ๋ค.
5.1 ํ๋ฅ ๊ณผ ์ธ์ด ๋ชจ๋ธ
- 5.1.1 word2vec์ ํ๋ฅ ๊ด์ ์์ ๋ฐ๋ผ๋ณด๋ค
- $t$๋ฒ์งธ ๋จ์ด๋ฅผ ํ๊น์ผ๋ก, ๊ทธ ์ ํ ๋จ์ด๋ฅผ ๋งฅ๋ฝ์ผ๋ก ์ทจ๊ธํด๋ณด์.
- CBOW๋ชจ๋ธ์ $w_{t-1}, w_{t+1}$๋ก๋ถํฐ $w_t$๋ฅผ ์ถ์ธกํ๋ ์ผ์ ์ํํ ๊ฒ์ด๋ค.
- ์ด ํ๋ฅ ์ ์์์ผ๋ก, $P(w_t | w_{t-1}, w_{t+1})$ ๋ก ๋ํ๋ผ ์ ์๊ฒ ๋ค.
- ๊ทธ๋ฐ๋ฐ, ๋งฅ๋ฝ์ด ์ข์ฐ๋์นญ์ด ์๋์ด๋ ๋์ง ์๋? $P(w_t | w_{t-1}, w_{t-2})$๊ฐ์๊ฑธ ์๊ฐํด๋ณด์.
- ์ด๊ฑธ ์ด๋ฐ ์จ๋จน์ง?
- 5.1.2 ์ธ์ด ๋ชจ๋ธ
- ์ธ์ด ๋ชจ๋ธ์ ๋จ์ด ๋์ด์ ํ๋ฅ ์ ๋ถ์ฌํ๋ค.
- ๋จ์ด $w_1, w_2, \cdots , w_m$์ด ์๋ค๊ณ ํด๋ณด์.
- ์ด๋ค์ด ์์๋๋ก ์ถ์ฐํ ํ๋ฅ ์ $P(w_1, \cdots, w_m)$์ด๋ค.
- ์ด๋ ๋ถํดํด์ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.
- $P(w_1, \cdots, w_m) = P(w_m | w_1, \cdots, w_{m-1}) \cdots P(w_2 | w_1) P(w_1)$
- 5.1.3 CBOW ๋ชจ๋ธ์ ์ธ์ด ๋ชจ๋ธ๋ก?
- $P(w_1, \cdots, w_m) = \prod\limits_{t = 1}^mP(w_t|w_1, \cdots, w_{t-1} \approx \prod\limits_{t = 1}^mP(w_t | w_{t-2}, w_{t-1})$
- ๋งฅ๋ฝ์ ๋๊ฐ ๋จ์ด๋ก ํ์ !
- ์ด๋ฅผ 2์ธต ๋ง๋ฅด์ฝํ ์ฐ์๋ผ๊ณ ๋ ๋ณผ ์ ์๊ฒ ๋ค.
- ํ์ง๋ง ๊ณ ์ ๊ธธ์ด์ ํ๊ณ๋ก, ๋๋ตํ๊ธฐ ๊ณค๋ํ ๋ฌธ์ฅ๋ค์ด ์๊ธด๋ค.
- Tom was watching TV in his room. Mary came in to the room. Mary saind hi to $w$
- ๋ํ, ์๋์ธต์์ ํ๊ท ๋ด๋ ํน์ง์ ๋จ์ด ์์๊ฐ ๋ฌด์๋๋ค.
- ๊ทธ๋ ๋ค๋ฉด ํ๊ท ๋ด์ง ๋ง๊ณ ์๋์ธต์์ ์ฐ๊ฒฐํด๋ณผ๊น…?
- ๊ทธ๋ฌ๋ฉด ๋งฅ๋ฝ์ ํฌ๊ธฐ์ ๋น๋กํด ๋งค๊ฐ๋ณ์๊ฐ ๋๋ฌด ์ปค์ง๋ค.
- ๊ทธ๋ ๋ค๋ฉด ํ๊ท ๋ด์ง ๋ง๊ณ ์๋์ธต์์ ์ฐ๊ฒฐํด๋ณผ๊น…?
- $P(w_1, \cdots, w_m) = \prod\limits_{t = 1}^mP(w_t|w_1, \cdots, w_{t-1} \approx \prod\limits_{t = 1}^mP(w_t | w_{t-2}, w_{t-1})$
5.2 RNN์ด๋
- Recurrent Neural Network
- ์ฌ๋ฐํ๋ค / ์ฃผ๊ธฐ์ ์ผ๋ก ์ผ์ด๋๋ค / ์ํํ๋ค๋ผ๋ ๋ป
- 5.2.1 ์ํํ๋ ์ ๊ฒฝ๋ง
- ์ํํ๋ค? ๋ฐ๋ณตํด์ ๋๋์๊ฐ๋ค?
- ์ด๋ฅผ ์ํด์ ์ด๋ค ๋ซํ ๊ฒฝ๋ก๊ฐ ํ์ํ๋ค.

- ์ด๋ $x_t$๋ฅผ ์ ๋ ฅ ๋ฐ๋๋ฐ, $t$๋ ์๊ฐ์ ์๋ฏธํ๋ค.
- $x_t$๋ ๋ฒกํฐ์ด๋ค. ์๋ฅผ ๋ค์ด ๋ฌธ์ฅ (๋จ์ด ์์)๋ฅผ ๋ค๋ฃจ๋ ๊ฒฝ์ฐ ๊ฐ ๋จ์ด์ ๋ถ์ฐ ํํ(๋จ์ด ๋ฒกํฐ)๊ฐ $x_t$๊ฐ ๋๋ค. ์ด๊ฒ์ด ์์๋๋ก ํ๋์ฉ RNN์ ์ ๋ ฅ๋๋ ๊ฒ.
- ์์ ์ํ ๊ณผ์ ์ ํผ์น๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.

- ์ด์ ์ฌํ๊น์ง์ ํผ๋ํฌ์๋ ์ ๊ฒฝ๋ง๊ณผ ๋น์ทํ๊ฒ ๋ณด์ธ๋ค!
- ํ์ง๋ง, ์ด์ ๋ ๋ค์์ RNN๊ณ์ธต ๋ชจ๋๊ฐ ์ค์ ๋ก๋ ๊ฐ์ ๊ณ์ธต์ด๋ผ๋ ์ฐจ์ด๊ฐ ์๋ค.
- ์ด ๊ณ์ฐ์ ์์์ ๋ค์๊ณ ๊ฐ๋ค. $h_t = tanh(h_{t-1}W_h + x_t W_x + b)$
- $x$๋ฅผ $h$๋ก ๋ณํํ๊ธฐ ์ํ ๊ฐ์ค์น $W_x$
- RNN ์ถ๋ ฅ์ ๋ค์ ์๊ฐ์ ์ถ๋ ฅ์ผ๋ก ๋ณํํ๊ธฐ ์ํ ๊ฐ์ค์น $W_h$
- ํธํฅ $b$
- ์ธ๊ฐ์ง๊ฐ ์กด์ฌํ๋ค.
- ํ๋ ฌ ๊ณฑ์ ๊ณ์ฐํ๊ณ , ๊ทธ ํฉ์ ๊ณ์ฐํด์ ์๊ณกํ์ ํธํจ์๋ฅผ ๋จน์ธ๋ค. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ์๊ฐ $t$์ ์ถ๋ ฅ $h_t$๊ฐ ๋๋ค. ์ด๋ ๋ค๋ฅธ ๊ณ์ธต์ ํฅํด ์์ชฝ์ผ๋ก ์ถ๋ ฅ๋๋ ๋์์, ๋ค์ ์๊ฐ์ RNN๊ณ์ธต์ ํฅํด ์ค๋ฅธ์ชฝ์ผ๋ก๋ ์ถ๋ ฅ๋๋ค.
- $h_t$๋ $h_{t-1}$์ ์ํด ๊ณ์ฐ๋๋ฏ๋ก, RNN ๊ณ์ธต์ ์ํ๋ฅผ ๊ฐ์ง๋ ๊ณ์ธต, ํน์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์๋ ๊ณ์ธต์ด๋ผ๊ณ ํ๋ค.
- ์ํํ๋ค? ๋ฐ๋ณตํด์ ๋๋์๊ฐ๋ค?
- 5.2.3 BPTT

- ์ํ ๊ตฌ์กฐ์์๋ ๋๊ฐ์ด ์ค์ฐจ์ญ์ ํ๋ฒ์ ์ํํ ์ ์๋ค.
- ์ด๋ฅผ ์๊ฐ ๋ฐฉํฅ์ผ๋ก ํผ์น ์ ๊ฒฝ๋ง์ ์ค์ฐจ์ญ ์ ํ๋ฒ์ด๋ ๋ป์ผ๋ก
- BPTT(BackPropagation Through Time) ๋ผ๊ณ ํ๋ค.
- ํ์ง๋ง ์๊ณ์ด ๋ฐ์ดํฐ์ ์๊ฐ ํฌ๊ธฐ๊ฐ ์ปค์ง๋๊ฒ์ ๋น๋กํด์ BPTT๊ฐ ์๋นํ๋ ์ปดํจํ
์์์ด ๋์ด๋๋ค๋ ๋จ์ ์ด ์๋ค…
- ๊ธฐ์ธ๊ธฐ๋ ๋ถ์์ ํด์ง๊ณ
- 5.2.4 Truncated BPTT
- ํฐ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ๋๋ ์ ๊ฒฝ๋ง ์ฐ๊ฒฐ์ ์ ๋นํ ๊ธธ์ด๋ก ๋์.
- ์์ ์ ๊ฒฝ๋ง ์ฌ๋ฌ๊ฐ๋ก ๋ง๋ค์!
- ์ด๊ฒ์ Truncated BPTT๋ผ๊ณ ํ๋ค.
- ์ฌ์ค ์ ๋๋ก ๊ตฌํํ๋ ค๋ฉด, ์์ ํ๋ ๊ทธ๋๋ก ๋๊ณ ์ญ์ ํ๋ง ๋์ด์ผ ํ๋ค.
- ๊ทธ๋ฆฌ๊ณ ๊ทธ ์๋ฆฐ ๋จ์๋ก ํ์ต

- 1000๊ฐ ๊น์ด์ RNN๊ณ์ธต์ด๋ผ๋ 10๊ฐ๋จ์๋ก ํ์ตํ๋๋ก ์ด๋ ๊ฒ ์๋ฅผ ์ ์๋ค!
- ์ด ํ๋์ ๋จ์๋ฅผ ๋ธ๋ก์ด๋ผ๊ณ ํ์.
- 1000๊ฐ ๊น์ด์ RNN๊ณ์ธต์ด๋ผ๋ 10๊ฐ๋จ์๋ก ํ์ตํ๋๋ก ์ด๋ ๊ฒ ์๋ฅผ ์ ์๋ค!
- ํฐ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ๋๋ ์ ๊ฒฝ๋ง ์ฐ๊ฒฐ์ ์ ๋นํ ๊ธธ์ด๋ก ๋์.
- 5.2.5 Truncated BPTT์ ๋ฏธ๋๋ฐฐ์น ํ์ต

- ๋๋ฒ์งธ ๋ฏธ๋๋ฐฐ์น๋ฅผ ํ์ต ๋ฃ์ ๋ ๋ฐ์ดํฐ๋ฅผ ์์ ์์น๋ก ์ฎ๊ฒจ์ ๋ค์ ์์๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํด์ผ ํ๋ค.
5.3 RNN ๊ตฌํ
- ๊ตฌํ๊ตฌํ
5.4 ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ณ์ธต ๊ตฌํ
- ๊ตฌํ๊ตฌํ
5.5 RNNLM ํ์ต๊ณผ ํ๊ฐ
- 5.5.1 RNNLM ๊ตฌํ
- 5.5.2 ์ธ์ด ๋ชจ๋ธ์ ํ๊ฐ
- ์ธ์ด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ๋ ์ฒ๋๋ก ํผํ๋ ์ํ๋ฅผ ์ด์ฉํ๋ค.
- Perplexity, ํผ๋๋
- ์ด๋ ํ๋ฅ ์ ์ญ์๊ฐ
- ์ด๋ ์ง๊ด์ ์ผ๋ก ๋ถ๊ธฐ ์๋ก ํด์ํ ์ ์๋ค.
- ์
๋ ฅ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ๊ฐ๋ผ๋ฉด?
- $L = -\frac{1}{N}\sum\limits_{n}\sum\limits_{k}t_{nk}\log y_{nk}$
- $\text{perplexity} = e^L$
- ์ธ์ด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ๋ ์ฒ๋๋ก ํผํ๋ ์ํ๋ฅผ ์ด์ฉํ๋ค.
5.6 ์ ๋ฆฌ
- ์ด๋ฒ ์ฅ์ ์ฃผ์ ๋ ์ํ ์ ๊ฒฝ๋ง
- ์ด๋ฅผ ์ด์ฉํด ๋ฐ์ดํฐ๋ฅผ ์ํ์์ผ์, ๊ณผ๊ฑฐ -> ํ์ฌ -> ๋ฏธ๋๋ก ๋ฐ์ดํฐ๋ฅผ ํ๋ ค๋ณด๋ธ๋ค.
- ์ด๋ฅผ ์ด์ฉํด์ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ค์๊ณ , ์ด๋ ๋จ์ด ์ํ์ค์ ํ๋ฅ ์ ๋ถ์ฌํ๊ณ ๋ค์์ ์ถ์ฐํ ๋จ์ด์ ํ๋ฅ ์ ๊ณ์ฐํ๋ค.
- ์ด๋ก ์ ์ผ๋ก๋ ์๋ฌด๋ฆฌ ๊ธด ์๊ณ์ด ๋ฐ์ดํฐ๋ผ๋ RNN์ ์๋์ํ์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๊ฒ ํ ์ ์์ง๋ง, ์ค์ ๋ก๋ ์ ํ์ตํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
- ๋ค์์ฅ์์ LSTM, GRU๋ฑ์ ์์๋ณด๊ฒ ๋ค.
โ์ง๋ฌธ ์ฌํญ
- ๋ฏธ๋๋ฐฐ์น๋ฅผ ๋ง๋ค ๋, ๋ฌธ์ฅ์ ์์์ด ์๋ ๋๋ ์์ง ์์๊น? ๊ทธ๋ฌ๋๊น, ๋ฏธ๋๋ฐฐ์น์ ๋ฃ๊ธฐ ์ข๊ฒ ๋ฌธ์ฅ์ด ์๊ธด ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ ๋ง์ ๊ฒ ๊ฐ์๋ฐ…