YBIGTA NLP

📝 상세 정리

Classical NLP

ML로 텍스트를 이해하려는 시도
- 자연어 처리는 텍스트의 패턴을 컴퓨터에게 어떻게 먹이고 / 처리를 할것이냐?
NLP의 역사
- 규칙 기반 NLP
  - Rule Base: 사전에 만들어둔 규칙에 기반해 처리하자
  - nltk/wordnet: 유의어 사전(시소러스) 기반으로 단어의 의미를 인식
  - 비싸고
  - 정적이고
  - 모든 상황 표현이 부족하다
- 통계 기반 NLP
  - Corpus(말뭉치)에서 텍스트의 규칙을 찾자
  - 단어의 벡터표현
  - 분포 가설
    - 단어의 의미는 주변 단어에 의해 형성된다
  - Cosine 유사도…
  - 하지만 단어 벡터가 너무 고차원이다
  - SVD로 차원축소를 하기엔, 계산량이 너무 많다
  - 결국 큰 Corpus 안에서 다양한 단어들의 의미를 벡터화해야하는데
    - Corpus가 커지면 힘들다

NN Based NLP

Word2vec
- Neural Network를 사용해서 단어를 임베딩하자
- Cbow
  - Continuous Bag of words
  - 주위 단어로 가운데 단어 예측
  - you say goodbye and I say hello
    - you, goodbye -> say
    - say, and -> goodbye
    - goodbye, I -> and
    - …를 맞추도록…
  - 단어들을 id로 바꾼 후, 원핫벡터를 정답으로해서 순전파, softmax, 출력, 역전파..
- Skipgram
  - 중간단어 한개로 주변 n개단어의 context 예측
- 아무튼 그 결과 각 단어별 Embedding을 구할 수 있다 (벡터화 된다)

Sequential & Contextual NLP

Language Model
- Word2vec까지는 순서, 장기 문맥 고려 없이 단어들을 embedding한다.
- 문맥의 자연스러움을 평가하고 자연스러운 다음 단어를 예측하는 모델을 만들자!
RNN
- one to many: 첫 단어 입력에 대해 문장 예측
- many to one: 감정 label 예측
- many to many: 기계번역
- 등등 여러가지 모델을 만들 수 있다!
- 문제: 기울기 소실 / 폭발
  - 시퀀스가 너무 길면 뒷쪽 단어를 예측해서 나온 오차의 역전파가 앞쪽에 거의 반영되지 못한다.
LSTM
- 옛날 Weight가 사라지는것같아서, Gate를 달아서 가져오게 하겠다!
GRU
- LSTM이 너무 복잡하니까 조금 간소화하자

Transformer Attention

Seq2Seq
- 셀이 아닌 아키텍쳐
  - 위의 아키텍쳐 두개를 결합 (인코더 / 디코더)
- 모든 문장을 끝까지 들은 후 하나의 완전한 문장 생성
- 입력과 출력 시퀀스의 길이가 달라도 된다!
  - 번역에 가장 많이 쓴다
- 문제
  - 단계적 연산이 너무 느리다
  - 긴시퀀스에서 정보가 충분히 전달되지 않는다
Transformer
- 개선점
  - RNN계열 셀 배제 -> Transformer block 사용
  - 포지셔널 인코딩 - 시퀀스 비순차적 입력 -> 병렬처리
  - Self attention - 긴 문장의 장기맥락
- Encoder + Decoder 구조는 그대로 구현하였음!
- Attention
  - seq2seq에서의 Attention
    - 번역할 때 단어 “정보"와 “imformation"의 관계가 크지 않을까?
      - 이 점수가 Attention Score
  - 문맥 상 한 토큰과 관련이 높은 다른 토큰의 임베딩과의 관련도를 구하겠다!
  - 맥락과 포지셔닝으로 해결하자
- Self Attention
  - 다른 토큰에서 필요한 정보를 선택적으로 집계해 현재 토큰 표현을 갱신
- Multi Head Attention
  - 여러 종류의 관계를 병렬적으로 포착해 집계 신호의 다양성 증가
- Transformer 변형
  - Encoder & Decoder
    - 인코더만 잘라쓰면 BERT
    - 디코더만 잘라쓰면 GPT
    - LLM은 보통 디코더 베이스
  - BERT 계열
    - Representation Model
  - GPT 계열
    - Generative Pretrained Transformer
LLM
- Pretrain
  - 지식 + 문법적으로 맞게 글쓰기 습득
  - 데이터셋 corpus같은것을
  - 토크나이제이션 해서
  - 임베딩 + 포지셔널 인코딩을 하고
  - Masked 멀티헤드 어텐션을 먹여서
  - Loss를 계산하고 역전파를 하겠다!
- Post Train
  - Pretrain 후에는 글은 잘쓰는데 질문 -> 대답이나, 할루시네이션 방지등이 안된다.
    - 이걸 잡자.
  - 도메인 특화 지식 + 선호 및 지식에 맞게 튜닝
  - Supervised Fine Tuning
    - ex) instruction Tuning
    - 지시를 보면 이런 형태로 답하도록 학습
  - Reinforcement Learning
    - ex) RLHF, GRPO…
    - 지시를 따르되, 사람 취햐에 더 맞게 다듬기
- Agent
  - LLM 언어모델에게 Tool을 부여

YBIGTA NLP

📝 상세 정리

Classical NLP

NN Based NLP

Sequential & Contextual NLP

Transformer Attention

❔질문 사항

🔗 참고 자료