| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- Bert
- ChatGPT
- 파이썬
- leetcode
- 연구
- join
- 프로그래머스
- paper review
- deepseek
- gpt1
- 그래프
- LLM
- ABAE
- 논문리뷰
- dfs
- NLP
- 가상환경
- SQL
- 코딩테스트
- 머신러닝
- 분산
- Aspect
- 자연어처리
- 알고리즘
- GPT
- 백준
- outer join
- SQL 첫걸음
- transformer
- MySQL
- Today
- Total
목록transformer (2)
huginn muninn
🎯 핵심 요약기존 BERT는 충분히 학습되지 않았음.RoBERTa는 더 오래, 더 많은 데이터로, 더 효율적으로 학습하여 성능을 향상시킴.NSP를 제거해도 성능 저하가 없었고, 동적 마스킹을 통해 더 일반화된 모델을 만듦.GLUE, SQuAD, RACE 같은 NLP 벤치마크에서 기존 모델보다 더 높은 성능을 기록. 😍 RoBERTa : BERT의 한계를 넘어서다. 자연어 처리(NLP)에서 사전 학습된 언어 모델은 필수적인 기술로 자리 잡았습니다. 특히 BERT(Bidirectional Encoder Representations from Transformers) 는 등장 이후 다양한 벤치마크에서 뛰어난 성능을 보이며 NLP의 판도를 바꿔 놓았습니다. 하지만 BERT의 학습 과정이 최적화되지 않았다는 점..
가중치 합을 구할 때 Key 정보를 각각 내적하기 때문에 순서정보를 반영하지 못한다.👁️ 눈을 감으면 네 생각이 나.🌨️ 눈이 내리는 날 우리 만나. 우리는 이 두 문장을 봤을 때, 첫번째 문장의 눈과 두번째 문장의 눈이 다른 것을 바로 파악할 수 있지만 컴퓨터는 그렇지 못한다.attention에서는 내적하기 때문에 주변 단어의 맥락을 파악하기가 어렵다. 그래서 Positional Encoding이 등장했다. Positional Encoding 트랜스포머는 단어의 위치 정보를 얻기 위해 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용하는데 이를 포지셔널 인코딩이라고 한다.임베딩 벡터가 인코더의 입력으로 사용되기 전, 포지셔널 인코딩값이 더해지는 과정을 시각화하면 아래와 같다. ..