| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- transformer
- 파이썬
- deepseek
- dfs
- 프로그래머스
- Bert
- 머신러닝
- 백준
- 논문리뷰
- 코딩테스트
- paper review
- join
- 가상환경
- outer join
- gpt1
- MySQL
- 그래프
- NLP
- 자연어처리
- LLM
- GPT
- SQL 첫걸음
- 분산
- leetcode
- ChatGPT
- 연구
- ABAE
- SQL
- 알고리즘
- Aspect
- Today
- Total
목록NLP (5)
huginn muninn
https://arxiv.org/pdf/2412.19437 DeepSeek가 미국의 H100 같은 고사양 칩 없이, H800만으로도 최첨단 AI 모델을 만들어냈다. 보통 LLM을 훈련하려면 엄청난 연산량과 메모리가 필요한데, MLA(Multi-Head Latent Attention)랑 MoE(Mixture of Experts) 구조를 써서 연산 비용을 확 줄였다고 한다. 덕분에 저비용으로도 대규모 모델을 돌릴 수 있게 됐고, 심지어 오픈소스로 공개까지 했다 wow! 코드 꽁꽁 숨기는 다른 회사들 생각하면 좀 통쾌하기도 하고 ㅋㅋ 게다가 LLM의 블랙박스 문제 해결에 한 걸음 다가간 것 같아서 꽤나 설레는 중이다. 지금 DeepSeek 때문에 미국도 난리고 주식장도 난리인데, X나 스레드 내에서의 여..
🎯 핵심 요약기존 BERT는 충분히 학습되지 않았음.RoBERTa는 더 오래, 더 많은 데이터로, 더 효율적으로 학습하여 성능을 향상시킴.NSP를 제거해도 성능 저하가 없었고, 동적 마스킹을 통해 더 일반화된 모델을 만듦.GLUE, SQuAD, RACE 같은 NLP 벤치마크에서 기존 모델보다 더 높은 성능을 기록. 😍 RoBERTa : BERT의 한계를 넘어서다. 자연어 처리(NLP)에서 사전 학습된 언어 모델은 필수적인 기술로 자리 잡았습니다. 특히 BERT(Bidirectional Encoder Representations from Transformers) 는 등장 이후 다양한 벤치마크에서 뛰어난 성능을 보이며 NLP의 판도를 바꿔 놓았습니다. 하지만 BERT의 학습 과정이 최적화되지 않았다는 점..
일주일 내내 감기에 시달리는 와중에 실험은 돌림.. 요즘 목감기가 유행인감(;´д`)ゞ 일주일 동안 헤롱헤롱한 상태로 거의 말도 못 하고 살았다.. 그래도 실험은 돌림 train은 10분 정도 걸렸고, aspect 수는 14개. 임베딩은 그냥 word2vec으로 했다. 기존 논문들 참고해보니 word2vec으로 한 게 성능이 가장 좋았다. 그래서 일단은 나도 word2vec으로 임베딩해보고, 성능이 좋지 않으면 다른 방법을 찾아보기로 했다. aspect log Aspect 0: 룸 - 청결도 닿다 호스 녹슬다 시커멓다 천정 덕지덕지 실리콘 수구 모서리 서랍 소변 망가지다 사이사이 뜯다 넘치다 빨갛다 뚜껑 오물 하얗다 방바닥 붉다 수전 문도 찍히다 매트 얇다 화장대다 녹 틈 협탁 놓이다 전등 벗겨지다 자꾸..
형태소 분석을 할 때 Okt를 사용했는데 단어로 인식하지 못하고 분리하는 단어들이 있어 하나하나 처리해줬다.. Okt 사전 편집하는 방법도 사용해봤는데; 내 컴에서는 제대로 되지 않았다 ㅠㅜ 몇 시간 동안 삽질하다가 안되서 포기하고 급한 일부터 처리하기로.. 가성 비 - > 가성비 리 모델링 → 리모델링 리노 베이 션 → 리노베이션 투숙 객→ 투숙객 맛 집→ 맛집 맘 → 마음 내 돈 내 산 → 내돈내산 묵→ 묵다 퇴 실하다→ 퇴실하다. 담배 꽁초 → 담배꽁초 묵다다→묵다 이기, 헤어 드 라이 → 헤어드라이기, 드라이기 비리 다→ 비리다 체크 인→ 체크인 체크인하다→체크인 마카 세 → 오마카세 암 막 커튼→암막커튼 풀 장 인피니티 풀 -> 인피니티풀 아웃렛->아울렛 푸드코드->푸드코트 해 파랑->해파랑 울..
내가 사용하는 데이터셋은 아고다에서 크롤링한 호텔리뷰. 호텔이름과 리뷰로 이루어진 데이터인데 문장 단위로 분리하여 약 2만 개였던 리뷰가 약 6만 개가 되었다. test dataset을 만들기 위해 aspect를 미리 선정해놔야한다. aspect 선정을 위해 아고다 말고도 다른 호텔 예약 서비스를 살펴보았다. 여기 어때는 없는 것 같다. 이를 토대로 aspect를 선정한 결과 ⬇️ 룸 : 청결도, 소음, 뷰, 분위기, 룸 안의 물건, 화장실, 감정(ex: 편하다, 무섭다.. 등등) 부대시설 : 조식, 디저트, 수영장, 인피니트풀, 주차장, 찜질방, 사우나, 스파 등 위치 : 위치, 주변 언급 시 서비스 : 직원, 체크인, 체크아웃 등 가성비 : 가성비, 가격 대비 만족도 언급 목적 : 숙박 목적, 가족여..