'분류 전체보기' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (64)

huginn muninn

[Paper Review] DeepSeek-V3 Technical Report (2024) - 1

https://arxiv.org/pdf/2412.19437 DeepSeek가 미국의 H100 같은 고사양 칩 없이, H800만으로도 최첨단 AI 모델을 만들어냈다. 보통 LLM을 훈련하려면 엄청난 연산량과 메모리가 필요한데, MLA(Multi-Head Latent Attention)랑 MoE(Mixture of Experts) 구조를 써서 연산 비용을 확 줄였다고 한다. 덕분에 저비용으로도 대규모 모델을 돌릴 수 있게 됐고, 심지어 오픈소스로 공개까지 했다 wow! 코드 꽁꽁 숨기는 다른 회사들 생각하면 좀 통쾌하기도 하고 ㅋㅋ 게다가 LLM의 블랙박스 문제 해결에 한 걸음 다가간 것 같아서 꽤나 설레는 중이다. 지금 DeepSeek 때문에 미국도 난리고 주식장도 난리인데, X나 스레드 내에서의 여..

자연어 처리 2025. 1. 30. 20:56

[Paper Review] RoBERTa : RoBERTa: A Robustly Optimized BERT Pretraining Approach (2019)

🎯 핵심 요약기존 BERT는 충분히 학습되지 않았음.RoBERTa는 더 오래, 더 많은 데이터로, 더 효율적으로 학습하여 성능을 향상시킴.NSP를 제거해도 성능 저하가 없었고, 동적 마스킹을 통해 더 일반화된 모델을 만듦.GLUE, SQuAD, RACE 같은 NLP 벤치마크에서 기존 모델보다 더 높은 성능을 기록. 😍 RoBERTa : BERT의 한계를 넘어서다. 자연어 처리(NLP)에서 사전 학습된 언어 모델은 필수적인 기술로 자리 잡았습니다. 특히 BERT(Bidirectional Encoder Representations from Transformers) 는 등장 이후 다양한 벤치마크에서 뛰어난 성능을 보이며 NLP의 판도를 바꿔 놓았습니다. 하지만 BERT의 학습 과정이 최적화되지 않았다는 점..

자연어 처리 2025. 1. 29. 20:32

[Paper Review] GPT-1 : mproving Language Understanding by Generative Pre-Training (2018)

💫 핵심 요약 GPT-1은 라벨링되지 않은 대규모 텍스트 데이터로 사전학습 후 각 작업에 맞게 미세조정하는 2단계 학습 방식을 제안트랜스포머 디코더 구조를 활용해 이전 단어들로부터 다음 단어를 예측하는 생성 모델 작업별 맞춤 구조 대신 간단한 입력 변환만으로 다양한 NLP 작업에 적용 가능 12개 NLP 작업 중 9개에서 최고 성능을 달성하며 특히 상식 추론에서 8.9%, 질문 답변에서 5.7% 성능 향상 적은 라벨링 데이터로도 높은 성능을 달성할 수 있는 효율적인 학습 방법을 제시 ⭐️ Abstract자연어 이해(NLU, Natural Language Understanding)는 질문 응답, 문서 분류 같은 다양한 작업이 있습니다.이런 작업들을 수행하려면 라벨링된 데이터가 필요한데, 이런 데이터를 만..

자연어 처리 2025. 1. 29. 16:13

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) 간단정리

- 한 줄 요약BERT는 Transformer의 인코더만 사용함. Abstract왼쪽과 오른쪽 문맥을 모두 활용해 양방향으로 학습된 언어 모델, 기존의 많은 NLP작업에서 뛰어난 성능을 보여주며 사전 훈련된 BERT 모델은 간단한 출력층 추가만으로도 다양한 작업에 적응할 수 있다. Introduction이전의 단방향 모델들의 한계를 극복하기 위해 "Masked Language Model"과 "Next Sentence Prediction"을 사용하여 사전 학습을 수행. BERT는 여러 NLP 작업에서 뛰어난 성능을 발휘하며, 기존의 많은 task-specific 모델을 능가하는 성과를 보임. Related WorkUnsupervised Feature-based Approaches주로 word embeddi..

자연어 처리 2025. 1. 19. 20:29

Limitations of Attention and Transformer

가중치 합을 구할 때 Key 정보를 각각 내적하기 때문에 순서정보를 반영하지 못한다.👁️ 눈을 감으면 네 생각이 나.🌨️ 눈이 내리는 날 우리 만나. 우리는 이 두 문장을 봤을 때, 첫번째 문장의 눈과 두번째 문장의 눈이 다른 것을 바로 파악할 수 있지만 컴퓨터는 그렇지 못한다.attention에서는 내적하기 때문에 주변 단어의 맥락을 파악하기가 어렵다. 그래서 Positional Encoding이 등장했다. Positional Encoding 트랜스포머는 단어의 위치 정보를 얻기 위해 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용하는데 이를 포지셔널 인코딩이라고 한다.임베딩 벡터가 인코더의 입력으로 사용되기 전, 포지셔널 인코딩값이 더해지는 과정을 시각화하면 아래와 같다. ..

자연어 처리 2025. 1. 19. 18:50

오차행렬(confusion matrix)

이진 분류에서 성능 지표로 잘 활용되는 오차행렬은 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지 함께 보여주는 지표이다. 즉 이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표이다. 처음 공부할 때 TP, TN, FP, FN이 헷갈려서 위와 같이 정리해보았다. 앞에 위치한 T, F는 실제로 정답을 맞추었는지를 의미하는 것으로, 아래 예시로 설명할 수 있다. TP : 실제로 비가 왔는데, 모델이 비가 온다고 함. TN : 실제로 비가 안왔는데, 모델이 비가 안 온다고 함. TP,TN,FP,TN 값은 classifier 성능의 여러 면모를 판단할 수 있는 기반 정보를 제공한다. 이 값을 조합해 Classifier의 성능을 측정할 수 있는..

머신러닝 2024. 9. 12. 00:34

[프로그래머스] 노선별 평균 역 사이 거리 조회하기, 정렬 시 주의할 점

https://school.programmers.co.kr/learn/courses/30/lessons/284531 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr -- 코드를 작성해주세요-- 노선별로 노선, 총 누계거리, 평균 역 사이 거리SELECT ROUTE,CONCAT(ROUND(SUM(D_BETWEEN_DIST),1),'km') AS "TOTAL_DISTANCE",CONCAT(ROUND(AVG(D_BETWEEN_DIST),2),'km') AS " AVERAGE_DISTANCE"FROM SUBWAY_DISTANCEGROUP BY ROUTEORDER BY..

코딩테스트 2024. 7. 16. 15:39

[Leetcode] SQL Medium 1174, 550, 1070, 1045

1174. Immediate Food Delivery IIhttps://leetcode.com/problems/immediate-food-delivery-ii/description/# Write your MySQL query statement below-- 고객이 원하는 배송 날짜가 주문 날짜와 동일하면 즉시 주문이 호출된다. -- 전체 고객의 첫번째 주문에서 즉시 주문의 비율을 소수점 이하 2자리까지 반올림해 구하는 솔루션을 작성. -- 첫번째 주문만WITH FIRST AS(SELECT CUSTOMER_ID, MIN(ORDER_DATE) AS OD, MIN(CUSTOMER_PREF_DELIVERY_DATE) AS DELIVERYFROM DELIVERYGROUP BY CUSTOMER_ID..

코딩테스트 2024. 6. 29. 02:41

[회고] 토스 데이터 직군 서류 합격부터 면접 탈락까지

5월 말 회사 어시스턴트 퇴사 후, 좋은 기회로 토스 데이터 직군에 서류를 넣을 수 있게 되었다. 대학교 1, 2학년 땐 토스에서 꼭!!! 일해야지 말하고 다닐 정도로 나의 꿈이었는데, 취준 고민 중에 기회가 와서 행운처럼 느껴졌다. 사실 토스에 신입으로 들어가기 어렵다는 사실은 잘 알고 있다... ㅠ.. 토스뿐만이 아니라 사실 데이터 직군이 다 그렇긴 함. 그래서 자신감도 많이 떨어져 있었고, 그냥 경험 많이 쌓는 것이 답...이전에 학부연구생 경험이 있어서 어시스턴트하기 전에는 대학원에 바로 진학할 생각도 있었지만, 나한테 확신이 없었던 것 같다. 대학원은 공부를 하러 가는 곳이 아니라(공부도 물론 열심히 해야 함) 연구를 하러 가는 곳이라고 생각했기 때문에 내가 확실하게 연구하고 싶은 것이 없으..

회고 2024. 6. 27. 04:24

[leetcode] 626. Exchange Seats

https://leetcode.com/problems/exchange-seats/description/?envType=study-plan-v2&envId=top-sql-50 연속된 두 학생 마다 좌석 id를 바꾸는 솔루션을 작성, 학생수가 홀수인 경우 마지막 학생의 id는 교환되지 않는다.정렬된 결과를 id 오름차순학생 수가 홀수인 경우 마지막 학생의 Id는 교환되지 않음+-------------+---------+| Column Name | Type |+-------------+---------+| id | int || student | varchar |+-------------+---------+id is the primary key (unique value) ..

코딩테스트 2024. 6. 27. 01:34

이전 Prev 1 2 3 4 ··· 7 Next 다음

목록분류 전체보기 (64)

huginn muninn

티스토리툴바