Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- 연구
- Aspect
- 머신러닝
- LLM
- GPT
- paper review
- SQL
- transformer
- SQL 첫걸음
- Bert
- ChatGPT
- deepseek
- dfs
- leetcode
- 분산
- ABAE
- 그래프
- 프로그래머스
- join
- gpt1
- 알고리즘
- 가상환경
- 코딩테스트
- 파이썬
- MySQL
- outer join
- 백준
- 자연어처리
- NLP
- 논문리뷰
Archives
- Today
- Total
목록koNLPy (1)
huginn muninn
Okt(Open Korean Text)로 형태소 어간 추출
연구에 사용할 데이터를 형태소 분석기로 형태소 원형(어간)으로 만들어주는 작업을 하려고 한다. Mecab 하고 Okt 중 뭘 사용할지 고민하다가 리뷰 데이터 전처리에 적합하기도 하고, 단어의 형태소 원형으로 바꾸는 게 가능한 Okt를 사용하기로 했다. Okt(Open Korean Text) 오픈소스 한국어 분석기이고 과거 트위터 형태소 분석기였다. morphs(text) : 텍스트에서 형태소를 반환 nouns(text) : 텍스트에서 명사 반환 phrases(text) : 텍스트에서 어절을 뽑아냄 pos(text) : 텍스트에서 품사 정보를 부탁하여 반환. from konlpy.tag import Okt okt=Okt() sentence = "테라스에서도 흡연이 안 된다고 해서 일부러 건물 밖으로 나가서..
자연어 처리/한국어 전처리
2023. 3. 10. 20:55