huginn muninn

[ABAE] 1차 실험 결과 및 교수님 Feedback 본문

자연어 처리/ABAE

[ABAE] 1차 실험 결과 및 교수님 Feedback

_maddy 2023. 3. 26. 19:27

일주일 내내 감기에 시달리는 와중에 실험은 돌림.. 요즘 목감기가 유행인감(;´д`)ゞ

일주일 동안 헤롱헤롱한 상태로 거의 말도 못 하고 살았다.. 그래도 실험은 돌림 train은 10분 정도 걸렸고, aspect 수는 14개.

 

임베딩은 그냥 word2vec으로 했다. 기존 논문들 참고해보니 word2vec으로 한 게 성능이 가장 좋았다. 그래서 일단은 나도 word2vec으로 임베딩해보고, 성능이 좋지 않으면 다른 방법을 찾아보기로 했다. 

 

 

aspect log

Aspect 0: 룸 - 청결도
닿다 호스 녹슬다 시커멓다 천정 덕지덕지 실리콘 수구 모서리 서랍 소변 망가지다 사이사이 뜯다 넘치다 빨갛다 뚜껑 오물 하얗다 방바닥 붉다 수전 문도 찍히다 매트 얇다 화장대다 녹 틈 협탁 놓이다 전등 벗겨지다 자꾸 누런 조각 페인트 탁자 군데군데 물곰팡이 스탠드 전기포트 구가 양념 덩어리 뭉치 회색 정체 검다 한쪽 여니 싱크대 물질 수도꼭지 손잡이 고무 벽면 천장 곳곳 미끄럽다 노랗다 흔들리다 가득 망은 말르다 나무 흔적 전구 찌들다 출입문 흐르다 고여 밀다 습하다 헤드 쉰내 썩다 시체 고리 방안 현관 아래쪽 비데 너덜너덜 필터 가루 잔뜩 흘러나오다 습기 창틀 방충 튀어나오다 뚫리다 발 거미줄 선반 맨발 구석 블라인드 풍구

Aspect 1: 위치
건대 주문진 자갈치시장 광장시장 구로 밥집 횟집 남대문 인사동 운동 대게 수산시장 돌아보다 코엑스 해장국 접근 요트 설 치기 여행지 부근 경복궁 서울역 유명하다 잠실 맛집들이 야시장 금성 물회 을지로 시티 마을 한강 한가운데 홍대 운치 근방 제주시 덕수궁 존 명소 해안가 해상 외진 숍 광화문 과의 스카이 춘천 탁월하다 체험 벗어나다 투어 역사 자연 롯데마트 레이스 즐 콘서트 중심지 롭고 요리 광장 강남 가족여행객 몰다 와의 시청 한적하다 와는 근접 고속 지로 어린이 갈수 다이소 외다 가든 주민 만으로도 동문시장 동쪽 건너다 빵집 로운 경 종로 해수욕 마포 코스 용이하다 올레길 식당가 객리 광 외곽 귤 주로 빌딩 플레이

Aspect 2: 가성비
일반 값 특 금액 가 사이트 평점 평소 지불 스위트 비용 짜다 원대 실제 사실 당 원도 이라고 나은 최저 별관 이상은 고르다 묶다 할인 믿다 이름 모델 스위트룸 기준 아깝다 후회 평일 이라니 내야 블룸 어플 리뷰 추석 감안 주니어 돈 극 낼 베드로 싼값 만도 다르다 회원 상품 만원 만큼의 책정 성수기 다라 이돈 이유 가치 등급 블로그 오천 단계 료 감수 타 예매 고민 혹 원인 정 솔직하다 클래스 프리미엄 비싸다 그랜드 트윈룸 현장 일박 홍보 장사 통해 용도 천 속지 그중 게스트하우스 표현 급 해봤다 혜택 비즈니스 포기 아이파크 아끼다 저가 슈퍼 분명 아무리 연휴 기대다

Aspect 3: 부대시설
외부 주차장이 공용 공영 주차공간 소하 지하 타워 협 야외 기계 지상 공터 협소 주차장 자리 노상 어렵다 차량 대수 공 진입 세우다 미터 부족 입구 길가 차서 통로 식 차라 대야 엘리베이터 주차 가능 협소함 꽉 에다가 유료 수용 불편 간격 만석 번거롭다 복잡하다 요원 전기차 늘다 통행 어려움 매점 차지 출입 사우나 대로변 이용자 건너 건너편 느리다 혼잡하다 협소합 공간 걸어오다 부족하다 헬 노래방 발레파킹 길다 사고 캐리어 길이 관리인 아울렛 가능하다 계단 차도 취사 운행 선착순 쓸데없이 세탁실 차 길 구역 안내받다 실외 이동해 커피숍 무인 힘드다 옥상 헬스장 턱 반입 용량 뒤편 제한 펍 운전 동

Aspect 4: 룸 - 물건, 어메니티
용품 일회용 치약 면도기 세면도구 린스 물품 칫솔 일회용품 세트 지급 샴푸 비누 워시 보디 면봉 쓸다 타월 스펀지 가운 식기 점검 덜 로션 빗 슬리퍼 드라이기 라도 컨디셔 설거지 어메니티 커피포트 세팅 아예 동작 세탁 건지다 라든지 생수 컵 팩 음료 채우다 가져가다 체크 부러지다 티백 구비 이해 제품 최소한 면도 충전기 리모컨 챙기다 대충 개선 전혀 팅 시스템 필요 방치 준 일체 쓰레기통 인력 써다 물건 판매 뭘 도대체 폼 분실 아무렇다 리필 수건 세면 빨다 세제 작동 양심 화 문제 음식물 비품 언급 의아 사전 미비 채 기능 불만 투명 여분 아직 바라다 누수 솜 흔 회용

Aspect 5: 룸 - 상태
밤새 바람 위층 켜다 틀다 깨다 덥다 계속 돌아가다 들려오다 히터 떠들다 쿵쿵 목소리 들어오다 닫다 끄다 열다 보일러 지르다 일어나다 옆방 신음 환풍기 새벽 뛰어다니다 춥다 무섭다 코 닫히다 막히다 음악 잠들다 밤새다 모기 두드리다 문도 아프다 지나가다 목 덜덜 방기 도저히 자동 울 거슬리다 자꾸 내려가다 입다 온도 난 난리 한숨 흐르다 막다 파도 층간소음 물소 문 씻다 불 꺼지다 어록 시끄럽다 복도 뜨겁다 윗방 말소리 내내 누가 켜 두시 대화 이다 발 밖 시가 열 튀어 전기 뻑뻑 밤늦다 팬 소리 틈 잠도 찬 열기 잠기 깜짝 창문 어보 빵빵 죽다 추다 마리 매트 기차 에어컨 짖다

Aspect 6: 서비스
문의 연락 항의 얘기 번호 전화 확인 카운터 물어보다 전화하다 하니 미리 실수 퇴실 프런트로 컴 상황 죄송하다 질문 환불 사과 카드 먼저 이야기 답변 플레인 요구 직접 조치 말씀드리다 부탁 사전 설명 처리 요청 해달라다 사항 키 대답 전달 귀찮다 말씀 체크아웃 레이 손님 과정 가져다주다 표 듣다 주심 잘못 인사 공지 기다리다 체크 트 미안하다 빨리 관련 정보 안내 통화 취 도와주다 외출 발생 입실 변경 교환 리셉션 무시 착용 지나다 내용 방법 문자 프런트 연장 옴 아무렇다 정확하다 얼리다 여쭈다 측 한테 시로 체크인 시라 취소 오후 갖다 규정 대해 고객 입장 뽑다 방송 맞추다 본인 보상

Aspect 7: 룸 - 청결도
물때 벽지 구멍 변기 곰팡이 샤워기 타일 세면대 자국 소파 곳곳 샤워실 찢어지다 털 커버 깔다 헤드 베개 물질 흔적 얼룩 실리콘 휴지 머리 얇다 조명 방안 검다 찌들다 지저분하다 벌레 새다 수구 핏 소변 덕지덕지 천장 군데군데 바닥 걸이 오염 의자 가득하다 걸레 습하다 가득 머리카락 묻다 찝찝하다 커튼 발 시트 욕실 시커멓다 호스 비데 놓이다 유리 가닥 벽 앉다 카펫 잔뜩 썩다 구석 뜯다 넘치다 방바닥 패브릭 뭉치 젖다 싱크대 붉다 부스 쓰레기 쉰내 빠지다 탁자 덮다 누런 페인트 그대로 얼룩지다 너덜너덜 창틀 이불 배수 누렇다 선반 방충 모서리 눅눅하다 닿다 벽면 화장대다 천정 매트리스 빨갛다 여기저기 린다

Aspect 8: 위치
공원 동대문 지하철역 중앙시장 관광지 시장 올레 대포항 터미널 이마트 쇼핑 명동 근접하다 가까이 해수욕장 구경 인접 케이블카 정류장 번화가 시내 한옥마을 해운대 인근 해변 호선 버스 백화점 버스정류장 지하철 삼포 항 주요 종로 음식점 광안 걸어가다 유명 중심 애월 관광 여의도 낙산사 오동도 먹거리 엑스포 산책 바닷가 동문 센터 역도 마을 산책로 청초 설악산 도보 서귀포시 스타벅스 맛집 광화문 차로 코스 대중교통 남부 청계천 덕수궁 낭만 중문 수산시장 포차 함덕 영등포 올림픽공원 가깝다 유명하다 경포 접근 아바이 서귀포 코앞 객리 해안 공항 동문시장 컨벤션 아울렛 횟집 이동 마포역 시청 주위 메인 편리 과도 상가 애매하다 건너 시티 명소 멀다

Aspect 9: 룸 - 분위기
인테리어 대체로 치고는 우수하다 깨끗 외관 청결하다 노후하다 세련되다 고급스럽다 신식 무난 체적 양호 만족 성 디자인 연식 그다지 짱 최신 완벽하다 나름 만족도 자체 쾌적하다 낙후 깔끔하다 만족스럽다 안락하다 최상 작 뛰어나다 모던 너무나 구조도 훌륭하다 내부 굿 규모 군더더기 올드 앤티크 나머지 그럭저럭 스럽지 이며 완전하다 제외 쏘쏘 심플 집기 조건 고급 널찍하다 한가지 부실하다 완전 워낙 편임 클래식 시설 펴다 측면 어수선하다 꽝 반면 신축 분위기 시골 경치 가성비도 부족함 말고는 깨끗하다 청결 산뜻하다 지은 언제나 정갈하다 내부시 편안함 이하 콘셉트 편입 대박 설다 보다도 솔직하다 리뉴얼 갖추다 열악하다 빼놓다 숙박업소 명성 만큼 노후화 경관 그만큼 스타일

Aspect 10: 목적
계획 제주도 강릉 휴가 호캉스 베네치아 부산 예정 항상 담 강원도 커플 출장 알아보다 가요 전주 목적 머물다 자주 가도 묵다고 무조건 지금껏 의향 떠나다 가족여행 간다 아들 국내 기회 서울 아산병원 기간 매년 모처럼 행복하다 더원 후회 겁니다 제주 고민 동반 끼리 첫 다녀오다 추억 신화 결혼 아동 검색 일로 병원 월드 장소 가볍다 또는 세인트존스 가면 해드리다 양양 지인 개월 머무르다 급하다 달 카카오 부모님 찾다 여름 늘 여수 휴식 건데 내년 연인 지로 박만 공연 단위 마리나 베이 델피 기념 작년 유아 철 장기 즐겁다 거임 신라스테이 친구 한국 가을 추석 전날 에게도 보내다 에겐 지난번 또다시

Aspect 11: 기타
곤란하다 세상 필수 하고도 대체 깨 출입구 개수대 셀 곱다 아마 희다 한국인 층수 족 어서 지나치다 정작 아마도 링 탑 하나요 덤 가림 짓 욕 인가요 무지 위험하다 생 지나 판 톤 동행 슬 아직도 라니 부 떼다 냄비 지고 자도 그건 컴퓨터 계절 풀기 건조대 류 사랑 스 신랑 화나다 황당 하단 불가능하다 소독 그룹 거미 요가 적어도 게임 하나로 뻔 문구 학생 더불다 돌 감옥 어르신 이벤트 햄 제목 거주 줄다 맨 한동안 형식 딸리다 속상하다 왠지 적히다 동남아 오늘 웃음 일부 떠오르다 화려하다 제발 사라지다 나무라다 텔레비전 놈 거려 전쟁 홀 놀래다 상상 찜질방 포인트 명의

Aspect 12: 직원 서비스
불친절하다 불친절 응대 여직원 님 말투 데스크 께서 대응 상냥하다 태도 표정 미숙 대처 대해 남자 께 리셉션 분들 페셔널 도와주다 주인 담당 아르바이트생 관계자 호텔리어 상주 인포 교육 빠르다 지배인 감사하다 서도 아주머니 직원 근무 친절하다 마주치다 배려 매니저 하우스키퍼 감사 퉁 미소 젊다 친절 나이 체크인도 말씀드리다 프런트 대하 무뚝뚝하다 하나같이 무표정 웃다 대한 메이드 성의 남성 소통 스태프 인사 모습 적극적 마인드 무례하다 감동 싹수없다 매뉴얼 고객 프로 도움 스텝 카운터 바쁘다 키핑 분도 취 여자 말씀 노력 인상 심 한테 사항 착용 주심 여성 기사 계시 접수 무성의 서비스 아저씨 사장 들어주다 처리 질문 안내 매너

Aspect 13: 직원 서비스, 호텔 서비스
입력 방송 오류 어떠하다 옴 영수증 보상 끊다 번만 규정 명도 무시 정확하다 말로 뽑다 자르다 팀 반납 달래다 본인 양해 문자 퇴근 입 분실물 서로 선 반응 작업 책임 시라 뭘 메일 풀다 오늘 하자 소용없다 돌리다 읽다 대놓고 통보 던지다 빨리 둥 아무렇다 지난 어이없다 입장 시간대 체 미안하다 뭐라다 란 실수 신분증 부르다 관리자 보라 분실 한밤중 연장 황당하다 피해 차례 질문 표 화재 이라도 내면 궁금하다 거절 돌려주다 바뀌다 당하다 프런트로 벨 해당 조치 전달 내용 맞추다 찜질방 멈추다 담당자 대서 듯이 이미 주의 에야 봉 융통성 바르다 뚫다 보관 그날 큰소리 종이 피드백 대책 언급

 

시간도 얼마 안걸렸는데 내가 지금까지 사용해 봤던 키워드 추출 방법들보다 훨씬 잘 나와서 놀랐다...

게다가 임베딩은 Word2Vec로만 했는데도 결과가 너무 좋아서 놀람.. 내가 임의로 결정한 aspect로 labeling을 해서 성능도 확인해 보았다. 

 

성능

precision    recall  f1-score   support

           룸      0.652     0.212     0.320       406
          기타      0.100     0.013     0.022       159
          위치      0.025     0.023     0.024       130
         서비스      0.244     0.183     0.210       120
        부대시설      0.000     0.000     0.000       101
         가성비      0.062     0.547     0.111        64
          목적      0.000     0.000     0.000        42

   micro avg      0.147     0.145     0.146      1022
   macro avg      0.155     0.140     0.098      1022
weighted avg      0.310     0.145     0.165      1022

음.. 성능은 좋지 않다..இ௰இ
원래 aspect 정확도가 기존 논문에서도 좋지 않긴 하지만 이 결과로는 논문을 못 쓸거 같다. 사실 이 정도의 성능을 예상하긴 했지만 원인과 해결법을 정리해 보기로 했다. 

 

 

성능이 좋지 않은 원인

  • 한 문장에 하나의 aspect만 있지 않음….
    -> 이게 무슨 소린가 하면은... 

    ex) 마포역 바로 앞이라서 김포공항 가는데 아주 편했고 직원분들 친절하셨습니다.

    위의 리뷰에는 마포역 바로 앞이라는 위치 aspect와 직원 분들이 친절하다는 서비스 aspect가 포함되어있다. 나는 이 리뷰를 test data에서 test label data를 labeling할 때 하나의 aspect만 적었기 때문에 성능이 좋지 않을 수도 있다. 

  • train data의 개수?
    기존 논문들을 살펴보면 거의 15만개 정도. 나는 약 6만 개 정도 된다. 

  • class가 7개.
    원래 다중 레이블 예측은 성능이 좋지 않은 법...

 

해결법

나름대로 해결법을 생각해보았다. 

  • class를 줄이기
  • 하나의 aspect만 들어있는 리뷰만 고르기
  • 데이터를 더 수집하기
  • 정확도에 의존하지 않고 한 문장에서 aspect 여러 개 뽑아보기
  • 1,2,3 순위 aspect를 뽑아 순위 내에만 있다면 맞다고 처리. 

 

교수님 Feedback

이 실험 결과를 가지고 교수님께 Feedback을 받은 결과..

이것저것 조언해주셨다... 이를 토대로 내가 앞으로 해야 할 것을 정리해 보았다. 

 

  1. 정확도 높이기
  2. 나만의 특별한 방법 만들기
  3. test dataset의 rule based 성립하기
  4. 리뷰에서 모든 aspect 뽑는 방법 해보기
  5. aspect 3개를 뽑아서 3개 안에만 있으면 맞다고 체크.