본문 바로가기

Data6

[text classification, categorizing] fasttext, bert로 자연어 분류하고 비교하기 (작성중) 목적: 7가지의 대분류로 라벨링되어 있는 상품 키워드 데이터를(총 24417개) 학습하고, 이를 기반으로 새로운 키워드 입력시, 자동으로 해당 키워드를 대분류(category)로 분류하는 모델 성능 측정 방식: 1. 한국어 키워드 전처리 (null값 제거, 특수문자 제거, 불용어 제거) 2. 키워드 토큰화 * 이때 나의 미숙함으로 토큰화된 데이터가 데이터프레임화 형식으로 만들어지지 않음 -> 이 부분은 다시 생각해보기 3. train/test 분리 4. 모델 학습 5. 키워드 입력시 카테고리 분류하는 message 출력 모델 선정 기준: 자연어를 벡터화하여 유사도에 따라 학습하는 semantic 모델 이 중 자연어 처리(그 중에서도 konlp) 및 text classfication에 주로 쓰이는 fast.. 2021. 7. 21.
인공신경망 모델 neural net model in R 학교 과제로 타이타닉 데이터셋을 활용하여 인공신경망 모델을 최적화했다 찾아보니 keras 라이브러리로 만드는 방법 말고는 학습곡선 관련 라이브러리가 아예 존재하지 않는 거다 ㅠㅠ 그래서 모델학습 시킬 때 시키는 횟수를 카운트하여 epoch 수로 정의하고 이때의 개별적 정확도를 측정하여 ggplot2로 그래프를 그렸다 원래는 손실함수 곡선으로 많이 그리는 것 같은데 우리의 것도 내용은 동일하니 유의미한 것 같다 error 값을 그 반대인 accuracy로 대칭시킨 것 뿐이니...이렇게 learning curve 혹은 loss curve를 치면 판단 방법은 나오는데 코드는 정말 안 나온다..^^;; 그래서 내가 쓴 코드가 혹시 도움이 될까 싶어 ! 이렇게 블로그를 작성하는 것이다 나도 과제로 제출한 것이므로.. 2020. 10. 26.