전체 글28 [NLP] 플랫폼 구현에 활용되는 짧은 길이의 자연어 처리 기술 현재 실습을 진행하고 있는 회사에서는 자연어 처리 기술을 기반으로 플랫폼을 구현하고자 하며, 이 중 내가 맡아서 공부한 부분은 짧은 길이의 자연어 처리 기술 구현이다. NLP라는 것은 상당히 큰 개념이기에 구체적으로 뭘 하고 싶은지에 따라 방향성이 완전히 달라지고, 그렇기에 내게 주어진 상황에 따라 어떤 기술이 필요할지 정리가 필요하다고 판단하였다. 분량상 구체적인 개념에 대한 내용은 취급하지 않으며, 단순히 전체적인 관점에서 어떤 식으로 찾아봐야 할 지 그 여정을 제시하기 위함이다. 모든 기술은 상품명 데이터를 취급한다고 가정한다. 해당 데이터의 특징은 다음과 같다. 1. 길이가 짧음 (문장과 달리 맥락이 존재하지 않음) 2. 학습되지 않은 새로운 단어가 많이 등장 3. 한국어 내가 가지고 있는 데이터.. 2021. 8. 11. [XLNet] XLNet으로 감성분석(sentiment classification, binary categorizing), tokenize 오류 해결 1. 배경 https://paperswithcode.com/task/text-classification Papers with Code - Text Classification Text classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics. ( Image credit: [Text Classification Algorithms: A Su paperswithcode.com 자연어처리, 특히 categorizing을 공부하면서 느낀 것은 실무에서 가장 많이 사용하는 자연어처리 기법은 PL.. 2021. 8. 6. [vizable] 주간 대시보드 작성 : valorant dashboard 작성중 https://public.tableau.com/views/valorant/valorant?:language=ko-KR&:display_count=n&:origin=viz_share_link valorant dashboard valorant dashboard for choosing best agent for a specific map #valorant #agent #KDA For more fun game, I provide this guideline showing which agent is advantageous in a specific map to players. public.tableau.com 1. 주제 Valorant is FPS game which is made by Riot games sinc.. 2021. 7. 27. [text classification, categorizing] fasttext, bert로 자연어 분류하고 비교하기 (작성중) 목적: 7가지의 대분류로 라벨링되어 있는 상품 키워드 데이터를(총 24417개) 학습하고, 이를 기반으로 새로운 키워드 입력시, 자동으로 해당 키워드를 대분류(category)로 분류하는 모델 성능 측정 방식: 1. 한국어 키워드 전처리 (null값 제거, 특수문자 제거, 불용어 제거) 2. 키워드 토큰화 * 이때 나의 미숙함으로 토큰화된 데이터가 데이터프레임화 형식으로 만들어지지 않음 -> 이 부분은 다시 생각해보기 3. train/test 분리 4. 모델 학습 5. 키워드 입력시 카테고리 분류하는 message 출력 모델 선정 기준: 자연어를 벡터화하여 유사도에 따라 학습하는 semantic 모델 이 중 자연어 처리(그 중에서도 konlp) 및 text classfication에 주로 쓰이는 fast.. 2021. 7. 21. 이전 1 2 3 4 5 6 7 다음