본문 바로가기

Data6

[메모] 데이터 스토리 1 - 6/5/2024 데이터 스토리 90p chap5부터 읽을 차례 이전에 작성된 내용이 지워졌다... ㅠ 다시 여기에다 쓸 것. 2024. 6. 5.
[NLP] Word2vec 유사도분석 및 시각화 연습 회사에서 요구하는 기능을 구현하기 이전에 유사도 분석의 목적을 명확히 하고자 한다. 유사도 분석이란 결국 단어들 간의 유사도를 구하는 것이고, 그렇기에 단순히 그 유사도를 구하는 것은 의미가 없기 때문이다. 회사에서 부여한 과제는 정확하게 말하면 유사도 분석을 통한 카테고라이징이다. 처음 회사가 내게 언급한 과제는 '유사도분석' 이 한 가지 뿐이었다^^;; 추가적으로 언급한 것은 '상품 입력 시 대분류 및 중분류를 출력하게 만드는 것'. 결국 유사도분석을 통해 카테고라이징을 구현하라는 뜻이라고 생각했다. 다만 헷갈리는 부분은, 유사도를 분석하여 가까운 단어끼리 군집화하고, 해당 군집을 라벨링하라는 뜻인지? 그리고 그런 식으로 중분류와 대분류를 함께 출력하려면 어떻게 해야하는지이다. 이럴 땐 차라리 이 프.. 2021. 8. 24.
[NLP] 플랫폼 구현에 활용되는 짧은 길이의 자연어 처리 기술 현재 실습을 진행하고 있는 회사에서는 자연어 처리 기술을 기반으로 플랫폼을 구현하고자 하며, 이 중 내가 맡아서 공부한 부분은 짧은 길이의 자연어 처리 기술 구현이다. NLP라는 것은 상당히 큰 개념이기에 구체적으로 뭘 하고 싶은지에 따라 방향성이 완전히 달라지고, 그렇기에 내게 주어진 상황에 따라 어떤 기술이 필요할지 정리가 필요하다고 판단하였다. 분량상 구체적인 개념에 대한 내용은 취급하지 않으며, 단순히 전체적인 관점에서 어떤 식으로 찾아봐야 할 지 그 여정을 제시하기 위함이다. 모든 기술은 상품명 데이터를 취급한다고 가정한다. 해당 데이터의 특징은 다음과 같다. 1. 길이가 짧음 (문장과 달리 맥락이 존재하지 않음) 2. 학습되지 않은 새로운 단어가 많이 등장 3. 한국어 내가 가지고 있는 데이터.. 2021. 8. 11.
[XLNet] XLNet으로 감성분석(sentiment classification, binary categorizing), tokenize 오류 해결 1. 배경 https://paperswithcode.com/task/text-classification Papers with Code - Text Classification Text classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics. ( Image credit: [Text Classification Algorithms: A Su paperswithcode.com 자연어처리, 특히 categorizing을 공부하면서 느낀 것은 실무에서 가장 많이 사용하는 자연어처리 기법은 PL.. 2021. 8. 6.