- 자연어 처리란?
일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 과정
인간 언어에 대한 이해도 필요하기 때문에 접근하기 어려운 분야
예를 들어 영어는 명확한 띄어쓰기가 있지만 중국어는 없기 때문에 단어 단위의 임베딩이 어렵다.
◆ 용어
● 말뭉치(corpus)
자연어 처리에서 모델을 학습시키기 위한 데이터이며, 자연어 연구를 위해 특정한 목족에서 표본을 추출한 집합이다.
● 토큰(token)
자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위가 토큰이다.
문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 하며, 문자열을 토큰으로 분리하는 함수를 토큰 생성 함수라고 합니다.
● 토큰화(tokenization)
텍스트를 문장이나 단어로 분리하는 것을 의미한다.
토큰화 단계를 마치면 텍스트가 단어 단위로 분리된다.
● 불용어(stop words)
문장 내에서 많이 등장하는 단어.
분석과 관계없으며, 자주 등장하는 빈도 때문에 성능에 영향을 미치므로 사전에 제거해 주어야 한다.
예로 “a”, “the”, “she”, “he” 등이 있다.
● 어간 추출(stemming)
단어를 기본 형태로 만드는 작업이다.
예를 들어 ‘consign’, ‘consigned’, ‘consigning’, ‘consignment’가 있을 때 기본 단어인 ‘consign’으로 통일하는 것이 어간 추출입니다.
● 품사 태깅(part-of-speech tagging)
주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그(식별 정보)를 의미한다.
* 참고 Det : 한정사, Noun : 명사, Verb : 동사, Prep : 전치사
◆ 자연어 처리 과정
자연어는 인간 언어로, 인간 언어는 컴퓨터가 이해할 수 없기 때문에
컴퓨터가 이해할 수 있는 언어로 바꾸고 원하는 결과를 얻기까지 크게 네 단계를 나눈다.
첫 번째로 인간 언어인 자연어가 입력 텍스트로 들어오게 된다.
이때 인간 언어가 다양하듯 처리 방식이 조금씩 다르며, 현재는 영어에 대한 처리 방법들이 잘 알려져 있다.
두 번째로는 입력된 텍스트에 대한 전처리 과정이 필요하다.
세 번째로 전처리가 끝난 단어들을 임베딩한다.
단어를 벡터로 변환하는 방법이다.
마지막으로 컴퓨터가 이해할 수 있는 데이터가 완성되었기 때문에 모델/모형(결정 트리)을 이용하여 데이터에 대한 분류 및 예측을 수행한다.
이때 데이터 유형에 따라 분류와 예측에 대한 결과가 달라집니다.
'공부자료 > Deep Learning' 카테고리의 다른 글
임베딩 (0) | 2022.09.26 |
---|---|
전처리 (0) | 2022.09.26 |
하이퍼파라미터를 이용한 성능 최적화 (0) | 2022.09.26 |
하드웨어를 이용한 성능 최적화 (0) | 2022.09.26 |
성능 최적화 (0) | 2022.09.26 |