본문 바로가기
공부자료/Deep Learning

자연어 처리

by mogazi 2022. 9. 26.

 

 

  •   자연어 처리란? 

 

 

일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 과정

인간 언어에 대한 이해도 필요하기 때문에 접근하기 어려운 분야

 

 

예를 들어 영어는 명확한 띄어쓰기가 있지만 중국어는 없기 때문에 단어 단위의 임베딩이 어렵다.

 

 

 

 

 

 

 

 

 

 

용어

 

 

말뭉치(corpus) 

 

 

자연어 처리에서 모델을 학습시키기 위한 데이터이며, 자연어 연구를 위해 특정한 목족에서 표본을 추출한 집합이다.

 

 

 

 

 

 

 

 

 

 

 

  토큰(token)  

 

 

자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위가 토큰이다. 

 

문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 하며, 문자열을 토큰으로 분리하는 함수를 토큰 생성 함수라고 합니다.

 

 

 

 

 

 

 

토큰화(tokenization)

 

 

텍스트를 문장이나 단어로 분리하는 것을 의미한다.

토큰화 단계를 마치면 텍스트가 단어 단위로 분리된다.

 

 

 

 

 

 

 

불용어(stop words)

 

 

문장 내에서 많이 등장하는 단어. 

 

분석과 관계없으며, 자주 등장하는 빈도 때문에 성능에 영향을 미치므로 사전에 제거해 주어야 한다. 

예로 “a”, “the”, “she”, “he” 등이 있다.

 

 

 

 

 

 

 

어간 추출(stemming)

 

 

단어를 기본 형태로 만드는 작업이다. 

 

예를 들어 ‘consign’, ‘consigned’, ‘consigning’, ‘consignment’가 있을 때 기본 단어인 ‘consign’으로 통일하는 것이 어간 추출입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

품사 태깅(part-of-speech tagging)

 

 

주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그(식별 정보)를 의미한다.

 

 

 

 

* 참고  Det : 한정사, Noun : 명사, Verb : 동사, Prep : 전치사

 

 

 

 

 

 

 

 

 

 

 

 

자연어 처리 과정

 

 

자연어는 인간 언어로, 인간 언어는 컴퓨터가 이해할 수 없기 때문에

  컴퓨터가 이해할 수 있는 언어로 바꾸고 원하는 결과를 얻기까지 크게 네 단계를 나눈다.

 

 

 

첫 번째로 인간 언어인 자연어가 입력 텍스트로 들어오게 된다. 

이때 인간 언어가 다양하듯 처리 방식이 조금씩 다르며, 현재는 영어에 대한 처리 방법들이 잘 알려져 있다.

 

 

두 번째로는 입력된 텍스트에 대한 전처리 과정이 필요하다.

 

 

세 번째로 전처리가 끝난 단어들을 임베딩한다. 

단어를 벡터로 변환하는 방법이다.

 

 

 

마지막으로 컴퓨터가 이해할 수 있는 데이터가 완성되었기 때문에 모델/모형(결정 트리)을 이용하여 데이터에 대한 분류 및 예측을 수행한다. 

 

 

이때 데이터 유형에 따라 분류와 예측에 대한 결과가 달라집니다.

 

 

 

 

'공부자료 > Deep Learning' 카테고리의 다른 글

임베딩  (0) 2022.09.26
전처리  (0) 2022.09.26
하이퍼파라미터를 이용한 성능 최적화  (0) 2022.09.26
하드웨어를 이용한 성능 최적화  (0) 2022.09.26
성능 최적화  (0) 2022.09.26