[5-1] 개념정리 - 자연어처리(NLP) 기초

[네이버클라우드] 클라우드 기반의 개발자 과정 7기/AI

quarrrter 2023. 5. 12. 09:36

자연어처리(NLP)

Natural Language Process

워드 임베딩(word Embedding)

classic : 언어 별로 나누어서 pre-processing 들어감

deep learning: 일단 먼저 prepreocessing (=숫자변환)

텍스트를 컴퓨터가 이해할 수 있도록 숫자로 변환

단어를 표현하는 방법에 따라 자연어 처리의 성능이 크게 달라짐 => preprocessing 작업이 중요하다

각 단어를 인공 신경망 학습을 통해 벡터화 하는 방법임

케라스의 emdedding() -> 단어를 랜덤한 값을 가지는 ㄴ벡터로 변환한 뒤, 인공신경망의 가중치를 학습함

(텐서 라고도 함)

인공지능에서 벡터란

고차원의 숫자 배열(array)

텍스트 데이터의 벡터는 각 단어(word)를 고유한 정수(index)로 매핑하여 순서대로 배열한것

=> 단어 간의 유사도 계산, 문서간의 유사도 비교등 다양하게 활용=> 트랜스포머 발전(gpt)

문장의 감성 분류 모델

print(len(np.unique(y_train))) #46 주제 갯수 확인 ,컬럼확인, 디스크라입하지 않고 클래스 확인할 수 있는 방법

머신러닝 1 -model, scaling (0)	2023.05.15
heatmap NaN, label Encoding - 팀플 쓰기 (2)	2023.05.12
[4-3] 판다스... 찍 (3)	2023.05.11
[수업자료] [4-3] 합성곱 오늘의 코드.. (1)	2023.05.11
[4-2] Conv2D, MaxPooling, Dropout, Flatten, pyplot (0)	2023.05.11

코드의 나라에서의 일상