자연어처리(NLP)
Natural Language Process
워드 임베딩(word Embedding)
classic : 언어 별로 나누어서 pre-processing 들어감
deep learning: 일단 먼저 prepreocessing (=숫자변환)
텍스트를 컴퓨터가 이해할 수 있도록 숫자로 변환
단어를 표현하는 방법에 따라 자연어 처리의 성능이 크게 달라짐 => preprocessing 작업이 중요하다
각 단어를 인공 신경망 학습을 통해 벡터화 하는 방법임
케라스의 emdedding() -> 단어를 랜덤한 값을 가지는 ㄴ벡터로 변환한 뒤, 인공신경망의 가중치를 학습함
(텐서 라고도 함)
인공지능에서 벡터란
고차원의 숫자 배열(array)
텍스트 데이터의 벡터는 각 단어(word)를 고유한 정수(index)로 매핑하여 순서대로 배열한것
=> 단어 간의 유사도 계산, 문서간의 유사도 비교등 다양하게 활용=> 트랜스포머 발전(gpt)
문장의 감성 분류 모델
1
2
3
4
5
print(len(np.unique(y_train))) #46 주제 갯수 확인 ,컬럼확인, 디스크라입하지 않고 클래스 확인할 수 있는 방법
'[네이버클라우드] 클라우드 기반의 개발자 과정 7기 > AI' 카테고리의 다른 글
머신러닝 1 -model, scaling (0) | 2023.05.15 |
---|---|
heatmap NaN, label Encoding - 팀플 쓰기 (2) | 2023.05.12 |
[4-3] 판다스... 찍 (3) | 2023.05.11 |
[수업자료] [4-3] 합성곱 오늘의 코드.. (1) | 2023.05.11 |
[4-2] Conv2D, MaxPooling, Dropout, Flatten, pyplot (0) | 2023.05.11 |