AI/NLP 자연어 처리(3)
-
원-핫 인코딩과 패딩 과정
1. 단어 수 맞추기 (Padding)모든 문장의 길이를 동일하게 맞추기 위해 짧은 문장에는 '0'을 추가한다. 예를 들어, 문장의 최대 길이가 4라면, 길이가 2인 문장은 0을 추가하여 [2, 0, 0, 0]처럼 패딩한다. - 원래 문장: [3, 4] - 패딩된 문장: [3, 4, 0, 0] 2. 원-핫 인코딩 준비 각 단어에 고유한 인덱스(숫자)를 부여한다. 이 인덱스를 나중에 원-핫 인코딩으로 변환한다. - 단어 인덱스: [3, 4, 5, 0] 3. 원-핫 인코딩 수행 각 단어 인덱스를 원-핫 벡터로 변환한다. 원-핫 인코딩은 인덱스에 해당하는 위치만 1로 표시하고 나머지는 모두 0으로 표시하는 방식이다. - 단어 인덱스 3번: [0, 0, 1, 0, 0, 0, ...] - 단어 인덱스 4번: [0..
2024.10.08 -
딥러닝 개발환경 구성
■ 가상환경 생성conda create -n tutorial python=3.8 numpy scipy matplotlib spyder pandas seaborn scikit-learn h5py
2024.09.19 -
One-Hot Encoding | Cosine Similarity | Word embedding
자연어 처리(NLP)에서 One-Hot Encoding은 텍스트 데이터를 숫자로 변환하는 기법 중 하나로 범주형 데이터를 이진 벡터로 변환하여 컴퓨터가 이해할 수 있도록 만든다. - 각 단어를 고유한 정수로 매핑: 텍스트 데이터의 단어들을 고유한 정수 인덱스로 변환한다. - 이진 벡터로 변환: 각 단어의 정수 인덱스에 해당하는 위치에만 1을 두고, 나머지 위치에는 0을 두어 벡터를 만든다.문장: "I love NLP"단어: ["I", "love", "NLP"]Mapping- I -> 0 - love -> 1 - NLP -> 2 One-Hot Encoding으로 변환: - I -> [1, 0, 0] - love -> [0, 1, 0] - NLP -> [0, 0, 1] 원 핫 인코딩 특징 - 고차원 희소..
2024.08.11