Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 통계용어 정리
- ai 새싹 부트캠프 7일차
- 새싹 AI데이터새싹 엔지니어 부트캠프 2일차
- ai 새싹 부트캠프 4일차
- ASAC
- ㅂ.
- ai 새싹 부트캠프 5일차
- 데이터분석가
- ai 새싹 부트캠프 6일차
- 데이터분석가면접준비
- 새싹 AI데이터새싹 엔지니어 부트캠프 1일차
- T
- Til
- 취준생
- 새싹 AI데이터새싹 엔지니어 부트캠프
- X
- 데이터관련면접
- 새싹 AI데이터새싹 엔지니어 부트캠프 3일차
Archives
- Today
- Total
데이터 공부기록
[데과&데엔/인터뷰 문답집] 1-2 피처 엔지니어링 : 범주형 피처 본문
이 문서에서는 범주형 피처를 다루는 세 가지 주요 인코딩 방법에 대해 설명되어 있습니다. 범주형 피처는 유한한 선택 범위의 값, 예를 들면 성별이나 혈액형과 같이 문자열 형식으로 표현되는 경우가 많습니다. 이러한 피처를 수치형으로 변환하여 모델에 적용하기 위해 사용되는 인코딩 방법은 다음과 같습니다.
- 순서형 인코딩 (Ordinal Encoding):
- 대소 관계가 존재하는 데이터에서 사용됩니다.
- 예를 들어, 성적이 낮음, 중간, 높음으로 나누어질 때, 순서형 인코딩은 각 클래스에 대해 대소 관계에 따라 수치를 부여합니다.
- 변환된 값은 여전히 대소 관계를 유지합니다.
- 원-핫 인코딩 (One-Hot Encoding):
- 대소 관계가 없는 데이터에 사용됩니다.
- 예를 들어, 혈액형과 같이 클래스 간에 순서가 없는 경우, 각 클래스를 희소 벡터로 표현합니다.
- 각 클래스는 고유한 차원에 1의 값을 가지고, 나머지는 0으로 표현됩니다.
- 주의사항으로는 피처의 차원을 효과적으로 관리하고, 희소 벡터를 활용하여 공간을 절약해야 합니다.
- 이진 인코딩 (Binary Encoding):
- 두 단계로 진행됩니다. 첫 번째는 각 클래스에 ID를 부여하고, 두 번째는 각 클래스 ID를 이진법으로 표현합니다.
- 이진법 코드는 사실상 이진법을 이용한 ID에 대한 해시 매핑을 나타냅니다.
- 최종적으로 0/1 고유벡터를 얻어 차원의 수를 줄여 저장 공간을 절약할 수 있습니다.
이외에도 Helmert Contrast, Sum Contrast, Polynomial Contrast, Backward Difference Contrast 등 다양한 인코딩 방법이 존재하며, 피처 선택을 통해 차원을 효과적으로 관리하는 것이 중요합니다. 고차원 피처는 거리 측정이 어려운 등 다양한 문제를 야기할 수 있으므로 주의가 필요합니다.