machine learning
[machine learning] 범주형 변수 인코딩 방법
머신러닝에서 활용할 수 있는 feature들의 속성 타입은 크게 범주형, 수치형 변수이다. 수치형 변수들은 말그대로 숫자로 표시하고, 그 자체가 의미를 가지고 머신러닝의 feature로 바로 활용할 수 있다. 반면에, 범주형 데이터는 대부분의 머신러닝 알고리즘에서 직접적으로 변수로 사용할 수 없고, 임의의 수치로 변환이 되어야만 사용을 할 수 있다. 오늘은 범주형 변수를 수치로 인코딩하는 다양한 방법들과 어떤 경우에 어떤 인코딩 방법이 효과적인지 살펴보도록 하자. 범주형 데이터 분류 범주형 데이터는 두가지로 분류를 할 수 있다. 명목형(Norminal) : 순서가 존재하지 않음 필기도구 : 펜, 연필, 지우개 동물 : 소, 개, 고양이 순서형(Ordinal) : 순서가 존재함 높이 : 낮음 -> 중간 -..
2021. 11. 25. 00:13