지오코딩
-
<TIL> 2024-02-08내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:06
오늘 진행한 일 팀 프로젝트 1차 튜터링 팀 프로젝트 데이터 전처리 오늘은 어제 한 EDA와 전처리를 하다가 생긴 궁금증을 가지고 튜터님께 질문을 드리러갔다. 질문 드린 내용은 아래와 같다. 데이터 보간에 있어서 ml데이터를 최빈값인 750으로 보간하고자 하는데 이렇게 하면 750인 데이터가 전체의 97.4퍼센트가 된다. 이러면 예측력에 영향이 적을 거 같은데 데이터를 사용하지 않는 편이 더 나은가 레이블 갯수가 너무 많은 범주형 데이터의 경우 기준치 이하의 행 수를 가지는 데이터에 대해 “기타”로 묶어도 되는가 변수상관성이 0.79인 데이터에 대해서 변수선택을 해주는게 좋은가 범주형 변수 결측치 보간 시 MICE 방법을 이용하려고 하는데 문제가 없겠는가 아니면 머신러닝 방법이 더 나은가 질문에 대한 답..