전처리
-
<심화 프로젝트> 와인 가격 예측 - 1내일배움캠프(데이터 분석 부트캠프 1기)/팀프로젝트 2024. 2. 21. 19:29
개요 프로젝트 모델링 과정의 개요는 아래 그림과 같다. 우선 데이터에 대해 EDA와 전처리를 진행하고 파생변수를 생성했다. 그리고 전처리된 데이터로 모델링 과정을 진행하였다. 첫 번째로 모델은 결측치를 삭제한 상태에서 모델을 학습하고 성능을 평가했으며 두 번째 모델은 머신러닝을 통해 결측치를 보간한 뒤 학습하여 성능을 평가했다. 세 번째는 두 번째 모델의 결측치 보간 데이터를 사용했으며 모델을 파생변수를 기준으로 둘로 나누어 각각 모델링하였다. 데이터 사용한 데이터는 Kaggle의 Wine Information이라는 데이터였다. 데이터는 한국의 웹사이트에서 얻어진 21605개의 와인 데이터이다. 출처 링크 : https://www.kaggle.com/datasets/dev7halo/wine-informa..
-
<TIL> 2024-02-08내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 8. 22:06
오늘 진행한 일 팀 프로젝트 1차 튜터링 팀 프로젝트 데이터 전처리 오늘은 어제 한 EDA와 전처리를 하다가 생긴 궁금증을 가지고 튜터님께 질문을 드리러갔다. 질문 드린 내용은 아래와 같다. 데이터 보간에 있어서 ml데이터를 최빈값인 750으로 보간하고자 하는데 이렇게 하면 750인 데이터가 전체의 97.4퍼센트가 된다. 이러면 예측력에 영향이 적을 거 같은데 데이터를 사용하지 않는 편이 더 나은가 레이블 갯수가 너무 많은 범주형 데이터의 경우 기준치 이하의 행 수를 가지는 데이터에 대해 “기타”로 묶어도 되는가 변수상관성이 0.79인 데이터에 대해서 변수선택을 해주는게 좋은가 범주형 변수 결측치 보간 시 MICE 방법을 이용하려고 하는데 문제가 없겠는가 아니면 머신러닝 방법이 더 나은가 질문에 대한 답..
-
<TIL> 2024-02-07내일배움캠프(데이터 분석 부트캠프 1기)/TIL & WIL 2024. 2. 7. 22:05
오늘 진행한 일 팀 프로젝트 데이터 탐색적 분석 팀 프로젝트 데이터 전처리 및 튜터링 준비 https://www.kaggle.com/datasets/dev7halo/wine-information Wine Information Wine Information with nation, varieties, flavor, price, etc www.kaggle.com 팀 프로젝트용 와인 데이터를 받았는데 데이터의 전처리에 상당히 공을 들여야할 것 같은 데이터였다. 오늘은 그래서 데이터를 EDA하고 전처리를 하는데 대부분의 시간을 할애하였다. 자세한 EDA와 전처리 내용은 전처리가 정해지고 프로젝트가 어느정도 마무리가 되었을 때 따로 팀프로젝트 카테고리에 글로 남기려고 한다. import pandas as pd im..