kaggle7 kaggle - House Prices - Advanced Regression Techniques(상위 6%) kaggle에서 진행한 House Prices - Advanced Regression Techniques는 Bike Sharing Demand, titanic data와 같이 머신러닝을 입문하는 사람들이 가장 먼저 시작하는 kaggle의 대회 중 하나이다. 이번에는 House Prices - Advanced Regression Techniques를 통해서 Regression 연습하고자 한다.문제에 대한 정보 수집문제 정의분석 대상에 대한 이해House Prices - Advanced Regression Techniques을 이용한 EDA공통 코드분석House Prices - Advanced Regression Techniques에 대한 기본적인 정보(구조 파악)시각화Data cleaningFeature .. 2024. 10. 10. kaggle Bike Sharing Demand(1) - 자전거 수요 예측(상위 약 5%) kaggle에서 진행한 Bike Sharing Demand는 2014년부터 2015년까지 1년간 진행된 kaggle의 대회이다. 특히, Bike Sharing Demand는 titanic data와 같이 머신러닝을 입문하는 사람들이 가장 먼저 시작하는 데이터 중 하나이다. 따라서 필자 역시 회귀 게시물 첫 시작을 Bike Sharing Demand으로 시작하려고 한다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Bike Sharing Demand을 이용한 EDA공통 코드분석Bike Sharing Demand에 대한 기본적인 정보(구조 파악)시각화Data cleaningFeature Engineering모델 학습RandomForestCatBoostXGBoostTo.. 2024. 9. 17. kaggle Bank Churn Dataset kaggle에서 2024년 01월 새해를 맞이해서 분류 대회를 개최했었다.https://www.kaggle.com/competitions/playground-series-s4e1/overview Binary Classification with a Bank Churn Dataset | Kaggle www.kaggle.com overview는 위와 같다. kaggle에서 제공한 data를 토대로 고객 이탈(Churn) 예측을 진행하는 것이다. 최근에 게시물로 올렸던 santander customer satisfaction과 같은 문제라고 볼 수 있다.이번 게시물을 마지막으로 분류를 마무리하고 다음 게시물 부터는 회귀를 진행하려고 한다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의Bank.. 2024. 9. 12. Santander Customer Satisfaction EDA (2) 이전 포스트를 이어서 계속 모델을 학습하겠다. 예측이 제대로 되지 않아서 수정을 해기 때문에 코드가 이전 게시물과 달라졌다.문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Santander Customer Satisfaction data set을 이용한 EDA공통 코드오차행렬(Confusion matrix) 및 평가 지표분석 및 시각화Santander Customer Satisfaction data set에 대한 기본적인 정보feature 분석이상치 탐색Data cleaningFeature Engineeringnoise 처리모델 학습XGBoostLightGBMCatBoostEnsemble결론3. 모델 학습2. LightGBM지금까지 var3과 var38에 대한 처리를 아래와 같이 하고 있었다. 여러 .. 2024. 9. 5. Santander Customer Satisfaction EDA (1) Santander Customer Satisfaction data는 이전에 진행했던 titanic data와 다르게 feature의 갯수도 많으며 데이터의 양도 많다. 뿐만 아니라 feature의 대부분이 개인정보를 이유로 feature의 이름이 공개되지 않았다. 따라서 이번엔 분석할 Santander Customer Satisfaction은 titanic data와 다른 의미로 어려움이 있을 수 있다. 또한, 이번에는 titanic에서 다루지 않았던 오차행렬, 재현율, 정밀도, F1 score, ROC 곡선과 AUC에 대해서도 다룰 것이다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Santander Customer Satisfaction data set을 이.. 2024. 9. 1. titanic 데이터 - EDA(2) 최근 프로젝트가 하나 생겨서 다음 포스트 진행이 오래걸렸다... 이번에는 titanic data를 가지고 모델을 학습해 보고 결론을 통해 마무리하고자 한다. 이전에 Randomforest를 이용해 간단하게 모델을 학습했었다. 결과는 0.77751로 개인적으로 나쁘지 않은 점수라고 판단하고 있다.오늘은 여러 모델들을 활용해 보고 GridSearchCV, hyperopt를 활용해 모려고 한다.titanic에 대한 정보 수집문제 정의분석 대상에 대한 이해titanic data set을 이용한 EDA공통 코드titanic data에 대한 기본적인 정보통계 및 시각화여성과 아이들나이사회적 지위Embarked(중간 정착 항구)Cabin(선실 번호)SibSp, Parch(같이 탑승한 형제자매 또는 배우자 인원수, .. 2024. 8. 30. 이전 1 2 다음 728x90