본문 바로가기

데이터분석8

서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출(수정 - 데이터 추가 및 모델 하이퍼파리미터 튜닝) 이전에 올렸던 '서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출' 게시물에서는 2023년 6월부터 2024년 6월까지의 데이터를 가지고 진행했었다. 이번에는 데이터를 더 추가해서 2022년7월부터 2024년 5월까지의 데이터를 기반으로 같은 방법으로 분석 및 모델 예측을 진행했다. 서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출장태훈https://github.com/jangtaehun1. 분석 개요1.1 기획 배경1.2 분석의 필요성1.2 분석 목적 2. 데이터 수집2.1 데이터 분석 프로세스 수립2.zzangtaeprogramming.tistory.com기존의 게시물에서 데이터를 2022년부터 사용하지 않고 202.. 2024. 10. 26.
kaggle - House Prices - Advanced Regression Techniques(상위 6%) kaggle에서 진행한 House Prices - Advanced Regression Techniques는 Bike Sharing Demand, titanic data와 같이 머신러닝을 입문하는 사람들이 가장 먼저 시작하는 kaggle의 대회 중 하나이다. 이번에는 House Prices - Advanced Regression Techniques를 통해서 Regression 연습하고자 한다.문제에 대한 정보 수집문제 정의분석 대상에 대한 이해House Prices - Advanced Regression Techniques을 이용한 EDA공통 코드분석House Prices - Advanced Regression Techniques에 대한 기본적인 정보(구조 파악)시각화Data cleaningFeature .. 2024. 10. 10.
서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출 서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출장태훈https://github.com/jangtaehun1. 분석 개요1.1 기획 배경1.2 분석의 필요성1.2 분석 목적 2. 데이터 수집2.1 데이터 분석 프로세스 수립2.2 데이터 처리 및 가공2.3 결과2.4 시각화 3.모델 결정3.1 요인별 상관성 측정3.2 모델 생성 및 비교3.3 공공 자전거 대여에 영향을 준 요인 3.4 2023년 공공 자전거 대여 건수 예측 결과 4. 분석 결과4.1 군집화 및 시각화 5. 분석 활용 방안5.1 데이터 분석 기준 마케팅5.2 고객 세그먼트 기준 마케팅 6. 프로젝트 요약 및 향후 개선 방향6.1 프로젝트 요약6.2 한계점 및 어려웠던 점1. 분석 개요1.1 기획 배경 공공 자전거는 2008년 창.. 2024. 10. 1.
kaggle Bike Sharing Demand(1) - 자전거 수요 예측(상위 약 5%) kaggle에서 진행한 Bike Sharing Demand는 2014년부터 2015년까지 1년간 진행된 kaggle의 대회이다. 특히, Bike Sharing Demand는 titanic data와 같이 머신러닝을 입문하는 사람들이 가장 먼저 시작하는 데이터 중 하나이다. 따라서 필자 역시 회귀 게시물 첫 시작을 Bike Sharing Demand으로 시작하려고 한다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Bike Sharing Demand을 이용한 EDA공통 코드분석Bike Sharing Demand에 대한 기본적인 정보(구조 파악)시각화Data cleaningFeature Engineering모델 학습RandomForestCatBoostXGBoostTo.. 2024. 9. 17.
kaggle Bank Churn Dataset kaggle에서 2024년 01월 새해를 맞이해서 분류 대회를 개최했었다.https://www.kaggle.com/competitions/playground-series-s4e1/overview Binary Classification with a Bank Churn Dataset | Kaggle www.kaggle.com overview는 위와 같다. kaggle에서 제공한 data를 토대로 고객 이탈(Churn) 예측을 진행하는 것이다. 최근에 게시물로 올렸던 santander customer satisfaction과 같은 문제라고 볼 수 있다.이번 게시물을 마지막으로 분류를 마무리하고 다음 게시물 부터는 회귀를 진행하려고 한다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의Bank.. 2024. 9. 12.
Santander Customer Satisfaction EDA (2) 이전 포스트를 이어서 계속 모델을 학습하겠다. 예측이 제대로 되지 않아서 수정을 해기 때문에 코드가 이전 게시물과 달라졌다.문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Santander Customer Satisfaction data set을 이용한 EDA공통 코드오차행렬(Confusion matrix) 및 평가 지표분석 및 시각화Santander Customer Satisfaction data set에 대한 기본적인 정보feature 분석이상치 탐색Data cleaningFeature Engineeringnoise 처리모델 학습XGBoostLightGBMCatBoostEnsemble결론3. 모델 학습2. LightGBM지금까지 var3과 var38에 대한 처리를 아래와 같이 하고 있었다. 여러 .. 2024. 9. 5.
728x90