Kaggle8 강아지 VS 고양이(Cat vs Dog), 강아지 고양이 구분 1. 프로젝트 목표프로젝트 목표 및 분석 대상에 대한 이해 데이터셋의 전반적인 구성2. 기대 효과딥러닝 모델의 성능 검증과 비교딥러닝 학습 과정 이해3. 요약프로젝트 흐름도결과4. 분석 대상 확인이미지 샘플 확인5. 모델 훈련직접 설계한 모델사전 훈련 모델결과6. 결론1. 프로젝트 목표1. 프로젝트 목표 및 분석 대상에 대한 이해 이 프로젝트의 목표는 Kaggle에서 제공하는 강아지와 고양이 사진 데이터셋을 이용해 두 동물을 정확히 분류할 수 있는 머신러닝 모델을 만드는 것이다. 사람은 강아지와 고양이를 구분하는 것이 비교적 쉬운 일이지만, 컴퓨터는 그렇지 않다. 강아지와 고양이는 모두 눈, 코, 귀, 수염, 네 발, 털, 꼬리를 가지고 있어 비슷한 특징을 공유하며, 이러한 이유로 컴퓨터가 둘을 구별하는.. 2024. 11. 9. kaggle - House Prices - Advanced Regression Techniques(상위 6%) kaggle에서 진행한 House Prices - Advanced Regression Techniques는 Bike Sharing Demand, titanic data와 같이 머신러닝을 입문하는 사람들이 가장 먼저 시작하는 kaggle의 대회 중 하나이다. 이번에는 House Prices - Advanced Regression Techniques를 통해서 Regression 연습하고자 한다.문제에 대한 정보 수집문제 정의분석 대상에 대한 이해House Prices - Advanced Regression Techniques을 이용한 EDA공통 코드분석House Prices - Advanced Regression Techniques에 대한 기본적인 정보(구조 파악)시각화Data cleaningFeature .. 2024. 10. 10. kaggle Bike Sharing Demand(1) - 자전거 수요 예측(상위 약 5%) kaggle에서 진행한 Bike Sharing Demand는 2014년부터 2015년까지 1년간 진행된 kaggle의 대회이다. 특히, Bike Sharing Demand는 titanic data와 같이 머신러닝을 입문하는 사람들이 가장 먼저 시작하는 데이터 중 하나이다. 따라서 필자 역시 회귀 게시물 첫 시작을 Bike Sharing Demand으로 시작하려고 한다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Bike Sharing Demand을 이용한 EDA공통 코드분석Bike Sharing Demand에 대한 기본적인 정보(구조 파악)시각화Data cleaningFeature Engineering모델 학습RandomForestCatBoostXGBoostTo.. 2024. 9. 17. kaggle Bank Churn Dataset kaggle에서 2024년 01월 새해를 맞이해서 분류 대회를 개최했었다.https://www.kaggle.com/competitions/playground-series-s4e1/overview Binary Classification with a Bank Churn Dataset | Kaggle www.kaggle.com overview는 위와 같다. kaggle에서 제공한 data를 토대로 고객 이탈(Churn) 예측을 진행하는 것이다. 최근에 게시물로 올렸던 santander customer satisfaction과 같은 문제라고 볼 수 있다.이번 게시물을 마지막으로 분류를 마무리하고 다음 게시물 부터는 회귀를 진행하려고 한다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의Bank.. 2024. 9. 12. Feature Selection Guide on Kaggle 본 게시물은 kaggle에서 게시된 게시물을 토대로 만들었습니다.https://www.kaggle.com/code/prashant111/comprehensive-guide-on-feature-selection Comprehensive Guide on Feature SelectionExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com위 사이트를 참고한 것으로 개인의 공부를 위해 참고한 것입니다.Feature Selection Filter MethodsBasic MethodsRemove Constant FeaturesRemove Quasi-Constandt F.. 2024. 9. 10. Santander Customer Satisfaction EDA (1) Santander Customer Satisfaction data는 이전에 진행했던 titanic data와 다르게 feature의 갯수도 많으며 데이터의 양도 많다. 뿐만 아니라 feature의 대부분이 개인정보를 이유로 feature의 이름이 공개되지 않았다. 따라서 이번엔 분석할 Santander Customer Satisfaction은 titanic data와 다른 의미로 어려움이 있을 수 있다. 또한, 이번에는 titanic에서 다루지 않았던 오차행렬, 재현율, 정밀도, F1 score, ROC 곡선과 AUC에 대해서도 다룰 것이다.순서는 다음과 같이 진행될 것이다. 문제에 대한 정보 수집문제 정의분석 대상에 대한 이해Santander Customer Satisfaction data set을 이.. 2024. 9. 1. 이전 1 2 다음 728x90