서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출
장태훈
1. 분석 개요
1.1 기획 배경
1.2 분석의 필요성
1.2 분석 목적
2. 데이터 수집
2.1 데이터 분석 프로세스 수립
2.2 데이터 처리 및 가공
2.3 결과
2.4 시각화
3.모델 결정
3.1 요인별 상관성 측정
3.2 모델 생성 및 비교
3.3 공공 자전거 대여에 영향을 준 요인
3.4 2023년 공공 자전거 대여 건수 예측 결과
4. 분석 결과
4.1 군집화 및 시각화
5. 분석 활용 방안
5.1 데이터 분석 기준 마케팅
5.2 고객 세그먼트 기준 마케팅
6. 프로젝트 요약 및 향후 개선 방향
6.1 프로젝트 요약
6.2 한계점 및 어려웠던 점
1. 분석 개요
1.1 기획 배경
공공 자전거는 2008년 창원시에서 처음 도입된 이후, 현재는 여러 지방자치단체에서 시행하고 있는 대중교통 수단 중 하나이다. QR코드나 일련번호 인증 방식으로 간편하게 이용할 수 있어 많은 사람들이 이용해왔다. 그러나 최근 들어 민간 기업이 운영하는 전동 자전거와 전동 킥보드 등의 편리한 대체 수단이 등장하면서, 지방자치단체가 운영하는 공공 자전거의 이용자 수가 점차 감소하고 있다. 서울특별시가 운영하는 공공 자전거 사업인 따릉이 역시 이와 같은 영향을 받고 있으며, 이용 건수가 점점 줄어드는 추세이다.
그래프 1은 2022년, 2023년, 2024년의 1월부터 6월까지 따릉이의 총 이용 건수를 보여준다. 2022년과 2023년에는 이용 건수가 증가했지만, 2024년에는 전년 대비 약 240,000건의 이용 감소가 나타났다. 이는 민간 전동 이동 수단의 대중화로 인해 서울시 공공 자전거의 인기가 감소한 구체적인 사례를 보여준다.
따라서 이번 분석에서는 날씨와 일일 이용건수를 분석하여 공공 자전거 이용 감소 문제를 해결하고자 한다. 날씨와 같은 외부 요인이 이용 감소에 미치는 영향을 파악하고, 이를 바탕으로 공공 자전거의 이용 활성화 방안을 모색하는 것이 이번 기획의 목표이다. 또한, 날씨뿐만 아니라 이용자 정보, 이용 시간, 휴일 여부와 같은 다양한 변수들을 추가로 분석함으로써 이용 패턴을 보다 세밀하게 이해하고, 이를 통해 보다 효과적인 활성화 전략을 도출하고자 한다.
1.2 분석의 필요성
공공 자전거는 환경 보호와 개인의 건강 증진에 큰 기여를 하는 교통수단이다. 전기를 사용하지 않기 때문에 탄소 배출이 없는 친환경적인 이동 수단일 뿐만 아니라, 자전거 이용은 신체 활동을 통해 건강 증진과 체력 향상에 도움을 준다. 특히, 도시 생활에서 운동 기회가 부족한 사람들에게 유익한 활동이 될 수 있으며, 교통 체증을 줄이고, 대중교통을 보완하는 역할을 함으로써 도시 교통 시스템을 보다 효율적으로 만드는 데 중요한 역할을 할 수 있다.
그러나 최근 들어 공공 자전거 이용 건수가 점차 감소하고 있으며, 그래프 2에서 볼 수 있듯이 자전거와 대여소의 수는 증가하고 있지만, 대여 건수는 오히려 줄어들고 있다. 이러한 현상이 지속될 경우 여러 가지 부정적인 영향을 초래할 수 있다.
1. 공공 자전거 유지와 운영 비용 증가
공공 자전거는 지속적인 유지 보수와 관리가 필요한 자산이다. 자전거의 수가 증가할수록 그에 따른 유지보수 비용도 상승하게 된다. 하지만 이용 건수의 감소는 수익이 줄어들어 자전거의 유지보수 비용을 충당하기가 어려워질 수 있다. 이는 자전거의 품질 저하와 서비스 수준의 하락을 초래할 수 있으며, 장기적으로는 서비스의 중단까지 이어질 가능성이 있다.
2. 공공 자전거 서비스의 폐지 가능성
이용 건수가 계속해서 감소하게 되면, 공공 자전거 시스템이 경제적으로 지속 가능하지 않게 될 수 있다. 지방자치단체에서 운영하는 공공 자전거 사업은 운영 비용과 유지보수 비용이 대부분 공공 자금에서 충당되지만, 수익 악화로 인해 정부의 재정 부담이 커질 수 있다. 이는 자전거 대여 시스템의 축소나 폐지로 이어질 수 있다.
3. 대중교통 보완 수단 감소
공공 자전거는 단거리 이동 수단으로서 대중교통의 공백을 채워주는 중요한 역할을 한다. 특히, 지하철역이나 버스정류장에서 마지막 목적지까지 이동하는 '라스트 마일(last mile)'을 해결해주는 수단으로 매우 유용하다. 그러나 공공 자전거 이용 감소로 고유 자전거 서비스가 페지되거나 축소 운영이 될 경우 자동차나 다른 교통수단으로 이동하게 되어 교통체증과 환경오염이 증가할 수 있다.
공공 자전거 이용 건수의 감소로 인해 위의 세 가지 문제인 공공 자전거 유지와 운영 비용 증가, 공공 자전거 서비스의 폐지 가능성, 대중교통 보완 수단 감소와 같은 문제로 이어지는 것을 해결하고자 날씨와 일일 이용건수, 이용 시간, 휴일 여부와 같은 다양한 변수를 이용한 분석을 진행하고자 한다.
1.3 분석 목적
주제: 공공 자전거 이용 건수 감소 방지를 위한 방안 제안
연구 배경
민간 기업에서 운영하는 전동 자전거, 전동 킥보드 이용 증가로 인해 지방자치단체에서 운영하는 공공 자전거의 이용 건수가 점차 감소하고 있다. 이러한 상황에서, 공공 자전거 서비스의 이용 감소를 방지하고 지속 가능한 운영을 보장하기 위한 구체적인 해결 방안이 필요하다.
현황
서울특별시에서 운영 중인 공공 자전거와 대여소는 매년 증가하고 있지만, 이용 건수는 2023년까지는 증가 추세를 보였으나, 민간 전동 이동 수단의 대중화로 인해 2024년부터는 감소하는 경향이 나타나고 있다.
분석 목적:
- 날씨, 이용자 정보, 이용 시간, 휴일 등 외부 요인이 공공 자전거 이용에 미치는 영향을 분석하여 이용 패턴을 파악하고, 이를 바탕으로 이용 활성화 방안을 도출
- 이용 감소 원인을 다각적으로 분석하여, 공공 자전거 서비스의 운영 효율성을 높이고 지속 가능한 서비스 운영을 위한 정책적 및 운영적 제안을 도출
- 민간 전동 이동 수단과의 경쟁력을 강화할 수 있는 방안을 모색하여, 서울시와 같은 대도시에서 공공 자전거 서비스의 역할과 기능을 유지 및 강화
기대 효과:
- 이용 활성화 방안 제안: 날씨, 이용자 정보, 이용 시간, 휴일 등 다양한 변수들을 바탕으로 분석한 결과를 통해 효과적인 이용 활성화 방안을 제안함으로써, 공공 자전거 서비스의 경쟁력 강화
- 공공 자전거 서비스의 지속 가능성 확보: 이용 감소에 따른 운영 비용 증가와 서비스 축소 가능성을 해결하기 위한 구체적인 해결책을 도출함으로써, 공공 자전거 서비스의 지속 가능성을 확보
- 도시 교통 체증 완화와 환경 보호: 공공 자전거 이용 증가로 인해 교통 체증을 완화하고, 탄소 배출 없는 친환경 교통수단을 활성화하여 도시 환경을 보호하는 데 기여
- 공공 서비스 품질 향상: 분석을 통해 도출된 결과를 바탕으로, 서비스 품질을 개선하고, 사용자의 편의성과 접근성을 높이는 데 기여
따라서 본 분석은 공공 자전거 이용 감소 문제를 해결하기 위한 다각적 분석을 통해, 공공 자전거 서비스의 장기적인 지속 가능성을 높이고, 도시 내 이동의 효율성을 증대시키는 데 그 목적을 두고 있다.
2. 데이터 수집
2.1 데이터 분석 프로세스
1. 데이터 수집
- 2023년 06-12까지의 서울시 날씨 데이터셋
- 2024년 01-06까지의 서울시 날씨 데이터셋
- 2023년 06-12까지의 서울시 공공 자전거 데이터셋(분 단위)
- 2024년 01-06까지의 서울시 공공 자전거 데이터셋(분 단위)
2. 데이터 전처리
- 시간 단위로 공공 자전거 대여 건수, 이용자 성별, 생년 집계
- 시간 단위로 구분된 날씨 데이터셋과 시간 단위로 집계한 공공 자전거 데이터셋 결합
- 년, 월, 일, 시간으로 구분된 데이터셋을 시간, 계절, 공휴일, 주중, 날씨 단위로 집계
3. 공공 자전거 대여 건수에 큰 영향을 주는 요인 확인
요인별 상관성 측정
모델 생성 및 비교
공공 자전거 대여 건수와 관련된 주요 변수
4. 공공 자전거 대여 고객 세분화
군집 분석
5. 분석 활용 방안
데이터 분석 기준 마케팅
고객 세그먼트 기준 마케팅
2.2 데이터 수집
기상청 기상자료개발포털을 통해 서울시 시간별 종관기상관측 정보를 통해 날씨 정보를 수집했으며, 시간별 황사관측 정보를 통해 서울시 1시간 평균 미세먼지 농도 정보를 수집할 수 있었다. 또한, 서울 열린데이터 광장을 통해 서울시 공공 자전거 대여 이력 정보를 수집할 수 있었다. 수집한 데이터 셋은 각각 아래와 같다.
2.3 데이터 처리 및 가공
1. 데이터 처리
서울시 날씨 데이터셋
- 날씨와 황사 데이터셋에서 불필요한 column 삭제
- '일시' column명을 '대여일자'로 수정한 후 대여일자를 기준으로 날씨 데이터셋과 황사 데이터셋 결합
서울시 공공 자전거 데이터셋
- 월별로 제공되는 서울시 공공 자전거 대여 이력 정보를 하나의 데이터셋으로 가공 - 51,246,500개 row, 17개 column
- 분석에서 필요한 데이터를 제외한 column 삭제
- datetime type으로 변환한 후 분 단위를 삭제 후 대여시간을 기준으로 groupby를 통해 시간당 대여 건수, 성별, 생년대 등을 계산
모든 데이터셋을 가공한 후 대여일자를 기준으로 서울시 날씨 데이터셋과 서울시 공공 자전거 데이셋을 결합했다.
2. 데이터 가공
1. NaN 값처리
대여일자 0
기온(°C) 0
강수량(mm) 8005
풍속(m/s) 60
습도(%) 0
적설(cm) 8592
전운량(10분위) 0
지면온도(°C) 1
1시간평균 미세먼지농도(㎍/㎥) 0
대여 0
기상청에서 수집한 자료 중 NaN 값은 기상청에서 다음과 같이 답변했다. "적설 및 강수량 공란은 강수현상이 없을 경우이며, 0은 강수현상(눈, 비)은 있었으나, 강수량이 기록될 정도가 아닐 경우를 의미" 따라서 강수와 적설이 NaN 값은 0으로 채우는 방법을 선택했다. 풍속의 경우 "평균풍속 데이터가 공란인지 말씀주시면, 답변드릴 수 있도록 하겠습니다."라고 답변이 왔다. 즉, 강수와 적설 NaN 값은 0으로 대체했으며, 풍속 NaN 값 또한 0으로 처리했다. 이는 강수현상이 없거나 미미할 경우를 반영한 것이다.
대여일자 0
기온(°C) 0
강수량(mm) 0
풍속(m/s) 0
습도(%) 0
적설(cm) 0
전운량(10분위) 0
지면온도(°C) 0
1시간평균 미세먼지농도(㎍/㎥) 0
대여 0
2. 대여일자 가공 - 년, 월, 일, 시간, 요일
그래프4와 같이 dt.year, dt.month, dt.day, dt.hour을 이용해 대여일자를 년, 월, 일, 시간으로 구분했다. 뿐만 아니라 dt.dayofweek을 이용해 요일을 구분했다. 구분한 요일은 다음과 같다.
- 0: 월요일
- 1: 화요일
- 2: 수요일
- 3: 목요일
- 4: 금요일
- 5: 토요일
- 6: 일요일
3. 대여일자 가공 - 공휴일, 주중, 계절
공휴일은 직장인 또는 학생들이 직장이나 학교를 쉬는 날로 많은 자전거 대여에 영향을 줄 수 있다고 판단했다. 따라서 공휴일을 따로 분류를 했으며, 대한민국의 경우 공휴일이 주말일 경우 다음 월요일을 대체휴무일로 지정하기 때문에 대체 공휴일을 고려해 공휴일을 분류했다.
2023년 6월부터 2024년 6월까지의 공휴일은 다음과 같다.
'2023-06-06' - 현충일, '2023-08-15' - 광복절, '2023-09-28' - 추석 연휴 시작, '2023-09-29' - 추석, '2023-09-30' - 추석 연휴 끝, '2023-10-03' - 개천절, '2023-10-09' - 한글날, '2024-01-01' - 신정, '2024-02-09' - 설날 연휴 시작, '2024-02-10' - 설날, '2024-02-11' - 설날 연휴 끝, '2024-03-01' - 삼일절, '2024-05-05' - 어린이날, '2024-05-15' - 석가탄신일, '2024-06-06' - 현충일
위의 날짜를 기준으로 공휴일이 주말인 것과 아닌 것을 분류한 후 공휴일이 주말이면 다음 월요일을 공휴일로 분류했다.
주중의 경우 토, 일요일의 주말을 제외한 국경일 등의 휴일과 휴일이 아닌 날로 구분했다. 계절은 기상청의 기준을 토대로 계절을 "3-5월(봄), 6-8월(여름), 9-11월(가을), 12-2월(겨울)"로 구분했다. 대여일자를 이용한 데이터 가공 최종 결과는 그래프5와 같다.
4. 날씨 가공 - 구름, 눈, 비, 미세먼지, 풍속
강수량, 적설, 전운량 데이터를 기반으로 강수량, 적설, 전운량에 따라 비와 눈이 어느정도 오는지, 구름으로 인해 얼마나 흐린지를 구분했다. 구분 기준은 데이터셋이 시간당 데이터이기 때문에 기상청에서 제공한 시간당 기준을 근거로 구분했다. 비와 눈의 기준의 경우 공백인 부분이 있다. 따라서 비의 경우 0.2 이상 20 미만의 값에 대해서는 적당한 비로, 눈의 경우 0.1 이상 3미만의 경우 적당한 눈으로 구분했다. 기상청에서 제공한 기준과 결과는 아래 사진과 그래프6를 통해 확인할 수 있다.
미세먼지의 경우 새로운 컬럼을 만들지 않고 기존 컬럼 그대로 이용했다. 미세먼지를 구분하는 기준 역시 기상청에서 제공하는 기준으로 맑음, 보통, 나쁨, 매우 나쁨으로 구분했다. 풍속 역시 기상청에서 제공하는 기준을 토대로 약한 바람, 약간 강한 바람, 강한 바람, 매우 강한 바람으로 구분했다.
구름, 눈, 비, 미세먼지, 바람, 계절의 경우 각각 아래 사진과 같다.
5. 사용자 정보 가공
그래프7과 같이 대여일자를 기준으로 정렬된 데이터를 통해 생년대, 성별, 이용자종류를 그룹화 했다. 생년의 경우 넓게 분포되어 있기 때문에 1970~1979, 1980~1989과 같이 9년 단위로 그룹화했다. 또한, 성별과 생년에 '\N'으로 표기된 부분은 따로 분리한 후 기존 데이터셋에서 삭제한 후 기타회원으로 분류했다. 이후 기타회원은 개인정보가 없는 데이터이기 때문에 비회원과 합친 후 대여에서 비회원 수 만큼 빼줬다.
2.4 결과
데이터 가공에 사용한 데이터인 '대여일자', '강수량(mm)', '풍속(m/s)', '적설(cm)', '전운량(10분위)'를 삭제하면 총 8989 row와 30 columns가 된다.
2.5 시각화 및 분석
그래프8을 보면 전체적인 공공 자전거는 출퇴근 시간에 집중적으로 많이 대여되는 것을 확인할 수 있다. 그래프9를 보면 0~4인 월, 화, 수, 목, 금에 출퇴근 시간에 대여 건수가 많이 있다. 5~6인 주말에는 점심 이후 저녁 전까지 증가하다가 감소하는 것을 확인할 수 있다. 또한, 토요일이 일요일보다 더 많은 야외활동이 있다는 것도 확인할 수 있다. 그래프10의 경우 주중은 요일의 평일, 주말과 비슷하게 쉬는 날이 아닌 날과 쉬는 날의 패턴이 비슷하다. 주목할 점은 쉬는 날에 0~3시 사이에 대여량이 더 많은 것을 확인할 수 있다. 즉, 주말의 경우 늦은 시간까지 야외활동을 계속한다는 것이다. 뿐만 아니라 공휴일 역시 비슷한 패턴을 보여준다. 즉, 대부분의 사람들은 공휴일이 아닌 평일에는 출퇴근 시간에 집중적으로 공공 자전거를 대여하고 주말과 공휴일에는 점심 시간 이후부터 저녁 전까지 공공 자전거를 주로 대여하는 것을 확인할 수 있다.
날씨는 계절, 구름, 비, 눈, 바람, 미세먼지로 구분해서 분석해 보려고 한다. 일반적으로 날씨의 경우 날씨가 좋으면 자전거를 더 많이 탄다는 생각할 수 있다. 하지만 분석 결과는 반대로 날씨가 안 좋을 대 공공 자전거 대여 건수가 더 많은 지점이 있다.
계절의 경우 그래프11을 보면 겨울에 비해 봄, 여름, 가을에 공공 자전거 대여를 많이 하는 것을 확인할 수 있다. 특히, 여름에는 가장 더운 시간대인 11시~17시까지는 공공 자전거 대여 건수가 봄, 가을에 비해 낮은 것을 확인할 수 있다. 그래프12를 보면 구름의 경우 맑음인 0보다 대체로 맑음인 1, 대체로 흐림인 2일 때 대여 건수가 많은 것을 알 수 있다. 즉, 맑은 날씨에 공공 자전거 대여가 줄어 든 것을 확인할 수 있다.
그래프13을 보면 비의 경우 맑은 날씨(0)에 가장 대여 건수 많으며, 약한 비(1)가 내릴 때 그래프의 높낮이가 특정 시간 대에 계속 변화하는 것을 확인할 수 있다. 약한 비가 올 때는 다른 날씨와 다르게 출퇴근 시간 이외에 12시, 15시, 17시에 대여 건수가 증가하는 것을 확인할 수 있다. 공공 자전거의 경우 만 13세 이상이면 누구나 이용이 가능하다. 15시의 경우 중학생의 하교 시간이며, 17시의 경우 고등학생의 하교 시간이다. 따라서 약한 비가 올 때는 학생들의 하교 시간에 맞춰서 증가한다고 추측할 수 있다. 특히, 주목할 점은 강한 비가 내리는 날에 퇴근 시간에 급격하게 증가한 모습을 볼 수 있다. 즉, 우산이 없는 직장인의 경우 빠르게 집에 가기 위해 공공 자전거를 타고 급하게 집으로 가는 것이라 추측할 수 있다.
그래프14와 그래프15를 보면 직장인과 학생들의 차이를 확인할 수 있다. 출퇴근 시간에 직장인, 학생 모두 대여 건수가 많지만 학생의 경우 앞에서 추측했던 대로 중학교 하교 시간인 15시, 고등학교 하교 시간인 17부터 대여 건수가 증가하는 것을 확인할 수 있다.
그래프16를 보면 눈의 경우 맑음(0), 적당한 눈(2), 강한 눈(3)만 나타난 것을 확인할 수 있다. 눈 역시 출퇴근 시간대에 대여 건수가 많은 것을 확인할 수 있으며, 눈이 많이 올 수록 대여 건수가 적다는 것을 알 수 있다. 눈의 경우 많이 올 경우 도로가 미끄러워져 자전거를 타기에 위험하다는 것과 비와 다르게 눈은 어느정도 맞아도 젖지 않기 때문에 공공 자전거 대여 건수가 낮다고 볼 수 있다.
바람의 경우 약한 바람, 약간 강한 바람, 매우 강한 바람만 나타났다. 자전거 대여 건수가 출퇴근 시간에만 집중된 것이 아니라는 것을 확인할 수 있다. 또한, 바람의 세기에 따라 구분되는 것이 아닌 전체적으로 비슷한 대여 건수를 보여 준다. 특히, 매우 강한 바람이 불 때 대여 건수가 12시 이후부터 20시까지 가장 많은 것을 확인할 수 있다. 즉, 바람의 경우 많이 불거나 아예 불지 않을 때 가장 대여 건수가 가장 많다는 것을 알 수 있다.
날씨 부분에서 주목할 점은 미세먼지이다. 그래프18을 보면 미세먼지가 많을 수록 자전거 대여 건수가 많은 것을 알 수 있다. 미세먼지가 없는 맑은 날씨가 대 건수가 가장 낮다는 것을 확인할 수 있다. 따라서 미세먼지와 다른 날씨와의 관계를 비교해볼 필요가 있다.
그래프19를 보면 미세먼지는 봄에 많이 있다. 앞에서 확인했듯 봄에 자전거 대여 건수가 많은 것을 확인할 수 있었으며, 그래프20을 보면 미세먼지가 많은 날에 구름이 없는 맑은 날씨, 대체로 맑은 날씨라는 것을 확인할 수 있다. 또한, 그래프21을 보면 흐린 날 보다는 맑거나, 대체로 맑음, 대체로 흐림인 날씨에 자전거 대여 건수가 많은 것을 확인할 수 있다. 즉, 많은 사람들이 봄, 여름, 가을에 구름이 없는 맑은 날을 미세먼지가 없는 날로 착각하고 자전거 대여하는 경우가 많다는 것을 확인할 수 있다.
그래프 22를 보면 기온과 습도에서는 너무 더운 날씨, 추운 날씨이거나 더무 습한 날씨, 건조한 날씨가 아닌 날에 가장 대여 건수가 많다. 즉, 비가오는 날, 겨울에 대여 건수가 낮은 것을 확인할 수 있고 이는 봄, 가을, 초여름에 대여 건수가 많다는 것과 같은 결과를 보여준다고 볼수 있다.
연령대를 구분해서 어느 연령대가 가장 공공 자전거를 대여를 많이하고 어느 시간에 가장 대여를 많이 하는지 확인해 볼 수 있다. 일반적으로 카드를 통해 비용을 지불하는 방법으로 미성년자인 학생보다는 직장을 다니거나 대학생의 경우 공공 자전거 대여를 많이 할 것으로 예상된다. 시각화를 통해 분석을 해보면 다음과 같다.
그래프 23을 보면 자전거 대여 건수가 가장 많은 8시, 18시 즉, 출퇴근 시간대에 가장 많이 이용하는 연령대는 1990~1999년, 1980~1989, 1970~1979년 생인 직장인이 가장 많이 이용하는 것을 알 수 있다. 반면 출퇴근 시간 외에 사용자가 증가하는 시간대인 15시 17시를 보면 그래프24와 같다. 2000~2009년 생이 출퇴근 시간과 다르게 이용객이 많이 증가한 것을 확인할 수 있다. 그리고 출퇴근 시간, 15시, 17시를 제외하고 대여 건수가 많았던 12시를 보면 아래에 있는 그래프25과 같다. 예상과 반대로 학생이 아닌 직장인이 더 많이 이용하고 있다는 것을 확인할 수 있다.
추가적으로 개인정보가 입력되지 않고 대여일자만 입력되어 있는 기타회원에서도 위와 같은 패턴을 보여주기 때문에 시각화는 생략했다. 즉, 기타회원 역시 개인정보가 입력되어 자세한 분석을 할 수 있었던 이용객과 같은 패턴을 보여기 때문에 마케팅에서 같은 전략을 취하면 된다고 볼 수 있다.
3. 모델 결정
3.1 요인별 상관성 측정
변수 간의 연관성이나 상관성을 측정하기 위해 상관관계를 계산한 후 히트맵을 그려보려고 한다. 그래프 26을 보면 기온의 경우 지면온도와 상관관계가 매우 높기 때문에 제거하는 것도 고려해 볼 수 있다. 년과 월, 요일과 주중의 경우 음의 상관관계가 높다. 년의 경우 2023, 2024만 있기 역시 제거하는 것도 고려해 볼 필요가 있으며 이후 모델을 통해 예측할 때 확인해보고자 한다.
그래프27을 보면 위의 그래프는 원본 데이터이다. 좌측 상단의 경우 대여 건수가 0~2000사이에 집중되어 있으며, 이후의 대여 건수는 감소하고 있는 것을 확인할 수 있다. 즉, 한 쪽으로 치우쳐진 불균형한 데이터인 것을 확인할 수 있다. 우측 상단의 그래프는 빨간 선이 이상적인 정규분포에 해당하는 직선일 때 대부분의 파란 선을 벗어나고 있다. 따라서 모델에 학습하기 전 로그변환과 같은 방법을 이용해 정규분포 형태로 변환하는 작업이 필요하다. 로그 변환 후의 모습은 아래 두 개의 그래프와 같다.
3.2 모델 생성 및 비교
모델에 학습하기 전에 데이터셋에서 정답이 될 수 있는 부분은 삭제를 해야한다. 따라서 12개의 컬럼에 대해서는 삭제를 했다. 그리고 분석을 위해 만들었던 기타회원 역시 삭제해서 총 13개의 컬럼을 삭제했다. 또한, 총 데이터가 8989개이기 때문에 train, test set을 나누지 않고 KFold와 cross_val_score을 이용했다. 그리고 성능을 평가하는 오차 지표는 가격 예측이나 수요 예측과 같이 상대적인 변화가 중요할 때 사용하는 RMSLE를 사용했다.
'남성', '여성','1920~1929',
'1930~1939','1940~1949','1950~1959',
'1960~1969','1970~1979','1980~1989',
'1990~1999','2000~2009','2010~2019', '기타회원'
RandomForest | XGBoost | CatBoost | LightGBM | Ridge | Lasso | Gradient Boosting |
0.04050 | 0.03780 | 0.03795 | 0.03776 | 0.08358 | 0.09038 | 0.04687 |
RMSLE가 0에 가까울수록 좋은 모델 성능을 의미하므로, 여러 모델 중 LightGBM이 가장 우수한 성능을 보여 최종 모델로 선정했다.
3.3 공공 자전거 대여 건수와 관련된 주요 변수
- 시간:
- 가장 중요한 피처로, 자전거 대여 예측에서 압도적으로 높은 정보 이득을 제공한 변수이다.
- 자전거 대여 패턴은 시간대에 따라 크게 변화하는데, 출퇴근 시간대나 특정 시간에 대여가 집중되는 경향이 있기 때문에 중요한 피처로 작용한 것으로 보인다.
- 기온(°C):
- 두 번째로 중요한 피처로, 자전거 대여 예측에 기온이 중요한 영향을 미친다는 것을 보여준다.
- 기온이 너무 낮거나 높을 때 자전거 대여가 줄어들고, 적절한 기온에서는 대여가 증가할 수 있기 때문에 중요한 변수로 작용했을 가능성이 크다.
- 비:
- 세 번째로 중요한 피처
- 비가 오면 자전거 대여가 감소하는 경향이 뚜렷할 수 있으며, 특히 강수량이나 비의 유무가 중요한 요인으로 작용했을 것으로 예상된다.
- 습도(%):
- 네 번째로 중요한 피처
- 습도 역시 날씨와 관련된 변수로, 자전거 대여에 영향을 미친다고 볼 수 있다. 너무 높은 습도는 자전거 이용을 불편하게 만들 수 있으며, 이로 인해 대여량에 영향을 미쳤을 가능성이 있다.
- 주중, 구름:
- 이 두 변수는 상대적으로 중요도가 낮지만 여전히 자전거 대여에 기여한 것으로 보인다. 주중은 평일과 주말의 대여 패턴 차이를 반영할 수 있으며, 구름은 날씨 상태를 반영하여 대여에 영향을 줄 수 있다.
- 지면온도(°C), 계절, 요일:
- 이 피처들은 자전거 대여에 어느 정도의 기여를 했지만, 상대적으로 정보 이득은 낮다. 예를 들어 지면온도는 실제 기온보다는 덜 중요한 변수로 나타났고, 계절 역시 자전거 대여 패턴에 영향을 주긴 했으나 기온과 시간에 비해 정보 이득은 적었다.
- 바람, 공휴일, 눈, 비, 그리고 미세먼지:
- 이 변수들은 자전거 대여 예측에 상대적으로 적은 기여를 한 변수들이다. 특히, 미세먼지는 대여 예측에 거의 기여하지 않은 것으로 보이며, 공휴일과 눈 역시 대여에 큰 영향을 미치지 않은 변수로 나타났다.
요약:
- 시간과 기온(°C)이 자전거 대여 예측에서 가장 중요한 요인으로 작용했으며, 비와 습도도 대여량에 큰 영향을 미쳤다.
- 날씨 관련 변수(비, 기온, 습도)와 시간대는 자전거 대여량 예측에서 핵심적이며, 특히 시간은 자전거 대여 패턴을 이해하는 데 중요한 역할을 하고 있다.
3.4 2023년 공공 자전거 대여 건수 예측 결과
위에서 진행한 데이터 가공을 토대로 가장 좋은 성능을 보여준 LightGBM 모델을 이용해 2023년 4월 1일부터 30일까지의 공공 자전거 대여를 예측했을 때 결과는 다음과 같이 나왔다.
RMSLE: 0.3445544191120903
4. 공공 자전거 대여 고객 세분화
4.1 군집화 및 시각화
모든 사용자가 동일한 요소를 가지지 않기 때문에 이용객의 유형화를 통해 요인 분석의 정확도를 높이기 위해 군집 알고리즘을 이용했다. K-Means, DBSCAN, GMM를 이용했으며 GMM(GaussianMixture)의 실루엣스코어가 가장 높게 나왔다. 모든 군집화의 결과가 3개의 군집으로 구분했을 때 가장 높은 스코어가 나왔으며 Elbow Method 그래프에서도 가장 적절한 개수로 나왔다.
K-Means | DBSCAN | GMM |
0.294 | 0.135 | 0.392 |
위의 결과를 토대로 GMM 분석을 채택했다. 또한, Cluster 0, Cluster 1, Cluster 2가 무엇을 의미하는지 이해하기 위해서 클러스터별 특성을 분석을 통해 공공 자전거 사용자 세분화를 진행하겠다. 공공 자전거 사용자 세분화의 결과는 그래프29와 같다.
앞에서 LigntGBM의 결과로 확인한 information gain의 상위 5개 요인인 시간, 기온, 비, 습도, 주중에 대해서 해석을 하면 다음과 같다. 비의 경우 구름, 눈, 비와 같이 분석해서 더 자세하게 분석해 보겠다.
시간
- Cluster 0: 주로 오전 9시에서 10시 사이에 공공 자전거를 대여하는 클러스터로 출근 시간에 맞춰 공공 자전거를 사용하는 경향이 있다.
- Cluster 1: 오전 11시경에 공공 자전거를 대여하는 클러스터이다. 출근 이후 여유로운 시간대에 자전거를 대여하는 그룹이다.
- Cluster 2: 오후 2시경으로 비교적 늦은 시간에 공공 자전거를 대여하는 클러스터이다. 주로 여가나 일상적인 활동을 위해 자전거를 대여하는 경향이 있는 그룹으로 볼 수 있다.
기온(°C):
- Cluster 0: 평균 기온은 19.56°C로 적당히 온화한 날씨에 자전거를 대여하는 클러스터이다. 봄이나 가을철에 자주 대여하는 경향이 있다.
- Cluster 1: 평균 기온이 2.83°C로 매우 낮은 날씨에서 자전거를 대여하는 클러스터로, 주로 겨울철이나 매우 추운 날씨에 자전거를 사용하는 경향이 있다.
- Cluster 2: 평균 기온이 23.35°C로 비교적 높은 기온에서 자전거를 대여하는 클러스터이다. 이는 여름철과 같은 더운 날씨에 자전거를 대여하는 그룹으로 볼 수 있다.
구름, 눈, 비:
- Cluster 0: 구름량이 1.86으로 중간 정도이며, 눈이 거의 내리지 않고, 약간의 비가 내리는 날씨(0.2779)에서 자전거를 대여하는 클러스터이다. 주로 비가 약간 내리거나 흐린 날씨에 자전거를 이용하는 경향이 있다.
- Cluster 1: 구름량이 매우 적고(1.01), 눈이 자주 내리는 추운 날씨에 자전거를 대여하는 클러스터로, 추운 날씨에서도 자전거를 주로 이용하는 경향을 보인다. 해당 클러스터는 주로 눈이 많이 내리거나 구름이 거의 없는 추운 날씨에 활동하는 경향이 강하다.
- Cluster 2:구름량이 적으며(1.15), 눈이 전혀 내리지 않고, 비도 거의 내리지 않는 날씨에서 자전거를 대여하는 클러스터이다. 맑고 건조한 날씨에 자전거를 주로 대여하는 그룹이다.
습도(%):
- Cluster 0: 평균 습도가 82.55%로 매우 습한 날씨에 자전거를 대여하는 클러스터이다. 주로 비가 내리거나 습도가 높은 날씨에 자전거를 이용하는 경향이 있다.
- Cluster 1: 평균 습도가 62.86%로 적당한 습도에 자전거를 대여하는 클러스터이다. 쾌적한 날씨에서 자주 자전거를 대여하는 그룹이다.
- Cluster 2: 평균 습도가 50.24%로 비교적 건조한 날씨에 자전거를 대여하는 클러스터이다. 건조한 날씨를 선호하는 그룹이다.
주중:
- 세 클러스터 모두 큰 차이는 크지 않지만, Cluster 0은 주중(65.6%)에 공공 자전거를 대여하는 비율이 높으며, 주로 직장인들이 출퇴근 목적으로 자전거를 이용하는 그룹으로 볼 수 있다. Cluster 2는 주말과 공휴일에 자전거를 대여하는 비율이 더 높으며, 여가나 휴식을 위한 자전거 이용이 주된 목적인 클러스터이다.
5. 분석 활용 방안
데이터 분석 기준 마케팅
1. 연령대별 마케팅
- 1980~1999년생: 주로 출퇴근 시간에 자전거를 많이 이용하는 직장인 그룹을 대상으로 출퇴근 시간에 대한 할인 프로모션을 제공하여 자전거 이용을 장려할 수 있다.
- 2000~2009년생: 주로 하교 시간에 자전거를 많이 이용하는 학생들을 대상으로 학생 전용 할인이나, 학교 근처에 자전거 대여소를 확장하는 등의 마케팅 전략을 고려할 수 있다.
- 1980~1989년생: 주로 직장인으로 구성되어 있어 출퇴근 시간대에 자전거를 많이 이용한다는 점을 고려해 출퇴근 시간에 자전거를 이용하면 칼로리 소모량과 건강에 미치는 긍정적 영향을 강조한 캠페인을 진행할 수 있다.
2. 미세먼지와 구름의 관계
- 미세먼지가 많지만 구름이 없는 맑은 날씨를 자전거 대여의 중요한 시점으로 볼 수 있다. 미세먼지 경고 시스템과 연동된 자전거 대여 알림 서비스를 운영하여, 미세먼지가 없는 날씨에 자전거를 대여하는 것을 장려할 수 있다. 미세먼지 농도가 낮을 때 특별 이벤트를 진행하거나, 대여 시 마스크를 제공하는 등의 방법을 활용할 수 있다.
고객 세그먼트 기준 마케팅
1. 타겟 시간대별 마케팅
- Cluster 0 (출근 시간대): 오전 9시에서 10시 사이에 자전거를 많이 대여하는 직장인들을 대상으로, 출근 시간대 프로모션을 제안할 수 있다. 예를 들어, 출근 시간에 자전거를 대여하는 사용자들에게 할인 쿠폰을 제공하거나, 특정 시간대에 대여 횟수에 따른 보상을 제공하는 프로그램을 운영할 수 있다. 이를 통해 출근 시간대 이용률을 더욱 높일 수 있다.
- Cluster 1 (여유 시간대): 오전 11시경에 자전거를 대여하는 사용자들을 타겟으로, 점심시간 이후 자전거 대여 프로모션을 운영할 수 있다. 점심 식사 후 여유롭게 자전거를 이용해 이동하는 직장인이나 여유로운 생활을 즐기는 사용자들에게 맞춤형 혜택을 제공하여, 이 시간대의 자전거 이용을 촉진할 수 있다.
- Cluster 2 (여가 시간대): 오후 2시경 자전거를 대여하는 주로 여가 목적으로 자전거를 이용하는 그룹을 타겟으로, 주말 및 공휴일 이벤트를 진행할 수 있다. 이 그룹은 주로 여가나 레저 활동에 자전거를 활용하므로, 특별 이벤트나 레저를 즐기기 좋은 자전거 경로 소개 등으로 이들의 관심을 끌 수 있다.
2. 기온과 날씨에 따른 마케팅
- Cluster 0 (온화한 날씨): 봄과 가을처럼 온화한 날씨에 자전거를 이용하는 사용자들에게, 온화한 날씨를 즐기는 자전거 여행 이벤트를 제안할 수 있다. 이 시기에 자전거를 대여한 사용자들에게 인기 자전거 경로를 소개하거나, 봄/가을 시즌 맞춤형 할인 혜택을 제공하는 방식이 효과적이다.
- Cluster 1 (추운 날씨): 겨울이나 매우 추운 날씨에 자전거를 이용하는 사용자들을 위한 겨울철 자전거 이용 안전 팁을 제공하거나, 추운 날씨에도 자전거 이용을 장려할 수 있는 혜택을 제공할 수 있다. 예를 들어, 따뜻한 음료와 결합한 자전거 대여 패키지를 제공하거나, 겨울철 한정 이벤트를 운영할 수 있다.
- Cluster 2 (더운 날씨): 여름철과 같이 더운 날씨에 자전거를 대여하는 사용자들을 위해, 여름철 야외 활동 이벤트를 기획할 수 있다. 더운 날씨를 고려한 시원한 경로 추천, 물을 제공하는 자전거 대여소 안내, 여름철 한정 기념품 제공 등의 혜택을 제공할 수 있다.
3. 날씨와 관련된 추가 혜택
- 비와 구름에 따른 마케팅: Cluster 0의 경우 구름이 많고 비가 약간 오는 날 자전거를 많이 대여하므로, 흐린 날씨나 비가 조금 내리는 날을 겨냥한 우산 또는 비옷과 결합한 대여 패키지를 제공할 수 있다. 이는 사용자들이 날씨에 구애받지 않고 자전거를 이용할 수 있도록 도와줄 수 있다.
- 눈이 내리는 날의 마케팅: Cluster 1은 눈이 내리는 추운 날씨에 자전거를 이용하는 경향이 있으므로, 겨울철에 안전한 자전거 이용 방법을 강조하는 캠페인을 운영하거나, 방한 용품과 결합된 혜택을 제공할 수 있다.
4. 습도와 주중/공휴일 패턴에 따른 마케팅
- 습도가 높거나 낮은 날: Cluster 0은 매우 습한 날에, Cluster 2는 건조한 날에 자전거를 많이 이용한다. 따라서 습한 날씨나 건조한 날씨에 각각 맞춤형 혜택을 제공하는 방법도 고려할 수 있다.
- 주중과 공휴일 패턴 활용: 주중에 자전거를 많이 이용하는 Cluster 0은 직장인들이 많으므로, 출퇴근 시간대 혜택을 제공하고, 공휴일이나 주말에 자전거를 더 많이 이용하는 Cluster 2에는 여가 활동과 결합한 이벤트를 운영할 수 있다. 예를 들어, 주말에 자전거 대여 시 레저 시설 할인 혜택을 제공하는 방식으로, 자전거 대여를 촉진할 수 있다.
6. 프로젝트 요약 및 향후 개선 방향
6.1 프로젝트 요약
공공 자전거 대여 데이터를 분석하여, 자전거 대여 건수에 영향을 미치는 주요 요인을 파악하고, 이를 기반으로 공공 자전거 이용 활성화를 위한 전략을 도출했다. 서울시 공공 자전거 데이터를 활용하여 날씨, 시간, 요일, 휴일 여부, 사용자 정보 등 다양한 변수를 분석하였고, 군집 분석을 통해 이용자의 세부 그룹을 분류했다.
- 데이터 분석: 날씨, 기온, 시간대 등 외부 요인이 자전거 대여 패턴에 어떤 영향을 미치는지 분석했다. 특히, 기온과 시간대가 자전거 대여에 큰 영향을 미친다는 점을 확인할 수 있었다. 출퇴근 시간대와 적당한 기온이 대여 건수 증가에 중요한 요인임을 발견했다. 또한, 미세먼지와 구름, 비와 같은 날씨 변수들도 대여 건수에 영향을 주었으나, 상대적으로 정보 이득은 낮았다.
- 모델 성능 평가: 여러 모델(XGBoost, CatBoost, RandomForest 등)을 비교한 결과, LightGBM이 자전거 대여 예측에서 가장 우수한 성능을 보였으며, RMSLE 점수가 가장 낮게 나타났다. 이를 통해 공공 자전거 대여 패턴을 효과적으로 예측할 수 있는 최적의 모델을 선정했다.
- 군집 분석: GaussianMixtureModel(GMM)을 통해 3개의 주요 클러스터로 사용자를 분류했다. 각 클러스터는 시간대, 기온, 비 등의 요인에 따라 다른 대여 패턴을 보였다. Cluster 0은 주로 출근 시간대에 자전거를 대여하고, Cluster 1은 추운 날씨나 구름이 적은 날에 자전거를 많이 이용하는 반면, Cluster 2는 여름철이나 맑은 날에 자전거를 주로 대여하는 경향을 보였다.
- 마케팅 전략 제안: 분석 결과를 바탕으로, 각 클러스터에 맞춘 맞춤형 마케팅 전략을 제안했다. 출퇴근 시간대 이용자를 위한 할인 프로모션, 학생들을 위한 학교 근처 대여소 확장, 미세먼지나 날씨 상태에 따른 자전거 이용 장려 이벤트 등을 통해 공공 자전거 이용률을 높일 수 있는 전략을 도출했다.
6.2 한계점 및 어려웠던 점
- 데이터 수집 기간: 본 프로젝트는 2023년 6월 1일부터의 데이터를 기반으로 진행되었으며, 메모리 한계로 인해 긴 기간의 데이터를 다루지 못했다. 이로 인해 분석에 장기적 패턴을 반영하기 어려웠다는 한계가 존재했다. 추후 더 많은 데이터를 처리할 수 있도록 클라우드 서비스를 이용해 메모리가 더 큰 서버의 용을 이용해 한계점을 보완해보고자 한다.
- 기후 변화: 최근 기후 변화로 인해 기존의 날씨 데이터를 기반으로 한 예측이 정확하지 않을 수 있다. 기온 변화나 날씨 패턴의 급변이 발생하면서, 기존 데이터로 학습된 모델이 이러한 변동성을 충분히 반영하지 못할 가능성이 크다. 따라서, 최신 데이터의 지속적 업데이트를 통해 변동성을 고려한 분석이 필요하다.
- 데이터 정제의 어려움: 날씨 및 생년 데이터를 처리하는 과정에서 어려움이 있었다. 특히, 정확한 분석을 위해 개인정보가 필요했으나, 비회원 및 회원 데이터 중 일부 정보가 누락된 경우가 있어 데이터 정제에 어려움을 겪었다. 날씨 데이터의 경우 기상청에서 이러한 문제는 비회원 데이터를 '기타 회원'으로 분류하여 해결하였으며, 향후 이를 보완한 추가 분석이 필요하다.
'머신러닝' 카테고리의 다른 글
RFM과 머신러닝을 활용한 모바일 게임 유저 행동 분석 및 마케팅 전략 (2) | 2024.11.29 |
---|---|
서울시 공공 자전거 대여 패턴 분석 및 이용 활성화 전략 도출(수정 - 데이터 추가 및 모델 하이퍼파리미터 튜닝) (7) | 2024.10.26 |
군집화 - 데이터 기반 고객 세그먼테이션 및 맞춤형 마케팅 전략 수립: UCI Online Retail 분석 (9) | 2024.09.21 |
Feature Selection Guide on Kaggle (0) | 2024.09.10 |