날씨 데이터 기반 제주도 관광객수 예측
날씨 데이터를 기반으로 관갱객수를 예측하는 프로젝트를 진행. Linear, lasso 등 회귀모델을 비교하여 가장 성능이 좋은 모델을 기반으로 예측을 진행함.
압구정 쓰레기통 설치 위치선정 프로젝트
길거리 쓰레기통 부족으로 보도 시 보행로 및 주변지역에 무단투기 증가로 인해 쓰레기통 추가 설치의 필요성을 인지함. 따라서 쓰레기통 위치 데이터와 유동인구 데이터를 활용하여 인구 밀집지역에 쓰레기통 추가 위치선정 분석 프로젝트를 진행. 위경도 데이터에 따라 마커를 지도에 시각화 함으로써 인구밀도를 확인하고 위치를 선정함.
플라스틱 폐기물 배출량 시계열 예측을 통한 지역별 플라스틱 방앗간 추가 설치 개수 선정
시계열 분석 이론 수업에서 배운 내용을 바탕으로 실제 프로젝트를 진행해보고 싶어 공모전을 참가. 플라스틱 폐기물 배출량을 다양한 방법으로 예측하여 최적의 성능을 보이는 결과를 바탕으로 예측을 수행하여 늘어나는 플라스틱 배출량에 대한 해결책을 제시함. 수상은 못했지만 ARIMA, LSTM, FBprophet 과 같은 다양한 방법으로 시계열 분석을 수행했었다는 점에서 의의를 가짐.
환경부
머신러닝 활용 유전체 데이터 기반 신체 나이 예측
실제 생물통계 연구데이터를 바탕으로 유전체 데이터 기반 신체적 연령예측 프로젝트를 진행. 팀장으로서 문제 정의 부터 EDA, 모델링 까지 전반적인 데이터 분석 프로젝트의 모든 절차를 도맡아 함. 독립변수(유전체 데이터)에 대한 종속변수(신체 나이)를 예측하는 모델을 만드는 프로세스를 수립하고 Light GBM, ridge, lasso, elastic net 등 다양한 모델에 대한 MSE를 확인하여 가장 좋은 성능이 보인 모델을 바탕으로 예측을 수행.
책에 어울리는 음악 추천 서비스 + 도서관 API 활용 컨텐츠 제작
도서 데이터를 기반으로 한 음악 추천 서비스를 만듦. 여기에 도서관 API를 활용하여 사람들의 도서관 이용에 편의성을 더하여 국립중앙도서관 공모전에서 장려상을 받음.
도서 명을 입력하였을 때, Kakao API를 사용하여 실시간으로 도서 정보를 불러와 전처리 후, Spotify API를 통해 수집된 노래 가사 데이터와 Audio Feature데이터를 도서 정보와 추천시스템 알고리즘을 통한 유사도 계산을 통해 도서에 어울리는 음악을 추천하는 서비스 제작.
크롤링을 통해 데이터를 수집하고 전처리를 진행하고 분류와 도서와 음악데이터 간의 유사도 계산을 위해 비지도 학습 모델을 만드는 역할을 맡음
국립중앙도서관
여행지 기반 향수 추천 서비스 - 성장하는 향수시장과 관련하여 사업 전략 제시
향수 데이터를 기반으로 여행지를 입력했을때 향수를 추천하는 서비스를 만듦. 어떻게 하면 사용자가 더 공감과 만족을 할 수 있을지 고민하며 word2vec 알고리즘과 TF-IDF 등을 이용하여 프로세스를 구성함. + 데모를 위해 Streamlit을 통하여 웹데모 페이지를 만듦.
뉴욕 택시 데이터 기반 대시보드 제작
TLC HVFHs 데이터를 활용하여 Uber 와 Lyft의 택시 운행 현황을 비교하고 Lyft의 경쟁력 상승을 위한 대시보드 제작. Lyft 공항 관련 운행량 이라는 KPI를 설정하였고 왜 공항에서의 점유율 확보가 중요한지 대시보드를 제작하고 전체적인 현황을 파악할 수 있는 대시보드를 제작함
크라우드 펀딩 성공요인 분석
‘딥다이브’는 AI콘텐츠를 ‘텀블벅’을 통해 크라우드 펀딩을 진행했고 앞으로도 크라우드 펀딩을 통해 사업을 펼쳐나갈 예정. 따라서 크게 성공한 펀딩 프로젝트에서 어떤 요소가 있는지 직접 데이터를 크롤링하고 분석함.
인사 데이터를 바탕으로 퇴직을 촉발 요인을 분석하는 프로젝트를 진행. 분석 전, 집과의 거리, 월소득, 업무환경 만족도, 업무성과가 퇴직에 영향을 미쳤을 것이라고 가설을 수립. SQL을 통해 각 주제에 맞는 데이터를 추출하여 엑셀을 이용해 차트를 만들고 통계적으로 분석을 함. 결론적으로 어떤 변수가 퇴직에 영향을 미쳤는지 결론을 내리고 2차 분석으로 R을 활용하여 로지스틱 회귀분석을 통해 Odds Ratio를 산출하여 각 변수들이 종속 변수인 퇴직 여부에 영향을 미치는 수치를 분석함. 예를 들어, 업무 참여도가 1 단위 증가할 수록 퇴사할 확률이 41%가 감소했다던가 업무 만족도가 1단위 증가할 때마다 퇴사할 확률이 약 27% 정도 감소했다는 등의 결론을 도출. 또한 결론에 대한 제언을 작성하여 보고서를 만
'캠페인으로 고객들의 구매 복귀 성공'이라는 가상 비즈니스 상황에 대해 그 이후의 기업의 전략에 대하여 데이터 기반 마케팅 전략을 수립하는 프로젝트를 진행.
유저를 만족할 만큼 모은 만큼 회사는 다음 목표는 고객의 구매력을 높이는 것에 있다고 판단하고 '가장 많은 금액을 구매한 유저들이 객단가 역시 높을 것이다'라는 가설 수립. RFM 기반으로 고객 등급을 분류 하고 결론적으로 가설을 기각함. 따라서 '충성 고객이 아닌 "적게, 가끔 고객들"의 객단가가 높다'는 결론을 도출하고 분석 결과에 근거하여 '충성 고객을 위한 크로스셀링 / 업셀링 전략'과 '잠재 고객을 위한 복귀 유저 캠페인'라는 전략을 제안함.