뒤죽박죽 데이터분석 일기장
AI School 8기 12주차 WIL 본문
안녕하세요! Likelion AI School 8기 12주차 WIL을 작성해 보도록 하겠습니다.
코호트 분석
: 고객 세분화를 '시간의 흐름'을 기준으로 하는것을 말합니다.
[출처] : https://datarian.io/blog/cohort-analysis
한 예시로 들어보자면 어떤 플랫폼 사용자의 이용횟수를 알고 싶다면 시간대 별 이용자라는 코호트(집단)으로 나누어서 가장 최근의 날짜부터 가장 처음 이용횟수를 월별로 살펴보는 것입니다. 그러고 이를 잔존율이라고 합니다.
코호트 분석에서 잔존율을 구할 때 저는 위의 데이터를 사용했습니다. 이 때 필요한 column은 InvoiceDate(주문일자)와 CustomerID(고객번호)입니다. 판다스에서 groupby를 사용해 CustomerId로 묶고 count를 사용하면 일별 횟수를 구할 수 있습니다.
그러고 가장 최근 날짜와 맨 처음 날짜를 빼준 값을 사용하고 다시 일자 별로 groupby를 한다면 잔존율을 구할 수 있습니다.
RFM
RFM은 "Recency, Frequency, Monetary"의 약어로서, 고객 분석에 사용되는 방법론 중 하나입니다.
Recency(최근성), Frequency(빈도), Monetary(금액)은 고객의 구매 패턴을 이해하고 이를 기반으로 고객을 분류하고 평가하는 데 사용됩니다.
- Recency: 최근 구매일로, 최근에 구매한 고객일수록 높은 가치를 지닙니다.
- Frequency: 구매 빈도로, 자주 구매하는 고객일수록 높은 가치를 지닙니다.
- Monetary: 구매 금액으로, 높은 금액을 지불한 고객일수록 높은 가치를 지닙니다.
이 세 가지 요소를 종합적으로 고려하여 각 고객에게 점수를 부여하고, 이를 기반으로 고객을 분류하여 마케팅 전략을 수립하고 개선하는 데 활용됩니다.
DecisionTree(의사결정나무)
Decision Tree(의사결정나무)는 머신러닝 기술 중 하나로, 분류(Classification) 및 회귀(Regression) 분석에 사용되는 알고리즘입니다. 이는 데이터의 특징(feature)을 이용하여 주어진 문제에 대한 결정 규칙을 만들어내는 방식으로 작동합니다.
의사결정나무는 트리(Tree) 구조를 이용하여 데이터를 분류하고 예측합니다. 이를 위해 주어진 데이터를 가장 잘 분류하는 질문(Decision)을 하나씩 던져가며, 이에 대한 답변을 바탕으로 분류 규칙을 만들어 나갑니다. 이러한 분류 규칙을 이용하여 새로운 데이터에 대한 분류와 예측을 수행할 수 있습니다.
의사결정나무는 간단하고 직관적인 분류 모델을 생성할 수 있어서 매우 인기 있는 알고리즘 중 하나입니다. 또한, 피처의 중요도를 파악할 수 있어서 피처 엔지니어링(feature engineering)에 유용하게 활용됩니다.
'Likelion AI School 8기' 카테고리의 다른 글
AI School 8기 14주차 (0) | 2023.03.23 |
---|---|
AI School 8기 13주차 (0) | 2023.03.16 |
AI School 8기 11주차 WIL (0) | 2023.03.02 |