목록전체 글 (24)
뒤죽박죽 데이터분석 일기장
안녕하세요. 저번 포스트에서 구한 일별 검색량을 기준으로 월별 평균 검색량을 구해 보도록 하겠습니다. 저번 포스트에서 수집된 데이터 프레임은 아래와 같습니다. 하지만, 검색량이 없는 날짜는 날짜가 저장되지 않습니다. df['period'] 따라서 해당 기간 전체 날짜를 가진 Dataframe을 만든 후 merge를 시키는 방법으로 접근해 보겠습니다. # 날짜만 있는 데이터 프레임을 생성합니다 df_date = pd.DataFrame(dates) # column 값을 period로 설정 df_date.columns = ['period'] # 기존에 있던 데이터프레임을 column 'period'를 기준으로 left merge 합니다. df = df_date.merge(df,how='left', on='pe..

안녕하세요. 이번 포스트에선 네이버 데이터랩에서 특정 키워드의 검색량을 네이버 API를 통해 추출해 보겠습니다. 네이버는 네이버 데이터랩이라는 서비스를 통해 특정 검색어의 검색량 정보를 제공합니다. 굳이 API가 없더라도 웹사이트에서 충분히 다양한 통계값을 얻을 수 있습니다. 하지만 월별 평균값은 주어지지 않기 때문에 일별 통계랑을 가져와서 월별 평균까지 내보는 것이 이번 포스트의 목표입니다. ※ 주의사항 네이버 데이터랩에서 제공되는 검색량 정보는 절대 수치가 아닙니다. 예를 들어 ‘카카오’라는 단어를 검색하게 된다면 설정한 날짜 중 카카오라는 검색어가 가장 많이 검색된던 날의 수치가 100으로 설정되고 이 값에 따라서 다른 값들이 비율로 조정됩니다. 따라서 이 수치들은 상대적입니다. 1. 네이버 데이터..

안녕하세요! 이번 포스트는 Tableau desktop specialist라는 자격증에 대한 설명과 합격 수기를 작성하려고 합니다. Tableau는 대표적인 데이터 시각화 프로그램입니다. 관련된 자격증은 총 3가지가 있습니다. 시험 난이도는 Desktop Specialist -> Certified Associate -> Certified Professional 순으로 3가지가 있습니다. 제가 이번에 친 시험은 가장 쉬운 시험인 Tableau Desktop Specialist 입니다. [신청방법] 공식 홈페이지 : https://www.tableau.com/learn/certification [가격] 100달러 (Re-Schedule Fee 25달러) * 미리 공부를 안해 25불도 추가적으로 사용했습니다...

안녕하세요! 이번 포스트에서는 멋쟁이 사자 AI School 8기 14주차에 배웠던 내용을 복습해 보려고합니다. 이번주에 배운 내용은 실습 파일 : 0603, 0701, 0702 (개인적으로 복습할 때 인지하려고 기재했습니다.) 🧑💻 이번주에 배운 내용 Label Smoothing Gradient Boosting Machine XGBoost CatBoost LightBGM 하나하나씩 천천히 정리해 보면서 복습해 보겠습니다. 🔥 Label Smoothing Label smoothing은 출력 분포 정규화의 한 형태로, over confident output에 불이익을 주기 위해 학습 데이터의 실측값 라벨을 부드럽게 하여 neural network의 over-fitting을 방지합니다. 정리하자면, 훈련시..

안녕하세요! 이번 포스트에서는 멋쟁이 사자 AI School 8기 13주차에 배웠던 내용을 복습해 보려고합니다. 이번주에 배운 내용은 실습 파일 : 0502, 0503, 0601, 0602 (개인적으로 복습할 때 인지하려고 기재했습니다.) 🧑💻 대략적으로 배운 내용 1. 머신러닝의 이해 2. 머신러닝 라이브러리인 Scikit-learn에 내재되어 있는 모델의 종류 3. 머신러닝 평가 4. 모델링 해석 5. Cross validation 6. 하이퍼 파라미터 튜닝 하나하나씩 천천히 정리해 보면서 복습해 보겠습니다. 🔥 머신러닝의 이해 머신러닝 알고리즘의 유형 범주형 수치형 지도학습(정답 있음) 분류 (classification) 회귀 (regression) 비지도 학습(정답 없음) 군집화 (cluster..

안녕하세요! Likelion AI School 8기 12주차 WIL을 작성해 보도록 하겠습니다. 코호트 분석 : 고객 세분화를 '시간의 흐름'을 기준으로 하는것을 말합니다. [출처] : https://datarian.io/blog/cohort-analysis 한 예시로 들어보자면 어떤 플랫폼 사용자의 이용횟수를 알고 싶다면 시간대 별 이용자라는 코호트(집단)으로 나누어서 가장 최근의 날짜부터 가장 처음 이용횟수를 월별로 살펴보는 것입니다. 그러고 이를 잔존율이라고 합니다. 코호트 분석에서 잔존율을 구할 때 저는 위의 데이터를 사용했습니다. 이 때 필요한 column은 InvoiceDate(주문일자)와 CustomerID(고객번호)입니다. 판다스에서 groupby를 사용해 CustomerId로 묶고 cou..

안녕하세요! 오랜만에 다시 마음을 잡아 블로그에 작성하기로 마음을 먹었습니다. 앞으로 저의 목표는 다시 1일 최소 1 포스트로 더 활발한 활동 보여드리겠습니다. 이번 포스트는 멋쟁이 사자 AI School 8기 11주차에 배운 내용을 정리하는 WIL 포스트를 작성해 보도록 하겠습니다. 이번주에는 '비즈니스 데이터 분석'라는 주제를 가지고 수업을 진행했습니다. 개념 정리 마케팅 용어 정리 CAC CPA CPL LTV 번역 고객 확보 비용 확보 고객당 비용 플랫폼 별 확보 고객당 비용 고객 생애 가치 영어 Customer Acquisition Cost Cost per acquisition Cost per lead (Customer) Lifetime value 의미 유료 결제 고객 1명 확보에 들어간 비용 개..

안녕하세요! 이번 포스트에는 EDA 수업을 들으면서 배웠던 디테일한 요소를 다뤄보려고 합니다. 1. 결측치 확인 흔히 결측치를 확인할 때는 아래의 코드를 사용합니다. # 결측치 합계 구하기 raw.isnull().sum() 결과: 이 방식을 사용하면 행의 개수가 적을 때는 쉽게 확인할 수 있지만 행의 개수가 많아지면 확인하기 어렵습니다. 이때 히트맵을 사용하면 결측값을 보기 편하게 확인할 수 있습니다. # 결측치 시각화 sns.heatmap(raw.isnull(), cmap="gray_r") 2. 정규표현식으로 텍스트 전처리하기 흔히 텍스트를 변경할 때는 replace 함수를 사용합니다. replace 함수를 사용할 때에 변경할 값을 정규표현식을 이용해서 입력하면 여러 데이터의 값을 한 번에 바꿀 수 있..