일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- lightgbm
- Growth hacking
- 스태킹 앙상블
- 데이터 핸들링
- python
- 마케팅 보다는 취준 강연 같다(?)
- 캐글 산탄데르 고객 만족 예측
- ARIMA
- tableau
- 그로스 해킹
- 인프런
- 그룹 연산
- XGBoost
- 리프 중심 트리 분할
- ImageDateGenerator
- 3기가 마지막이라니..!
- WITH CUBE
- 데이터 정합성
- splitlines
- DENSE_RANK()
- 로그 변환
- 부트 스트래핑
- sql
- 컨브넷
- 데이터 증식
- 캐글 신용카드 사기 검출
- 그로스 마케팅
- pmdarima
- 분석 패널
- WITH ROLLUP
- Today
- Total
목록데이터 분석 (53)
LITTLE BY LITTLE
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/TjFV0/btsHnt6Rqvu/36kdeUhGIQkVtvvcOuFxP0/img.jpg)
목차4.1 선형회귀의 필요성4.1.1 모델이 필요한 이유4.1.2 A/B테스트와 회귀분석4.1.3 회귀분석을 통한 보정4.2 회귀분석 이론4.2.1 단순선형회귀4.2.2 다중선형회귀4.3 프리슈-워-로벨 정리와 직교화4.3.1 편향 제거 단계4.3.2 잡음 제거 단계4.3.3 회귀 추정량의 표준오차4.3.4 최종 결과 모델4.3.5 FWL 정리 요약4.4 결과 모델로서의 회귀분석4.5 양수성과 외삽4.6 선형회귀에서의 비선형성4.6.1 처치 선형화4.6.2 비선형 FWL과 편향 제거4.7 더미변수를 활용한 회귀분석4.7.1 조건부 무작위 실험4.7.2 더미 변수4.7.3 포화회귀모델4.7.4 분산의 가중평균과 회귀분석4.7.5 평균 제거와 고정효과4.8 누락 변수 편향4.9 중립 통제변수4.9.1 잡음 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ZdHcG/btsHi6SFuVU/BAhIyvsDUx6kuKrLxamiS1/img.jpg)
목차4.1 선형회귀의 필요성4.1.1 모델이 필요한 이유4.1.2 A/B테스트와 회귀분석4.1.3 회귀분석을 통한 보정4.2 회귀분석 이론4.2.1 단순선형회귀4.2.2 다중선형회귀4.3 프리슈-워-로벨 정리와 직교화4.3.1 편향 제거 단계4.3.2 잡음 제거 단계4.3.3 회귀 추정량의 표준오차4.3.4 최종 결과 모델4.3.5 FWL 정리 요약4.4 결과 모델로서의 회귀분석4.5 양수성과 외삽4.6 선형회귀에서의 비선형성4.6.1 처치 선형화4.6.2 비선형 FWL과 편향 제거4.7 더미변수를 활용한 회귀분석4.7.1 조건부 무작위 실험4.7.2 더미 변수4.7.3 포화회귀모델4.7.4 분산의 가중평균과 회귀분석4.7.5 평균 제거와 고정효과4.8 누락 변수 편향4.9 중립 통제변수4.9.1 잡음 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/xMw4b/btsHdwvNly3/fJgLGnaKrgmW1SmYfAAwXk/img.png)
목차3.1 인과관계에 대해 생각해보기 3.1.1 인과관계 시각화 3.1.2 컨설턴트 영입 여부 결정하기 3.2 그래프 모델 집중 훈련 3.2.1 사슬 구조 3.2.2 분기 구조 3.2.3 충돌부 구조 3.2.4 연관성 흐름 치트 시트 3.2.5 파이썬에서 그래프 쿼리하기 3.3 식별 재해석 3.4 조건부 독립성 가정과 보정 공식 3.5 양수성 가정 3.6 구체적인 식별 예제 3.7 교란 편향 3.7.1 대리 교란 요인 3.7.2 랜덤화 재해석 3.8 선택 편향 3.8.1 충돌부 조건부 설정 3.8.2 선택편향 보정 3.8.3 매개자 조건부 설정 3.9 요약3.3 식별 재해석인과 그래프에 대한 이해를 통해서 '편향'의 본질을 더 정확하게 파악할 수 있다.더 중요한 것은, 편향을 없애려면 무엇을 해야 하는지..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c6g4AH/btsG4y2G6vN/KgwnRsF6ze1WZ3csQ0KMp1/img.jpg)
목차3.1 인과관계에 대해 생각해보기 3.1.1 인과관계 시각화 3.1.2 컨설턴트 영입 여부 결정하기 3.2 그래프 모델 집중 훈련 3.2.1 사슬 구조 3.2.2 분기 구조 3.2.3 충돌부 구조 3.2.4 연관성 흐름 치트 시트 3.2.5 파이썬에서 그래프 쿼리하기 3.3 식별 재해석 3.4 조건부 독립성 가정과 보정 공식 3.5 양수성 가정 3.6 구체적인 식별 예제 3.7 교란 편향 3.7.1 대리 교란 요인 3.7.2 랜덤화 재해석 3.8 선택 편향 3.8.1 충돌부 조건부 설정 3.8.2 선택편향 보정 3.8.3 매개자 조건부 설정 3.9 요약3장에서는, 인과추론의 두 단계인 '식별'과 '추정' 중 더 어려운 식별 부분을 더 자세히 다룬다. 데이터로 매개변수를 추정하기 전 그래프 모델에 대한..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/UacVF/btsGMEQcUvf/FbbXmhsnn0v1tCL5CbVYB0/img.jpg)
목차2.1 무작위 배정으로 독립성 확보하기2.2 A/B 테스트 사례2.3 이상적인 실험2.4 가장 위험한 수식2.5 추정값의 표준오차2.6 신뢰구간2.7 가설검정2.7.1 귀무가설2.7.2 검정통계량2.8 P값2.9 검정력2.10 표본 크기 계산2.11 요약2.1 무작위 배정으로 독립성 확보하기: 독립성 가정을 만족하면 실험군과 대조군의 평균을 비교하여 간단히 ATE를 식별할 수 있다.(1장) 실험군과 대조군에서 처치 이외에 나머지 조건이 동일하다면(=편향이 없다면) 연관관계는 인과관계가 된다. (=적어도 실험군과 대조군의 잠재적 결과에 대한 기댓값이 같다)(1장) 잠재적 결과가 처치와 독립인 경우 연관관계와 인과관계가 동일해진다. 라는 말이, 처치와 결과 사이의 독립성을 이야기하는 것이 아니라는 점이 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/pyZyU/btsGAS2byQo/AoVfqbj5Uk5mhaNCErQhO1/img.jpg)
목차1.1 인과추론의 개념1.2 인과추론의 목적1.3 머신러닝과 인과추론1.4 연관관계와 인과관계1.4.1 처치와 결과1.4.2 인과추론의 근본적인 문제1.4.3 인과모델1.4.4 개입1.4.5 개별 처치효과1.4.6 잠재적 결과1.4.7 일치성 및 SUTVA1.4.8 인과 추정량1.4.9 인과 추정량 예시1.5 편향1.5.1 편향의 수식적 이해1.5.2 편향의 시각적 가이드1.6 인과효과 식별하기1.6.1 독립성 가정1.6.2 랜덤화와 식별1.7 요약1장. 인과추론 소개 1.1 인과추론의 개념 비즈니스에서 연관관계를 인과관계로 착각하면 심각한 결과를 초래할 수 있다.ex. 주가가 급등하기 전 매수했거나 폭락하기 전 매도하는 등 자기 직관이 불규칙한 주가의 움직임과 인과적으로 연결되어 있다고 생각하고 속..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/leUy3/btsBGokBxSR/KK2xU98nqFdtNOXi9S8VrK/img.png)
Steps¶1. 시계열 시각화 - 추세, 계절성, 주기 파악¶1-1. 추세: 추세가 있다면 차분이 필요, 차분 횟수를 알 수 있는 단위근 검정 실시 (pmdarima.arima의 ndiffs 함수로 구할 수 있음)1-2. 계절성: 계절성이 있다면, seasonal=True로 지정해주어 SARIMA로1-3. 주기: 주기가 있다면, auto_arima 함수의 m의 인자에 넣어주기m=7 - daily m=52 - weekly (1년=52주) m=12 - monthly m=1 - 비계졀성 (default)2. 모형 적합 - 적절한 p,d,q를 auto_arima로 추정¶3. 잔차 검정 - 잔차가 정상성을 만족하느지 ,정규성 및 등분산성을 만족하는지 파악¶4. 모형 refresh & 예측¶한번에 테스트 데이터를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/lP1NX/btsAw4z6D7L/jeW50uyMMt6QuhPRsn0pr1/img.png)
※ Review 더보기 1. 시계열 분석 모델 [단변량], hyper parameter p,d,q 2. 정상성의 개념, 정상성 검증 방법 ADF, KPSS Test *ADF, KPSS Test = 단위근 테스트= 차분이 필요한지 객관적으로 결정하는 일반적인 방법 3. 직관적인 정상성 검증 방법 - ACF, PACF Plot *ACF, PACF Plot = (부분)자기상관함수 = AR과 MA의 사용 여부 & p,q값을 정하는 데 도움 시계열 모델 정리 정상성을 갖는 시계열에 적합한 모형 - AR, MA, ARMA 모형 AR모형 : 이름처럼, 자기상관성을 시계열 모형으로 구성 - 과거 관측값들의 선형결합으로 해당 변수의 미래 값을 예측하는 모델 - 이전 자신의 관측값이 이후 자기 관측값에 영향을 준다는 아이..