일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 컨브넷
- 데이터 증식
- 3기가 마지막이라니..!
- 그로스 마케팅
- Growth hacking
- python
- WITH CUBE
- ImageDateGenerator
- 캐글 신용카드 사기 검출
- WITH ROLLUP
- 그로스 해킹
- ARIMA
- XGBoost
- splitlines
- tableau
- 캐글 산탄데르 고객 만족 예측
- DENSE_RANK()
- 마케팅 보다는 취준 강연 같다(?)
- 부트 스트래핑
- 인프런
- 데이터 정합성
- pmdarima
- lightgbm
- 데이터 핸들링
- sql
- 그룹 연산
- 리프 중심 트리 분할
- 스태킹 앙상블
- 분석 패널
- 로그 변환
- Today
- Total
목록데이터 분석/시계열 데이터 분석 (6)
LITTLE BY LITTLE
Steps¶1. 시계열 시각화 - 추세, 계절성, 주기 파악¶1-1. 추세: 추세가 있다면 차분이 필요, 차분 횟수를 알 수 있는 단위근 검정 실시 (pmdarima.arima의 ndiffs 함수로 구할 수 있음)1-2. 계절성: 계절성이 있다면, seasonal=True로 지정해주어 SARIMA로1-3. 주기: 주기가 있다면, auto_arima 함수의 m의 인자에 넣어주기m=7 - daily m=52 - weekly (1년=52주) m=12 - monthly m=1 - 비계졀성 (default)2. 모형 적합 - 적절한 p,d,q를 auto_arima로 추정¶3. 잔차 검정 - 잔차가 정상성을 만족하느지 ,정규성 및 등분산성을 만족하는지 파악¶4. 모형 refresh & 예측¶한번에 테스트 데이터를 ..
※ Review 더보기 1. 시계열 분석 모델 [단변량], hyper parameter p,d,q 2. 정상성의 개념, 정상성 검증 방법 ADF, KPSS Test *ADF, KPSS Test = 단위근 테스트= 차분이 필요한지 객관적으로 결정하는 일반적인 방법 3. 직관적인 정상성 검증 방법 - ACF, PACF Plot *ACF, PACF Plot = (부분)자기상관함수 = AR과 MA의 사용 여부 & p,q값을 정하는 데 도움 시계열 모델 정리 정상성을 갖는 시계열에 적합한 모형 - AR, MA, ARMA 모형 AR모형 : 이름처럼, 자기상관성을 시계열 모형으로 구성 - 과거 관측값들의 선형결합으로 해당 변수의 미래 값을 예측하는 모델 - 이전 자신의 관측값이 이후 자기 관측값에 영향을 준다는 아이..
시계열 추세를 반영한 군집 분석 - DTW(Dynamic Time Warping)을 활용 - 계층적 군집 분석과의 융합 고려 데이터들의 성격을 파악할 수 있는 비지도 학습을 통해서 유용한 특성 구조를 발견할 수 있다. 대표적인 비지도 학습 방법인 군집 분석 데이터들이 얼마나 퍼져있는지, 모여있는지(분산)를 눈으로 파악하지 못할 때 유용 사용자가 직접 모델을 해석해야 하며, 이 때 생성되는 규칙을 추론하여 데이터를 해석해야 함 많이 알려진 K-means는 비계층적 군집화(=구하고자 하는 군집의 수를 정한 상태에서 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함해 가는 군집 형성 방법) 공부 안해봤던 계층적 군집화를 중점으로 알아보자. 비계층적 군집화 https://noelee.tistory.com/1..
※ Review 더보기 1. 시계열 분석 모델 [단변량], hyper parameter p,d,q 2. 정상성의 개념, 정상성 검증 방법 ADF, KPSS Test *ADF, KPSS Test = 단위근 테스트= 차분이 필요한지 객관적으로 결정하는 일반적인 방법 [3] 직관적인 정상성 검정 방법 ACF/PACF Plot, 차분 단순히 시계열 그래프만 보고나서 p,q값이 데이터에 맞았는지 이야기하기는 어렵다. 따라서 필수는 아니지만, ACF, PACF Plot을 참고할 필요성이 있다. 1. ACF (AucoCorrelation Function)와 PACF(Particlal ACF) 의 개념 : 현재의 값이 과거의 값과 어떤 관계를 갖고 있는지 보여주는 Plot ACF : 자기상관함수로, k시간 단위로 구분..
0. 시계열 데이터 : 연속 시계열 데이터는 모든 시점이 연결되어 있기 때문에 분석하기 부담스러워 이산 시계열 데이터를 많이 사용한다. 특정 시점에서 측정한 관측값들의 집합 1. 정상성을 나타내는 시계열 확인하기 1-1. 정상성을 나타내지 않는 시계열 : 추세가 있고 수준이 변하는 경우 & 계절성이 보이는 경우 & 평균과 분산이 일정하지 않은 경우 (a),(c),(e),(f),(i) - 추세가 있고 수준이 변하는 경우 (d).(h) - 분명하게 계절성이 보이는 경우 (i) - 분산이 증가하는 경우 1-2. 정상성을 나타내는 시계열 : 규칙적인 주기나 추세, 계절성이 없고 평균과 분산이 일정한 경우 (b),(g) 정상성을 나타내는 시계열 ※ 헷갈릴 수 있는 경우 : (g)는 뚜렷한 주기가 나타나긴 하지만,..
ARIMA는 AR 모형(Auto Regressive) 부분도 있고, MA(Moving Average) 부분도 있음 1-1. AR(Autoregressive) models : 자기 자신을 종속변수로하고, 이전 시점의 시계열(lag)을 독립변수로 갖는 모델 * hyper parameter: P 과거의 값이 현재의 값에 영향을 줄 때 사용 AP(p)는 차수가 p인 자기 회귀 모형 AR1. 백색잡음: 과거의 값으로 현재의 값을 예측할 수 없는 랜덤한 상태 AR2. 확률 보행: 현재 값을 예측할 수 있는 가장 좋은 값은 어제의 값 [ yt=yt−1+ϵt ] AR3. 표류가 있는 확률 보행: 시간이 지남에 따라 평균적으로 값이 증가/감소[ yt=c+yt−1+ϵt ] AR4. 정상성을 만족하는 모형 => AR4를 제..