데이터분석 준전문가 3과목 4장 4, 5, 6절 요약입니다.
워드파일과 R코드도 첨부합니다 필요하신 분 사용하세요
(나눔바른고딕 폰트 사용하였습니다.
R 버젼은 3.6.1, 인코딩은 utf8입니다.)
제4장 통계 분석
제4절 시계열 분석
• 시계열(time-series)
- 시간의 흐름에 따라 관찰된 값
- 시계열 데이터 분석의 목적:
· 미래의 값을 예측
· 시계열 데이터의 특성 파악
- 일변량 시계열 분석
· 시간(t)을 설명변수로 하나의 변수에 관심을 가지는 경우의 시계열분석
· Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등
- 다중 시계열
· 계량경제 모형, 전이함수 모형, 개입 분석, 상태공간 분석, 다변량 ARIMA 등
· 계량경제(econometrics): 시계열 데이터에 대한 회귀분석
• 정상성(stationarity)
- 정상 시계열은 어떤 시점에서도 동일한 평균과 분산 그리고 특정한 시차의 길이를 가지는 자기공분산 값을 가진다.
- 항상 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가진다.
- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없다.
- 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화
· 차분은 현 시점 자료에서 전 시점 자료를 빼는 것.
- 일반 차분: 바로 전 시점 자료를 빼는 것
- 계절 차분: 여러 시점 전 자료를 빼는 것. 주로 계절성을 가지는 자료를 정상화 할 때 사용
- 분산이 일정하지 않은 시계열은 변환(transformation)을 통해 정상화
- 자기 공분산은 단지 시차에만 의존, 특정 시점 t, s에는 의존하지 않는다.
• 자기회귀 모형(AR, Auto-Regressive)
- p 시점 전의 자료가 현재 자료에 영향을 줌
Zt=Φ1 Zt-1+Φ2 Zt-2+⋯+Φp Zt-p+αt
Zt : 현재 시점의 시계열 자료
Zt-1, Zt-2, ⋯, Zp : 이전, 그 이전 시점 p의 시계열 자료
Φp : p 시점 자료가 현재 시계열 자료에 어느 정도 영향을 주는지를 나타내는 모수
αt : 백색 잡음(white noise), 시계열 분석에서 오차항을 의미
- 시계열 간 확률적으로 독립인 경우, 강(strictly) 백색 잡음이라 한다.
- 백색 잡음이 정규분포를 따를 경우 Gaussian white noise라고 한다.
· AR(1) 모형: Zt=Φ1 Zt-1+αt
· AR(2) 모형: Zt=Φ1 Zt-1+Φ2 Zt-2+αt
· 자기상관함수(ACF)
- k 기간 떨어진 값들의 상관계수를 함수 형태로 표시한 것
pk= λk/λ0=Cov(Yt, Yt-k)VarYt* Var(Yt-k)
· AR(1) 모형: Zt=p1 Zt-1+αt
- 만일, -1< ϕp<1 이면 두 지점 간의 거리가 멀어질수록(k가 커질수록) ACF는 0으로 수렴한다.
· 부분 자기상관함수(Partial ACF)
- 서로 다른 두 시점 사이의 관계를 분석할 때 중간에 있는 값들의 영향을 제외시킨 상관관계 개념
- 자기상관함수(ACF)는 빠르게 감소, 부분 자기상관함수(PACF)는 어느 시점에서 절단점을 가진다.
예) ACF가 빠르게 감소하고, PACF가 2시점에서 절단점을 갖는 시계열 자료가 있다면, 1시점 전까지의 자료가 현재에 영향을 미치는 AR(1) 모형이라고 볼 수 있다.
• 이동평균 모형(MA, Moving Average)
- 유한한 개수의 백색 잡음의 결합이므로 언제나 정상성을 만족
Zt=αt-θ1αt-1-θ2αt-2-⋯-θpαt-p
- 1차 이동평균(MA1) 모형은 이동평균 모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합으로 이루어진 모형
Zt=αt-θ1αt-1
- 2차 이동평균(MA2) 모형은 바로 전 시점의 백색 잡음과 시차가 2인 백색 잡음의 결합으로 이루어진 모형
Zt=αt-θ1αt-1-θ2αt-2-⋯-θp
- AR 모형과 반대로 ACF에서 절단점을 가지고, PACF가 빠르게 감소한다.
• 자기회귀누적이동평균(ARIMA) 모형
- 비정상 시계열 모형
- ARIMA 모형을 차분이나 변환을 통해 AR 모형이나 MA 모형, 이 둘을 합친 ARMA 모형으로 정상화할 수 있다.
· ARIMA(p, d, q) 모형
- p는 AR 모형, q는 MA모형과 관련
- 시계열 {Zt} 의 d번 차분한 시계열이 ARMA(p, q) 모형이면, 시계열 {Zt} 는 차수가 p, d, q인 ARIMA 모형을 가진다고 한다.
- d=0이면 ARMA(p, q) 모형이라 부르고, 이 모형은 정상성을 만족한다.
- p=0이면 IMA(d, q) 모형이라 부르고, d번 차분하면 MA(q) 모형을 따른다.
- q=0이면 ARI(p, d) 모형이라 부르며, d번 차분한 시계열이 AR(p) 모형을 따른다.
• 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.
· 분해식의 일반적 정의
Zt=f(Tt, St, Ct, It)
- Tt (추세요인, Trend factor): 자료의 그림을 그렸을 때 그 형태가 오르거나 또는 내리는 추세를 따르는 경우 (선형, 이차식, 지수식)
- St (계절요인, Seasonal factor): 요일마다 반복되거나 일 년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화할 경우
- Ct (순환요인, Cyclical factor): 명백한 경제적, 자연적 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
- It (불규칙요인, Irregular factor): 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인
제5절 다차원 척도법
• 다차원 척도법
- 개체들의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 집단적으로 시각화하는 통계기법
- 데이터 속에 잠재해 있는 패턴, 구조를 찾아내어 소수 차원의 공간에 기하학적으로 표현한다.
- 데이터 축소의 목적으로 다차원 척도법을 이용한다. 즉, 데이터에 포함되는 정보를 끄집어내기 위해 다차원 척도법을 탐색수단으로써 사용한다.
- 다차원 척도법에 의해서 얻은 결과를 데이터가 만들어진 현상이나 과정에 고유의 구조로서 의미를 부여한다.
• 다차원 척도법 방법
1. 개체들의 거리계산 - 유클리드 거리
2. 관측 대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress value)으로 나타낸다.
S= i=1, j=1n(dij-dij)2i=1, j=1n(dij)2
dij : 관측대상 i부터 j까지의 실제 거리
dij : 프로그램에 의해서 추정된 거리
3. 최적모형의 적합은 부적합도를 최소로 하는 반복 알고리즘을 이용하여, 이 값이 일정 수준 이하로 될 때 최종적 모델로 제시한다.
• 계량적 MDS(Metric MDS)
- 데이터가 구간척도나 비율척도인 경우 사용한다. (전통적인 다차원 척도법)
- 각 개체들 간의 유클리드 거리 행렬을 계산하고 개체들 간의 비유사성 S를 공간상에 표현한다.
• 비계량적 MDS(Nonmetric MDS)
- 데이터가 순서척도인 경우 활용한다. 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(monotone transformation)하여 거리를 생성한 후 적용한다.
제6절 주성분 분석
• 주성분 분석(PCA)
- 여러 변수들의 변량은 "주성분(Principal Component)"이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두번째 주성분으로는 첫번째 주성분과는 상관성이 낮아서 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.
• 주성분 분석의 목적
- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.
- 다중공선성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 이용한다. (회귀분석이나 의사결정나무 등의 모형 개발 시 입력 변수들 간의 상관관계가 높은 다중공선성이 존재할 경우 모형이 잘못 만들어질 수 있다.)
- 연관성이 높은 변수를 주성분 분석을 통해 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산 속도를 개선할 수 있다.
• 주성분 분석 vs 요인분석
· 요인분석(Factor analysis)은 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통 인자를 찾아내는 기법
· 공통점
- 모두 데이터 축소에 활용된다.
- 원래의 데이터를 활용하여 몇 개의 새로운 변수들을 만들 수 있다.
· 차이점
구분 |
요인분석 |
주성분 분석 |
변수의 수 |
몇 개라고 |
제1주성분, |
변수 이름 |
분석자가 요인의 이름을 명명한다. |
주로 제1주성분, 제2주성분 |
변수 관계 |
새 변수들은 |
제1주성분이 |
• 주성분의 선택 방법
- 주성분 분석의 결과에서 누적 기여율(cumulative proportion)이 85% 이상되는 곳을 찾아 절단점을 찾는다.
- scree plot을 활용하여 고유값(eigen-value)이 수평을 유지하기 전 단계로 주성분의 수를 선택