카테고리 없음

ADsP 제3과목 데이터 분석 - 4장 통계분석 4, 5, 6절

아웃라이어_ 2020. 2. 17. 23:53

데이터분석 준전문가 3과목 4장 4, 5, 6절 요약입니다.

워드파일과 R코드도 첨부합니다 필요하신 분 사용하세요

(나눔바른고딕 폰트 사용하였습니다.

R 버젼은 3.6.1, 인코딩은 utf8입니다.)

제3과목_4장_4절_시계열_분석.docx
0.02MB
Ch03_04_04_Time_series.R
0.00MB
Ch03_04_05_MDS.R
0.00MB
Ch03_04_06_PCA.R
0.00MB

제4장 통계 분석

제4절 시계열 분석

• 시계열(time-series)

- 시간의 흐름에 따라 관찰된 값

- 시계열 데이터 분석의 목적:
· 미래의 값을 예측
· 시계열 데이터의 특성 파악

- 일변량 시계열 분석
· 시간(t)을 설명변수로 하나의 변수에 관심을 가지는 경우의 시계열분석
· Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등

- 다중 시계열
· 계량경제 모형, 전이함수 모형, 개입 분석, 상태공간 분석, 다변량 ARIMA 등

· 계량경제(econometrics): 시계열 데이터에 대한 회귀분석

 

 • 정상성(stationarity)

- 정상 시계열은 어떤 시점에서도 동일한 평균과 분산 그리고 특정한 시차의 길이를 가지는 자기공분산 값을 가진다.

- 항상 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가진다.

- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없다.

- 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화

· 차분은 현 시점 자료에서 전 시점 자료를 빼는 것.
- 일반 차분: 바로 전 시점 자료를 빼는 것
- 계절 차분: 여러 시점 전 자료를 빼는 것. 주로 계절성을 가지는 자료를 정상화 할 때 사용

- 분산이 일정하지 않은 시계열은 변환(transformation)을 통해 정상화

- 자기 공분산은 단지 시차에만 의존, 특정 시점 t, s에는 의존하지 않는다.

 

• 자기회귀 모형(AR, Auto-Regressive)

- p 시점 전의 자료가 현재 자료에 영향을 줌

 

Zt=Φ1 Zt-1+Φ2 Zt-2+⋯+Φp Zt-pt

 

Zt : 현재 시점의 시계열 자료

Zt-1, Zt-2, ⋯, Zp : 이전, 그 이전 시점 p의 시계열 자료

Φp : p 시점 자료가 현재 시계열 자료에 어느 정도 영향을 주는지를 나타내는 모수 

αt : 백색 잡음(white noise), 시계열 분석에서 오차항을 의미
- 시계열 간 확률적으로 독립인 경우, 강(strictly) 백색 잡음이라 한다.
- 백색 잡음이 정규분포를 따를 경우 Gaussian white noise라고 한다.

· AR(1) 모형: Zt=Φ1 Zt-1t

· AR(2) 모형: Zt=Φ1 Zt-12 Zt-2+αt

 

· 자기상관함수(ACF)
- k 기간 떨어진 값들의 상관계수를 함수 형태로 표시한 것

pk= λk/λ0=Cov(Yt, Yt-k)VarYt*  Var(Yt-k)

· AR(1) 모형: Zt=p1 Zt-1t

- 만일, -1< ϕp<1 이면 두 지점 간의 거리가 멀어질수록(k가 커질수록) ACF는 0으로 수렴한다.

 

· 부분 자기상관함수(Partial ACF)
- 서로 다른 두 시점 사이의 관계를 분석할 때 중간에 있는 값들의 영향을 제외시킨 상관관계 개념

- 자기상관함수(ACF)는 빠르게 감소, 부분 자기상관함수(PACF)는 어느 시점에서 절단점을 가진다.

예) ACF가 빠르게 감소하고, PACF가 2시점에서 절단점을 갖는 시계열 자료가 있다면, 1시점 전까지의 자료가 현재에 영향을 미치는 AR(1) 모형이라고 볼 수 있다.

 

• 이동평균 모형(MA, Moving Average)
- 유한한 개수의 백색 잡음의 결합이므로 언제나 정상성을 만족

Zt=αt-θ1αt-1-θ2αt-2-⋯-θpαt-p

- 1차 이동평균(MA1) 모형은 이동평균 모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합으로 이루어진 모형

Zt=αt-θ1αt-1

- 2차 이동평균(MA2) 모형은 바로 전 시점의 백색 잡음과 시차가 2인 백색 잡음의 결합으로 이루어진 모형

Zt=αt-θ1αt-1-θ2αt-2-⋯-θp

- AR 모형과 반대로 ACF에서 절단점을 가지고, PACF가 빠르게 감소한다.

 

• 자기회귀누적이동평균(ARIMA) 모형

- 비정상 시계열 모형
- ARIMA 모형을 차분이나 변환을 통해 AR 모형이나 MA 모형, 이 둘을 합친 ARMA 모형으로 정상화할 수 있다.

 

· ARIMA(p, d, q) 모형
- p는 AR 모형, q는 MA모형과 관련
- 시계열 {Zt} 의 d번 차분한 시계열이 ARMA(p, q) 모형이면, 시계열 {Zt} 는 차수가 p, d, q인 ARIMA 모형을 가진다고 한다.

- d=0이면 ARMA(p, q) 모형이라 부르고, 이 모형은 정상성을 만족한다.

- p=0이면 IMA(d, q) 모형이라 부르고, d번 차분하면 MA(q) 모형을 따른다.

- q=0이면 ARI(p, d) 모형이라 부르며, d번 차분한 시계열이 AR(p) 모형을 따른다.

 

• 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.

· 분해식의 일반적 정의

Zt=f(Tt, St, Ct, It)

 

- Tt (추세요인, Trend factor): 자료의 그림을 그렸을 때 그 형태가 오르거나 또는 내리는 추세를 따르는 경우 (선형, 이차식, 지수식)

- St (계절요인, Seasonal factor): 요일마다 반복되거나 일 년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화할 경우

- Ct (순환요인, Cyclical factor): 명백한 경제적, 자연적 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료

- It (불규칙요인, Irregular factor): 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 

제5절 다차원 척도법

• 다차원 척도법
- 개체들의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 집단적으로 시각화하는 통계기법

- 데이터 속에 잠재해 있는 패턴, 구조를 찾아내어 소수 차원의 공간에 기하학적으로 표현한다.

- 데이터 축소의 목적으로 다차원 척도법을 이용한다. 즉, 데이터에 포함되는 정보를 끄집어내기 위해 다차원 척도법을 탐색수단으로써 사용한다.

- 다차원 척도법에 의해서 얻은 결과를 데이터가 만들어진 현상이나 과정에 고유의 구조로서 의미를 부여한다.

 

• 다차원 척도법 방법

1. 개체들의 거리계산 - 유클리드 거리

2. 관측 대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress value)으로 나타낸다.

S= i=1, j=1n(dij-dij)2i=1, j=1n(dij)2

dij : 관측대상 i부터 j까지의 실제 거리

dij : 프로그램에 의해서 추정된 거리

 

3. 최적모형의 적합은 부적합도를 최소로 하는 반복 알고리즘을 이용하여, 이 값이 일정 수준 이하로 될 때 최종적 모델로 제시한다.

 

• 계량적 MDS(Metric MDS)
- 데이터가 구간척도나 비율척도인 경우 사용한다. (전통적인 다차원 척도법)

- 각 개체들 간의 유클리드 거리 행렬을 계산하고 개체들 간의 비유사성 S를 공간상에 표현한다.

 

• 비계량적 MDS(Nonmetric MDS)
- 데이터가 순서척도인 경우 활용한다. 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(monotone transformation)하여 거리를 생성한 후 적용한다.

 

제6절 주성분 분석

• 주성분 분석(PCA)
- 여러 변수들의 변량은 "주성분(Principal Component)"이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

- 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두번째 주성분으로는 첫번째 주성분과는 상관성이 낮아서 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.

 

• 주성분 분석의 목적

- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.

- 다중공선성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 이용한다. (회귀분석이나 의사결정나무 등의 모형 개발 시 입력 변수들 간의 상관관계가 높은 다중공선성이 존재할 경우 모형이 잘못 만들어질 수 있다.)

- 연관성이 높은 변수를 주성분 분석을 통해 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산 속도를 개선할 수 있다.

 

• 주성분 분석 vs 요인분석

· 요인분석(Factor analysis)은 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통 인자를 찾아내는 기법

 

· 공통점
- 모두 데이터 축소에 활용된다.
- 원래의 데이터를 활용하여 몇 개의 새로운 변수들을 만들 수 있다.

 

· 차이점

구분

요인분석

주성분 분석

변수의 수

몇 개라고
지정없이
만들 수 있다.

제1주성분,
제2주성분,
제3주성분 정도로 활용한다
(4개 이상은
넘지 않음)

변수 이름

분석자가 요인의 이름을 명명한다.

주로 제1주성분, 제2주성분
등으로 표현된다.

변수 관계

새 변수들은
기본적으로
대등한 관계
 가지며
"어떤 것이 더 중요하다"라는
의미가 없다.

제1주성분이
가장 중요하고,
제2주성분이
 다음으로
중요하게 취급

 

• 주성분의 선택 방법
- 주성분 분석의 결과에서 누적 기여율(cumulative proportion)이 85% 이상되는 곳을 찾아 절단점을 찾는다.

- scree plot을 활용하여 고유값(eigen-value)이 수평을 유지하기 전 단계로 주성분의 수를 선택