ADsP 제3과목 데이터 분석 - 4장 통계분석 4, 5, 6절

카테고리 없음

ADsP 제3과목 데이터 분석 - 4장 통계분석 4, 5, 6절

아웃라이어_ 2020. 2. 17. 23:53

데이터분석 준전문가 3과목 4장 4, 5, 6절 요약입니다.

워드파일과 R코드도 첨부합니다 필요하신 분 사용하세요

(나눔바른고딕 폰트 사용하였습니다.

R 버젼은 3.6.1, 인코딩은 utf8입니다.)

제3과목_4장_4절_시계열_분석.docx

0.02MB

Ch03_04_04_Time_series.R

제4장 통계 분석

제4절 시계열 분석

• 시계열(time-series)

- 시간의 흐름에 따라 관찰된 값

- 시계열 데이터 분석의 목적:
· 미래의 값을 예측
· 시계열 데이터의 특성 파악

- 일변량 시계열 분석
· 시간(t)을 설명변수로 하나의 변수에 관심을 가지는 경우의 시계열분석
· Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등

- 다중 시계열
· 계량경제 모형, 전이함수 모형, 개입 분석, 상태공간 분석, 다변량 ARIMA 등

· 계량경제(econometrics): 시계열 데이터에 대한 회귀분석

• 정상성(stationarity)

- 정상 시계열은 어떤 시점에서도 동일한 평균과 분산 그리고 특정한 시차의 길이를 가지는 자기공분산 값을 가진다.

- 항상 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가진다.

- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없다.

- 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화

· 차분은 현 시점 자료에서 전 시점 자료를 빼는 것.
- 일반 차분: 바로 전 시점 자료를 빼는 것
- 계절 차분: 여러 시점 전 자료를 빼는 것. 주로 계절성을 가지는 자료를 정상화 할 때 사용

- 분산이 일정하지 않은 시계열은 변환(transformation)을 통해 정상화

- 자기 공분산은 단지 시차에만 의존, 특정 시점 t, s에는 의존하지 않는다.

• 자기회귀 모형(AR, Auto-Regressive)

- p 시점 전의 자료가 현재 자료에 영향을 줌

Zt=Φ1 Zt-1+Φ2 Zt-2+⋯+Φp Zt-p+αt

Zt : 현재 시점의 시계열 자료

Zt-1, Zt-2, ⋯, Zp : 이전, 그 이전 시점 p의 시계열 자료

Φp : p 시점 자료가 현재 시계열 자료에 어느 정도 영향을 주는지를 나타내는 모수

αt : 백색 잡음(white noise), 시계열 분석에서 오차항을 의미
- 시계열 간 확률적으로 독립인 경우, 강(strictly) 백색 잡음이라 한다.
- 백색 잡음이 정규분포를 따를 경우 Gaussian white noise라고 한다.

· AR(1) 모형: Zt=Φ1 Zt-1+αt

· AR(2) 모형: Zt=Φ1 Zt-1+Φ2 Zt-2+αt

· 자기상관함수(ACF)
- k 기간 떨어진 값들의 상관계수를 함수 형태로 표시한 것

pk= λk/λ0=Cov(Yt, Yt-k)VarYt* Var(Yt-k)

· AR(1) 모형: Zt=p1 Zt-1+αt

- 만일, -1< ϕp<1 이면 두 지점 간의 거리가 멀어질수록(k가 커질수록) ACF는 0으로 수렴한다.

· 부분 자기상관함수(Partial ACF)
- 서로 다른 두 시점 사이의 관계를 분석할 때 중간에 있는 값들의 영향을 제외시킨 상관관계 개념

- 자기상관함수(ACF)는 빠르게 감소, 부분 자기상관함수(PACF)는 어느 시점에서 절단점을 가진다.

예) ACF가 빠르게 감소하고, PACF가 2시점에서 절단점을 갖는 시계열 자료가 있다면, 1시점 전까지의 자료가 현재에 영향을 미치는 AR(1) 모형이라고 볼 수 있다.

• 이동평균 모형(MA, Moving Average)
- 유한한 개수의 백색 잡음의 결합이므로 언제나 정상성을 만족

Zt=αt-θ1αt-1-θ2αt-2-⋯-θpαt-p

- 1차 이동평균(MA1) 모형은 이동평균 모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합으로 이루어진 모형

Zt=αt-θ1αt-1

- 2차 이동평균(MA2) 모형은 바로 전 시점의 백색 잡음과 시차가 2인 백색 잡음의 결합으로 이루어진 모형

Zt=αt-θ1αt-1-θ2αt-2-⋯-θp

- AR 모형과 반대로 ACF에서 절단점을 가지고, PACF가 빠르게 감소한다.

• 자기회귀누적이동평균(ARIMA) 모형

- 비정상 시계열 모형
- ARIMA 모형을 차분이나 변환을 통해 AR 모형이나 MA 모형, 이 둘을 합친 ARMA 모형으로 정상화할 수 있다.

· ARIMA(p, d, q) 모형
- p는 AR 모형, q는 MA모형과 관련
- 시계열 {Zt} 의 d번 차분한 시계열이 ARMA(p, q) 모형이면, 시계열 {Zt} 는 차수가 p, d, q인 ARIMA 모형을 가진다고 한다.

- d=0이면 ARMA(p, q) 모형이라 부르고, 이 모형은 정상성을 만족한다.

- p=0이면 IMA(d, q) 모형이라 부르고, d번 차분하면 MA(q) 모형을 따른다.

- q=0이면 ARI(p, d) 모형이라 부르며, d번 차분한 시계열이 AR(p) 모형을 따른다.

• 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.

· 분해식의 일반적 정의

Zt=f(Tt, St, Ct, It)

- Tt (추세요인, Trend factor): 자료의 그림을 그렸을 때 그 형태가 오르거나 또는 내리는 추세를 따르는 경우 (선형, 이차식, 지수식)

- St (계절요인, Seasonal factor): 요일마다 반복되거나 일 년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화할 경우

- Ct (순환요인, Cyclical factor): 명백한 경제적, 자연적 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료

- It (불규칙요인, Irregular factor): 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

제5절 다차원 척도법

• 다차원 척도법
- 개체들의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 집단적으로 시각화하는 통계기법

- 데이터 속에 잠재해 있는 패턴, 구조를 찾아내어 소수 차원의 공간에 기하학적으로 표현한다.

- 데이터 축소의 목적으로 다차원 척도법을 이용한다. 즉, 데이터에 포함되는 정보를 끄집어내기 위해 다차원 척도법을 탐색수단으로써 사용한다.

- 다차원 척도법에 의해서 얻은 결과를 데이터가 만들어진 현상이나 과정에 고유의 구조로서 의미를 부여한다.

• 다차원 척도법 방법

1. 개체들의 거리계산 - 유클리드 거리

2. 관측 대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress value)으로 나타낸다.

S= i=1, j=1n(dij-dij)2i=1, j=1n(dij)2

dij : 관측대상 i부터 j까지의 실제 거리

dij : 프로그램에 의해서 추정된 거리

3. 최적모형의 적합은 부적합도를 최소로 하는 반복 알고리즘을 이용하여, 이 값이 일정 수준 이하로 될 때 최종적 모델로 제시한다.

• 계량적 MDS(Metric MDS)
- 데이터가 구간척도나 비율척도인 경우 사용한다. (전통적인 다차원 척도법)

- 각 개체들 간의 유클리드 거리 행렬을 계산하고 개체들 간의 비유사성 S를 공간상에 표현한다.

• 비계량적 MDS(Nonmetric MDS)
- 데이터가 순서척도인 경우 활용한다. 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(monotone transformation)하여 거리를 생성한 후 적용한다.

제6절 주성분 분석

• 주성분 분석(PCA)
- 여러 변수들의 변량은 "주성분(Principal Component)"이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

- 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두번째 주성분으로는 첫번째 주성분과는 상관성이 낮아서 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.

• 주성분 분석의 목적

- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.

- 다중공선성이 존재하는 경우, 상관성이 적은 주성분으로 변수들을 축소하여 모형 개발에 이용한다. (회귀분석이나 의사결정나무 등의 모형 개발 시 입력 변수들 간의 상관관계가 높은 다중공선성이 존재할 경우 모형이 잘못 만들어질 수 있다.)

- 연관성이 높은 변수를 주성분 분석을 통해 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산 속도를 개선할 수 있다.

• 주성분 분석 vs 요인분석

· 요인분석(Factor analysis)은 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통 인자를 찾아내는 기법

· 공통점
- 모두 데이터 축소에 활용된다.
- 원래의 데이터를 활용하여 몇 개의 새로운 변수들을 만들 수 있다.

· 차이점

구분	요인분석	주성분 분석
변수의 수	몇 개라고 지정없이 만들 수 있다.	제1주성분, 제2주성분, 제3주성분 정도로 활용한다 (4개 이상은 넘지 않음)
변수 이름	분석자가 요인의 이름을 명명한다.	주로 제1주성분, 제2주성분 등으로 표현된다.
변수 관계	새 변수들은 기본적으로 대등한 관계 가지며 "어떤 것이 더 중요하다"라는 의미가 없다.	제1주성분이 가장 중요하고, 제2주성분이 다음으로 중요하게 취급

• 주성분의 선택 방법
- 주성분 분석의 결과에서 누적 기여율(cumulative proportion)이 85% 이상되는 곳을 찾아 절단점을 찾는다.

- scree plot을 활용하여 고유값(eigen-value)이 수평을 유지하기 전 단계로 주성분의 수를 선택

현재글ADsP 제3과목 데이터 분석 - 4장 통계분석 4, 5, 6절

데이터분석가 성장기

Python, 모두의SQL, 구현, 문자열, 데이터분석 준전문가, 다이나믹 프로그래밍, 스택큐, SQL, 브루트포스 알고리즘, 출제문항, 정렬, 스택, 사칙 연산, sorted, 수학, 백준, 사칙연산, Programmers, ADsP, 자료구조,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

데이터분석가 성장기