자격증/ADsP

ADsP 제3과목 데이터 분석 - 4장 통계분석 1, 2, 3절

아웃라이어_ 2020. 2. 17. 23:44

데이터분석 준전문가 3과목 4장 1, 2, 3절 요약입니다.

워드파일과 R코드도 첨부합니다 필요하신 분 사용하세요

(나눔바른고딕 폰트 사용하였습니다.

R 버젼은 3.6.1, 인코딩은 utf8입니다.)

Ch03_04_03_Regression.R
0.00MB
제3과목_4장_1절_통계분석.docx
0.02MB

 

제4장 통계 분석

제1절 통계분석의 이해

• 통계
- 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

 

• 통계자료의 획득 방법
- 총 조사(census): 대상 집단 모두를 조사하는 것. 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않는다.

 

- 표본조사:
· 모집단: 조사하고자 하는 대상 집단 전체

· 원소: 모집단을 구성하는 개체

· 표본(sample): 조사하기 위해 추출한 모집단의일부 원소

· 모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

· 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.

 

- 표본 추출 방법에 따라 분석 결과 해석에 큰 차이가 발생한다.

1. 단순랜덤추출법(simple random sampling): 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법. 각 샘플이 선택된 확률은 동일

 

2. 계통추출법(systematic sampling): 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 선택. 임의의 위치에서 매 k번째 항목추출

 

3. 집략추출법(cluster random sampling): 군집을 구분하고 군집별로 단순랜덤추출법을 한 후 모든 자료를 활용하거나 샘플링하는 방법.

 

4. 층화추출법(stratified random sampling): 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법

- 실험: 특정 목적 하에서 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법

 

• 측정(measurement)
- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측하여 자료를 얻는 것

 

• 통계분석
- 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.

 

- 기술통계(descriptive statistic): 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계 집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론

 

- 추측통계(inference statistic): 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것

· 모수추정: 표본으로부터 모집단의 특성인 모수를 분석하여 모집단을 추론한다.

· 가설검정: 대상 집단에 대해 특정 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법

· 예측: 미래의 불확실성을 해결해 효율적인 의사결정을 위해 수행

 

• 확률 및 확률분포

1. 확률
- 특정 사건이 일어날 가능성의 척도

· 표본공간: 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합

· 사건: 관찰자가 관심이 있는 사건. 표본공간의 부분집합

· 원소: 나타날 수 있는 개개의 결과들

 

2. 확률변수
- 특정 값이 나타날 가능성이 확률적으로 주어지는 변수

- 정의역이 표본공간, 치역이 실수값인 함수

- 0이 아닌 확률을 가지는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분

 

3. 이산형 확률변수(discrete random variable)
- 0이 아닌 확률 값을 가지는 변수가 셀 수 있는 경우(확률질량함수)

· 베르누이 확률분포(Bernoulli distribution): 결과가 2개만 나오는 경우

· 이항분포(Binomial distribution): 베르누이 시행을 n번 반복했을 때 k번 성공할 확률

- 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다.
- 성공할 확률 p가 0.5에 가까우면 종모양

· 기하분포(Geometric distribution): 성공 확률이 p인 베르누이 시행에서 첫 성공이 있기까지 x번 실패할 확률

· 다항분포(Multi-nomial distribution): 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
· 포아송분포(Poisson distribution): 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

 

4. 연속형 확률변수
- 가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률변수(확률밀도함수)

· 균일분포(uniform distribution): 모든 확률변수 X가 균일한 확률을 가지는 확률분포

· 정규분포(normal distribution): 평균이 μ 이고 표준편차가 σ 인 x의 확률밀도함수

· 표준정규분포: 평균이 0이고 표준편차가 1인 정규분포

· t-분포: 두 집단의 평균이 동일한지 알고자 할 때 활용하는 검정통계량. 정규분포보다 더 퍼져있고 자유도가 커질수록 정규분포에 가까워집니다.

· χ2 분포(chi-square distribution): 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포. 두 집단 간의 동질성 검정에 활용된다. 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용. 자유도가 작을 때는 왼쪽에 치우쳐 있지만 자유도가 커질수록 정규분포형태가 됩니다.

· F-분포: 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포. 정규분포 형태와 비슷하나 오른쪽 꼬리가 긴 모양. 두 개의 자유도가 증가할수록 정규분포에 가까워집니다.

 

• 추정과 가설검정

1. 확률표본(random sample)
- 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.

- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.

- 각 관찰값들은 서로 독립적이며 동일한 분포

 

· 추정(estimation): 표본으로부터 미지의 모수를 추측하는 것이다.

 

· 점추정: "모수가 특정한 값일 것"이라고 추정하는 것이다. 표본의 평균, 중위수, 최빈값 등을 사용한다.

- 점추정량의 조건:

① 불편성(unbiasedness): 모든 가능한 표본에서 얻은 추정량의 기댓값이다.

② 효율성(efficiency): 추정량의 분산이 작을수록 좋다.

③ 일치성(consistency): 표본의 크기가 아주 커지면, 추정값이 모수와 거의 같아진다.

④ 충족성(sufficient): 추정량의 모수에 대하여 모든 정보를 제공한다.

 

· 구간추정: 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것.

- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함

 

· 가설검정: 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

- 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.

- 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택 여부를 결정한다.

- 귀무가설(null hypothesis, H0 ): "비교하는 값과 차이가 없다"를 기본 개념으로 하는 가설

- 대립가설(alternative hypothesis, H1 ): 뚜렷한 증거가 있을 때 주장하는 가설

- 검정통계량(test statistic): 관찰된 표본으로부터 구하는 통계량. 검정 시 가설의 진위를 판단하는 기준

- 유의수준(significance level): 귀무가설을 기각하게 되는 확률의 크기로 "귀무가설이 옳은데도 이를 기각하는 확률의 크기"

- 기각역(critical region): 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준인 부분

- 제1종 오류(type 1 error): 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류

- 제2종 오류(type 2 error): 귀무가설이 옳지 않은 데도 귀무가설을 채택하게 되는 오류

- 두 가지 오류는 서로 상충관계가 있어서 일반적으로 가설검정에서는 제1종 오류의 크기를 0.1, 0.05, 0.01 등으로 고정시킨 뒤 제2종 오류가 최소가 되도록 기각역을 설정

 

• 비모수 검정

- 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다.

 

- 모수적 방법(parametic method): 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.

· 가설의 설정: 가정된 분포의 모수에 대해 가설을 설정한다.

· 검정 방법: 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.

 

- 비모수적 방법(non-parametic method): 자료가 추출된 모집단의 분포에 대한 아무 제약을 각하지 않고 검정을 실시하는 검정방법이다. 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다. 관측된 자료의 수가 많지 않거나 자료가 개체 간의 서열 관계를 나타내는 경우에 이용한다.

· 가설의 설정: 가정된 분포가 없으므로 가설은 단지 "분포의 형태가 동일하다" 또는 "분포의 형태가 동일하지 않다"와 같이 분포의 형태에 대해 설정한다.

· 검정 방법: 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정한다.

 

제2절 기초 통계분석

• 기술 통계(Descriptive statistics)
- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것이다.

- 자료를 요약하는 기초적 통계를 의미한다.

- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다

· 중심위치의 측도: 표본평균, 중앙값

· 산포의 측도: 분산, 표준편차, 사분위수범위

· 왜도: 분포의 비대칭정도를 나타내는 측도

· 첨도: 분포의 중심에서 뾰족한 정도를 나타내는 측도

· 히스토그램: 표로 되어있는 도수 분포를 정보 그림으로 나타낸 것. 연속형으로 표시된 데이터를 표현하며 임의로 순서를 바꿀 수 없고 막대의 간격이 없다.

· 막대그래프: 범주형으로 구분된 데이터를 표현하며 범주의 순서를 의도에 따라 바꿀 수 있다.

· 상자그림: 다섯 숫자 요약을 통해 그림으로 표현(최소값, Q1, Q2, Q3, 최대값)

 

• 인과관계의 이해

· 종속변수(dependent variable, y): 다른 변수의 영향을 받는 변수

· 독립변수(independent variable, x): 영향을 주는 변수

· 산점도(scatter plot): 좌표평면 위에 점들로 표현
- 두 변수 사이의 선형관계가 성립하는가?
- 두 변수 사이의 함수관계가 성립하는가?
- 이상값이 존재하는가?
- 몇 개의 집단으로 구분되는가?

 

• 공분산 (Covariance)
- 두 확률변수 X, Y의 방향의 조합(선형성)이다.

- X, Y가 서로 독립이면 공분산은 0이다.

 

• 상관관계(Correlation) 분석
- 데이터 안의 두 변수 간의 관계를 알아보기 위한 분석방법

- 상관계수가 1에 가까울수록 데이터가 강한 양의 상관관계를 가진다.

- 상관계수가 -1에 가까울수록 데이터가 강한 음의 상관관계를 가진다.

- 상관계수가 0인 경우 데이터 간의 상관관계가 없다.

· 피어슨 상관계수: 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식. 연속형 변수, 정규성 가정. 대부분 많이 사용

· 스피어만 상관계수: 서열척도인 두 변수들의 상관관계 측정 방식. 순서형 변수, 비모수적 방법. 순위를 기준으로 상관관계 측정

 

제3절 회귀 분석

• 회귀분석의 개요
- 한 개 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법

· 회귀 모형이 통계적으로 유의미한가?
- F 통계량을 확인한다. 유의수준 5% 하에서 F 통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.

· 회귀 계수들이 유의미한가?
- 해당 계수의 t 통계량과 p-값 또는 이들의 신뢰구간을 확인한다.

· 모델이 얼마나 설명력을 가지는가?
- 결정계수를 확인한다. 결정계수는 0~1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

· 모형이 데이터를 잘 적합하고 있는가?
- 잔차를 그래프로 그리고 회귀진단을 한다.

 

• 회귀분석의 검정
· 회귀 계수의 검정: 회귀계수가 0이면 입력변수 x와 출력변수 y 사이에는 아무런 관계가 없다.

· 결정계수(R^2): 결정계수는 전체 제곱합에서 회귀 제곱합의 비율. 즉, R^2 = SSR / SST
- 전체 데이터를 회귀 모형이 설명할 수 있는 양이다. 결정계수는 1에 가까울수록 회귀모형이 전체 데이터를 잘 설명함을 의미한다.

 

• 회귀직선의 적합도 검토

· 결정계수를 통해 추정된 회귀식이 얼마나 타당한지 검토

· F 통계량 값이 크면 귀무가설을 기각한다. 즉, 모형이 유의하다고 결론.

 

• 선형회귀분석

· 선형회귀분석의 가정

① 선형성: 입력변수와 출력변수의 관계가 선형

② 등분산성: 오차의 분산이 입력변수와 무관하게 일정하다.

③ 독립성: 독립 변수와 잔차는 관련이 없다.

④ 비상관성: 오차들끼리 상관이 없다.

⑤ 정상성(정규성): 오차의 분포가 정규분포

 

• 다중선형회귀분석

· 모형이 통계적으로 유의미한가?
- F 통계량으로 확인

· 회귀 계수들이 유의미한가?
- t 통계량으로 확인

· 모형이 얼마나 설명력을 가지는가?
- 결정계수로 확인

· 모형이 데이터를 잘 적합하고 있는가?
- 잔차와 종속변수의 산점도로 확인

· 데이터가 전제 가정을 만족시키는가?
- 선형성, 독립성, 등분산성, 비상관성, 정상성

 

· 다중공선성(multi-colinearity)
- 다중선형회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란

- 다중공선성 검사방법
1. 분산팽창요인(VIF): 10보다 크면 심각한 문제
2. 상태지수: 10 이상이면 문제가 있다고 보고 30 보다 크면 심각

- 다중공선성 해결방안: 선형관계가 강한 변수 제거, 주성분 회귀, 능형 회귀

 

• 최적회귀방정식의 선택

· 설명변수 선택
- 데이터에 설명변수의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함

 

· 모형선택
- 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법
- 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 회귀모형을 선택

 

· 단계적 변수선택(Stepwise variable selection)

- 전진선택법(forward selection): 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다.

- 전진선택법은 이해하기 쉽고 변수의 개수가 많은 경우에도 사용 가능합니다. 하지만 변수값의 작은 변동에도 그 결과가 크게 달라져 안정성이 부족한 단점

 

- 후진제거법(backward elimination): 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택

- 후진제거법은 전체 변수들의 정보를 이용하는 장점이 있는 반면 변수의 개수가 많은 경우 사용하기 어려움

- 단계별 방법(stepwise method): 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단

 

· 벌점화된 선택기준

- 모형의 복잡도에 벌점을 주는 방법

- 모든 후보 모형들에 대해 AIC(Akaike information criterion) 또는 BIC(Bayesian information criterion)를 계산하고 그 중 최소가 되는 모형을 선택한다.

- AIC를 활용하는 방법이 보편화된 방법