자격증/ADsP

ADsP 제3과목 데이터 분석 - 5장 정형 데이터마이닝

아웃라이어_ 2020. 2. 18. 01:00

데이터분석 준전문가 3과목 5장 요약입니다.

워드파일과 R코드도 첨부합니다 필요하신 분 사용하세요

(나눔바른고딕 폰트 사용하였습니다.

R 버젼은 3.6.1, 인코딩은 utf8입니다.)

제3과목_5장.docx
0.03MB
Ch03_05_02_DecisionTree.R
0.00MB
Ch03_05_02_LogisticRegression.R
0.00MB
Ch03_05_02_RandomForest.R
0.00MB
Ch03_05_03_Clustering.R
0.00MB
Ch03_05_04_ARM.R
0.00MB

제5장 정형 데이터마이닝

제1절 데이터마이닝의 개요

• 데이터마이닝
- 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

- 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 알고리즘을 활용하여 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다.

 

• 데이터마이닝 추진 단계

1. 목적 설정
- 데이터마이닝을 위한 명확한 목적을 설정한다.

 

2. 데이터 준비
- 모델링을 위한 다양한 데이터를 준비한다. 데이터 정제를 통해 데이터의 품질을 보장하고, 필요 시 데이터를 보강하여 충분한 양의 데이터를 확보한다.

 

3. 가공
- 모델링 목적에 따라 목표 변수를 정의한다.
- 데이터를 분석 기법에 적용할 수 있는 형식으로 가공한다.

 

4. 기법 적용
- 설정한 목적에 맞게 데이터마이닝 기법 및 알고리즘을 적용하여 정보를 추출한다.

 

5. 검증
- 데이터마이닝으로 추출된 정보를 검증한다.
- 테스트 마케팅과 과거 데이터를 활용하여 최적의 모델을 선정한다.

 

• 데이터 분할
- 훈련용(training) 데이터: 데이터마이닝 모델을 만드는데 활용한다.

- 검증용(validation) 데이터: 구축된 모델의 과대적합 또는 과소적합을 미세조정 하는데 활용

- 시험용(test) 데이터: 모델 성능 검증에 활용

- 훈련용과 시험용으로 분리하여 사용하기도 함

- 교차검증(cross-validation)을 통해 모형을 평가하기도 한다.

 

• 데이터마이닝 모델 평가
- 현업에서 사용할 수 있을지 주어진 자료로 모델을 평가한다.

- 시험용 데이터를 통해 오분류율을 측정

- 오분류율에 따라서 모형을 사용하지 다른 모형을 생성할지를 판단한다.

- 오분류율은 분석 목적이나 사용되는 용도에 따라 기준이 다르게 적용된다.

 

제2절 분류분석

• 분류 vs 회귀
· 공통점: 데이터의 종속변수 값을 예측한다.

· 분류는 데이터의 종속변수가 범주형 변수일 때, 회귀는 데이터의 종속변수가 연속형 변수일 때 사용한다.

 

• 분류(classification)
- 데이터가 어떤 그룹에 속하는지 예측하는 데 사용되는 분석 기법

- 클러스터링(clustering)과 유사하지만, 분류는 각 그룹이 정의되어 있다.

- 교사학습(지도학습, supervised learning)에 해당하는 예측기법

 

• 의사결정나무(Decision tree)
- 분류 함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법

- 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화하여 의사결정이 이루어지는 시점과 성과를 한 눈에 볼 수 있게 한다.

- 계산결과가 의사결정나무에 직접 나타나 분석이 간편하다.

- 의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형: 분류나무와 회귀나무가 있다.

- 최종 모형의 예측력과 해석력이 중요

 

- 특징:
· 결과를 누구에게나 설명하기가 용이하다.

· 모형을 만드는 방법이 복잡하지 않다.

· 대용량 데이터에서도 빠르게 만들 수 있다.

· 비정상 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다.

· 불필요한 변수가 많아지면 의사결정나무가 커지므로 가능한 불필요한 변수를 제거하고 작업하는 것이 좋다.

 

• 의사결정나무 과정
- 의사결정나무의 분석 과정은 크게 성장(growing), 가지치기(pruning), 타당성 평가, 해석/예측으로 이루어진다.

 

1. 성장(growing)
- 각 마디에서 최적의 분리규칙(splitting rule)을 찾아서 나무를 성장시키는 과정으로 적절한 정지 규칙(stopping rule)을 만족하면 중단

- x 들로 이루어진 입력 공간을 재귀적으로 분할하는 과정이다.

- 최적 분할의 결정은 불순도 감소량을 가장 크게 하는 분할이다.

- 각 단계에서 최적 분리기준에 의한 분할을 찾은 다음 각 분할에 대해서도 동일한 과정을 반복

- 불순도의 여러 가지 측도: 카이제곱 통계량, 지니계수, 엔트로피 지수

 

2. 가지치기(pruning)
- 오차를 크게 할 위험이 있거나 부적절한 추론 규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계

- 너무 큰 모형은 과적합, 너무 작은 모형은 과소적합의 위험이 있다.

- 나무의 크기를 모형의 복잡도로 볼 수 있으며 최적의 나무 크기는 자료로부터 추정한다. 일반적으로 사용되는 방법은 마디에 속하는 자료가 일정 수 이하일 때 분할을 정지하고 비용-복잡도 가지치기(cost-complexity pruning)를 이용하여 나무를 가지치기한다.

 

3. 타당성 평가
- 이익도표, 시험 데이터 등을 이용하여 의사결정나무 모형을 평가

 

4. 해석 및 예측
- 구축된 나무모형을 해석하고 예측 모형을 설정한 후 적용

 

• CART
- Classification And Regression Tree

- 가장 많이 활용되는 의사결정나무 알고리즘으로 불순도의 측도로 출력 변수가 범주형인 경우에는 지니계수를 이용, 연속형인 경우 분산을 이용한 이진 분리를 사용한다.

- 개별 입력변수 뿐만 아니라 입력변수들의 선형 결합들 중에서도 최적의 분리를 찾을 수 있다.

 

• C4.5와 C5.0
- CART와는 다르게 각 마디에서 다지 분리(multiple split)이 가능하며, 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.

- 불순도의 측도로 엔트로피 지수를 사용

 

• CHAID
- CHi-squared Automatic Interaction Detection

- 가지치기를 하지 않고 적당한 크기에서 나무의 성장을 중지하며 입력 변수가 반드시 범주형 변수여야 한다.

- 불순도의 측도로는 카이제곱 통계량을 사용

 

• 앙상블(Ensemble)
- 주어진 데이터로부터 여러 개의 예측 모형들을 만든 후 조합하여 하나의 최종 예측 모형을 만드는 방법

- 배깅, 부스팅, 랜덤 포레스트, 스택킹

- 데이터에 의해 예측 모형이 크게 변하는 경우, 그 학습 방법은 불안정하다.

- 가장 안정적인 방법: 1-Nearest-Neighbor, 선형회귀

- 가장 불안정한 방법: 의사결정 나무

 

• 배깅(Bootstrap Aggregating)

- 부트스트랩(bootstrap): 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료

- 주어진 자료에서 여러 개의 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측모형을 만드는 방법

- 보팅(voting): 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종결과로 선정하는 과정

- 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정 나무들을 활용한다.

- 배깅은 훈련 자료를 모집단으로 생각하고 평균 예측 모형을 구한 것과 같기 때문에 분산을 줄이고 예측력을 향상시킬 수 있다.

 

• 부스팅(Boosting)
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법

- Adaboost: 이진 분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 가중치를 설정. n개의 분류기를 결합하여 최종 분류기를 만드는 방법. (단, 가중치의 합은 1)

- 훈련 오차를 빨리 그리고 쉽게 줄일 수 있다.

- 배깅에 비해 많은 경우 예측 오차가 향상되어 Adaboost 성능이 배깅보다 뛰어난 경우가 많다.

 

• 랜덤 포레스트(Random forest)
- 의사결정 나무가 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

- 수천개의 변수를 통해 변수 제거없이 실행되므로 정확도 측면에서 좋은 성과를 보인다.

- 이론적 설명이나 최종 결과에 대한 해석이 어렵다는 단점이 있지만 예측력이 매우 높은 것으로 알려져있다. 특히 입력변수가 많은 경우, 배깅과 부스팅과 비슷하거나 좋은 예측력을 보인다.

 

• 스택킹(stacking)
- 동일한 타입의 모델을 조합하는 배깅, 부스팅과는 달리 다양한 학습 모델을 통해 구성

 

• 인공신경망(ANN)
- 신경망은 가중치를 반복적으로 조정하며 학습

- 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신한다.

- 신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 훈련시킨다.

 

· 뉴런의 특징
- 입력 링크에서 여러 신호를 받아서 새로운 활성화 수준을 계산하고, 출력 링크로 출력 신호를 보낸다.

- 입력 신호는 미가공 데이터 또는 다른 뉴런의 출력이 될 수 있다.

- 출력 신호는 문제의 최종적인 해(solution)가 되거나 다른 뉴런에 입력될 수 있다.

 

· 뉴런의 계산
- 뉴런은 활성화 함수를 사용한다.

1. 뉴런은 입력 신호의 가중합을 계산하여 임계값과 비교한다.

2. 가중치 합이 임계값보다 작으면 뉴런의 출력은 -1, 같거나 크면 +1을 출력한다.

 

• 신경망 구축 시 고려사항

- 입력변수
· 신경망 모형은 그 복잡성으로 인해 입력 자료에 매우 민감하다.

· 범주형 변수: 모든 범주에서 일정 빈도 이상의 값을 가지고 각 범주의 빈도가 일정할 때 신경망의 입력자료로서 적합. 가변수화하여 적용하고 가능하면 모든 범주형 변수는 같은 범위를 가지도록 가변수화 하는 것이 좋다.

· 연속형 변수: 입력변수 값들의 범위가 변수 간의 차이가 없을 때 신경망의 입력자료로서 적합. 그 분포가 평균을 중심으로 대칭이 아니면 좋지 않은 결과를 도출하기 때문에 변환해준다.

 

- 가중치
· 역전파(backpropagation) 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값의 선택은 매우 중요한 문제.

- 일반적으로 초기값은 0 근처로 랜덤하게 선택한다. 초기값이 0이면 반복하여도 값이 전혀 변하지 않고, 너무 크면 좋지 않은 해를 도출한다.

- 초기 모형은 선형 모형에 가깝고, 가중치 값이 증가할수록 비선형모형이 된다.

- 학습률은 처음에는 큰 값으로 정하고 반복 수행과정을 통해 해에 가까울수록 학습률이 0에 수렴한다.

 

- 은닉층과 은닉노드의 수
· 은닉층과 은닉노드의 수가 많으면 가중치가 많아져서 과대 적합 문제가 발생

· 은닉층과 은닉노드의 수가 적으면 과소 적합 문제가 발생

 

· 은닉층의 수: 은닉층이 하나인 신경망은 범용 근사자이므로 모든 매끄러운 함수를 근사적으로 표현할 수 있다. 그러므로 가능하면 은닉층은 하나로 선정한다.

 

· 은닉노드의 수: 적절히 큰 값으로 놓고 가중치를 감소(weight decay)시키면서 적용

 

- 과대 적합 문제
· 신경망에서는 많은 가중치를 추정해야 하므로 과대 적합 문제가 빈번하다.

· 조기종료: 모형이 적합하는 과정에서 검증오차가 증가하기 시작하면 반복을 중지한다.

· 선형모형의 능형회귀와 유사한 가중치 감소라는 벌점화 기법을 활용한다.

 

• 로지스틱 회귀분석(logistic regression)

- 종속변수가 범주형인 경우에 적용되는 회귀분석모형

- 새로운 데이터가 주어질 때 반응변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를 추정하여 기준치에 따라 분류하는 목적으로 활용된다.

- 이 때 모형의 적합을 통해 추정된 확률을 사후확률(Posterior probability)이라고 한다.

 

제3절 군집분석

• 군집분석(Clustering)

- 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 분석 방법

- 결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있다.

- 군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화를 유도한다.

 

• 전통적 군집분석

- 임의로 세분화 ex) 신규/기존 고객 등

- 변수를 선정하고 구간대로 나눈 다음 이를 기준으로 격자형으로 단순히 나누고 집단이 적으면 병합하는 방식

· 문제점

- 단순 격자형의 경우 작업 시간이 오래 걸린다.

- 후처리에서 병합할 때 기준이 명확하지 않다.

- 분리된 격자 셀의 프로파일(profile)을 보고 유사한 집단끼리 나누어야 하는데, 집단 간 프로파일(profile)이 차이가 나지 않을 때가 있다.

 

• 군집의 개수

- 군집의 수를 늘리거나 줄일 때 전략적으로 집단을 상호 배반적으로 나누는데, 이 경우 집단 내 분산의 크기가 줄어드는 방법으로 결정한다.

 

• 거리 지표

- 군집분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 한다.

- 연속형 변수의 경우: 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리

- 범주형 변수의 경우: 자카드 거리, 자카드 계수

 

• 계층적 군집분석(Hierarchical clustering)

· 최단연결법(single linkage, nearest neighbor)

- n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성한다.

- 군집과 군집 또는 데이터와의 거리를 계산해서 거리행렬을 수정한다.

- 수정된 거리행렬에서 거리가 가까운 데이터 또는 군집끼리 새로운 군집을 형성한다.

 

· 최장연결법(complete linkage)

- 최단연결법과 같은 방법이지만 거리가 먼 데이터나 군집을 묶어서 새로운 군집을 형성한다.

 

· 평균연결법(average linkage)

- 최단연결법과 같이 거리가 가까운 데이터나 군집을 묶어서 형성하는 데 그 거리를 구하는 식에서 평균을 사용한다는 차이가 있다.

 

· 와드연결법(ward linkage)

- 군집 내 편차들의 제곱합을 고려한 방법

- 군집 간 정보의 손실을 최소화하기 위해 군집화를 진행

 

• K-means 군집분석

· 분석과정
- 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성한다.

- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류한다.

- 각 군집의 seed 값을 다시 계산한다.

- 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복한다.

 

· 특징

- 거리 계산을 통해 군집화가 이루어지므로 연속형 변수에 활용이 가능하다

- K개의 초기 중심값은 임의로 선택이 가능하며 가급적이면 멀리 떨어지는 것이 바람직하며 초기값을 일렬로 선택하지 않은 것이 좋다.

- 초기 중심으로부터의 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적 알고리즘이므로 안정된 군집은 보장하나 최적이라는 보장은 없다.

 

· 장점

- 알고리즘이 단순하며 빠르게 수행되어 분석 방법 적용이 용이하다

- 계층적 군집분석에 비해 많은 양의 데이터를 다룰 수 있다.

 

· 단점

- 군집의 수, 가중치, 거리를 정의하기가 어렵다

- 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.

- 잡음이나 이상치의 영향을 많이 받는다.

 

• 혼합 분포 군집 (mixture distribution clustering)

- 모형 기반의 군집 방법이며, 데이터가 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법을 사용한다.

- k개의 각 모형은 군집을 의미하며, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류가 이루어진다.

- 모수와 가중치의 추정(최대가능도 추정)에는 EM 알고리즘이 사용

 

· EM 알고리즘

- E-step: 잠재변수 Z의 기대치 계산

- 각 자료에 대해 Z의 조건부분포(어느 집단에 속할 지에 대한)로부터 조건부 기댓값을 구할 수 있다.

 

- M-step: 잠재변수 Z의 기대치를 이용하여 파라미터를 추정

- 관측변수 X와 잠재변수 Z를 포함하는 (X, Z)에 대한 로그-가능도함수에 Z 대신 상수값인 Z의 조건부 기댓값을 대입하면, 로그-가능도함수를 최대로 하는 모수를 쉽게 찾을 수 있다.

 

- 갱신된 모수 추정치에 대해 위 과정을 반복한다면 수렴하는 값을 얻게 되고, 이는 최대 가능도 추정치로 사용될 수 있다.

 

· 혼합분포군집모형의 특징
- K-means 군집분석의 절차와 유사하지만 확률분포를 도입하여 군집을 수행한다.

- 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있다.

- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있다.

- 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려울 수 있다.

- 이상치 자료에 민감하므로 사전에 조치가 필요하다.

 

• SOM(Self-Organizing Map)

- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다. 이러한 형상화는 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다. 다시 말해 실제 공간의 입력 변수가 가까이 있으면, 지도상에도 가까운 위치에 있게 된다.

 

· 입력층(Input layer)

- 입력 변수의 개수만큼 뉴런이 존재한다. 입력층의 자료는 학습을 통해 경쟁층에 정렬되는데 이를 지도(map)라 부른다. 입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 완전 연결(fully-connected)되어 있다.

 

· 경쟁층(competitive layer): 2차원 격자(grid)로 구성. 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층

- SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도(connection weight)를 반복적으로 재조정하여 학습한다. 이 과정을 거치면서 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.

- 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며, 승자와 유사한 연결 강도를 가지는 입력 패턴이 동일한 경쟁 뉴런으로 배열된다.

 

· SOM의 특징

- 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉽다.

- 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현된다. 이런 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보인다.

- 역전파 알고리즘 등을 이용하는 인공신경망과 달리 하나의 feed-forward flow만 사용하므로 속도가 매우 빠르다. 따라서, 실시간 학습처리를 할 수 있는 모형이다.

 

제4절 연관분석

• 연관분석

- 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용

- "만일 A가 일어나면 B가 일어난다"

 

• 연관분석의 척도

- 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택해야 한다.

 

· 지지도(support)

- 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율

support=PA∩B

 

· 신뢰도(confidence)

- 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률. 연관성의 정도를 파악할 수 있다.

confidence=PA∩BP(A)

 

· 향상도(lift)

- A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률 증가 비율. A와 B가 서로 관련이 없는 경우에는 향상도가 1이 된다.

lift=PB|AP(B)= PA∩BP(A)P(B)

 

• 연관분석의 절차

- 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 가지는 품목 집합을 찾는 것이다.

- 처음부터 너무 낮은 최소 지지도를 선정하는 것은 많은 리소스가 소모되어 불필요하다.

· 최소 지지도 결정 → 품목 중 최소 지지도를 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복적으로 수행해 빈번한 품목 집합 찾음

 

• 연관분석의 장점

- 조건 반응으로 표현되는 연관분석의 결과를 쉽게 이해할 수 있다.

- 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용된다.

- 거래 내용에 대한 데이터를 변환없이 그 자체로 이용할 수 있는 간단한 자료구조를 가진다.

- 분석을 위한 계산이 상당히 간단하다.

 

• 연관분석의 단점

- 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다: 이를 개선하기 위해 유사한 품목을 한 범주로 일반화한다. 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외한다.

- 너무 세분화 된 품목을 가지고 연관 규칙을 찾으면 의미 없는 분석이 될 수도 있다: 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함시킨 후 그 결과 중에서 세부적으로 연관 규칙을 찾는 작업을 수행할 수 있다.

- 거래량이 적은 품목은 연관 분석에서 제외되기가 쉽다: 이런 경우, 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관 분석 과정에 포함시킬 수 있다.

 

• 순차패턴

- 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관 분석에 시간이라는 개념을 포함시켜서 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것

- 연관 분석 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함

 

• 기존 연관 분석의 이슈

- 대용량 데이터에 대한 연관 분석이 불가능

- 시간이 많이 걸리거나 기존 시스템에서 실행 시 시스템이 다운되는 현상

 

• 최근 연관 분석 동향

- 1세대 알고리즘인 Apriori나 2세대인 FP Tree가 아닌 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로써 SKU(Stock Keeping Unit) 레벨의 연관 분석을 성공적으로 적용