자격증/ADsP

ADsP 제2과목 데이터 분석 기획

아웃라이어_ 2020. 2. 17. 15:28

데이터분석 준전문가 2과목 요약입니다.

워드파일도 첨부합니다 필요하신 분 사용하세요

(나눔바른고딕 폰트 사용하였습니다.)

 

제2과목.docx
0.48MB

제1장 데이터 분석 기획 이해

제1절 분석 기획 방향성 도출

• 분석 기획의 정의

- 실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 하는 방안을 사전에 계획하는 일련의 작업

 

- 분석 과제 및 프로젝트를 직접 수행하는 것은 아니지만, 어떠한 목표를 달성하기 위하여 어떤 데이터를 가지고 어떤 방식으로 수행할지에 대한 일련의 계획을 수립하는 작업이기 때문에 성공적인 분석 결과를 도출하기 위한 중요한 사전 작업

 

- 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다는 것을 의미

 

- 목표 시점 별로는 당면한 과제를 빠르게 해결하는 "과제 중심적인 접근 방식"과 지속적인 분석 내재화를 위한 "장기적인 마스터 플랜 방식"으로 나눌 수 있다.

 

- 분석기획에서는 문제 해결(Problem solving)을 위한 단기적인 접근 방식과 분석 과제 정의(Problem definition)을 위한 중장기적인 마스터플랜 접근방식을 융합하여 적용하는 것이 중요하다.

 

- 의미 있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하고 분석대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터 플랜 단위로 도출할 수 있어야 한다.

 

• 분석 기획 시 고려사항

1. 데이터

- 분석을 위한 데이터의 확보가 우선적이며, 데이터의 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 데이터에 대한 분석이 선행적으로 이루어져야 한다.
예) 반정형 데이터: 센서 중심으로 스트리밍되는 머신 데이터

 

2. 분석을 통해서 가치가 창출될 수 있는
적절한 활용방안과 활용 가능한 유즈케이스의 탐색이 필요하다

- 기존에 잘 구현되어 활용되고 있는 유사
분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다.

 

3. 분석을 수행함에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요하다.

- 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다.

 

제2절 분석 방법론

• 폭포수 모델(Waterfall model)
- 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견되면 피드백 과정이 수행

 

• 나선형 모델(Spiral model)

- 반복을 통해 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려움

 

• 프로토타입 모델(Waterfall model)

- 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방법으로 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위하여 개발의 일부분만을 우선 개발한다. 사용자는 시험 사용을 하게 되고 이를 통해서 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를 개선 작업에 반영

 

• 방법론의 구성

- 일반적으로 방법론은 계층적 프로세스 모델의 형태로 구성

1. 단계(Phase): 최상위 계층. 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성

2. 태스크(Task): 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 된다.

3. 스텝(Step): 단계는 기준선으로 설정되어 관리되어야 하며 버전관리 등을 통해 통제

 

• KDD 분석 방법론

- 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스로써 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가지고 있다.

 

- 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시

1. 분석 대상 비즈니스 도메인의 이해

2. 분석 대상 데이터셋 선택과 생성

3. 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier) 등을 제거하는 정제작업이나 전처리작업 실시

4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하여 데이터를 변경

5. 분석 목적에 맞는 데이터마이닝 기법 선택

6. 분석 목적에 맞는 알고리즘 선택

7. 데이터마이닝 실행

8. 데이터마이닝 결과에 대한 해석

9. 데이터마이닝에서 발견된 지식 활용

 

• KDD 분석 절차

1. 데이터셋 선택
- 데이터셋 선택에 앞서 분석 대상 비즈니스 도메인의 대한 이해와 프로젝트 목표 설정

- 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터 선택

- 데이터마이닝에 필요한 목표 데이터 구성

 

2. 데이터 전처리
- 추출된 분석 대상용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터셋을 정제
- 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 있을 경우 데이터셋 선택 프로세스 재실행

 

3. 데이터 변환
- 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞는 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 변경
- 학습용 데이터와 시험용 데이터로 분리

 

4. 데이터마이닝
- 학습용 데이터를 이용해서 분석 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터마이닝 작업 실행

- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적 결과 산출

 

5. 결과 평가
- 데이터마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인

- 활용 방안 마련 및 필요에 따라 이전 프로세스를 반복 수행

 

• CRISP-DM 방법론
- 계층적 프로세스 모델로써 4개 레벨로 구성된다.

- 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic tasks)를 포함한다. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 일반화 태스크는 구체적으로 수행하는 레벨인 세분화 태스크(Specialized tasks)로 구성된다.

- 마지막 레벨인 프로세스 실행(process instances)은 데이터마이닝을 위한 구체적인 실행을 포함한다.

 

• CRISP-DM 프로세스
- 6단계로 구성되어 있으며, 각 단계는 한 방향으로 구성되어 있지 않고 단계 간 피드백을 통해 단계별 완성도를 높이게 되어 있다.

 

1. 업무이해
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계로써 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계

- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

 

2. 데이터 이해
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계이다.

- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

 

3. 데이터 준비
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터로 편성하는 단계로써 많은 시간이 소요될 수 있다.

- 데이터셋 선택, 데이터 정제, 데이터셋 편성, 데이터 통합

 

4. 모델링
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계이다. 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터셋으로 평가하여 모델 과적합 문제를 확인한다.

- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

 

5. 평가
- 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단한다.

- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

 

6. 전개
- 모델링과 평가 단계를 통해 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련한다. 모델은 적용되는 비즈니스 도메인의 특성, 입력되는 데이터 품질 편차, 운영모델의 평가 기준에 따라 생명주기가 다양하므로 상세한 전개 계획이 필요하다.

- 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 마무리한다.

- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

• 빅데이터 분석 방법론

- 빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델로써 3계층으로 구성된다.

- 최상위 계층인 단계에서는 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성되며, 각 단계는 기준선으로 설정되어 관리되어야 한다. 또한 버전관리 등을 통해 통제해야 한다.

- 각 단계는 여러 개의 태스크로 구성. 각 태스크는 단계를 구성하는 단위 활동이며 물리적 또는 논리적 단위로 품질 검토의 항목

- 스텝은 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다.

- 빅데이터 분석 방법론은 분석 기획, 데이터 준비, 데이터 분석, 시스템 구현, 평가 및 전개의 5단계로 구성되어 있다.

 

1. 분석 기획
- 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립한다.

 

· 비즈니스 이해 및 범위 설정
- 비즈니스에 대한 충분한 이해와 도메인에 대한 문제점을 파악한다. 업무 매뉴얼 및 업무 전문가와의 대화를 통해 프로젝트 범위를 명확하게 하기 위한 구조화된 명세서를 작성하게 된다.

 

· 프로젝트 정의 및 계획 수립
- 빅데이터 분석 프로젝트 추진 목표를 명확하게 정의하고 구체화하기 위하여 모델의 운영 이미지를 설계. 또한 모델 평가 기준을 설정함으로써 프로젝트 정의를 명확하게 한다.

- 데이터 확보 계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성 계획, 의사소통 계획 등을 포함하는 프로젝트 수행 계획을 작성한다.

 

· 프로젝트 위험계획 수립
- 빅데이터 분석 프로젝트는 데이터 획득 및 활용에 현실적으로 많은 어려움이 있다. 프로젝트를 진행하면서 발생 가능한 모든 위험을 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높인다.

 

2. 데이터 준비

- 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계이다.

 

· 필요 데이터 정의
- 정형·비정형·반정형 등의 모든 내·외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서를 작성한다. 데이터 정의서를 이용하여 구체적인 데이터 획득 방안을 상세하게 수립함으로써 데이터 획득 과정에서 발생하는 프로젝트 지연을 방지한다.

 

· 데이터 스토어 설계
- 프로젝트의 목적을 파악하고 필요한 데이터를 정의한 후 데이터 획득 방안이 수립되면 데이터를 저장하기 위한 전사 차원의 데이터 스토어를 설계한다. 데이터 스토어는 정형·비정형·반정형 데이터를 모두 저장할 수 있도록 설계한다.

 

· 데이터 수집 및 정합성 점검
- 저장된 데이터는 데이터의 품질을 확보하기 위한 정합성 검증을 실시하고 데이터 거버넌스에 근거하여 메타 데이터 및 데이터 사전 등이 작성되고 적용되고 있는지 주기적으로 확인한다.

 

3. 데이터 분석

- 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계. 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복 진행한다.

 

· 분석용 데이터 준비
- 분석에 필요한 데이터셋을 준비하기 위해 프로젝트 목표와 도메인을 이해하고 비즈니스 룰을 확인한다. 전사 차원으로 구축된 데이터 스토어에서 분석용 데이터셋을 추출하고 데이터베이스나 구조화된 데이터 형태로 편성한다.

 

· 텍스트 분석
- 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축한다. 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축하기도 한다.

· 탐색적 분석
- 분석용 데이터 셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다.

- EDA는 다양한 데이터 시각화를 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악하는 태스크이다.

 

· 모델링
- 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정

- 기계학습은 지도학습과 비지도학습 등으로 나뉘어 다양한 알고리즘을 적용할 수 있다. 모델링을 효과적으로 진행하기 위해서는 모델링 전에 데이터셋을 훈련용과 시험용으로 분할함으로써 모델의 과적합을 방지하거나 모델의 일반화에 이용된다.

 

· 모델 평가 및 검증
- 분석 기획 단계에서 작성된 프로젝트 정의서의 평가 기준에 따라 모델의 완성도를 평가한다. 모델 검증은 분석용 데이터 셋이 아닌 별도의 데이터 셋으로 모델의 객관성과 실무 적용성을 검증해야 한다. 검증 스텝에서 요구되는 성능 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행한다.

 

4. 시스템 구현
- 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다.

 

· 설계 및 구현
- 모델링 결과를 시스템으로 구현하기 위해서는 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍처 설계, 사용자 인터페이스 설계를 진행한다. 가동 중인 시스템에 적용하기 위해서는 운영 시스템에 대한 분석도 수행한다.

- 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 새로운 프로그램 코딩을 통해 시스템을 구축한다.

 

· 시스템 테스트 및 운영
- 시스템에 구현된 모델은 테스트를 통해 가동 중인 시스템에 적용하고 효율적인 운영을 위한 프로세스를 진행한다.

 

5. 평가 및 전개

- 데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리(Lesson learned)하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계이다.

 

· 모델 발전 계획 수립
- 모델의 생명 주기를 설정하고 주기적인 평가를 실시하여 모델을 유지보수 하거나 재구축하기 위한 방안을 마련한다. 모델 업데이트를 자동화하는 방안을 수립하여 적용할 수도 있다.

 

· 프로젝트 평가 및 보고
- 분석 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적으로 평가하고 프로젝트 진행 과정에서 산출된 지식, 프로세스, 출력자료를 지식자산화 하고 프로젝트 최종 보고서를 작성한 후 의사소통 계획에 따라 보고함으로써 프로젝트를 종료한다.

 

제3절 분석 과제 발굴

- 분석 과제 발굴을 두 가지 접근 방식으로 나누어 설명하지만 실제 분석 과정에서는 혼용되어 활용되는 경우가 많다. 그런 경우에 능동적으로 대처하기 위해서 각 접근 방식의 특징을 잘 이해하고 적절한 절차 및 관리 방안의 활용이 필요하다.

 

• 하향식(Top-down) 접근 방식
- 문제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 수행되는 방식

- 기회나 문제를 탐색(Problem discovery)하고 해당 문제를 데이터 분석 문제로 정의(Problem definition), 해결 방안을 탐색(Solution search)한다. 그리고 데이터 분석의 타당성 평가(Feasibility study)를 거쳐 분석 과제를 도출하는 과정으로 구성된다.

 

1. 문제 탐색 (Problem discovery)
- 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요

- 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다.

 

· 비즈니스 모델 기반 문제 탐색
- 기업 내·외부 환경을 포괄하는 비즈니스 모델이라는 틀을 활용하여 문제를 발굴하고, 기회를 추가로 도출하는 작업을 수행한다.

- 현재 사업을 영위하고 있는 환경, 경쟁자, 보유하고 있는 역량, 제공하고 있는 시장을 넘어서 거시적 관점의 요인, 경쟁자의 동향, 시장의 니즈 변화, 역량의 재해석 등 새로운 관점의 접근을 통해 새로운 유형의 분석 기회 및 주제 발굴을 수행해야 한다.

 

· 외부 참조 모델 기반 문제 탐색
- 데이터 분석을 통한 인사이트(Insight)를 도출하고 업무에 활용하는 사례들을 발굴, 자사의 업종 및 업무 서비스에 적용하며 평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀(Pool)로 만들어 둔다면 과제 발굴 및 탐색 시 빠르고 의미있는 분석 기회도출이 가능하다.

 

· 분석 유즈 케이스 정의
- 현재의 비즈니스 모델 및 유사·동종사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유즈 케이스로 표기하는 것이 필요하다.

- 분석 유즈 케이스는 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용

 

2. 문제 정의 (Problem definition)
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이며, 앞서 수행한 문제 탐색의 단계가 무엇을(What) 어떤 목적으로(Why) 수행해야 하는지에 대한 관점이었다면, 본 단계에서는 이를 달성하기 위해 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행

- 분석을 수행하는 당사자 뿐만 아니라 해당 문제가 해결 되었을 때 효용을 얻을 수 있는 최종 사용자 관점에서 이루어져야 한다.

- 데이터 분석 문제가 잘 정의되었을 때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의할 필요가 있다.

 

3. 해결방안 탐색(Solution search)
- 기존 정보시스템의 단순한 보완으로 분석이 가능한지 고려

- 엑셀 등의 도구로 분석이 가능한지 고려

- 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안 고려

- 분석 역량을 기존에 가지고 있는 지의 여부를 파악하여 보유하고 있지 않은 경우에는 교육이나 전문 인력 채용을 통한 역량을 확보하거나 분석 전문 업체를 활용하여 과제를 해결하는 방안에 대해 사전 검토를 수행한다.

 

4. 타당성 검토(Feasibility study)
- 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 경제적, 기술적 및 데이터 타당성 분석이 수행되어야 한다.

- 도출된 여러 대안 중에서 평가 과정을 거쳐 가장 우월한 대안을 선택

- 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함

- 분석과제 정의서의 형태로 명시하는 후속작업을 시행

- 프로젝트 계획의 입력 물로 활용

 

• 상향식(Bottom-up) 접근 방식
- 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제 및 해결방안을 탐색하고 이를 지속적으로 개선해 나가는 방식

- 문제가 주어져 있는 상태에서 답을 구하는 하향식 접근 방식이 전통적으로 수행되었던 분석 과제 발굴 방식이다. 그러나 대규모의 다양한 데이터를 생성하고 빠르게 변화하는 환경에서는 문제 자체의 변화가 심해 사전에 문제를 정의하는 것이 어려워지고 있다.

- 이에 따라 단순히 주어진 문제를 잘 푸는 것뿐만 아니라 데이터를 활용하여 생각하지 못했던 인사이트(Insight)를 도출하고 시행착오를 통해서 개선해 나가는 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세다.

- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정이다.

 

1. 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론

- 하향식 접근 방식은 문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하기 위한 솔루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계가 있다.

- 따라서 기존의 하향식 접근 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않을 수 있다.

- 통상적인 관점에서는 분석적으로 사물을 인식하려는 "Why"를 강조하지만, 이는 우리가 알고 있다고 가정하는 것이기 때문에 문제와 맞지 않는 솔루션인 경우 오류가 발생할 소지가 있다. 그렇기 때문에, 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 "What" 관점에서 보아야 한다는 것이다.

- 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 더 잘 이해하는 방식으로의 접근을 수행하는 것이다.

 

· 비지도 학습(Unsupervised learning)
- 비지도 학습은 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.

- 비지도 학습의 경우 목표 값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용할 수 있다.

- 반대로 명확한 목적 하에 데이터 분석을 실시하는 것은 지도학습(Supervised learning)이라고 하며, 분류·추측·예측·최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적이다.

- 지도학습의 경우 결과로 도출되는 값에 대하여 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예측하는 것

- 통계적 분석에서는 인과관계 분석을 위해 가설을 설정하고 이를 검정하기 위해 모집단으로부터 표본을 추출하고 그 표본을 이용한 가설 검정을 실시하는 방식으로 문제를 해결.

- 빅데이터 환경에서는 이런 논리적인 인과관계 분석 뿐만 아니라 상관관계 분석 또는 연관 분석을 통해 다양한 문제 해결에 도움을 받을 수 있다. 인과관계로부터 상관관계 분석으로의 이동이 빅데이터 분석에서의 주요 변화라고 할 수 있다.

- 다량의 데이터 분석을 통해서 "왜" 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의 할 수 있는 것이 상향식 접근 방식이다.

 

2. 시행착오를 통한 문제 해결

- 프로토타이핑 접근법은 사용자의 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법.

- 하향식 접근방식은 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적이다.

- 프로토타이핑 방법론은 비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식.

 

· 빅데이터 환경에서 프로토타이핑의 필요성
- 문제에 대한 인식 수준
- 필요 데이터 존재 여부의 불확실성
- 데이터 사용 목적의 가변성

 

• 디자인 사고(Design thinking)
- 새로운 상품을 개발하거나 전략수립 등 중요한 의사결정을 할 때 가능한 옵션을 도출하는 상향식 접근 방식의 발산(Diverge) 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴(Converge) 단계를 반복적으로 수행하며 상호 보완한다.

- 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식

 

제4절 분석 프로젝트 관리 방안

- 과제 형태로 도출된 분석 기회는 프로젝트를 통해서 그 가치를 증명하고 목표를 달성해야 한다. 분석 프로젝트는 다른 프로젝트 유형처럼 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 다양한 데이터에 기반한 분석 기법을 적용하는 특성 때문에 5가지의 주요 속성을 고려하여 추가적인 관리가 필요하다.

 

1. Data size
- 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요하다.

 

2. Data complexity
- 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석 프로젝트를 진행할 때는, 초기 데이터의 확보와 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다.

 

3. Speed
- 분석 결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도를 고려해야 한다.

 

4. Analytic complexity
- 분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재한다. 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 한다.

- 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델을 찾는 방안을 사전에 모색

 

5. Accuracy & Precision
- Accuracy는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고 Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다.

- 분석의 활용적인 측면에서는 Accuracy가 중요하며, 안정성 측면에서는 Precision이 중요하다. 그러나 Accuracy와 Precision은 트레이드 오프가 되는 경우가 많기 때문에 모델의 해석 및 적용 시 사전에 고려해야 한다.

 

• 분석 프로젝트의 특성
- 분석가에게는 개별적인 분석 업무 수행뿐만 아니라 전반적인 프로젝트 관리 또한 중요

- 분석 프로젝트에서는 데이터 영역과 비즈니스 영역의 현황을 이해하고 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가의 역할이 중요하다. 조정자로서의 분석가가 해당 프로젝트의 관리자까지 겸임하게 되는 경우가 대부분이므로 프로젝트 관리방안에 대한 이해와 주요 관리 포인트를 사전에 숙지하는 것이 필수적이다.

- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려도 필요

- 데이터 분석의 지속적인 반복 및 개선을 통해 의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될 수 있도록 적절한 관리 방안 수립이 사전에 필요하다.

 

제2장 분석 마스터 플랜

제1절 마스터플랜 수립 프레임워크

• 분석 마스터 플랜 수립 프레임 워크
- 데이터 기반 구축을 위해 분석 과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제 실행의 용이성 등 다양한 기준을 고려해 적용 우선순위를 설정한다.

- 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준 등 분석 적용 범위 및 방식에 대해 종합적으로 고려하여 데이터 분석 구현을 위한 로드맵을 수립한다.

- ISP(Information Strategy Planning): 정보 기술 또는 정보시스템을 전략적으로 활용하기 위해 조직 내·외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.

- 분석 마스터 플랜: 일반적인 ISP 방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중·장기로 나누어 계획을 수립한다.

 

• 우선순위 평가 방법 및 절차

- 정의된 데이터 과제에 대한 실행 순서를 정하는 과정이다.

- 업무 영역별로 도출된 분석 과제를 우선순위 평가기준에 따라 평가하고, 과제 선행의 선·후행 관계를 고려하여 적용 순위를 확정.

- 최근에 새롭게 생성되는 비정형 데이터와 기존의 정형 데이터가 결합되어 분석됨으로써 새로운 가치(Value)가 창출된다는 점에서 빅데이터를 4V로 정의하기도 한다.

 

•ROI 관점에서 빅데이터의 핵심 특징

1. 투자비용(Investment) 요소
- Volume, Variety, Velocity

2. 비즈니스 효과(Return) 요소
- 가치(Value): 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 효과 측면의 요소라고 볼 수 있다. 이는 기업의 데이터 분석을 통해 추구하거나 달성하고자 하는 목표 가치라고 정의할 수 있다.

 

• 데이터 분석 과제를 추진할 때 고려해야 하는 우선순위 평가 기준

1. 시급성
- 전략적 중요도와 목표 가치에 부합하는지에 따른 시급성이 가장 중요한 기준이다. 시급성의 판단 기준은 전략적 중요도가 핵심이며, 이는 현재의 관점에서 전략적 가치를 둘 것인지 미래의 중장기적 관점에서 전략적인 가치를 둘 것인지를 고려하고, 분석 과제의 목표가치(KPI)를 함께 고려하여 시급성 여부를 판단할 수 있다.

 

2. 난이도
- 데이터를 생성, 저장, 가공, 분석하는 비용과 현재 기업의 분석 수준을 고려한 난이도 역시 중요한 기준이다. 난이도는 현 시점에서 과제를 추진하는 것이 적용 비용 측면과 범위 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로서, 데이터 분석의 적합성 여부를 본다.

 

- 우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석 과제를 4가지 유형으로 구분한 뒤, 분석 과제의 적용 우선순위를 결정한다.

 

- 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면이다.

- 분석과제의 적용 우선순위 기준을 "시급성"에 둔다면 3→4→2 영역 순이며, 우선순위 기준을 "난이도"에 둔다면 3→1→2 영역 순으로 의사결정을 할 수 있다.

 

• 이행계획 수립

1. 로드맵 수립
- 분석 과제에 대한 포트폴리오 사분면(Quadrant) 분석을 통해 과제의 1차적 우선순위를 결정한다.

- 분석 과제별 적용범위 및 방식을 고려하여 최종적인 실행 우선순위를 결정한 후 단계적 구현 로드맵을 수립한다.

- 단계별로 추진하고자 하는 목표를 정의

- 추진 과제별 선·후행 관계를 고려하여 단계별 추진 내용을 정렬한다.

 

2. 세부 이행계획 수립
- 반복적인 분석 체계는 모든 단계를 반복하기보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용하며, 이러한 특성을 고려하여 세부적인 일정 계획도 수립해야 한다.

 

제2절 분석 거버넌스 체계 수립

• 거버넌스 체계 개요
- 마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계는 분석 기획 및 관리를 수행하는 조직, 과제 기획 및 운영 프로세스, 분석 관련 시스템, 데이터, 분석 관련 교육 및 마인드 육성 체계로 구성된다.

 

• 데이터 분석 수준진단
- 기업들은 데이터 분석의 도입 여부와 활용에 명확한 분석 수준을 점검할 필요가 있다. 데이터 분석 수준진단을 통해 무엇을 준비하고 보완해야 하는지 등 분석의 유형 및 분석의 방향성을 결정할 수 있다.

- 기업의 현재 분석 수준을 명확히 이해하고, 수준진단 결과를 토대로 미래의 목표수준을 정의한다.

- 데이터 분석을 위한 기반 또는 환경이 유사업종 또는 타 경쟁사에 비해 어느 정도 수준이고, 데이터를 활용한 분석의 경쟁력 확보를 위해 어떠한 영역에 선택과 집중을 해야 하는지, 어떤 관점을 보완해야 하는지 등 개선방안을 도출한다.

 

1. 분석 준비도
- 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단방법

- 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라

- 영역별로 세부 항목에 대한 수준 파악
- 일정 수준이상 충족하면 분석 업무 도입
- 충족하지 못할 시 분석 환경 조성

 

2. 분석 성숙도 모델
- 조직의 성숙도 평가 도구:
CMMI (Capability Maturity Model Integration) 모델

- 성숙도 수준분류:

· 도입단계: 분석을 막 시작하여 환경, 시스템 구축

· 활용단계: 분석 결과를 실제 업무에 적용

· 확산단계:  전사 차원에서 분석을 관리하고 공유

· 최적화 단계: 분석을 진화시켜서 혁신 및 성과 향상에 기여

- 분석 성숙도 진단 분류: 비즈니스 부문, 조직·역량 부문, IT 부문

 

3. 분석 수준 진단 결과
- 기업의 현재 분석 수준을 객관적으로 파악

- 경쟁사의 분석 수준과 비교하여 분석 경쟁력 확보 및 강화를 위한 목표 수준 설정 가능

 

• 분석 관점에서의 사분면 분석

- 분석 수준진단 결과를 구분

- 데이터 분석 수준에 대한 목표 방향을 정의

- 유형별 특성에 따라 개선방안을 수립

 

3. 분석지원 인프라 방안 수립

- 분석과제 단위별로 별도의 분석시스템을 구축하는 경우, 관리의 복잡도 및 비용의 증대라는 부작용이 나타나게 된다. 따라서 분석 마스터 플랜을 기획하는 단계에서부터 장기적이고 안정적으로 활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절하다.

 

· 플랫폼

- 단순한 분석 응용프로그램 뿐만 아니라 분석 서비스를 위한 응용 프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미

- 분석 플랫폼이 구성되어 있는 경우에는 새로운 데이터 분석 니즈가 존재할 경우 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높일 수 있다.

 

4. 데이터 거버넌스 체계 수립

• 데이터 거버넌스

- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다.

- 기업은 데이터 거버넌스 체계를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보할 수 있다.

- 데이터 거버넌스는 독자적으로 수행될 수도 있지만 전사 차원의 IT 거버넌스나 EA의 구성요소로써 구축되는 경우도 있다.

- 빅데이터 거버넌스는 이러한 데이터 거버넌스의 체계에 대하여 빅데이터의 효율적인 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정 등을 포함한다.

- 데이터 거버넌스의 구성요소인 원칙(Principle), 조직(Organization), 프로세스(Process)의 유기적인 조합을 통하여 데이터를 비즈니스 목적에 부합하고 최적의 정보 서비스를 제공할 수 있도록 효과적으로 관리해야 한다.

 

· 데이터 표준화
- 데이터 표준 용어 설정, 명명 규칙(Name rule) 수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성된다.

 

· 데이터 관리 체계
- 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립한다.

 

· 데이터 저장소 관리
- 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다.

 

· 표준화 활동
- 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시한다.

 

5. 데이터 조직 및 인력방안 수립

- 빅데이터 등장에 따라 기업의 비즈니스도 많은 변화를 겪고 있는데, 이러한 비즈니스 변화를 인식하고 기업의 차별화된 경쟁력을 확보하는 수단으로서 데이터 과제 발굴, 기술 검토 및 전사 업무 적용계획 수립 등 데이터를 효과적으로 분석·활용하기 위해 기획, 운영 및 관리를 전담할 수 있는 전문 분석조직의 필요성이 제기되고 있다.

- 데이터 분석 조직은 기업의 경쟁력 확보를 위해 데이터 분석의 가치를 발견하고, 이를 활용하여 비즈니스를 최적화하는 목표를 가지고 구성되어야 한다. 기업의 업무 전반에 걸쳐 다양한 분석 과제를 발굴해 정의하고, 데이터 분석을 통해 의미있는 인사이트를 찾아서 실행하는 역할을 수행할 수 있어야 한다.

• 데이터 분석을 위한 3가지 조직 구조

 

6. 분석 과제 관리 프로세스 수립

- 분석 마스터 플랜이 수립되고 초기 데이터 분석 과제가 성공적으로 수행되는 경우, 지속적인 분석 니즈 및 기회가 분석 과제 형태로 도출될 수 있다. 이런 과정에서 분석 조직이 수행할 주요한 역할 중의 하나가 분석 과제의 기획 및 운영이므로 이를 체계적으로 관리하기 위한 프로세스를 수립해야 한다.

- 과제 발굴 단계에서는 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀로 관리하면서 분석 프로젝트를 선정하는 작업을 수행한다.

- 과제 수행 단계에서는 분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제결과를 공유하고 개선하는 절차를 수행한다.

- 분석 조직이 지속적이고 체계적인 분석 관리 프로세스를 수행함으로써 조직 내 분석 문화 내재화 및 경쟁력을 확보할 수 있다.

- 해당 과제를 진행하면서 만들어진 시사점(Lesson learned)을 포함한 결과물을 풀에 잘 축적하고 관리함으로써 향후 유사한 분석과제 수행 시 시행착오를 최소화하고 프로젝트를 효율적으로 진행할 수 있다.

 

7. 분석 교육 및 변화관리

- 빅데이터의 등장으로 많은 비즈니스 영역에서 변화를 가져왔다. 이러한 변화에 보다 적극적으로 대응하기 위해서는 기업에 맞는 적합한 분석 업무를 도출하고, 가치를 높여줄 수 있도록 분석 조직 및 인력에 대한 지속적인 교육과 훈련을 실시하여야 한다. 또한 경영층이 사실 기반 의사결정을 할 수 있는 문화를 정착시키는 등 지속적인 변화관리를 계획하고 수행하여야 한다.

- 분석 교육의 목표는 단순한 툴 교육이 아닌 분석역량을 확보하고 강화하는 것에 초점을 맞추어 진행되어야 한다.

- 분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 통해 조직 구성원 모두에게 분석기반의 업무를 정착시키고 이를 통해 데이터를 바라보는 관점, 데이터 분석과 활용 등이 기업 문화로 자연스럽게 확대되어야 한다.