카테고리 없음

ADsP 제3과목 데이터 분석 - 6장 비정형 데이터마이닝

아웃라이어_ 2020. 2. 18. 01:05

데이터분석 준전문가 3과목 6장 요약입니다.

워드파일 첨부합니다 필요하신 분 사용하세요

(나눔바른고딕 폰트 사용하였습니다.)

제3과목_6장.docx
0.02MB

제6장 비정형 데이터 마이닝

제1절 텍스트 마이닝

• 텍스트 마이닝
- 다양한 형태의 문서로부터 텍스트를 획득하여 이를 문서별 단어의 행렬로 만들어 추가적인 분석이나 데이터 마이닝 기법을 적용하여 의사결정을 지원하는 방법

 

• 텍스트 마이닝 기능
- 문서 요약(summarization)
- 문서 분류(classification)
- 문서 군집(clustering)
- 특성 추출(feature extraction)

 

• 평가 척도
- 정밀도(Precision): 모델의 예측값 중 정답과 일치하는 값의 비율

- 재현율(Recall): 실제 정답 중에서 모델이 정답이라고 예측한 값의 비율

 

• Corpus(말뭉치)
- 데이터마이닝의 절차 중 데이터의 정제, 통합,선택, 변환의 과정을 거친 구조화된 단계로 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태

 

• TDM, Term Document Matrix
- 문서번호와 단어 간의 사용 여부 또는 빈도수를 이용해 matrix를 만드는 작업

 

• Dictionary
- 분석에 사용하고자 하는 단어들의 집합
- 분석하고자 하는 단어들을 별도 사전으로 정의해서 해당 단어들에 대해서만 결과를 산출해보려고 할 때 사용한다.

 

• 감성분석
- 문장에서 사용된 긍정단어, 부정단어를 계산하여 해당 문장이 긍정적인지 부정적인지를 평가

 

• 워드 클라우드
- 문서에 포함된 단어의 사용 빈도를 효과적으로 보여주기 위해 이용한다.
 

제2절 사회연결망 분석

• 사회연결망(SNA)
- 개인과 집단 등의 관계를 노드와 링크로서 모델링 하여 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론

 

• 네트워크 표현 방법

· 집합론: 객체들의 집합에서 각 객체들 간의 관계를 관계쌍(pairs of elements)으로 표현

· 그래프 이론: 객체를 점(노드), 객체 간의 연결망은 두 점을 연결하는 선(링크)로 표현

· 행렬: 각 객체를 행렬의 행과 열에 대칭적으로 배치하고, i번째 객체와 j번째 객체가 연결망으로 연결되어 있으면 행렬의 (I, j)번째 칸에 1을 넣고, 연결망이 없으면 0을 넣는다.

· 준연결망(quasi network): 고객-상품 행렬에서 상품을 구매한 사람들 사이에 직접적인 상호작용의 관계가 없더라도, 관계를 인위적으로 설정해 고객과 고객 또는 상품과 상품 사이의 관계를 나타낸 네트워크

 

• 네트워크 구조를 파악하기 위한 기법

· 중심성(Centrality)

· 밀도(Density)

· 구조적 틈새(Structural hole)

· 집중도(Centralization) 등

 

• 중심성 지표들

· 연결정도 중심성(Degree centrality): 한 점에 직접적으로 연결된 링크의 수.

· 근접 중심성(Closeness centrality): 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계의 합. 각 노드 간 거리를 근거로 중심성을 측정하는 방법

· 매개 중심성(Betweenness centrality): 네트워크 내에서 한 점이 담당하는 매개자 혹은 중재자 역할의 정도. 네트워크 간 비교를 위해 사용

· 위세 중심성(Eigenvector centrality): 자신의 연결정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정된다. 연결된 노드의 중요성에 가치를 두어 노드의 중심성을 측정하는 방법

 

• SNA 분석 과정

- 그래프 생성

- 그래프를 목적에 따라 가공/분석

- 커뮤니티를 탐지하고 각 노드의 역할을 정의해 어떠한 역할로 영향력을 보다 효율적으로 줄 수 있는지를 정의

- 위 결과를 데이터화 하여 다른 데이터마이닝 기법과 연계

 

• 커뮤니티 탐지

· WALKRAP 알고리즘
- 일련의 random walk 과정을 통해 커뮤니티를 발견한다.

- 각 노드를 하나의 커뮤니티로 취급해 점차 더 큰 그룹으로 병합하면서 군집화한다.

· Edge betweenness method
- 그래프에 존재하는 최단거리(shortest path) 중 몇 개가 그 edge를 거쳐 가는지를 측정

- 높은 edge-betweenness 점수를 가지는 edge가 클러스터를 분리하는 속성을 가진다고 가정한다.