2015. 9. 27. 22:39
- (p4) 의사결정트리(Decision Tree)란
- 정의 - 의사결정 규칙 (Decision Tree)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류 (Classification)하거나 예측 (Prediction)을 수행하는 계량적 분석 방법
- 장점 – 분석결과는‘조건 A이고 조건 B이면 결과집단 C’라는 형태의 규칙으로 표현되므로 이해가 쉽고, 분류 또는 예측을 목적으로 하는 다른 계량적분석 방법에 비해 쉽게 이해하고 활용 할 수 있음
- 그림출처:http://jaek.khu.ac.kr/datamining/684
- (p7) 의사결정트리(Decision Tree) : 불순도의 측정
- 의사결정 트리의 분할 속성 선택
- 어떤 입력변수를 이용하여 어떻게 분리하는 것이 목표변수의 분포를 가장 잘 구별해 주는지를 파악하여 자식마디가 형성되는데,
- 목표변수의 분포를 구별하는 정도를 순수도(Purity), 또는 불순도(Impurity)에 의해서 측정
- 순수도 (Purity) : 특정 범주의 개체들이 포함되어 잇는 정도를 의미한다.
- 불순도(impurity) : 얼마나 다양한 범주들의 개체들이 포함되어있는 가를 의미
- 분할속성의 선택
- 부모마디의 순수도에 비해서 자식마디들의 순수도가 증가하도록 자식마디를 형성
- 예를 들어 그룹0과 그룹 1의 비율이 45%와 55%인 마디는 각 그룹의 비율이 90%와 10%인 마디에 비하여 순수도가 낮다 (또는 불순도가 높다)라고 이야기 한다.
- 불순도의 측정
- 카이제곱 통계량의 P값
- 지니 지수 (Gini Index)
- 엔트로피 지수(Entropy Index)
- (p8) 의사결정트리(Decision Tree) : 불순도의 측
- 지니 지수 (Gini Index):
- 불순도를 측정하는 하나의 지수로서 지니지수를 가장 감소시켜주는 예측변수와 그 때의 최적 분리에 의해서 자식마디를 선택
- 지니 지수 (Gini Index)의 값 다이어그램
- 두개의 범주개체가 50대 50으로 구성될때 최대의 불순도값
- (p11) 의사결정트리(Decision Tree) : 불순도의 측정
- 지니지수와 엔트로피 지수를 이용한 불순도 측정
- (p12) 의사결정트리(Decision Tree) : 불순도의 측정
- 불순도에 의한 트리 분할 데이터마이닝
- (p14) 의사결정트리(Decision Tree) : 트리 학습 14
- CART (Classification and Regression Trees)
- Classification And Regression Tree의 준말, 984년 Breiman과 그의 동료들이 발명
- 기계학습(machine learning) 실험의 산물
- 가장 널리 사용되는 의사결정나무 알고리즘
- 1. create a root node
- 2. choose the best variable to divide up the data
- C4.5
- 호주의 연구원 J. Ross Quinlan에 의하여 개발, 초기버전은 ID 3 (Iterative Dichotomizer 3)로 1986년에 개발
- CART와는 다르게 각 마디에서 다지분리 (multiple split)가 가능하다.
- 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
- 불순도함수로 엔트로피 지수를 사용한다. 가지치기를 사용할 때 학습자료를 사용한다.
- (p21) 재귀적으로 트리 만들기
- 정보이득(Information gain)을 통한 트리노드 선정
- 정보이득
- 현재의 entropy와 새로운 두 그룹의 가중 평균 entropy 간의 차
- 알고리즘은 모든 속성마다 정보이득을 계산하여 가장 높은 정보이득을 가진 것을 선택
- 현재의 불순도- 두개의 그룹으로 나뉜후의 불순도
- 재귀적으로 트리를 분할
- (p29) 트리 가지치기
- 과잉접합(overfitted)
- 데이터 과대반영-미소한 엔트로피 감소로도 가지가 생성한다.
- 엔트로피가 어떤 최소값만큼 줄지 않을 때 분할을 종료한다.
- 한번의 분할로 엔트로피가 많이 감소되지 않지만 다음 번 분할로 크게 감소하는 경우가 있다.
- 완전한 트리 생성 후 불필요한 노드를 제거한다.
- (p47) 의사결정트리 활용 시점
- 장점:
- 학습된 모델을 이해하기 쉽다.
- 분류 데이터와 숫자 데이터 모두 사용가능하다.
- 단점:
- 많은 가능성을 가진 데이터 세트에 비효율적이다.
- 숫자 데이터를 다룰 때 이상/이하 결정 포인트만 만들 수 있다.
'Machine Learning & Data Mining' 카테고리의 다른 글
데이터마이닝 08-가격모델링 from Kwang Woo NAM (0) | 2015.09.28 |
---|---|
데이터마이닝 07-고급 분류 기법-커널 기법과 svm-01 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 05-문서필터링-02 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 04-검색과 랭킹-02 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 03-군집발견-03 from Kwang Woo NAM (0) | 2015.09.27 |