데이터마이닝 06-의사결정트리-01 from Kwang Woo NAM

2015. 9. 27. 22:39

데이터마이닝 06-의사결정트리-01 from Kwang Woo NAM

&lt;span style="color: rgb(0, 0, 0); font-size: 11pt; background-color: rgb(255, 255, 255);"&gt;&amp;lt;span style="font-size: 11pt; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);"&amp;gt; &amp;lt;/span&amp;gt;&lt;/span&gt;

데이터마이닝 06-의사결정트리-01 from Kwang Woo NAM

(p4) 의사결정트리(Decision Tree)란

정의 - 의사결정 규칙 (Decision Tree)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류 (Classification)하거나 예측 (Prediction)을 수행하는 계량적 분석 방법
장점 – 분석결과는‘조건 A이고 조건 B이면 결과집단 C’라는 형태의 규칙으로 표현되므로 이해가 쉽고, 분류 또는 예측을 목적으로 하는 다른 계량적분석 방법에 비해 쉽게 이해하고 활용 할 수 있음
그림출처:http://jaek.khu.ac.kr/datamining/684

(p7) 의사결정트리(Decision Tree) : 불순도의 측정

의사결정 트리의 분할 속성 선택

어떤 입력변수를 이용하여 어떻게 분리하는 것이 목표변수의 분포를 가장 잘 구별해 주는지를 파악하여 자식마디가 형성되는데,
목표변수의 분포를 구별하는 정도를 순수도(Purity), 또는 불순도(Impurity)에 의해서 측정

순수도 (Purity) : 특정 범주의 개체들이 포함되어 잇는 정도를 의미한다.
불순도(impurity) : 얼마나 다양한 범주들의 개체들이 포함되어있는 가를 의미

분할속성의 선택

부모마디의 순수도에 비해서 자식마디들의 순수도가 증가하도록 자식마디를 형성

예를 들어 그룹0과 그룹 1의 비율이 45%와 55%인 마디는 각 그룹의 비율이 90%와 10%인 마디에 비하여 순수도가 낮다 (또는 불순도가 높다)라고 이야기 한다.

불순도의 측정

카이제곱 통계량의 P값
지니 지수 (Gini Index)
엔트로피 지수(Entropy Index)

(p8) 의사결정트리(Decision Tree) : 불순도의 측

지니 지수 (Gini Index):

불순도를 측정하는 하나의 지수로서 지니지수를 가장 감소시켜주는 예측변수와 그 때의 최적 분리에 의해서 자식마디를 선택

지니 지수 (Gini Index)의 값 다이어그램

두개의 범주개체가 50대 50으로 구성될때 최대의 불순도값

(p11) 의사결정트리(Decision Tree) : 불순도의 측정

지니지수와 엔트로피 지수를 이용한 불순도 측정

(p12) 의사결정트리(Decision Tree) : 불순도의 측정

불순도에 의한 트리 분할 데이터마이닝

(p14) 의사결정트리(Decision Tree) : 트리 학습 14

CART (Classification and Regression Trees)

Classification And Regression Tree의 준말, 984년 Breiman과 그의 동료들이 발명
기계학습(machine learning) 실험의 산물
가장 널리 사용되는 의사결정나무 알고리즘

1. create a root node
2. choose the best variable to divide up the data

C4.5

호주의 연구원 J. Ross Quinlan에 의하여 개발, 초기버전은 ID 3 (Iterative Dichotomizer 3)로 1986년에 개발
CART와는 다르게 각 마디에서 다지분리 (multiple split)가 가능하다.
범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
불순도함수로 엔트로피 지수를 사용한다. 가지치기를 사용할 때 학습자료를 사용한다.

(p21) 재귀적으로 트리 만들기

정보이득(Information gain)을 통한 트리노드 선정
정보이득

현재의 entropy와 새로운 두 그룹의 가중 평균 entropy 간의 차
알고리즘은 모든 속성마다 정보이득을 계산하여 가장 높은 정보이득을 가진 것을 선택
현재의 불순도- 두개의 그룹으로 나뉜후의 불순도
재귀적으로 트리를 분할

(p29) 트리 가지치기

과잉접합(overfitted)

데이터 과대반영-미소한 엔트로피 감소로도 가지가 생성한다.
엔트로피가 어떤 최소값만큼 줄지 않을 때 분할을 종료한다.

한번의 분할로 엔트로피가 많이 감소되지 않지만 다음 번 분할로 크게 감소하는 경우가 있다.
완전한 트리 생성 후 불필요한 노드를 제거한다.

(p47) 의사결정트리 활용 시점

장점:

학습된 모델을 이해하기 쉽다.
분류 데이터와 숫자 데이터 모두 사용가능하다.

단점:

많은 가능성을 가진 데이터 세트에 비효율적이다.
숫자 데이터를 다룰 때 이상/이하 결정 포인트만 만들 수 있다.

저작자표시 비영리

'Machine Learning & Data Mining' 카테고리의 다른 글

데이터마이닝 08-가격모델링 from Kwang Woo NAM (0)	2015.09.28
데이터마이닝 07-고급 분류 기법-커널 기법과 svm-01 from Kwang Woo NAM (0)	2015.09.27
데이터마이닝 05-문서필터링-02 from Kwang Woo NAM (0)	2015.09.27
데이터마이닝 04-검색과 랭킹-02 from Kwang Woo NAM (0)	2015.09.27
데이터마이닝 03-군집발견-03 from Kwang Woo NAM (0)	2015.09.27

Posted by Name_null

daTa-dRiveN

데이터마이닝 06-의사결정트리-01 from Kwang Woo NAM

'Machine Learning & Data Mining' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

공지사항

링크

티스토리툴바

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30