• (p4) 의사결정트리(Decision Tree)란
    • 정의 - 의사결정 규칙 (Decision Tree)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류 (Classification)하거나 예측 (Prediction)을 수행하는 계량적 분석 방법
    • 장점 – 분석결과는‘조건 A이고 조건 B이면 결과집단 C’라는 형태의 규칙으로 표현되므로 이해가 쉽고, 분류 또는 예측을 목적으로 하는 다른 계량적분석 방법에 비해 쉽게 이해하고 활용 할 수 있음 
    • 그림출처:http://jaek.khu.ac.kr/datamining/684 

  • (p7) 의사결정트리(Decision Tree) : 불순도의 측정
    • 의사결정 트리의 분할 속성 선택 
      • 어떤 입력변수를 이용하여 어떻게 분리하는 것이 목표변수의 분포를 가장 잘 구별해 주는지를 파악하여 자식마디가 형성되는데, 
      • 목표변수의 분포를 구별하는 정도를 순수도(Purity), 또는 불순도(Impurity)에 의해서 측정
        • 순수도 (Purity) : 특정 범주의 개체들이 포함되어 잇는 정도를 의미한다. 
        • 불순도(impurity) : 얼마나 다양한 범주들의 개체들이 포함되어있는 가를 의미
    • 분할속성의 선택
      • 부모마디의 순수도에 비해서 자식마디들의 순수도가 증가하도록 자식마디를 형성
        • 예를 들어 그룹0과 그룹 1의 비율이 45%와 55%인 마디는 각 그룹의 비율이 90%와 10%인 마디에 비하여 순수도가 낮다 (또는 불순도가 높다)라고 이야기 한다.
    • 불순도의 측정 
      • 카이제곱 통계량의 P값
      • 지니 지수 (Gini Index)
      • 엔트로피 지수(Entropy Index)


  • (p8) 의사결정트리(Decision Tree) : 불순도의 측
    • 지니 지수 (Gini Index): 
      • 불순도를 측정하는 하나의 지수로서 지니지수를 가장 감소시켜주는 예측변수와 그 때의 최적 분리에 의해서 자식마디를 선택 
    •  지니 지수 (Gini Index)의 값 다이어그램 
      • 두개의 범주개체가 50대 50으로 구성될때 최대의 불순도값 
  • (p11) 의사결정트리(Decision Tree) : 불순도의 측정
    •  지니지수와 엔트로피 지수를 이용한 불순도 측정 
  • (p12) 의사결정트리(Decision Tree) : 불순도의 측정
    •  불순도에 의한 트리 분할 데이터마이닝 


  • (p14) 의사결정트리(Decision Tree) : 트리 학습 14
    • CART (Classification and Regression Trees)
      • Classification And Regression Tree의 준말,  984년 Breiman과 그의 동료들이 발명
      • 기계학습(machine learning) 실험의 산물
      • 가장 널리 사용되는 의사결정나무 알고리즘 
        • 1. create a root node 
        • 2. choose the best variable to divide up the data 
    • C4.5 
      • 호주의 연구원 J. Ross Quinlan에 의하여 개발, 초기버전은 ID 3 (Iterative Dichotomizer 3)로 1986년에 개발
      • CART와는 다르게 각 마디에서 다지분리 (multiple split)가 가능하다.
      • 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
      • 불순도함수로 엔트로피 지수를 사용한다. 가지치기를 사용할 때 학습자료를 사용한다.


  • (p21) 재귀적으로 트리 만들기  
    • 정보이득(Information gain)을 통한 트리노드 선정
    • 정보이득
      • 현재의 entropy와 새로운 두 그룹의 가중 평균 entropy 간의 차 
      • 알고리즘은 모든 속성마다 정보이득을 계산하여 가장 높은 정보이득을 가진 것을 선택
      • 현재의 불순도- 두개의 그룹으로 나뉜후의 불순도
      • 재귀적으로 트리를 분할

  • (p29)  트리 가지치기 
    • 과잉접합(overfitted) 
      • 데이터 과대반영-미소한 엔트로피 감소로도 가지가 생성한다.
      • 엔트로피가 어떤 최소값만큼 줄지 않을 때 분할을 종료한다. 
        • 한번의 분할로 엔트로피가 많이 감소되지 않지만 다음 번 분할로 크게 감소하는 경우가 있다. 
        • 완전한 트리 생성 후 불필요한 노드를 제거한다.
  • (p47) 의사결정트리 활용 시점
    • 장점: 
      • 학습된 모델을 이해하기 쉽다. 
      • 분류 데이터와 숫자 데이터 모두 사용가능하다. 
    • 단점: 
      • 많은 가능성을 가진 데이터 세트에 비효율적이다.
      • 숫자 데이터를 다룰 때 이상/이하 결정 포인트만 만들 수 있다.


Posted by Name_null