2015. 9. 27. 23:01
- (p2) 의사결정트리의 문제점
- 의사결정트리의 분류 결과의 문제점
- 분류기준을 수평/수직선으로 강제함 – 혼란스럽고 분류에 적용하기에 복잡
- (p4) 기본 선형 분류(Basic Linear Classification)
- 선형 분류의 개념
- 의사결정트리가 수평/수직으로 구분하는 단점을 개선
- 단순 방법
- 각 범주내의 평균을 찾고, 그 범주의 중앙을 나타내는 중앙점(center point)과 가까운 평균점을 선형 분류
- 유클리디언 거리를 이용 범주 중앙점 유클리디언 거리
- (p8) Linear Classifiers
- (p13) Classifier Margin
- Define the margin of a linear classifie r as the width that the boundary coul d be increased by before hitting a da tapoint.
- (p14) Maximum Margin
- 1. Maximizing the margin is good according to intuition and PAC theory
- 2. Implies that only support vectors are important; other training examples are ignorable.
- 3. Empirically it works very very well.
- (p16) 지지벡터머신(Support Vector Machine)
- SVM의 개념
- 두 범주를 갖는 객체들을 분류하는 방법
- SVM은 ‘여백을margin 최대화’하여 일반화 능력의 극대화 꾀함
- SVM의 역사와 장점
- 1979년 Vapnik에 의하여 발표된 바 있으나, – 최근에 와서야 그 성능을 인정받게 됨, Vapnik(1995)과 Burges(1998)
- 주어진 많은 데이터들을 가능한 멀리 두 개의 집단으로 분리시키는 최적의 초평면(hyperplane)을 찾는 것
- 기존의 통계적 학습 방법들에서 이용되는 경험적 위험도 최소화(empirical risk minimization)가 아닌 구조적 위험도 최소화(structural risk minimization)방법을 이용하여 일반적으로 에러를 줄이는 방법
- 패턴 인식이나 비선형 운동 분류 등의 다양한 응용분야에 효과적으로 수행
- (p18) 지지벡터머신(Support Vector Machine)
- 기존 선형분류와 SVM의 비교
- 분류기의 일반화 능력
- ②보다 ③이 여백이 더 크다. -> 즉 ③이 ②보다 일반화 능력이 뛰어나다.
- 신경망은 초기값 ①에서 시작하여 ②를 찾았다면 거기서 멈춘다. 왜?
- SVM은 ③을 찾는다.
- 중요한 문제
- 여백이라는 개념을 어떻게 공식화할 것인가?
- 여백을 최대로 하는 결정 초평면을 어떻게 찾을 것인가?
- (p20) SVM의 개념 : 선형 분리가 가능한 상황
- (직선의 방향)가 주어진 상황에서,
- ‘두 부류에 대해 직선으로부터 가장 가까운 샘플까지의 거리가 같게 되는’ b를 결정 (①과 ②는 그렇게 얻은 직선)
- 여백은 그런 직선에서 가장 가까운 샘플까지 거리의 두 배로 정의함 – 가장 가까운 샘플을 서포트 벡터라 부름
- (p22) SVM의 특징
- 여백이라는 간단한 아이디어로 breakthrough 이룩함
- SVM의 특성
- 사용자 설정 매개 변수가 적다.
- 커널 종류와 커널에 따른 매개 변수
- (5.15)에서 목적 1 과 목적 2의 가중치 C
- 최적 커널을 자동 설정하는 방법 없음 - 실험에 의한 휴리스틱한 선택
- 일반화 능력 뛰어남
- 구현이 까다로움
- OSS 활용
- SVMlight
- LIBSVM
'Machine Learning & Data Mining' 카테고리의 다른 글
데이터마이닝 08-가격모델링 from Kwang Woo NAM (0) | 2015.09.28 |
---|---|
데이터마이닝 06-의사결정트리-01 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 05-문서필터링-02 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 04-검색과 랭킹-02 from Kwang Woo NAM (0) | 2015.09.27 |
데이터마이닝 03-군집발견-03 from Kwang Woo NAM (0) | 2015.09.27 |