개요
분류
회사에서 먹고 사는 대부분의 일이 사실 '분류'이며 예측도 분류의 하나
● supervised model과 unsupervised model 구분하기
● 분류 문제 이해하기
● 판별 분석을 이용해서 분류 문제 해결하기
● 로지스틱 회귀분석을 이용해서 분류 문제 해결하기
Supervised vs. Unsupervised cf) supervise: 감독하다. 지도하다.
● supervised: inferring a function from labeled data
(색깔, 태그) --> 추측 후 맞았는지를 통해 학습 가능
● unsupervised: trying to find hidden structure in unlabeled data
(예. BMW GT30이 왜곤? SUV? 살롱? .. 정해진 Lable이 없다. 해석이 있을 뿐)
정답이 없고 Flexible
분류 문제(classification)
분류(classification)
● 새로운 관찰 값이 어떤 카테고리에 속하는지 구분하는 것 분류
문제 예시
● 회사가 부도할까? 카테고리: 부도 or 영업
● 고객이 이탈할 것인가? 카테고리: 이탈 or 재방문
● 유골의 성별은 무엇인가? 카테고리: 여성 or 남성
● 필기 인식, 어떤 숫자인가? 카테고리: 1234567890
군집화(clustering)와 분류의 차이
● 군집(Clustering)은 정해진 카테고리가 없다.
○ 고객 세분화, 제품 포지셔닝
● 분류(Classificatin)는 이미 정해진 명백한 카테고리가 있다.
○ 고객 이탈 예측, 기업 부도 예측
판별 분석(Discriminant Analysis)
: supervised model classification discriminant analysis
● 분류 문제를 해결하기 위한 방법 중에 하나. LDA(Linear Discriminant Analysis)
Data를 이기는 알고리즘은 없다
- Data를 좋지 않으면 어떤 좋은 알고리즘써도 분류가 되지 않는다.
등분산 가정 (LDA) Vs. 이분산 가정 (QDA)
한계점
NOT unimodal Gaussian 단봉이 아닌경우
로지스틱 회귀 분석(Logistic Regression)
: supervised model classification logistic regression
● 분류 문제를 해결하기 위한 방법 중에 하나. 로지스틱 함수
● sigmoid function 중에 하나.
● 치역의 범위가 확률의 범위와 같다! --> Thethhold를 내가 정할수 있음 30%? 50%?
● 확률을 직접 보여준다는 것이 큰 장점
http://www.boxnwhis.kr/2015/03/15/drawing_survival_curves_of_users.html
'Fast Camp_DA' 카테고리의 다른 글
Fast Campus: Data Analytics 21일차 (5/10) (0) | 2015.05.10 |
---|---|
Fast Campus: Data Analytics 20일차 (5/6) (0) | 2015.05.10 |
Fast Campus: Data Analytics 18일차 (4/26) (0) | 2015.04.26 |
Fast Campus: Data Analytics 17일차 (4/22) Part 1 (0) | 2015.04.22 |
Fast Campus: Data Analytics 16일차 (4/19) Part 2 (0) | 2015.04.19 |