개요 


분류 

회사에서 먹고 사는 대부분의 일이 사실 '분류'이며 예측도 분류의 하나 

● supervised model과 unsupervised model 구분하기 

● 분류 문제 이해하기 

● 판별 분석을 이용해서 분류 문제 해결하기 

● 로지스틱 회귀분석을 이용해서 분류 문제 해결하기


Supervised vs. Unsupervised cf) supervise: 감독하다. 지도하다. 

● supervised: inferring a function from labeled data   

(색깔, 태그)   --> 추측 후 맞았는지를 통해 학습 가능 

● unsupervised: trying to find hidden structure in unlabeled data  

(예. BMW GT30이 왜곤? SUV? 살롱?  .. 정해진 Lable이 없다. 해석이 있을 뿐)

정답이 없고 Flexible 


분류 문제(classification) 

분류(classification) 

● 새로운 관찰 값이 어떤 카테고리에 속하는지 구분하는 것 분류 


문제 예시 

● 회사가 부도할까? 카테고리: 부도 or 영업 

● 고객이 이탈할 것인가? 카테고리: 이탈 or 재방문 

● 유골의 성별은 무엇인가? 카테고리: 여성 or 남성 

필기 인식, 어떤 숫자인가? 카테고리: 1234567890 


군집화(clustering)와 분류의 차이 

군집(Clustering)은 정해진 카테고리가 없다

○ 고객 세분화, 제품 포지셔닝 

● 분류(Classificatin)는 이미 정해진 명백한 카테고리가 있다. 

○ 고객 이탈 예측, 기업 부도 예측


판별 분석(Discriminant Analysis) 

: supervised model ­ classification ­ discriminant analysis 

● 분류 문제를 해결하기 위한 방법 중에 하나. LDA(Linear Discriminant Analysis)


Data를 이기는 알고리즘은 없다

  • Data를 좋지 않으면 어떤 좋은 알고리즘써도 분류가 되지 않는다. 


등분산 가정 (LDA) Vs. 이분산 가정 (QDA)


한계점 

NOT unimodal Gaussian 단봉이 아닌경우 


로지스틱 회귀 분석(Logistic Regression) 

: supervised model ­ classification ­ logistic regression 

● 분류 문제를 해결하기 위한 방법 중에 하나. 로지스틱 함수 

● sigmoid function 중에 하나. 

● 치역의 범위가 확률의 범위와 같다!  --> Thethhold를 내가 정할수 있음 30%?  50%? 

● 확률을 직접 보여준다는 것이 큰 장점 


http://www.boxnwhis.kr/2015/03/15/drawing_survival_curves_of_users.html






Posted by Name_null