좋은 변수(= 차원)란 무엇일까?
● 관찰 대상을 잘 설명할 수 있는 변수 예시) 개인을 잘 식별하기 위해서 무엇을 측정할까?
나쁜 변수: 눈이 몇 개인가? 입이 몇 개인가?
좋은 변수: 지문 정보, 얼굴 패턴
차원이 많으면 좋은가? 나쁜가?
● 일반적으로 차원(= 변수)이 늘어나면 관찰값의 특성에 대한 정보는 증가한다.
● 그러나 차원이 커지면서 복잡성도 함께 증가하므로 차원 증가의 비용도 함께 커진다.
○ 차원 증가 > 탐색 공간의 확장 > 필요한 관찰값(rows) 증가
● 비슷한 특성을 설명하는 변수가 늘어나는 것이 문제.
○ 차원 증가 비용 vs. 새롭게 증가한 정보
○ 기존에 알던 정보를 굳이 새로운 차원을 사용해서 또 더할 필요는 없음.
● 데이터 규모가 제한적인 상황에서 차원의 증가는 추정값의 정확도를 떨어뜨린다.
○ 100개의 관찰값이 있는 상황에서,
■ 2개의 변수를 쓰는 경우와 10개의 변수를 쓰는 경우는 큰 차이가 있다.
■ 각 변수에 대한 회귀 계수를 구한다면, 변수가 많은 경우에 회귀 계수의 오차가 커진다.
차원이 필요 이상으로 많다면?
● 차원 축소(dimension reduction)
○ 가장 중요한 변수를 남기고 나머지는 삭제
○ 주성분 분석으로 변수를 변환
주성분 분석(principal component analysis = PCA)
● 관찰값의 특성을 극대화할 수 있는 새로운 좌표 축을 생성
●축은 요소의 분산이 큰 형태가 바람직. 즉 각점이 떨어져 있는 것이 바람직
● 직교축이 양축이 공유하는 정보가 가장 적은 상태가 됨
R: data 설명 새로 컴퓨터를 구매한 고객을 대상으로 7점 척도의 설문 조사를 실시, 어떤 OS를 선택하는지 살펴보고자 함.
● Price: 새 컴퓨터가 저렴하다. (1: 매우 그렇지 않다 – 7: 매우 그렇다)
● Software: 새 컴퓨터의 OS에서 필요한 소프트웨어를 구동시킬 수 있다.
● Aesthetics: 새 컴퓨터의 디자인이 매력적이다.
● Brand: 새 컴퓨터의 브랜드가 매력적이다.
> summary(pca, loading=T)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 2.885787 1.509689 1.2782629 0.68457622
Proportion of Variance 0.655238 0.179327 0.1285615 0.03687348
Cumulative Proportion 0.655238 0.834565 0.9631265 1.00000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Price -0.643 -0.461 0.611
Software -0.746 -0.660
Aesthetics 0.577 -0.376 0.347 -0.637
Brand 0.496 -0.300 0.265 0.771
변수 변환으로 차원 축소를 하면 안되는 경우 ● 변수의 의미가 분석 결과에서 반드시 필요할 때 예시) 신용 점수가 낮은데 꼭 설명이 필요한 경우 변수 변환을 통해 모형을 만든 경우에 왜 신용 점수가 낮은지 설명이 어렵다.
Security 설정 inbound: 서버로 들어갈 수 있는 source 설정
항상 inbound 설정 때문에 연결이 안되는 경우가 많으므로, 주의할 것! ● 초기 설정은 RDS 인스턴스를 만든 ip의 접근만 허용 ○ 다른 ip 주소에서 접근하기 위해서는 inbound 설정을 바꿔준다
'Fast Camp_DA' 카테고리의 다른 글
Fast Campus: Data Analytics 19일차 (4/29) (0) | 2015.04.29 |
---|---|
Fast Campus: Data Analytics 18일차 (4/26) (0) | 2015.04.26 |
Fast Campus: Data Analytics 16일차 (4/19) Part 2 (0) | 2015.04.19 |
Fast Campus: Data Analytics 16일차 (4/19) (0) | 2015.04.19 |
Fast Campus: Data Analytics 15일차 (4/15) (0) | 2015.04.15 |