좋은 변수(= 차원)란 무엇일까? 

● 관찰 대상을 잘 설명할 수 있는 변수 예시) 개인을 잘 식별하기 위해서 무엇을 측정할까? 

나쁜 변수: 눈이 몇 개인가? 입이 몇 개인가? 

좋은 변수: 지문 정보, 얼굴 패턴


차원이 많으면 좋은가? 나쁜가? 

● 일반적으로 차원(= 변수)이 늘어나면 관찰값의 특성에 대한 정보는 증가한다. 

● 그러나 차원이 커지면서 복잡성도 함께 증가하므로 차원 증가의 비용도 함께 커진다.

 ○ 차원 증가 ­> 탐색 공간의 확장 ­> 필요한 관찰값(rows) 증가 

비슷한 특성을 설명하는 변수가 늘어나는 것이 문제. 

○ 차원 증가 비용 vs. 새롭게 증가한 정보 

○ 기존에 알던 정보를 굳이 새로운 차원을 사용해서 또 더할 필요는 없음. 

● 데이터 규모가 제한적인 상황에서 차원의 증가는 추정값의 정확도를 떨어뜨린다. 

○ 100개의 관찰값이 있는 상황에서, 

■ 2개의 변수를 쓰는 경우와 10개의 변수를 쓰는 경우는 큰 차이가 있다.

■ 각 변수에 대한 회귀 계수를 구한다면, 변수가 많은 경우에 회귀 계수의 오차가 커진다.


차원이 필요 이상으로 많다면? 

● 차원 축소(dimension reduction) 

○ 가장 중요한 변수를 남기고 나머지는 삭제 

주성분 분석으로 변수를 변환


주성분 분석(principal component analysis = PCA)

● 관찰값의 특성을 극대화할 수 있는 새로운 좌표 축을 생성

●축은 요소의 분산이 큰 형태가 바람직. 즉 각점이 떨어져 있는 것이 바람직 

● 직교축이 양축이 공유하는 정보가 가장 적은 상태가 됨 


R: data 설명 새로 컴퓨터를 구매한 고객을 대상으로 7점 척도의 설문 조사를 실시, 어떤 OS를 선택하는지 살펴보고자 함.

 ● Price: 새 컴퓨터가 저렴하다. (1: 매우 그렇지 않다 – 7: 매우 그렇다) 

● Software: 새 컴퓨터의 OS에서 필요한 소프트웨어를 구동시킬 수 있다. 

● Aesthetics: 새 컴퓨터의 디자인이 매력적이다. 

● Brand: 새 컴퓨터의 브랜드가 매력적이다.

 

> summary(pca, loading=T)

Importance of components:

                         Comp.1   Comp.2    Comp.3     Comp.4

Standard deviation     2.885787 1.509689 1.2782629 0.68457622

Proportion of Variance 0.655238 0.179327 0.1285615 0.03687348

Cumulative Proportion  0.655238 0.834565 0.9631265 1.00000000


Loadings:

           Comp.1 Comp.2 Comp.3 Comp.4

Price      -0.643 -0.461  0.611       

Software          -0.746 -0.660       

Aesthetics  0.577 -0.376  0.347 -0.637

Brand       0.496 -0.300  0.265  0.771



변수 변환으로 차원 축소를 하면 안되는 경우 ● 변수의 의미가 분석 결과에서 반드시 필요할 때 예시) 신용 점수가 낮은데 꼭 설명이 필요한 경우 변수 변환을 통해 모형을 만든 경우에 왜 신용 점수가 낮은지 설명이 어렵다.

Security 설정 inbound: 서버로 들어갈 수 있는 source 설정

항상 inbound 설정 때문에 연결이 안되는 경우가 많으므로, 주의할 것! ● 초기 설정은 RDS 인스턴스를 만든 ip의 접근만 허용 ○ 다른 ip 주소에서 접근하기 위해서는 inbound 설정을 바꿔준다



Posted by Name_null