Fast Campus: Data Analytics 17일차 (4/22) Part 1

2015. 4. 22. 19:32

Fast Camp_DA

Fast Campus: Data Analytics 17일차 (4/22) Part 1

좋은 변수(= 차원)란 무엇일까?

● 관찰 대상을 잘 설명할 수 있는 변수 예시) 개인을 잘 식별하기 위해서 무엇을 측정할까?

나쁜 변수: 눈이 몇 개인가? 입이 몇 개인가?

좋은 변수: 지문 정보, 얼굴 패턴

차원이 많으면 좋은가? 나쁜가?

● 일반적으로 차원(= 변수)이 늘어나면 관찰값의 특성에 대한 정보는 증가한다.

● 그러나 차원이 커지면서 복잡성도 함께 증가하므로 차원 증가의 비용도 함께 커진다.

○ 차원 증가 > 탐색 공간의 확장 > 필요한 관찰값(rows) 증가

● 비슷한 특성을 설명하는 변수가 늘어나는 것이 문제.

○ 차원 증가 비용 vs. 새롭게 증가한 정보

○ 기존에 알던 정보를 굳이 새로운 차원을 사용해서 또 더할 필요는 없음.

● 데이터 규모가 제한적인 상황에서 차원의 증가는 추정값의 정확도를 떨어뜨린다.

○ 100개의 관찰값이 있는 상황에서,

■ 2개의 변수를 쓰는 경우와 10개의 변수를 쓰는 경우는 큰 차이가 있다.

■ 각 변수에 대한 회귀 계수를 구한다면, 변수가 많은 경우에 회귀 계수의 오차가 커진다.

차원이 필요 이상으로 많다면?

● 차원 축소(dimension reduction)

○ 가장 중요한 변수를 남기고 나머지는 삭제

○ 주성분 분석으로 변수를 변환

주성분 분석(principal component analysis = PCA)

● 관찰값의 특성을 극대화할 수 있는 새로운 좌표 축을 생성

●축은 요소의 분산이 큰 형태가 바람직. 즉 각점이 떨어져 있는 것이 바람직

● 직교축이 양축이 공유하는 정보가 가장 적은 상태가 됨

R: data 설명 새로 컴퓨터를 구매한 고객을 대상으로 7점 척도의 설문 조사를 실시, 어떤 OS를 선택하는지 살펴보고자 함.

● Price: 새 컴퓨터가 저렴하다. (1: 매우 그렇지 않다 – 7: 매우 그렇다)

● Software: 새 컴퓨터의 OS에서 필요한 소프트웨어를 구동시킬 수 있다.

● Aesthetics: 새 컴퓨터의 디자인이 매력적이다.

● Brand: 새 컴퓨터의 브랜드가 매력적이다.

> summary(pca, loading=T)

Importance of components:

Comp.1 Comp.2 Comp.3 Comp.4

Standard deviation 2.885787 1.509689 1.2782629 0.68457622

Proportion of Variance 0.655238 0.179327 0.1285615 0.03687348

Cumulative Proportion 0.655238 0.834565 0.9631265 1.00000000

Loadings:

Comp.1 Comp.2 Comp.3 Comp.4

Price -0.643 -0.461 0.611

Software -0.746 -0.660

Aesthetics 0.577 -0.376 0.347 -0.637

Brand 0.496 -0.300 0.265 0.771

변수 변환으로 차원 축소를 하면 안되는 경우 ● 변수의 의미가 분석 결과에서 반드시 필요할 때 예시) 신용 점수가 낮은데 꼭 설명이 필요한 경우 변수 변환을 통해 모형을 만든 경우에 왜 신용 점수가 낮은지 설명이 어렵다.

Security 설정 inbound: 서버로 들어갈 수 있는 source 설정

항상 inbound 설정 때문에 연결이 안되는 경우가 많으므로, 주의할 것! ● 초기 설정은 RDS 인스턴스를 만든 ip의 접근만 허용 ○ 다른 ip 주소에서 접근하기 위해서는 inbound 설정을 바꿔준다

저작자표시 비영리

'Fast Camp_DA' 카테고리의 다른 글

Fast Campus: Data Analytics 19일차 (4/29) (0)	2015.04.29
Fast Campus: Data Analytics 18일차 (4/26) (0)	2015.04.26
Fast Campus: Data Analytics 16일차 (4/19) Part 2 (0)	2015.04.19
Fast Campus: Data Analytics 16일차 (4/19) (0)	2015.04.19
Fast Campus: Data Analytics 15일차 (4/15) (0)	2015.04.15

Posted by Name_null

daTa-dRiveN

Fast Campus: Data Analytics 17일차 (4/22) Part 1

'Fast Camp_DA' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

공지사항

링크

티스토리툴바

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30