2015. 4. 26. 19:22
Data Visualization
- 어떠한 Data Visualization이 더옳은지는 무의미 하다
- 용도와 Audience에 따라 다른 접근이 필요
- 현실을 모사 vs. 통계학적 접근 vs. 신문기서의 접근
- Data Visualization은 요약 통계의 함정을 피하게 해준다
- 4개의 그래프 참조
- 패턴을 통해 이해가 쉽고 빠르게 인지된다
- 하지막 막하면 망한다
- 일부분을 과장 - 언론사에서 많이 사용
- 현상은 인과관계에 대해 많은 것을 설명하지 못할때가 많다. (Data가 없을 때는 더더욱..)
- 부족한 정보하에서 저신의 가설을 검증해줄 찾아야 한다. (ex. 맥주 공장의 낮은 사망자 비율)
- 망한 시각화
- 의미 없는 배치와 순서
- 의미 없는 크기
- 의미 없는 색상
- 스토리 없음. 그런데 쓸때 없이 나댐
- 원래 의미 없는 노이즈에 억지로 의미 부여 (복권으로 그린 모든 그래프 사례)
- Random Noise에 대단한 의미가 있는 것 처럼 그림 (바보가 열심히 일할때...)
- 읽지 못하게 색상, 폰트 사용 ( 그냥 멀리서 이쁘게만 보이고, 뭔 이야기인지 알아볼수 없음)
- 숫자의 종류
- Nominal - 버스번호, 빈출 횟수만 의미 있음
- 서로 색상이 다르게 구성하여 순서를 비교하지 못하게 해야 한다. (예) 빨,노,파
- Ordinal - 등수, 서열이 있지만 가감승제 불가, 순서만 비교 가능
- 채도나 명도차이를 둘수 있음
- 배경과의 대비가 큰 숫자 (예. 흰바탕에 검은 그림이 큰수)
- interval - 등간격의 수, (예) 섭씨,화씨 온도, 덧셈/뺄셈 가능, 하지만 바율/배수를 이야기 할수 없음
- baseline을 짤라도 의미 살아 있음
- Ratio - (예) 캘빈온도, 키나 몸무게 , 가감승제 가능 , 비율도 이야기할 수 있음
- baseline을 짜르면 의미가 왜곡
- 기타
- 무지개 색상을 인간의 눈이 잘 구분하지 못함. 차라리 명암차이가 이해하기 쉽다
- 인간의 눈은 명암차의 구분을 잘하는 능력이 뛰어남. 색상 < 명암
- Color Space의 왜곡
- 제대로 그려진 색공간이 더 왜곡되어 보임(예. 동일한 강도의 파란색, 노란색 중에 파란색이 훨씬 어두워 보임)
- 그결과 제대로된 색공간에 노란, 하늘색, 파란 기둥이 보이게 됨 (존재하지 않는 기둥을 보는것)
- HSV color space vs. LAB color space
- 지나치게 강조할 필요가 없다. smallest effective difference
- 흰색 vs. 회색 이면 충분 흰색 vs. 빨간색은 시각 자원의 낭비임
- 이혼율 그래프
- base line을 근거 없이 짜름 - 희스패닉은 모두 이혼하는 것 처럼 오해하기 쉬움
- 검은 선이 보조선인데 너무 강함
- 인종은 Nominal인데 채도로 구분한 점
- 범례가 멍처하게 멀리 떨어져 있음
- 죄우폭이 넒어서 기울기가 잘 보이지 않음
- 색깔을 고를때
- http://colorbrewer2.org/
'Fast Camp_DA' 카테고리의 다른 글
Fast Campus: Data Analytics 20일차 (5/6) (0) | 2015.05.10 |
---|---|
Fast Campus: Data Analytics 19일차 (4/29) (0) | 2015.04.29 |
Fast Campus: Data Analytics 17일차 (4/22) Part 1 (0) | 2015.04.22 |
Fast Campus: Data Analytics 16일차 (4/19) Part 2 (0) | 2015.04.19 |
Fast Campus: Data Analytics 16일차 (4/19) (0) | 2015.04.19 |