Data Visualization


  • 어떠한 Data Visualization이  더옳은지는 무의미 하다
    • 용도와 Audience에 따라 다른 접근이 필요
    • 현실을 모사 vs. 통계학적 접근 vs. 신문기서의 접근 
  • Data Visualization은 요약 통계의 함정을 피하게 해준다
    • 4개의 그래프 참조
    • 패턴을 통해 이해가 쉽고 빠르게 인지된다   
  • 하지막 막하면 망한다
    • 일부분을 과장 - 언론사에서 많이 사용
    • 현상은 인과관계에 대해 많은 것을 설명하지 못할때가 많다. (Data가 없을 때는 더더욱..) 
    • 부족한 정보하에서 저신의 가설을 검증해줄 찾아야 한다. (ex. 맥주 공장의 낮은 사망자 비율)
  • 망한 시각화
    • 의미 없는 배치와 순서 
    • 의미 없는 크기
    • 의미 없는 색상
    • 스토리 없음. 그런데 쓸때 없이 나댐 
    • 원래 의미 없는 노이즈에 억지로 의미 부여  (복권으로 그린 모든 그래프 사례) 
      • Random Noise에 대단한 의미가 있는 것 처럼 그림 (바보가 열심히 일할때...) 
    • 읽지 못하게 색상, 폰트 사용 ( 그냥 멀리서 이쁘게만 보이고, 뭔 이야기인지 알아볼수 없음) 
  • 숫자의 종류
    • Nominal - 버스번호, 빈출 횟수만 의미 있음
      • 서로 색상이 다르게 구성하여 순서를 비교하지 못하게 해야 한다. (예) 빨,노,파 
    • Ordinal - 등수, 서열이 있지만 가감승제 불가,  순서만 비교 가능  
      • 채도나 명도차이를 둘수 있음 
      • 배경과의 대비가 큰 숫자 (예. 흰바탕에 검은 그림이 큰수) 
    • interval - 등간격의 수, (예) 섭씨,화씨 온도,  덧셈/뺄셈 가능, 하지만 바율/배수를 이야기 할수 없음
      • baseline을 짤라도 의미 살아 있음 
    • Ratio -  (예) 캘빈온도, 키나 몸무게 , 가감승제 가능 , 비율도 이야기할 수 있음   
      • baseline을 짜르면 의미가 왜곡 
  • 기타
    • 무지개 색상을 인간의 눈이 잘 구분하지 못함.  차라리 명암차이가 이해하기 쉽다 
    • 인간의 눈은 명암차의 구분을 잘하는 능력이 뛰어남.  색상 < 명암
    • Color Space의 왜곡
      • 제대로 그려진 색공간이 더 왜곡되어 보임(예. 동일한 강도의 파란색, 노란색 중에 파란색이 훨씬 어두워 보임) 
      • 그결과 제대로된 색공간에 노란, 하늘색, 파란 기둥이 보이게 됨 (존재하지 않는 기둥을 보는것) 
      • HSV color space vs. LAB color space
    • 지나치게 강조할 필요가 없다. smallest effective difference
      • 흰색 vs. 회색 이면 충분  흰색 vs. 빨간색은 시각 자원의 낭비임 
  • 이혼율 그래프
    • base line을 근거 없이 짜름 - 희스패닉은 모두 이혼하는 것 처럼 오해하기 쉬움
    • 검은 선이 보조선인데 너무 강함 
    • 인종은 Nominal인데 채도로 구분한 점
    • 범례가 멍처하게 멀리 떨어져 있음 
    • 죄우폭이 넒어서 기울기가 잘 보이지 않음


  • 색깔을 고를때
    • http://colorbrewer2.org/


Posted by Name_null