오늘부터 Fast Campus에서 진행하는 Data Analytics 수업을 매주 수요일과 일요일 저녁에 듣는다.  주말까지 뭔 난리인가 싶지만 몇 군데 확인해 본 결과 이정도 Quality 강의를 찾기 어려웠다. 대학 전공수업이나 MOOC도 - depth야 있겠지만 - 이처럼 Data분석의 여러 측면을 실무적으로 폭넒게 다루지는 못하는 것 같았다. 모두 10주 22회에 걸쳐 진행될 예정이며 오늘이 첫날 

첫 수업은 정말 무슨 아파트 재건축 설명회 마냥 빽빽해서 Data Analytics - 마케팅적으로는 Big Data-의 Hot한 열기를 느낄 수 있었다. 첫날이라 소개 및 관련 Tool 소개의 시간이었음 


중요 내용만 요약해 본다.

1. Data Analytics의 도구와 깊이는 다양하다.  대략..아래와 같다.  

 R - CLI - SQL - Google Spread Sheet- Google Analytics - Tableau 찰흙 LEGO 완제품 장난감

    • 완제품 장난감은 쉽지만 금방 한계에 부딪히고, 찰흙으로는 예술품도 만들수 있다
    • 그냥 Google Analytic 만해도 왠만한 건 된다. 

2. Data Analytics를 위해서는 여러가지 도구가 필요하다.

Oracle VM(Virtual Box), ATOM, R, R-Studio,Vagrant


3. Kaggle: The home of Data Science

    • 다양한 Data Project의 Source이자 Guide
    • Titanic Data - 타이타닉호 탑승자 실 Data를 가지고 여러가지 조작을 해볼수있다,
      • 죽은 사람은 대부분 남자. 3등석은 대부분 죽었다. 
      • 죽는데 나이에는 관계 없더라.  
      • Crew는 80%이상 죽었다


4. Agile 방법론

  • 세상은 쉽게 변하고 우리는 세상에 대해서 잘 모른다. 앞으로도 잘 모를 것이다. 이런 상황에서는 실험을 통해 나(=사업, 가설)을 끊임없이 바꾸어야 성장할수 있다
  • 따라서 뭔가 먼저 이해하고 나서 그 다음 무언가 시도한다는 방식은 잘못된 방법론이다. 배운다는 것은 실험의 결과이지 배운 후 실험한다는 것은 잘못된 방법. 예를 들어 자동차를 만들어 팔기 전에 타이어, 핸들, 엔진 이런것들을 하나씩 만들어서 팔아본다는 Approach. 덤으로 Cash burn-out을 늦추는 효과도 있음 
  • 이렇게 하면 전기차와 같은 급격한 환경변화에 대처 가능하다고 본다. 뭐랄까 이 방법론은 중장기 계획이 다소 허상이라는 전제위에 있는 것같다.
전자에 비해 후자의 방식이 변화하는 세상에서 살아남기에 더 적합함: 
○ 첫째, 내연 기관과 같은 핵심적인 부품이 전기차 상용화로 인해 무용지물이 되거나, 자동 운행과 같은 새로운 노하우가 필요해지는 등 시장 환경이 급변할 경우 전자에 비해 후자가 더 쉽게 적응할 수 있음 
○ 둘째, 재무적인 측면에서도 전자에 비해 후자의 방식이 더 건전하며 더 빠르게 Self­funding point(프로젝트에 투입되는 비용을 프로젝트에서 벌어들이는 수익으로 충당할 수 있는 지점) 및 Break­even point(프로젝트에 투입된 총 비용을 프로젝트에서 벌어들인 총 수익이 앞지르는 지점)에 도달할 수 있음 
○ 셋째, 학습 및 개선이라는 측면에서도 전자에 비해 후자의 방식이 유리함. 후자의 경우 각 모듈을 적시에 시장에 출시하여 시장 반응을 살피고 이를 통해 점진적 개선을 할 기회가 많아지는 반면 전자의 경우 시장으로부터의 피드백 없이 연구/개발이 진행되므로 리스크가 큼


5. 앞으로의 수업에 대하여
  • 범용적인 지식일수록 배우는 것이 힘들다.이 수업은 시행착오를 통한 실습을 목표로 한다
  • 뭔가 "깔끔히 정리해서 이해한다"는 것은 지난 시대의 학습법. 끊임없이 새로운 문제/상황에서 고민하는 편이 - 심지어 문제를 해결하지 못해도 - 더 이롭다. 
  • 이 교육은 마우스를 쓰지 않는다. Script base. 재현 가능한 연구를 지향하기 때문이다. <- 요 부분은 뭔소리인지 모르겠다

6. 느낀점
  • 이 수업은 Big Data 관련 서적들이 취하는 "Big Data를 바라보는 우리 들의 자세" 같은 접근이 아니다.
  • 오히려 Data와 Programing (R,SQL 맛보기 정도이지만)을 통해 '합리적으로 생각하는 방법'을 배우는 쪽에 가깝다. 
  • 논리적으로 생각하고 말하는 방법을 배운다? .. 그렇다면 내 아들이 배우는 논술 수업과 뭐가 다른거지?

7. 기타 찾아본 내용


데이터 분석을 수행하기 위해 필요한 지식을 세 개의 범주(과업 흐름, 원리, 도구)로 나눔: 
과업 흐름​: 수집 ­> 가공 ­> 가설 수립 ­> 가설 검증 ­> (보고) 
도구​: R, Command­line Interface, Google Analytics 등 구체적인 소프트웨어 혹은 기술 
원리​: 요약 통계, 데이터 시각화, 확률과 분포 등 도구들을 올바르게 사용하기 위해 필요한 이론 및 원리
● 참고 자료 
○ 캐글 데이터 분석 튜토리얼: http://www.kaggle.com/c/titanic­gettingStarted ○ http://trevorstephens.com/post/72916401642/titanic­getting­started­with­r


코스소개 (2. 25)

Google Analytics 수집하기 (3. 1)

R 기초 - R로 데이터 요약하기 (3. 4)
구글 애널리틱스 연동은 했는데, 이제 뭘 해야하나요? - GA로 데이터 탐색하기 (3. 8)
데이터가 지저분해요 - 더러운 데이터 깨끗하게 만들기 (3. 11)
구글 애널리틱스 쓰기 불편하고 없는 기능이 많아요 - API로 자동화하기(3. 15)
두 변수에 어떤 관계가 있나요? - 상관 관계 파악하기 (3. 18)
텍스트 덩어리를 어떻게 분석하나요 - 명령행 인터페이스와 정규표현식 (3. 22)
확률은 어떻게 계산하나요? - 확률과 분포 이해하기 (3. 25)
방문객의 관심사는? - 외부 데이터와 GA 데이터 연동하기 (3. 29)
데이터가 너무 커서 오래 걸려요 - 표본: 전수 데이터 흉내내기 (4. 1)
데이터가 너무 커서 안 열려요 - 스트리밍 처리, 샘플링 (4. 5)
두 그룹에 차이가 있나요? - 통계적으로 유의미한 차이를 이해하기 (4. 8)
그 일, 성과가 나오고 있나요? - A/B 테스팅, 점진적으로 실행하고 개선하기 (4. 12)
좋군요. 매일 아침마다 보고서 제출하세요 - 재현 가능한 분석 하기 (4. 15)
고객 데이터랑 상품 데이터가 다른 파일에 있는데 어쩌죠? - SQL로 CSV 처리하기 (4. 19)
데이터에 변수가 너무 많아요 - 데이터 차원 축소하기 (4. 22)
숫자 나열 말고, 읽기 쉽게 정리해주세요 - 데이터 시각화 올바르게 하기 (4. 26)
매장에 다시 올 고객을 알고 싶어요 - classification (4. 29)
이거 전에 여러 번 했던 일 같은데... - 자동화, 모듈화, 재활용하기 (5. 3)
비슷한 고객들을 그룹핑하고 싶어요 - clustering (5. 6)
사례 공유 (5. 10)



 

Posted by Name_null