2015. 2. 25. 23:02
오늘부터 Fast Campus에서 진행하는 Data Analytics 수업을 매주 수요일과 일요일 저녁에 듣는다. 주말까지 뭔 난리인가 싶지만 몇 군데 확인해 본 결과 이정도 Quality 강의를 찾기 어려웠다. 대학 전공수업이나 MOOC도 - depth야 있겠지만 - 이처럼 Data분석의 여러 측면을 실무적으로 폭넒게 다루지는 못하는 것 같았다. 모두 10주 22회에 걸쳐 진행될 예정이며 오늘이 첫날
첫 수업은 정말 무슨 아파트 재건축 설명회 마냥 빽빽해서 Data Analytics - 마케팅적으로는 Big Data-의 Hot한 열기를 느낄 수 있었다. 첫날이라 소개 및 관련 Tool 소개의 시간이었음
중요 내용만 요약해 본다.
1. Data Analytics의 도구와 깊이는 다양하다. 대략..아래와 같다.
R - CLI - SQL - Google Spread Sheet- Google Analytics - Tableau 찰흙 LEGO 완제품 장난감 |
- 완제품 장난감은 쉽지만 금방 한계에 부딪히고, 찰흙으로는 예술품도 만들수 있다
- 그냥 Google Analytic 만해도 왠만한 건 된다.
2. Data Analytics를 위해서는 여러가지 도구가 필요하다.
Oracle VM(Virtual Box), ATOM, R, R-Studio,Vagrant |
3. Kaggle: The home of Data Science
- 다양한 Data Project의 Source이자 Guide
- Titanic Data - 타이타닉호 탑승자 실 Data를 가지고 여러가지 조작을 해볼수있다,
- 죽은 사람은 대부분 남자. 3등석은 대부분 죽었다.
- 죽는데 나이에는 관계 없더라.
- Crew는 80%이상 죽었다
4. Agile 방법론
- 세상은 쉽게 변하고 우리는 세상에 대해서 잘 모른다. 앞으로도 잘 모를 것이다. 이런 상황에서는 실험을 통해 나(=사업, 가설)을 끊임없이 바꾸어야 성장할수 있다
- 따라서 뭔가 먼저 이해하고 나서 그 다음 무언가 시도한다는 방식은 잘못된 방법론이다. 배운다는 것은 실험의 결과이지 배운 후 실험한다는 것은 잘못된 방법. 예를 들어 자동차를 만들어 팔기 전에 타이어, 핸들, 엔진 이런것들을 하나씩 만들어서 팔아본다는 Approach. 덤으로 Cash burn-out을 늦추는 효과도 있음
- 이렇게 하면 전기차와 같은 급격한 환경변화에 대처 가능하다고 본다. 뭐랄까 이 방법론은 중장기 계획이 다소 허상이라는 전제위에 있는 것같다.
전자에 비해 후자의 방식이 변화하는 세상에서 살아남기에 더 적합함:
○ 첫째, 내연 기관과 같은 핵심적인 부품이 전기차 상용화로 인해 무용지물이
되거나, 자동 운행과 같은 새로운 노하우가 필요해지는 등 시장 환경이 급변할
경우 전자에 비해 후자가 더 쉽게 적응할 수 있음
○ 둘째, 재무적인 측면에서도 전자에 비해 후자의 방식이 더 건전하며 더 빠르게
Selffunding point(프로젝트에 투입되는 비용을 프로젝트에서 벌어들이는
수익으로 충당할 수 있는 지점) 및 Breakeven point(프로젝트에 투입된 총
비용을 프로젝트에서 벌어들인 총 수익이 앞지르는 지점)에 도달할 수 있음
○ 셋째, 학습 및 개선이라는 측면에서도 전자에 비해 후자의 방식이 유리함.
후자의 경우 각 모듈을 적시에 시장에 출시하여 시장 반응을 살피고 이를 통해
점진적 개선을 할 기회가 많아지는 반면 전자의 경우 시장으로부터의 피드백
없이 연구/개발이 진행되므로 리스크가 큼
5. 앞으로의 수업에 대하여
- 범용적인 지식일수록 배우는 것이 힘들다.이 수업은 시행착오를 통한 실습을 목표로 한다
- 뭔가 "깔끔히 정리해서 이해한다"는 것은 지난 시대의 학습법. 끊임없이 새로운 문제/상황에서 고민하는 편이 - 심지어 문제를 해결하지 못해도 - 더 이롭다.
- 이 교육은 마우스를 쓰지 않는다. Script base. 재현 가능한 연구를 지향하기 때문이다. <- 요 부분은 뭔소리인지 모르겠다
6. 느낀점
- 이 수업은 Big Data 관련 서적들이 취하는 "Big Data를 바라보는 우리 들의 자세" 같은 접근이 아니다.
- 오히려 Data와 Programing (R,SQL 맛보기 정도이지만)을 통해 '합리적으로 생각하는 방법'을 배우는 쪽에 가깝다.
- 논리적으로 생각하고 말하는 방법을 배운다? .. 그렇다면 내 아들이 배우는 논술 수업과 뭐가 다른거지?
7. 기타 찾아본 내용
데이터 분석을 수행하기 위해 필요한 지식을 세 개의 범주(과업 흐름, 원리, 도구)로 나눔:
● 과업 흐름: 수집 > 가공 > 가설 수립 > 가설 검증 > (보고)
● 도구: R, Commandline Interface, Google Analytics 등 구체적인 소프트웨어 혹은 기술
● 원리: 요약 통계, 데이터 시각화, 확률과 분포 등 도구들을 올바르게 사용하기 위해
필요한 이론 및 원리
● 참고 자료
○ 캐글 데이터 분석 튜토리얼: http://www.kaggle.com/c/titanicgettingStarted
○ http://trevorstephens.com/post/72916401642/titanicgettingstartedwithr
'Fast Camp_DA' 카테고리의 다른 글
Fast Campus: Data Analytics 5일차 (3/11) Part I (0) | 2015.03.11 |
---|---|
Fast Campus: Data Analytics 4일차 (3/8) (0) | 2015.03.08 |
Fast Campus: Data Analytics 3일차 (3/4) Part II (0) | 2015.03.08 |
Fast Campus: Data Analytics 3일차 (3/4) Part I (0) | 2015.03.04 |
Fast Campus: Data Analytics 2일차 (3/1) (0) | 2015.03.01 |