Fast Camp: Data Analytics 수업 1일차 (2/25)

2015. 2. 25. 23:02

Fast Camp: Data Analytics 수업 1일차 (2/25)

오늘부터 Fast Campus에서 진행하는 Data Analytics 수업을 매주 수요일과 일요일 저녁에 듣는다. 주말까지 뭔 난리인가 싶지만 몇 군데 확인해 본 결과 이정도 Quality 강의를 찾기 어려웠다. 대학 전공수업이나 MOOC도 - depth야 있겠지만 - 이처럼 Data분석의 여러 측면을 실무적으로 폭넒게 다루지는 못하는 것 같았다. 모두 10주 22회에 걸쳐 진행될 예정이며 오늘이 첫날

첫 수업은 정말 무슨 아파트 재건축 설명회 마냥 빽빽해서 Data Analytics - 마케팅적으로는 Big Data-의 Hot한 열기를 느낄 수 있었다. 첫날이라 소개 및 관련 Tool 소개의 시간이었음

중요 내용만 요약해 본다.

1. Data Analytics의 도구와 깊이는 다양하다. 대략..아래와 같다.

R - CLI - SQL - Google Spread Sheet- Google Analytics - Tableau 찰흙 LEGO 완제품 장난감

완제품 장난감은 쉽지만 금방 한계에 부딪히고, 찰흙으로는 예술품도 만들수 있다
그냥 Google Analytic 만해도 왠만한 건 된다.

2. Data Analytics를 위해서는 여러가지 도구가 필요하다.

Oracle VM(Virtual Box), ATOM, R, R-Studio,Vagrant

3. Kaggle: The home of Data Science

다양한 Data Project의 Source이자 Guide
Titanic Data - 타이타닉호 탑승자 실 Data를 가지고 여러가지 조작을 해볼수있다,

죽은 사람은 대부분 남자. 3등석은 대부분 죽었다.
죽는데 나이에는 관계 없더라.
Crew는 80%이상 죽었다

4. Agile 방법론

세상은 쉽게 변하고 우리는 세상에 대해서 잘 모른다. 앞으로도 잘 모를 것이다. 이런 상황에서는 실험을 통해 나(=사업, 가설)을 끊임없이 바꾸어야 성장할수 있다
따라서 뭔가 먼저 이해하고 나서 그 다음 무언가 시도한다는 방식은 잘못된 방법론이다. 배운다는 것은 실험의 결과이지 배운 후 실험한다는 것은 잘못된 방법. 예를 들어 자동차를 만들어 팔기 전에 타이어, 핸들, 엔진 이런것들을 하나씩 만들어서 팔아본다는 Approach. 덤으로 Cash burn-out을 늦추는 효과도 있음
이렇게 하면 전기차와 같은 급격한 환경변화에 대처 가능하다고 본다. 뭐랄까 이 방법론은 중장기 계획이 다소 허상이라는 전제위에 있는 것같다.

전자에 비해 후자의 방식이 변화하는 세상에서 살아남기에 더 적합함:

○ 첫째, 내연 기관과 같은 핵심적인 부품이 전기차 상용화로 인해 무용지물이 되거나, 자동 운행과 같은 새로운 노하우가 필요해지는 등 시장 환경이 급변할 경우 전자에 비해 후자가 더 쉽게 적응할 수 있음

○ 둘째, 재무적인 측면에서도 전자에 비해 후자의 방식이 더 건전하며 더 빠르게 Selffunding point(프로젝트에 투입되는 비용을 프로젝트에서 벌어들이는 수익으로 충당할 수 있는 지점) 및 Breakeven point(프로젝트에 투입된 총 비용을 프로젝트에서 벌어들인 총 수익이 앞지르는 지점)에 도달할 수 있음

○ 셋째, 학습 및 개선이라는 측면에서도 전자에 비해 후자의 방식이 유리함. 후자의 경우 각 모듈을 적시에 시장에 출시하여 시장 반응을 살피고 이를 통해 점진적 개선을 할 기회가 많아지는 반면 전자의 경우 시장으로부터의 피드백 없이 연구/개발이 진행되므로 리스크가 큼

5. 앞으로의 수업에 대하여

범용적인 지식일수록 배우는 것이 힘들다.이 수업은 시행착오를 통한 실습을 목표로 한다
뭔가 "깔끔히 정리해서 이해한다"는 것은 지난 시대의 학습법. 끊임없이 새로운 문제/상황에서 고민하는 편이 - 심지어 문제를 해결하지 못해도 - 더 이롭다.
이 교육은 마우스를 쓰지 않는다. Script base. 재현 가능한 연구를 지향하기 때문이다. <- 요 부분은 뭔소리인지 모르겠다

6. 느낀점

이 수업은 Big Data 관련 서적들이 취하는 "Big Data를 바라보는 우리 들의 자세" 같은 접근이 아니다.
오히려 Data와 Programing (R,SQL 맛보기 정도이지만)을 통해 '합리적으로 생각하는 방법'을 배우는 쪽에 가깝다.
논리적으로 생각하고 말하는 방법을 배운다? .. 그렇다면 내 아들이 배우는 논술 수업과 뭐가 다른거지?

7. 기타 찾아본 내용

데이터 분석을 수행하기 위해 필요한 지식을 세 개의 범주(과업 흐름, 원리, 도구)로 나눔:

● 과업 흐름: 수집 > 가공 > 가설 수립 > 가설 검증 > (보고)

● 도구: R, Commandline Interface, Google Analytics 등 구체적인 소프트웨어 혹은 기술

● 원리: 요약 통계, 데이터 시각화, 확률과 분포 등 도구들을 올바르게 사용하기 위해 필요한 이론 및 원리

● 참고 자료

○ 캐글 데이터 분석 튜토리얼: http://www.kaggle.com/c/titanicgettingStarted ○ http://trevorstephens.com/post/72916401642/titanicgettingstartedwithr

코스소개 (2. 25)

Google Analytics 수집하기 (3. 1)

R 기초 - R로 데이터 요약하기 (3. 4)

구글 애널리틱스 연동은 했는데, 이제 뭘 해야하나요? - GA로 데이터 탐색하기 (3. 8)

데이터가 지저분해요 - 더러운 데이터 깨끗하게 만들기 (3. 11)

구글 애널리틱스 쓰기 불편하고 없는 기능이 많아요 - API로 자동화하기(3. 15)

두 변수에 어떤 관계가 있나요? - 상관 관계 파악하기 (3. 18)

텍스트 덩어리를 어떻게 분석하나요 - 명령행 인터페이스와 정규표현식 (3. 22)

확률은 어떻게 계산하나요? - 확률과 분포 이해하기 (3. 25)

방문객의 관심사는? - 외부 데이터와 GA 데이터 연동하기 (3. 29)

데이터가 너무 커서 오래 걸려요 - 표본: 전수 데이터 흉내내기 (4. 1)

데이터가 너무 커서 안 열려요 - 스트리밍 처리, 샘플링 (4. 5)

두 그룹에 차이가 있나요? - 통계적으로 유의미한 차이를 이해하기 (4. 8)

그 일, 성과가 나오고 있나요? - A/B 테스팅, 점진적으로 실행하고 개선하기 (4. 12)

좋군요. 매일 아침마다 보고서 제출하세요 - 재현 가능한 분석 하기 (4. 15)

고객 데이터랑 상품 데이터가 다른 파일에 있는데 어쩌죠? - SQL로 CSV 처리하기 (4. 19)

데이터에 변수가 너무 많아요 - 데이터 차원 축소하기 (4. 22)

숫자 나열 말고, 읽기 쉽게 정리해주세요 - 데이터 시각화 올바르게 하기 (4. 26)

매장에 다시 올 고객을 알고 싶어요 - classification (4. 29)

이거 전에 여러 번 했던 일 같은데... - 자동화, 모듈화, 재활용하기 (5. 3)

비슷한 고객들을 그룹핑하고 싶어요 - clustering (5. 6)

사례 공유 (5. 10)

저작자표시 비영리

'Fast Camp_DA' 카테고리의 다른 글

Fast Campus: Data Analytics 5일차 (3/11) Part I (0)	2015.03.11
Fast Campus: Data Analytics 4일차 (3/8) (0)	2015.03.08
Fast Campus: Data Analytics 3일차 (3/4) Part II (0)	2015.03.08
Fast Campus: Data Analytics 3일차 (3/4) Part I (0)	2015.03.04
Fast Campus: Data Analytics 2일차 (3/1) (0)	2015.03.01

Posted by Name_null

daTa-dRiveN

Fast Camp: Data Analytics 수업 1일차 (2/25)

'Fast Camp_DA' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

공지사항

링크

티스토리툴바

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30