http://nter.naver.com/naverletter/19780


[서평] 신호와 소음

네이트 실버는 시카고 대학에서 경제학을 전공하고 회계컨설팅회사 KPMG에 입사한다. 하지만 그의 삶의 궤적은 이후 다양한 예측 비즈니스에 흔적을 남긴다. 메이저리그 야구선수의 성적을 예측하는 페코타(PECOTA)라는 시스템으로 명성을 쌓기도 하고 정치적 선거 결과를 예측하는 FiveThirtyEight.com사이트를 운영하며 전설적인 예측 정확도를 보여주었으며 본인이 직접 포커게임에서 상대방의 카드를 예측하는 일을 업으로 삼으며 생계를 꾸리기도 했다. <신호와 소음>은 이러한 저자의 통계학적 지식과 예측 철학을 집대성한 책으로 빅데이터 시대에 데이터를 어떻게 다룰지에 대한 통찰력을 제시한다.


2008년과 2012년 미국의 대선에서 전설적인 예측력을 과시한 네이트 실버의 신간 <신호와 소음>은 한국에서도 시대의 화두로 등장한 ‘빅데이터’ 분석 관련 책으로 큰 관심 속에 출판되었다. 하지만 정작 이 책을 읽은 독자들은 빅데이터에 관한 언급이 거의 없어서 이 책이 과연 빅데이터에 관한 책인가 고개를 갸우뚱거릴 수도 있다. 빅데이터 대신 네이트 실버는 ‘베이지안(Bayesian) 통계’ 방법론을 책 전체의 핵심 주제로 이야기를 펼쳐나간다. 따라서 책 전체의 주제도 ‘베이즈 식으로 사고하기’라고 요약할 수 있고 실제로 경제, 기상, 지진 등 13개 예측 분야에 대해 왜, 어떻게 베이지안 접근법이 당면한 예측 문제를 해결하는 데 도움이 될 수 있는지를 간접적으로 암시하며 이야기를 풀어간다. (‘베이지안’을 역자는 ‘베이즈주의적’이라고 일관되게 번역한다.)

베이즈 방식으로 사고하는 것이 중요하면 ‘베이즈 정리’ 등으로 이야기를 시작해야 할 것처럼 보이지만 정작 이 책은 8장에서 비로소 베이즈 정리가 무엇이며 어떻게 적용되는 지를 보여준다. 하지만 여기에서도 역시 빅데이터와의 관계를 세세하게 언급하지는 않는다. 그러한 이유로 각 장의 논의가 어떤 맥락에 놓여 있는지를 이해하기 위해서는 먼저 ‘베이즈 정리’가 무엇이고 빅데이터와 어떻게 연결되어 있는지를 살펴볼 필요가 있다.

서평을 구성하는 글의 순서는 다음과 같다. 먼저 베이즈 정리가 무엇이고 빅데이터와 어떤 연관관계가 있는지를 논의하고, 두 번째로 책의 내용을 간략하게 살펴 본 후, 마지막으로 책 전체에 대한 평가를 덧붙인다.

‘베이즈 정리’와 빅데이터

이 책의 8장에는 토마스 베이즈가 어떤 사람이며 어떤 인생을 살았고 그가 왜 베이즈 정리를 고안하게 되었는지에 대한 이야기가 흥미진진하게 펼쳐져 있다. 더불어 그의 이론이 지난 250년동안 통계학의 변방에 있다가 최근 들어 주류 영역으로 들어오고 있는 부분에 대해서도 자세히 언급되어 있다. (8장 후반부에 실린 이 부분은 꼭 읽어 보기를 권한다. 이 책에서 학술적 가치뿐 아니라 세계관 확대 차원에서도 가치가 있는 부분이다.)

빅데이터와 관련된 베이즈 정리 부분을 이해하기 위해서는 (이 책에 담겨 있는 것은 아니지만) 베이즈가 원래 논문에서 언급한 당구공 이야기를 들어볼 필요가 있다. 먼저 아래 그림을 보자.

[‘베이즈 정리’를 설명하는 당구공 위치 예측 모형]

베이즈는 당구대 위에 공을 하나 굴린 후 그 공이 멈춘 위치를 ‘예측’하는 모형을 생각한다. 당구대에서 그 공을 치운 후 두 번째 공을 굴려서 그 공이 멈추면 그 두 번째 공의 위치를 기준으로 첫 번째 공이 어디에 있는지에 대한 정보가 주어진다. 위 그림의 경우 첫 번째 공이 있었던 위치는 ‘점선으로 둘러싸인 물음표’ 지점이고 두 번째 공이 멈춘 지점을 기준으로 물음표가 있는 위치에 대해 주어지는 정보는 ‘정보1’이다. 정보1의 내용은 본래 ‘예측하고자 하는 물음표 지점’은 두 번째 공이 멈춘 지점의 왼쪽 3cm, 아래로 4cm 지점이라고 주어질 수 있다. 이런 식으로 공을 계속 추가 하게 되면 세 번째 공에서 정보2가 나오고 네 번째 공에서 정보3이 추가적으로 제공된다. 그리고 정보가 쌓일수록 ‘예측’하고자 하는 ‘물음표’ 지점의 좌표는 점점 정확해진다. 정확도가 증가하는 방식은 다음 그림과 같다.

[‘베이즈 정리’를 통한 에측 정확도 증가 메카니즘]

즉 기존의 예측값(prior, 사전확률)에 새로운 정보가 더해져 새로운 예측값(posterior, 사후 확률)이 나온다. 다음 단계에서는 사후확률이 사전확률 역할을 하고 여기에 다시 새로운 정보가 더해져 좀 더 정확해진 새로운 예측값을 만들어 낸다. 이 과정을 반복하는 것이 베이지안 방법론의 근간이다. 

베이즈 정리에서는 이렇게 데이터가 많으면 많을수록 찾고자 하는 값을 예측하는 정확도가 올라간다. 바로 여기가 빅데이터가 베이즈 정리가 만나는 지점이다. 네이트 실버는 첫 장 ‘들어가며’ 부분에서 폴 크루그먼의 이야기를 들어 1970년대는 ‘극단적으로 적은 자료’에 어마어마하게 많은 이론이 적용된 시기였다고 말한다. 하지만 빅데이터 시대는 자료가 부족하지 않다. 아니 오히려 과잉일 만큼 넘쳐난다. 따라서 이 책 전체를 관통하고 있는 메시지는 빅데이터 시대에 ‘베이지안’ 접근법이 보다 유용하다는 것이다. 베이지안 통계학은 흔히 조건부 확률이라고 불리며 제 2차 세계 대전 때 독일군 암호를 풀고, 아군이 쏜 대포가 어디에 떨어질 지 예측하거나 전투에 내 보낸 전투기가 추락할 위험도 등을 측정하는데 활용되면서 그 유용성을 인정받기 시작했고 인터넷과 빅데이터 분야에서는 전통적인 피셔리안(Fisherian) 통계학보다 폭넓게 쓰이고 있다고 한다.

위와 같은 베이지안 모델을 염두에 두고 책을 읽어 가면 다음과 같은 의문이 든다. 이 책이 다루는 예측의 어려움은 빅데이터 시대가 되면 모두 해결될 수 있는 것 아닐까? 네이트 실버는 그 것이 그렇게 쉽지 않다고 말한다. 왜일까? 이 글에서는 먼저 책 전반의 내용을 요약한 후 말미에서 그 부분에 대한 답을 제시하고자 한다.

<신호와 소음> 내용 요약

네이트 실버는 이 책에서 정치, 경제, 게임, 전염병 등 13개 영역에 걸쳐 ‘예측’ 문제를 탐구한다. 예측은 우리 삶의 대부분과 연관되어 있고 우리도 예측을 좋아하지만 우리는 예측을 그렇게 잘하지 못한다고 한다. 

먼저 이 책 1부 세 개의 장은 경제와 정치, 야구 분야와 관련된 예측 문제를 다룬다. 프라임 모기지 사태로 비롯된 금융위기는 예측이 실패한 사례로, 야구 선수 성적 예측은 성공 사례로, 그리고 선거 결과 예측은 성공과 실패가 갈릴 수 있는 사례로 다루어 진다. 금융위기 예측이 실패한 이유로 저자는 ‘표본 외’ 상황을 든다. 주택 가격이 그렇게 장기간에 걸쳐 급등했던 적이 없었고, 신용평가기관들도 CDO(Collateralized Debt Obligation; 부채담보부증권)와 같은 기묘한 상품 평가 경험이 없었으며, 금융시장에 그렇게 높은 레버리지가 적용된 적도 없었고, 경제 후퇴가 금융위기와 결합된 적이 없었기 때문에 예측하기 위한 샘플 자체가 거의 없었다는 것이다. 일본의 주택가격 하락과 지급불능 비율 자료는 자국 자료가 아니라는 이유로 참고되지 않았다. 이 밖에도 이 장에서는 예측의 근본적 문제점이 지적된다. 예측 모델은 기본적으로 세상을 단순화한 것인데 우리의 현실생활 자체가 복잡계에 속하기 때문에 모델의 단순화 과정에서는 실수가 선형적으로 반영되는 것이 아니라 지수함수적으로 작동하게 된다. 그 결과 S&P와 무디스는 CDO의 지급불능 위험을 실제보다 200배나 낮게 평가한 실수를 저지르고 말았다. 

1장을 읽다 보면 시장에서 탐욕과 공포, positive와 negative 피드백이 어떤 메커니즘으로 경제 작동에 기여하는지, 리스크와 불확실성의 차이와 리스크가 불확실성으로 둔갑되는 연금술이 어떻게 금융위기를 불러 왔는지 알려 주는 흥미로운 부분들이 숨어 있음을 알게 될 것이다. 

2장에서는 선거 결과 예측을 다룬다. 저자는 선거예측 정확도로 명성을 확보하는데 그 비결로서 고슴도치가 아니라 여우처럼 생각할 것을 권한다. 여우의 접근법은 세 가지로 요약할 수 있다. 첫째, 확률적으로 생각하고, 둘째, 매일 새롭게 예측하며, 셋째, 집단지성을 활용하는 것이다. 뿐만 아니라 양적 데이터와 질적 데이터를 적절히 활용하고 객관적으로 사고하라고 권한다. 여기서 ‘객관적’이란 말의 의미는 ‘개인적 편향과 편견 너머에 있는 진리를 바라보는 것’을 지칭한다. 사람의 판단이 개입하는 곳에는 언제나 편향이 개입하기 때문에 이러한 편향을 인정하고 예측과 관련해 끊임없이 자신에게 문제 제기를 하며 극복하는 것이 정확한 예측을 낳는 중요한 덕목이 된다.

3장에서 다루는 야구게임은 좋은 ‘예측’ 모델을 제공한다. 야구는 데이터가 넘치는 곳이다. 매일 수십 경기가 펼쳐지면서 모델에 대한 피드백을 제공하기 때문에 야구는 예측 모델을 테스트해보기에 더 없이 좋은 경기이다. 브래드 피트가 주연으로 출연한 영화 머니볼을 보면 데이터가 스카우터를 대치할 것처럼 보이지만 현실은 반대로 나아가고 있다. 통계학자와 스카우터는 좀 더 많은 양질의 데이터를 모으기 위해 협력하고 있으며 결과적으로 스카우터 비용도 더 증가하고 있다. 야구선수 성적을 통해 본 정확한 예측의 열쇠는 계량적 정보에만 의존하지 말고 정보를 ‘적절한 맥락’ 속에서 파악하는 모델을 구축하는 것이라고 한다. 자료는 최대한 많이 모으되 분석할 때는 최대한 엄격하고 까다롭게 해야 하며 양적 정보와 질적 정보의 적절한 활용도 중요하다.

2부 네 개의 장에서는 다이내믹 시스템을 다루는 분야의 예측 문제를 살펴 본다. 기상, 지진, GDP, 전염병 확산 예측 등이 그 것이다. 이 분야의 예측이 특히 까다롭고 어려운 이유는 체계 자체가 시시각각 변하고 현재의 상태가 다음, 다다음 상태에 지속적으로 영향을 미치기 때문이다. 

4장에서는 다루는 분야는 기상예측이다. 기상 분야는 예측 차원에서 상대적으로 큰 진전을 이룬 분야이다. 이 장의 초반에는 캘빈의 결정론과 아퀴나스의 의지설, 그리고 그것이 발전해 라플라스의 악마와 하이젠베르그의 불확정성의 논리로 이어지는 서양 과학철학사가 요약되어 있고 이 흐름을 받아 기상예측의 어려움이 라플라스의 악마처럼 지구 대기를 구성하는 모든 분자의 위치, 즉 초기값을 알지 못한다는 점에 기인하고 있음을 지적한다. 

기상예측 역사는 루이스 프라이 리처드슨 (Lewis Fry Richardson)이 이야기로 시작된다. 그는 처음에 위도와 경도 각각 3도에 해당되는 넓은 지역을 하나의 단위로 하는 2차원적 그리드로 나누어 기상을 탐색하지만 그 결과는 전혀 만족스럽지 못했다. 이후 대상 지역을 분자 수준으로 세분화하고 3차원으로 구성하면서 예측 데이터 수가 폭발적으로 증가하게 되었고 이를 처리하기 위해 슈퍼컴퓨터를 활용한다. 기상 예측은 카오스 이론적 특성이 있어서 한 시점에서 발생한 행동이 미래 체계의 행동에 영향을 미치도록 서로 연관되어 있고 체계 속 관계가 비선형적, 즉 관계 수가 선형이 아니라 기하급수적으로 증가하는 특성을 가지고 있다. 심지어 동일한 데이터를 입력할 때, 자료의 반올림 위치에 따라 (소수점 3자리, 혹은 4자리에서 반올림하느냐에 따라)서도 결과가 달라질 만큼 예측이 어려운 분야이다. 하지만 이론과 모델의 진화, 기술 발전 등으로 허리케인 상륙지점 예측이 3배 이상 정확해지는 등의 성과를 이루어 냈다. 여기에서 가장 눈에 띄는 부분은 바로 인간의 눈이 기상예측 결과를 약 25% 정도 개선해 낸다는 점이었다. 인간의 눈은 패턴을 찾아 내는 데 최적의 도구로서 기상 데이터 도표를 보고 돌출사항을 통계적 테스트보다 빠르고 정확하게 포착해 낸다고 한다. 

5장에서 다루는 지진 예측은 기상예측에 비하면 상대적으로 발전이 더딘 분야다. 그 이유는 무엇보다 기상만큼 충분한 자료가 없다는 것이다. 뿐만 아니라 과학적 이론도 상대적으로 기상 분야보다 뒤쳐져 있다. 그 결과 많지 않은 과거의 데이터를 보다 잘 설명하는 모델을 만들려다 보니 과잉적합(over fitting)이 문제가 된다.

5장에서 가장 눈 여겨 보아야 할 부분이 바로 이 과잉적합 문제이다. 과잉적합은 자료가 한정되어 있고 소음이 많을 때, 그리고 자료 안에 숨어 있는 근본적 관계에 대한 이해가 부족할 때 발생한다. 즉 해당 분야에 대한 깊은 통찰력이 있어야 과잉 적합 모델링의 유혹을 극복하면서 단순하고 진정한 관계를 표현하는 모델을 만들어 낼 수 있다고 한다.

6장에서는 경제예측 문제를 다룬다. 경제예측은 쉽지 않다. 그 이유로는 다음의 세가지를 들 수 있다. 첫째, 변인간 인과관계가 불분명하고, 둘째, 경제는 항상 움직이기 때문에 현재의 경제 주기에서 유효한 행동이 미래 경제 주기에서는 전혀 효과를 발생시키지 못할 수 있으며, 셋째, 다루는 자료 역시 소음이 끼어 있어 정확한 예측에 걸림돌이 된다. 이 밖에도 많은 이야기가 있지만 저자는 정확한 예측을 위해 신선한 처방을 내놓는다. 다름아닌 경쟁체제를 도입하는 방안으로 ‘예측시장’을 제안한다. 정확한 예측에 대한 금전적 보상 제공을 통해 예측의 질을 높일 동기를 부여하자는 것이다. 

7장에서는 전염병 예측을 다루는데 여기서는 재미있는 역동성이 작동한다. 가령 특정 지역에 전염병이 발생할 것으로 예측하고 대응하면 그 지역 주민들이 능동적으로 전염병 감염에 대처하기 때문에 실제로는 전염병 발병률이 낮아진다. 즉 예측이 행동을 바꾸고 그에 따라 예측 정확도가 달라지게 된다. 

이렇게 1, 2부 7개 장에 걸쳐 네이트 실버는 예측이 가지고 있는 난점들을 논의한다. 그리고 이어지는 3, 4부의 6개 장에서는 예측 문제에 대한 해결방안에 좀 더 집중한다. 

3부의 첫 장인 8장은 스포츠 도박꾼이 베이즈 정리를 이용해서 돈을 버는 방식을 설명한다. 이 장의 후반부에 이 책의 핵심 내용인 베이즈 정리가 들어 있기 때문에 이 장은 ‘must read’ 부분이다.

9장에서는 체스 경기를 통해 예측 문제 해결책을 제시한다. 이어지는 10장에서 다루는 포커와 함께 체스 문제는 셋팅에서 중요한 의미가 있다. 즉 1, 2부에서 다루었던 경제, 지진, 기상 등의 예측 문제들이 카오스적이고 다이내믹하게 작동하는 체계를 예측하려 한 것에 비해 체스와 포커는 초기값과 행위 규칙들이 정해져 있다는 차이점이 있다. 따라서 저자가 하고자 하는 의미는 이러한 영역에서 과연 예측이 어느 정도까지 가능해 질 수 있는지를 논의한다고 이해하고 이 두 장을 읽을 필요가 있다. 

9장에서는 컴퓨터가 인간을 체스게임에서 이기기까지의 놀라운 발전 과정이 담겨 있다. 이 과정은 끊임 없는 시행착오를 통해 얻어진 데이터를 업데이트하고 그 결과로 사후확률이 점점 나아지는 베이지안 접근방식 그 자체를 보여준다. 

9장을 읽다 보면 전율이 느껴지는 순간이 있다. 그 것은 컴퓨터를 프로그램밍 한 사람도, 세계 최고의 체스 챔피인 카스파로프도 이해하지 못하는 수를 컴퓨터가 두는 순간이다. 인간 챔피언을 이긴 컴퓨터가 챔피언도 이해 못하는 수를 두면 그 것은 프로그램 버그인가 아니면 기계가 인간의 지능을 뛰어넘는 순간인가? (개인적으로 이 부분을 읽을 때 레이 커즈와일의 특이점(Singularity) 이야기가 머리를 스치고 지나갔다.)

10장에서 다루는 카드 게임 역시 마찬가지이다. 카드 게임은 네이트 실버가 실제로 텍사스홀덤 경기를 직업으로 할 때의 경험을 이야기 한다. 상대방의 카드를 예측하는 것이 핵심이다. 저자는 거의 모든 정보를 취합하여 처리한다. 상대방의 베팅 방식, 태도, 버릇, 게임 운영 기조 등 정보 하나 하나를 상대방 카드 예측을 위한 신호로 활용하는 것이다. 그리고 그 정보가 업데이트 될 때마다 상대방 카드에 대한 예측값은 달라진다. 전형적인 베이지안 접근방식이다. 

10장에서 하나 더 눈 여겨 보아야 할 것은 463 페이지에 그래프로 제시된 ‘예측의 파레토 법칙’이다. 이 파레토 곡선은 학습을 통한 지식향상 곡선이라고 부를 수 있는데 이 그래프가 전달하는 내용은 ‘최고 전문가의 20% 수준만 노력해도 그의 전문성 80% 수준에 이를 수 있다’는 것이다. 다수의 호구가 소수의 고수를 먹여 살리는 포커판에서는 자신의 실력과 운을 무작정 믿는 것보다 작은 노력을 통해 전문가의 80% 수준에 이르는 실력을 갖추는 것이 훨씬 더 상대방 카드를 예측하는 게임에서 생존하는데 훌륭한 전략이 된다. 마지막 4부에서는 3개의 장에 걸쳐 전문가도 풀기 어려운 주식시장 문제, 지구온난화, 테러 예측 문제를 다룬다. 

11장의 주식 시장이야기는 6장에서 다루었던 경제예측 문제와 관련이 있다. 여기에서 저자는 정확도 향상을 위한 처방으로 에측시장을 제안했었는데 GDP 성장이 아니라 개별 회사 주식 가격 예측이기는 하지만 실제 주식시장이 바로 그 ‘경쟁이 도입된 예측시장’이다. 여기서 집중적으로 다루는 것은 ‘효율적 시장 가설’이다. 누구의 예측도 시장을 이길 수 없다는 것이다. 비록 시장이 단기적으로 불안정하기 때문에 투자가 일부가 이익을 볼 수 있지만 주가에서의 오차는 시간이 지남에 따라 시장 스스로가 정확한 방향으로 교정해 나가기 때문에 장기적으로 시장을 이길 수는 없다는 것이다. 하지만 시장에는 거품이 존재한다. 그 이유는 거래 제약과 자본제약이 개입하여 이상적인 시장 가격이 항상 유지되지 않기 때문이다. 만약 시장이 효율적 시장 가설처럼 완벽하게 작동하여 누구든 시장을 이길 수 없다면 거래 자체가 없어야 한다. 이는 ‘길가에 100달러 지폐가 떨어져 있을 때 그 것을 주울 필요가 없다’는 논리와 같다. 왜냐하면 만약 그 100달러 지폐가 진짜라면 벌써 누군가 집어 갔을 것이다라고 추론하는 것이 효율적 시장 가설과 동일한 추론이기 때문이다. 이 역설을 풀어 주는 방법으로 스티글리츠와 그로스먼은 투자자의 노력을 보상해주는 아주 조금의 이익을 부여하는 가정으로 모델을 개발했는데 이 것이 새로운 시장 균형을 형성할 수 있음을 보여 줌으로써 노벨경제학상을 수상하기도 했다. 

마지막 13장은 테러, 즉 ‘미지의 미지수’에 관한 이야기이다. 모르는 것을 어떻게 예측할 수 있을까? 미국은 9.11 사태 이후 사후 분석을 통하여 사고의 원인을 정책, 역량, 관리, 상상력의 실패라고 규정했는데 바로 상상력의 부재가 미지의 미지수와 관련되어 있다. 데이터 안에는 신호가 숨어 있는데 질문할 수 없는 문제에 대해서는 그 신호가 포착되어도 그 신호를 분류할 카테고리가 없다. 따라서 그 신호는 무시되거나 다른 질문과 관련된 카테고리로 분류되게 된다. 따라서 질문할 수 없는 것, 그 것이 바로 상상력 부족 때문이고 질문할 수 없기 때문에 어떤 신호를 포착할지 모르며 설사 신호가 포착된다고 해도 제대로 분류, 분석될 수 없는 문제가 발생한다. 럼즈펠드가 이야기한 ‘known unknown’ 표현을 네이트 실버가 질문과 대답의 관계로 치환하여 독자에게 전달한 부분은 그의 명민함을 잘 보여주는 대목이라고 할 수 있다.

[미지의 미지수와 테러의 관계를 보여주는 분류표]

결론 및 평가

이 책을 가장 효율적으로 읽는 방법은 처음 ‘들어가며’를 읽고 마지막 ‘나오며’ 부분을 읽는 것이다. 그러면 저자가 전달하고자 하는 메시지를 모두 접할 수 있다. 하지만 이 글에서 <신호와 소음> 13개 장의 내용을 간략하게나마 요약하려고 한 것은 (12장 제외) 저자의 깊은 뜻에 공감하기 때문이다. 

네이트 실버는 베이지안 접근방식과 빅데이터만 있으면 ‘예측’의 어려움이 사라질까? 라는 질문에 ‘No’라고 대답한다. 그 이유는 두 가지이다. 하나는 ‘불필요하게 개입되는 것’, 또 다른 하나는 ‘꼭 필요한 것’과 관련되어 있다. 

먼저 베이지안 접근방식과 빅데이터에 끼어 있는 불필요한 것을 살펴보자.

[데이터 해석 과정에 개입하는 bias와 그 역할]

베이지안 접근방식에 따르면 데이터에서 추출된 신호들은 예측값을 점점 더 진리, 참 쪽으로 접근시켜 나간다. 이에 비해서 소음은 예측값을 진리값 쪽으로 접근시켜 가는데 도움이 되지 않는다. 그런데 이러한 데이터는 반드시 그 것을 해석하는 사람에 의해 매개된다. 바로 이 지점에서 해석자의 편견, 탐욕과 공포, over fitting, 정치적 입장, 인간이 기본적으로 가지고 있는 패턴 인식 능력 등이 개입된다. 이러한 개입이 네이트 실버가 이야기하는 ‘객관적’ 의미로 개입되면 신호는 신호로, 소음은 소음으로 처리되기 때문에 별 문제가 되지 않는다. 그런데 그러한 bias가 잘못 작용하여 ‘주관적’으로 개입되면 신호가 소음으로, 소음이 신호로 둔갑한다. 이렇게 되면 베이지안 접근방식이 아무리 파워풀한 도구(tool)라고 해도 ‘빅데이터’는 아무것도 아니다. 오히려 진리와 참값의 반대 방향으로 예측을 밀어가는 부작용을 낳게 된다.

두 번째, 베이지안 모델과 빅데이터 외에 신호를 제대로 포착해서 예측을 진리 방향으로 접근시켜 나가기 위해 ‘꼭 필요한 것’은 바로 해당 분야에 대한 깊은 지식과 폭넓은 경험을 바탕으로 한 통찰력이다. 네이트 실버는 자신이 실제로 직업으로 해서 성공한 포커, 선거 예측, 야구 선수 성적 예측 분야에 필적할만한 지식을 나머지 10개의 다른 영역에 대해서도 이 책에서 ‘과시하듯’ 보여주었다. 그 정도는 알아야 그 분야에 대한 예측을 할 수 있고 빅데이터 속에서 신호와 소음을 제대로 구분할 수 있다고 말하고 있는 것이다. 

네이트 실버는 책의 서두 ‘들어가며’ 부분에서 인쇄술이 도입된 이후 세상은 혼돈에 빠졌다고 적고 있다. 지식이 폭발적으로 늘어나고 쌓이면서 일어난 일들은 종교적 분파주의 및 반목, 전쟁이었고 정보에 대한 깨달음이나 유용한 정보를 가려내는 역량의 증가는 정보량의 증가를 따라가지 못했던 것이다. 빅데이터 시대가 도래했다. 다시 정보는 인쇄술 도입시기보다 더 폭발적으로 늘어나고 있다. 인쇄술로 인한 지식 축적이 산업혁명으로 이어지는데 330년이 걸렸다. 우리가 맞고 있는 빅데이터 시대에 지식의 축적이 차기 산업혁명으로 이어지는 데는 얼마나 걸릴까?

마지막으로 꼭 언급하고 넘어가야 하는 부분은 저자인 네이트 실버가 ‘베이지안’ 모델을 보는 관점이다. 그의 이야기를 종합하면 베이지안 모델을 통해 불확실성을 다루는 예측을 할 때 제일 먼저 해야 할 것은 자신이 얼마나 알고 있는지를 고백하는 것이다 (사전확률 부분). 그리고 예측할 수 있는 것(신호)과 없는 것(소음)을 구분하는 지혜가 필요하고, 자신의 모르는 부분을 부단한 시행착오를 통해 보완, 발전시켜 나가려는 노력(사후확률 부분)을 경주해야 한다. 이렇게 보면 베이지안 접근방법은 예측 방법론을 넘어 세상을 사는 인생관까지 될 수 있다. 

바라건대 이 서평도 베이지안 접근방식으로 본다면, 네이트 실버가 전달하고자 하는 ‘메시지’에 접근하는데 도움이 되는 신호가 되었으면 한다.

<추가로 언급해야만 할 사항>

좋은 책을 번역해 주신 역자와 출판해 준 출판사에 먼저 감사의 말씀을 드립니다. 그런데 이 부분은 책의 핵심에 닿아 있는 부분이어서 지적하지 않을 수 없음을 양해해주시기 바라면서...


먼저 책에 눈에 띄는 오탈자가 몇 개 있어 책에 대한 신뢰성을 크게 훼손하고 있음
ㅇ (331페이지 마지막 줄) 질병을 높고 살펴보면 → 놓고 살펴 보면
ㅇ (573 페이지 두 번째 줄) 신중ㄴ한 태도 → 신중한 태도

다음은 역자의 실수인 듯 (윗 두 줄을 카피해서 붙이고 수정하는 것을 잊어버린 경우일 듯) 
ㅇ (375 페이지 8-6 그림 및 범례) 이 부분에서 이야기 하는 false positive는 이 책의 핵심내용
그런데 이 그림의 범례는 아래 두 줄이 완전히 잘못되어 있음.
전자책 원본을 구입한 지인에게 부탁해 얻은 해당 부분 캡쳐 이미지 (아래)

이 부분이 중요한 것은 이 책이 빅데이터에서 소음을 신호로 간주할 경우 예측이 진리에 도달하기 힘들다는 점을 주장하고 있는데, 소음을 신호로 간주하는 경우에 해당하는 것이 바로 범례 세 번째 줄에 있어야 하는 ‘false positive’에 해당함. 그런데 책에는 범례와 사례 수가 달라 본문에서 무슨 이야기를 하는지 그림으로 도저히 이해할 수 없도록 되어 있음.

 



Posted by Name_null