현재 우리는 데이터 홍수의 시대에서 살아가고 있다. 스마트폰의 보급과 SNS의 폭발적인 확산으로 우리가 하루에 생산하는 데이터양은 무려 약 2.1 액사바이트(Exabyte, EB)에 이르고 있다. 우리는 매일 5천만 개 이상의 트윗과 매일 약 1억 개 이상의 페이스북 메시지를 작성하고 있다. 우리가 매일 생산하는 데이터를 바이트(bytes)로 계산하면 250경 바이트에 달한다. 이는 600 메가바이트(Megabyte, MB) 짜리 영화를 39억 개 이상 저장하는 데이터의 크기와 같다. 엄청난 양의 데이터이다. 시장조사 전문기관인 IDC에 따르면 2011년도 전 세계의 디지털 정보량의 약 1.8 제타바이트(Zettabyte, ZB)에 달할 것으로 전망되고 5년 이내에 9배까지 증가할 것으로 전망되고 있다.
2012년 다보스 세계경제포럼에서 가장 주목할 기술로 빅 데이터(Big Data)가 지목되었다. 우리가 매일 생산하는 수많은 데이터들은 그의 양과 생성주기, 형식 등이 과거에 비해 크고 형태가 다양하여 빅 데이터로 간주하며 주목 받고 있다. TDWI Research 의 2011 Big Data Analytic Report에서는 빅 데이터의 세 가지 요소인 3V를 정의하였다. 3V는 데이터의 다양성(Variety), 규모(Volume), 빠른 속도(Velocity) 이다. 세 가지 중에서 두 가지 이상을 충족시킬 수 있으면 빅 데이터 기술을 말한다고 할 수 있다.
올해는 빅 데이터가 주목 받는 해이기도 하지만 하계 올림픽이 열리는 해이기도 하다. 올림픽은 4년에 한 번씩 열리며 세계의 잔치이다. 올림픽에서 좋은 성과를 거둔다는 것은 국가의 위상을 높이는 일이고 직간접적인 경제 이익을 가져다 주기 때문에 참가하는 국가에서는 결과를 관심 있게 다루고 있다. 언론에서는 올림픽 예상 메달(medal) 개수와 순위를 예측하고 있고 기업들은 메달 개수를 맞추는 마케팅을 진행하는 것을 어렵지 않게 볼 수 있다.
빅 데이터와 올림픽의 메달 개수는 서로 연관이 없는 것처럼 보이지만 아주 밀접한 관계가 있다. 메달의 계수를 예측하는 것은 국민의 염원을 담아서 대략 예상하는 것이 아니라 사실은 다음과 같은 빅 데이터들의 분석 결과이다. GDP나 1인당 GDP, 인구, 올림픽 개최경험, 공산권 국가는 강세를 보였다는 기존 데이터, 사회복지지표, 문자해독률(literacy rate), 정보화 지수(information index), 종교, 기후 그리고 마지막으로 경제학에서 자주 활용되는 콥-더글라스(Cobb-Douglas) 생산함수가 메달 개수의 예측을 위한 데이터로 사용된다.
GDP나 1인당 GDP와 인구는 통계적으로 메달 개수를 결정하는 유의한 요인임이 연구를 통하여 확인된 바 있다. 올림픽 개최 경험과 공산권 국가의 강세는 기존 데이터를 분석한 결과 알아낸 사실이며 종교와 기후 또한, 유의할 가능성이 있는 많은 데이터를 바탕으로 분석된 결과를 통해 선택된 것들이다. 이렇게 수집된 결과를 이용하여 현재 약 95%의 정확도로 메달을 예측할 수 있다고 하니 그 정확성에 놀라울 따름이다. 기존 언론에서 분석된 결과가 이러한 데이터들을 바탕으로 분석되어 발표된 것이라면 올해의 올림픽 결과도 이 예측에서 크게 벗어나지 않을 것임으로 예상할 수 있다.
하지만 기존의 예측들은 선수들의 데이터를 배제하였다는 단점이 있다. 기존 연구에서 유의할 것으로 분석된 다른 여러 데이터 보다 경기력에 직접적인 영향을 미치는 선수들의 데이터를 사용하는 것이야말로 가장 정확히 메달의 개수를 예측하는 데이터가 될 수 있을 것이다. 하지만 선수들의 데이터가 사전에 공개되면 실제 경기 결과에 상당한 영향들 미칠 수 있으므로 아직 메달 개수 예측에 활용하지 못하고 있다고 생각된다.
올림픽은 우리에게 극본 없는 드라마로 감동을 주지만 올림픽의 결과는 기존 유의한 데이터와 선수들의 데이터를 가지고 예측할 수 있을 정도의 빅 데이터를 수집하여 유의성을 분석하고 결과를 도출해낼 수 있다면 미리 예견할 수 있는 결과로 생각할 수도 있다. 현재 완벽한 예측률이 되기 위해서는 아직 5% 부족하지만, 앞으로의 빅 데이터 기술과 데이터 분석과 내재한 가치를 추출하기 위한 필요한 대규모 통계 처리, 데이터 마이닝 등의 분석 방법이 발전한다면 100%에 가까운 예측도 어렵지 않을 것이다.
이처럼 데이터 마이닝은 ‘빅 데이터 집합으로부터 유용한 정보를 추출하는 것’ (Hand et al., 2001) 이며 ‘의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반 자동화된 도구를 이용하여 빅 데이터를 탐색하고 분석하는 과정이다’ (Berry and Linoff, 1997, 2000) 그렇기 때문에 빅 데이터 시대에 데이터마이닝의 중요성은 점차 커지고 있다.
우리는 데이터를 분석하여 올림픽 메달의 개수까지도 예측하는 시대에 살고 있다. 이는 전혀 놀랄만한 일이 아니며 앞으로 빅 데이터의 수집과 데이터마이닝 기술이 발전함에 따라 데이터만 더 놀라운 것들도 실현 가능하게 될 것이다. 그것은 사람의 구매 행동, 성향, 생활 방식은 물론이고 심지어는 범죄행위를 예측 가능할 것이다. 영화에서만 상상할 수 있을 법한 일들이 현실로 다가올 것이다. 이것이 올림픽이 열리는 올해 우리가 빅 데이터를 주목해야 하는 이유이다.