빅데이터, 새로운 기회와 도전
빅데이터는 이미 경제적/사회적 자산이자 혁신과 창조의 근원이며, 비즈니스 및 사회현상 분석의 도구가 되고 있다. 이는 빅데이터를 이용한 정보분석 능력이 기업의 성과 및 경쟁력과 직결되어 있고, 정부 차원에서는 시민의 복지와 삶의 질에 큰 영향을 미치기 때문이다.
예를 들어 스마트폰 사용자의 이동 궤적, 물품 구매 행태, 신용카드 사용 행태 및 현황, 전국의 교통정보, 각종 상품과 서비스에 대한 경험 및 평판 정보 등이 지구 곳곳에서 생성/수집되고 있다. 이런 데이터가 수평적으로 서로 연결되고 통합될 때 엄청난 파워를 갖게 된다.
다양한 활동의 효율화, 개인화, 지능화를 추구할 수 있을 뿐만 아니라 새로운 비즈니스 모델이나 공공서비스의 창출을 통해 산업 전 분야에 새로운 패러다임이 형성될 것으로 예측된다.
빅데이터 폭풍
세계적인 시장조사기관인 IDC에 의하면 2011년도 전 세계 디지털 정보의 양은 약 1.8 제타바이트(zettabyte1))였으며 현재의 데이터 증가 추세를 반영하면 2020년에는 35제타바이트가 넘을 것으로 전망하고 있다.
(1) 제타바이트는 약 십억 테라(tera)바이트, 백만 페타(peta)바이트, 혹은 천 엑사(exa)바이트)
일찍이 볼 수 없었던 이러한 폭발적인 증가 추세는 소셜네트워크, 스마트폰, 전자상거래, 사물인터넷(Internet of Things) 및 센서네트워크와 같은 기술을 통해 생성되어 우리의 생활과 밀접하게 관련되어 있는 데이터뿐만 아니라, 의료, 군사적 감시체계, 치안, 환경 분야 등 공공 목적의 데이터, 심지어는 기상학, 천문학, 생물학 등 학문분야 연구에 필요한 데이터 등을 포함하여 매우 다양한 분야에 걸쳐 일어나고 있다.
이러한 데이터의 폭증은 일상생활에서의 스마트 기기 활용이 지속적으로 증가하고 있고 소셜네트워크 등을 통해 인간의 행위 및 생각이 캡쳐되어 저장되고 있을 뿐만 아니라 다양한 센서의 도입으로 시시각각 변하는 교통상황, 기상 징후, 환경 변수 등을 측정한 새로운 데이터가 수집되는 상황에 기인하며, 이런 빅데이터를 어떻게 인간의 삶에 유용하게 활용할 것인가에 대한 질문이 쏟아지고 있다.
2011년 맥킨지에서 발간한 빅데이터 관련 보고서에 의하면 한 달에 페이스북을 통해 공유되는 컨텐츠는 300억 건이 넘으며 2010년에 사용된 모바일폰은 50억대를 넘어섰다. 뿐만 아니라 금융기관, 정부기관, 의료기관, 통신 및 미디어 관련 기업 등도 모두 나름대로의 데이터를 보유하고 있다.
<그림1>은 최소 100테라바이트를 보유하고 있는 미국 기업들을 영역별로 정리한 맥킨지 보고서 자료이다.
그림1 최소 100테라바이트 보유 미국 기업
이러한 디지털 데이터 양의 폭증을 예로 들지 않더라도 올해 우리나라에서 개최되고 있는 각종 세미나, 심포지움, 정부 위원회 등과 IT 관련 매거진의 헤드라인과 여러 기관에서 발간되는 보고서만 봐도 우리는 지금 빅데이터의 세상에 살고 있다는 것을 느낄 수 있다.
그러면 왜 갑자기 빅데이터 붐이 일어나 정부나 기업에서 뜨거운 관심을 가지게 되었는가가 궁금해진다. 과거에도 보험데이터, 신용카드 고객데이터, 항공사 데이터 등 대용량 데이터를 저장/관리하고 검색하기 위해 DBMS 기술이나 Data Warehousing 기술 등이 개발되어 활용되고 있었는데 말이다.
이에 대한 답은, 과거의 대용량 데이터 처리 상황과 비교하여 현재의 상황은 기존의 IT기술로 저장/관리/분석이 어려울 정도로 데이터 용량이 크고, 생성 속도가 훨씬 빠르며, 매우 다양한 종류로 구성되었다는 것이다. 이런 특징은 아래와 같이 3V로 설명된다.
Variety(다양성) : 과거의 대용량 데이터가 대부분 정형데이터인데 반해 현재 관심의 대상이 되고 있는 데이터는 텍스트, 이미지, 비디오와 같은 비정형 데이터가 전체 데이터의 90%을 차지한다. 특히 SNS에서 실시간으로 유입되는 소셜데이터와 공기오염도 측정 센서와 같은 각종 센서로부터 입력되는 데이터 등이 포함되어 있어 새로운 유형의 데이터 각각의 처리도 중요하지만 다른 유형간의 접목을 통한 시너지가 중요한 이슈가 되었다.
Volume(규모) : 테라에서 페타바이트 수준의 기존 규모에서 엑사에서 제타바이트 수준의 규모가 되었고 그 생성 속도도 매우 빨라 데이터의 저장/관리/분석을 효율적으로 하기 위한 새로운 IT기술의 필요성이 대두되었으며 이러한 기술의 지속적인 진화도 중요하게 되었다.
Velocity(속도) : 스마트 기기 및 SNS의 대중화와 무선통신기술의 발달로 사용자가 언제 어디서나 데이터 생성을 할 수 있게 되었고 다양한 센서로부터 데이터 등이 실시간으로 자동 생성되므로 스트림 데이터가 급증하였다. 따라서 이를 실시간으로 처리하고 분석하기 위한 기술의 필요성이 대두되었다.
2011년 시장조사기관인 가트너 그룹에서 주최한 ITXPO 심포지엄에서 발표된 내용을 보면 2012년의 10대 주요 트렌드 중 ‘빅데이터’는 ‘가상화(Virtualization)의 진화’ 다음으로 2위에 등극되어 있으며, 비정형 데이터의 양이 향후 5년 동안 80% 이상 증가가 될 것으로 예측하면서 데이터 분석을 효과적으로 지원하는 기술 분야와 패턴분석을 통해 새로운 앱을 만드는 분야가 특히 유망할 것으로 전망했다.
최근 미국에서 중견기업 이상의 CEO들을 대상으로 빅데이터에 대한 관심에 대해 조사한 결과를 보면, 전략적 관점에서 볼 때 그 관심 영역이 상당히 골고루 분포되어 있음을 알 수 있다.
응답자의 28%는 비즈니스 트랜잭션 데이터의 급증 자체가 중요하다고해서 데이터의 규모에 관심을 가졌고, 24%는 다양하면서 실시간으로 유입되는 대용량 데이터를 다루기 위해 필요한 신기술을 가장 중요한 이슈로 보았다. 19%의 응답자는 데이터 저장에 있어서의 규정 및 보안을 주요 이슈로 봤으며 18%는 새로운 데이터 자원의 폭발적 증가를 꼽았다.
그림2 데이터 분석의 목적과 활용방법의 변화
어떻게 대비하고 활용할 것인가?
이렇게 빅데이터가 몰려와 우리 세상을 뒤덮어 엄청난 변화를 주도할 것이라는 예측이 난무하고, 많은 기업들이 자신의 데이터 보유량을 늘려가고 있는 이 시대에 빅데이터를 어떻게 바라봐야 하고 어떻게 활용할 수 있을 것인가는 초미의 관심사가 아닐 수 없다.
미국의 경우 산업계의 리더와 정책입안자 및 사회 지도층을 위해 만들어진 TechAmerica Foundation에서 2012년 초에 ‘Big Data Commission’을 구성하여 활동을 시작하였는데, 주 임무는 빅데이터와 관련해서 연방정부를 보좌하고, 관련된 이슈를 현실성에 입각하여 정리하며, 빅데이터를 통해 얻을 수 있는 기회를 기업이 이해하고 활용하도록 돕는 것이다.
이러한 위원단의 출현은 빅데이터가 향후 산업계를 비롯한 사회 곳곳에서 얼마나 중요하게 활용될 것인가를 보여주는 동시에 우리도 적극적인 대처와 준비가 필요함을 일깨워 준다.
빅데이터는 이미 경제적/사회적 자산이자 혁신과 창조의 근원이면서 비즈니스 및 사회현상 분석의 도구가 되어 있는데, 이는 빅데이터를 이용한 정보 분석 능력이 기업의 경우 성과 및 경쟁력과 직결되어 있을 뿐 아니라, 정부 차원에서는 공공데이터 활용이 시민의 복지와 삶의 질에 큰 영향을 미치기 때문이다.
한 마디로 현재 빅데이터는 인류의 각종 활동과 생각을 기록하고 있으며, 그 범위가 점점 확대되고 있어 미래에 포함될 영역은 상상을 초월한다.
예를 들어 스마트폰 사용자의 이동 궤적, 물품 구매 행태, 신용카드 사용 행태 및 현황, 전국의 교통정보, 각종 상품과 서비스에 대한 경험 및 평판 정보 등이 지구 곳곳에서 생성/수집되고 있다.
이런 데이터는 수직적인 분석을 통해서도 의미있는 결과를 도출하여 활용할 수 있지만 수평적으로 서로 연결되고 통합이 될 때 이종 데이터 간에 숨어 있는 가치를 도출할 수 있어 엄청난 파워를 갖게 된다.
다양한 활동의 효율화, 개인화, 지능화를 추구할 수 있을 뿐만 아니라 새로운 비즈니스 모델이나 공공서비스 창출을 통해 산업 전 분야에 새로운 패러다임이 형성될 것으로 예측된다.
빅데이터가 대두되면서 과거와 비교하여 데이터를 분석하는 목적과 활용하는 방법이 변화하고 있다.
기존에는 저장된 데이터를 효율적으로 관리하여 필요한 데이터를 검색하고 과거의 현상을 파악하는 일이 중요했던 반면, 빅데이터 시대에는 실시간 데이터 수집 및 분석을 통해 현재 어떤 일이 벌어지고 있는가를 파악하고, 더불어 미래에 대한 예측 및 대응이 중요한 목적이 된다.
맥킨지가 빅데이터 활용분야로 지목한 의료/보건, 공공/행정, 개인위치 정보활용, 소매업, 제조업 분야에서 경제적 가치 창출은 <그림3>에 잘 나타나 있다.
그림3 분야별 경제적 가치 창출
빅데이터의 활용으로 생산성이 향상되고 이는 궁극적으로 서비스와 제품의 품질과 부가가치를 향상시켜 수익증대로 직결된다. 예를 들어 모바일폰 사용자의 습관이나 선호도를 빅데이터의 분석으로 파악하여 기존의 앱이나 데이터에 반영하는 것이 거액의 투자를 통해 새로운 기기를 출시하는 것보다 더 가치가 있다고 볼 수 있다.
뿐만 아니라 빅데이터의 분석은 기업의 고급 의사결정에도 큰 영향을 미칠 수 있다. 예를 들어, 첨단 분석기술을 통해 신약개발을 촉진시키거나, 자동차 센서의 데이터 분석을 통해 발발할 수 있는 문제를 미리 예측하고 자동차 유지보수와 관련된 중요한 의사결정을 할 수 있는 것이다.
최근에 미국에서 중견기업 이상 CEO를 대상으로 실시한 설문조사 결과에 의하면, 빅데이터를 활용하려는 시도는 연매출 5억 달러를 기준으로 서로 관심사가 엇갈린다.
이 기준보다 매출이 작은 기업들은 주로 트위터를 비롯한 소셜미디어를 통해 생성되는 빅데이터에 초점을 맞추고 있는 반면, 그 기준보다 매출이 높은 기업들의 경우 소셜데이터보다 새로운 모바일 앱 등을 통해 고객과 연결될 수 있는 방대한 데이터를 획득하고 활용하는데 더욱 큰 관심을 가지고 있다.
기업이나 기관이 빅데이터를 활용하기 위해서는 다음 세 가지 요소를 갖추는 것이 필수적이다.
자원 : 빅데이터가 핵심자원이라는 인식하에 기업 내외부로부터 빅데이터 생성/수집의 대상이 되는 자원 확보 및 품질 관리
기술 : 하둡(Hadoop)과 같이 빅데이터를 저장/처리할 수 있는 플랫폼 기술, 데이터마이닝, 텍스트마이닝 등과 같은 분석기술, 분석결과에 대한 시각화 기술 등
인력 : 자원과 기술을 확보하고 적용하기 위해 수학/통계학/공학적 능력을 가진 인력뿐만 아니라, 분석된 결과를 시각화/해석화 할수 있는 능력을 겸비한 심리학, 경제학, 사회학 배경을 가진 인력
어떤 기술 지원 및 확보가 필요한가?
빅데이터로부터 적시성 있는 분석 결과를 만들어내고 의사결정에 통찰력을 제공하기 위해 필요한 제반 기술 및 지식은 크게 세 영역으로 나눌 수 있다.
첫째, 데이터의 수집, 통합, 전처리, 저장, 관리 등 일련의 과정과 같이 기존 데이터 관리 기술이 존재했음에도 불구하고 빅데이터의 속성으로 인해 진보된 기술이 필요한 인프라적 영역과 둘째, 기계학습, 패턴분석, 자연언어처리, 텍스트마이닝, 네트워크 분석 등 빅데이터를 다양한 비즈니스 니즈에 따라 분석하여 의미있는 결과를 도출해내는 기술 영역, 셋째, 분석된 정보를 사용자가 이해할 수 있는 형태로 시각화하여 제시하는 기술과 분석 결과를 도메인의 특성에 따라 해석하는 능력이 겸비된 영역이다.
빅데이터의 분석을 통해 새로운 가치를 창조하는 것에 초점을 맞추면, 필요한 태스크들은 <그림4>와 같이 요약될 수 있다.
그림4 빅데이터 분석을 통한 새로운 가치 창조 시 필요한 태스크
이러한 파이프라인을 구성하고 있는 핵심적인 기술들을 확보할 때 공통적으로 다루어야 할 이슈는 데이터의 이질성(Heterogeneity), 규모(Scale), 적시성(Timeliness)임은 이미 언급한 바와 같다.
이와 더불어 빅데이터 활용에 있어 추가적으로 반드시 고려해야 할 것은 개인정보보호(Privacy) 이슈에 대한 해결방안과 협업(Human Collaboration)을 어떻게 실현할 것인가에 대한 방안이다.
빅데이터의 성공적 활용을 위한 도전
위에 언급한 세 가지 요소 중 자원과 기술의 확보가 이루어졌다고 했을 때 남아 있는 문제는 인력이다.
인프라와 플랫폼이 내부적으로 갖추어졌든 아웃소싱을 하든 상관없이 목적에 맞는 빅데이터 활용 및 분석 방향을 기획하고 분석 결과를 해석하는 것은 기업이나 기관 내부에서 이루어져야 한다.
즉 기업/기관의 미션이나 도메인을 충분히 이해하면서 애널리틱스(Analytics)에 전문성이 있는 데이터 사이언티스트(Data Scientist)와 시각화 전문가가 필요한 것이다.
미국의 경우 2018년에는 분석 전문가 14~19만 명, 데이터 관리자와 분석 인력 150만 명이 부족할 것으로 예측되고 있고, 향후 5년 동안 데이터 사이언티스트의 수요가 공급을 뛰어넘어 인재 부족이 심화될 것으로 예상되고 있다.
미국의 여러 대학교에서 애널리틱스 전문 석사 과정을 도입하고 있는데, 예를 들어 노스캐롤라이나 주립대학의 경우 전산학, 응용수학/통계학, 파이낸스/마케팅, 기술문서작성, 통계적 품질 관리 등 학문분야에 걸친 새로운 대학원 과정을 설치하였다.
국내의 경우 필요한 인력의 절대적인 숫자는 미국보다 작지만 현재의 빅데이터 요구를 만족시키기 위해서는 전문인력 양성이 매우 시급한 도전 과제이고 국가적 어젠다의 일부로 다루어져야 한다.
기업/기관에서 빅데이터를 활용하기 위한 세 가지 요소를 갖추었다고 해도 이런 노력이 성공하려면 꼭 짚고 넘어가야 할 두 가지 조건이 더 있다.
하나는 자원을 공유하고 기술을 제공하며 분석을 해내는 구성원들 간의 개방성(Open-Mindedness)이고, 다른 하나는 과연 빅데이터를 통해 궁극적으로 무엇을 얻으려 하는가에 대한 확고한 목표 설정이다.