오늘날 사람과 기계는 엄청난 양의 데이터를 생산하고 있습니다. 현재는 연간 16.3제타바이트이며 이 숫자는 2025년 까지 10배 성장할 것입니다. “빅데이터”는 소통 방식을 변화시키는 매우 귀중한 자원입니다. 우리는 점점 많은 개인 정보를 노출하고 있습니다. 이러한 점에서 빅데이터는 유용하기도 하지만 문제점도 있습니다.
점심 시간에 스마트폰 앱을 확인한 후, 온라인 쇼핑몰에서 바로 물건을 주문합니다. 봐두었던 스키 헬멧의 가격이 크게 인하되었다는 푸쉬 메시지를 받았기 때문입니다. 우연의 일치로 볼 수도 있겠지만 사실은 첨단 수학, 분석 기법, 타겟 마케팅을 적용한 결과입니다. 이것이 바로 빅데이터를 활용한 것입니다.
전세계적으로 수많은 사람과 기계가 시시각각 엄청난 양의 데이터를 생산합니다. 인터넷 브라우저와 소셜 네트워크에서, 운전을 하면서, 신용카드 결제를 하면서, 온라인 쇼핑을 하면서, 스마트폰으로 통화를 하면서도 말입니다.
카메라는 도시를 모니터링하고, 스마트 미터링 시스템은 전력 사용량을 측정하고, 컴퓨터는 주식 거래를 처리하고, 의료 기기는 건강 데이터를 기록하고, 커넥티드 카는 인터넷으로 연결되어 있습니다.
‘빅데이터’는 대량의 데이터를 뜻합니다. 크고, 복잡하고, 일시적이고, 무질서해서 보통의 컴퓨터로는 처리할 수 없는 대량의 데이터를 말합니다.
데이터를 수집한 후에 분석을 해야만 방대한 데이터로부터 유의미한 통찰을 얻을 수 있습니다. 정보에서 어떤 가치를 찾아내는 것이 실제 목적입니다. 특히 마케팅에서는 ‘빅데이터’와 ‘빅데이터 분석’을 같은 뜻으로 쓰기도 합니다.
빅데이터는 용량, 다양성, 속도의 3가지 특성으로 정의됩니다. 디지털화가 가속화되면서 데이터 양은 점점 더 빠른 속도로 늘어나고 있습니다. 오늘날 우리는 연간 16.3제타바이트의 데이터를 생산합니다. 제타바이트는 10억 테라바이트입니다. IDC와 Seagate의 조사에 따르면, 이 양이 2025년에는 163제타바이트로 늘어날 것이라고 합니다. 숫자로 풀어서 쓰면 163,000,000,000,000,000,000,000 바이트에 달합니다.
이러한 광대한 양의 데이터를 안정적으로 저장하려면 전체 서버팜이 필요합니다. 인피니언의 에너지 효율적인 반도체는 서버팜에서 소모되는 전력 비용을 크게 절감시킬 수 있습니다.
앞으로는 데이터 양을 0이 24개인 단위, 요타바이트(yottabyte)로 표기할 것입니다. 데이터가 빠르게 증가하면 데이터의 다양성 또한 증가합니다. 초기에 디지털 데이터는 주로 숫자와 문서의 형태였습니다. 인터넷과 디지털 카메라의 등장으로 사진, 오디오, 웹 데이터가 추가되었고, 휴대전화, 스마트폰, 유투브, 넷플릭스 등을 사용하게 되면서 소셜 미디어와 스트리밍 서비스들로부터 모바일 데이터 및 정보가 추가되었습니다. 이제는 피트니스 밴드, 스마트 써모스탯, 커넥티드 카 등 IoT 디바이스들이 정보의 바다로 추가적인 데이터를 발생시키고 있습니다.
초기 디지털 시대와 달라진 또다른 점은 데이터 액세스 속도입니다. 초기에는 데이터를 한 곳에 모은 후 주기적으로 압축파일을 만들었으나, 이제는 실시간으로 사용하고 있습니다.
하지만 이러한 데이터는 단순히 정보를 수집한 것에 불과하며, 빠르게 처리되고 정확하게 분석되어야만 쓸모가 있습니다. 바로 이러한 점에서 빅데이터는 유용하기도 하고 문제점도 있습니다. 그렇다면 정확히 누구에게 그렇다는 것일까요?
빅데이터는 우리 생활 곳곳에서 점점 더 중요한 역할을 하고 있습니다. 과학자들은 기후 변화, 지진, 전염병 유행 등을 예측하기 위해 데이터를 사용합니다. 정부 기관과 정보 기관에서는 거대한 양의 데이터를 샅샅이 뒤져 테러리스트를 밝힐 수 있는 단서를 찾아냅니다. 오늘날 우리는 콘텐츠 데이터, 메타데이터, 거래 데이터, 행동 데이터, 건강 데이터, 재무 데이터, 측정 결과, 모니터링 데이터를 등을 수집합니다. 이러한 데이터는 주식 시장, 핵 물리학, 지역간 교통, 통신, 시장 조사, 에너지 공급, 보험 회사, 소매 체인, 자동차 분야, 범죄학, 테러리즘 방어, 마케팅 등등에 활용될 수 있습니다.
현재의 데이터를 활용해 미래를 예측할 수 있습니다. 이것이 데이터 마이닝 (data mining)이라고도 불리는 빅데이터 분석이 중요한 이유입니다.
전자 상거래 회사인 아마존은 베를린에 있는 개발 센터에서 머신 러닝과 예측 분석을 연구하고 있습니다. 전문적인 알고리즘으로 지금까지의 구매 내역과 소셜 미디어 포스트를 분석합니다. 그러면 각 소비자의 개별 스타일과 유행 조짐을 파악하여 각 개인에게 맞춤화된 상품을 제안을 할 수 있는 것입니다.
대량의 데이터에서 사람은 파악하지 못하는 연관성을 찾아내는 것이 중요합니다. 구글은 검색 내역을 활용해서 인플루엔자 유행을 확인하고 있습니다. 사람들이 자신이나 가족이 아프면 가장 먼저 그에 관한 정보를 검색하기 때문입니다. 검색 내역과 질병 데이터를 분석해 보았더니 실제로 연관성이 있는 것으로 나타났습니다. 구글은 의료기관보다 2주 먼저 인플루엔자 유행을 예측할 수 있었습니다. 다만 정확도가 매년 동일하지는 않았습니다.
또 다른 예는 농업 분야입니다. 농부들이 갈수록 농업을 디지털화하고 있습니다. 빅데이터를 활용하여 농경지와 농장의 활용을 극대화할 수 있습니다. 센서로 토양의 수분을 측정하여 토양에 맞게 물과 비료의 양을 조절할 수 있습니다. 가축의 건강과 생식력을 판단하기 위해 데이터를 수집할 수도 있는데, 이는 시간을 절약하고 조기에 질병을 감지할 수 있도록 합니다.
자동차 회사인 BMW 역시 자사의 제조 현장에서 빅데이터를 활용하고 있습니다. 프레스기의 각 부위에 ID를 부여하여 강판의 두께, 강도, 표면 특성에 따라서 프레스기를 미세 조정할 수 있으며 강판이 찢어지는 것 또한 방지할 수 있습니다.
많은 사람들이 도널드 트럼프가 빅데이터의 힘을 빌려서 선거에서 승리했다고 합니다. 정확한 표적 적중으로 페이스북이나 트위터 상에서 유권자들에게 직접적으로 그리고 빠르게 다가갈 수 있었다는 것입니다. 사용자들의 “좋아요”나 사용자들의 반응을 분석하여 각각의 사용자에게 맞춤화된 정보를 제공할 수 있었기 때문입니다. 이는 모든 사람에게 같은 메시지가 인쇄된 홍보책자를 나눠주거나 텔레비전에 같은 광고를 반복적으로 내보내는 전통적인 선거 홍보의 대안으로 떠오르고 있습니다. 사용자들을 구체적으로 표적화하는 방법입니다. 들리는 바에 의하면, 트럼프 진영은 Cambridge Analytica의 도움으로 “암흑 광고(dark ad)”라는 것을 활용했다고 합니다. 페이스북을 통해서 이루어진 지극히 개인화된 광고인데, 빅데이터를 활용하고 개인 프로파일 분석까지 한다고 합니다. 이렇게 해서 힐러리 클린턴에 대한 여론을 조작하지 않았나 의심을 받기도 합니다. 힐러리를 지지하던 흑인 여성들에게 힐러리가 흑인 남성을 약탈자라고 묘사하는 동영상을 보낸 것입니다. Cambridge Analytica와 “암흑 광고”가 정말로 이번 대선에서 결정적인 역할을 했는지는 확실치 않지만 말입니다.
빅데이터는 대량의 데이터를 수반하기 때문에 기존의 방법으로는 분석하거나 처리하기가 불가능합니다. 또한 대개 실시간으로 발생됩니다. 스마트 데이터는 한발 더 나아간 것으로, 일련의 빅데이터 모음들에서 식별된 유용하고 검증된 고품질 데이터를 말합니다. 빅데이터는 데이터베이스이자 가공 처리 전의 원재료 같은 것이며, 스마트 데이터로 가공 되어야 최대의 경제적 이익을 끌어낼 수 있습니다.
이 혼돈의 데이터 홍수에 질서를 부여하기 위해서는 지능적인 알고리즘이 필요합니다. 빅데이터가 스마트 데이터가 되어야 하기 때문입니다. 처음에는 단순히 어마어마한 양의 데이터일 뿐으로 어느 누구에게도 쓸모가 없으며, 분석을 거쳐야만 고품질 데이터가 될 수 있습니다. 알고리즘의 목적은 패턴을 검출하는 것입니다. 그래야 분석가가 이것을 해석하고 분석할 수 있기 때문입니다. 기업들은 이런 기법으로 제조 상의 취약점을 식별하고 개선하여, 경쟁 우위를 달성할 수 있습니다.
독일 연방 경제부와 프라운호퍼 지능적 분석 및 정보 시스템 연구소에서 지적한 바와 같이, 기업들은 이 데이터 모음 및 분석을 활용해서 다음과 같은 일을 할 수 있습니다:
빅데이터는 소비자들에게도 유용합니다. 오늘날에는 피트니스 트래커와 앱이 인기입니다. 이를 사용해서 스포츠 활동, 수면 패턴, 혈당, 혈압, 식습관 같은 것을 모니터링 합니다. 이 정보를 분석하고, 건강한 습관을 위한 도움말을 제공할 수 있습니다.
또한 소비자들은 빅데이터를 통해서 돈을 절약할 수 있습니다. 예를 들어서 스마트 미터가 각 가정의 전력 소모를 기록하고 에너지가 낭비되는 곳을 찾아냅니다. 온라인 숍의 경우, 소비자들의 기호를 저장하여 개인에게 딱 맞는 쿠폰을 제공하거나 세일 상품을 제안합니다. 스마트 시티는 교통 데이터를 실시간으로 분석하여 돈 뿐만 아니라 사람들의 짜증도 줄여줍니다. 운전자들에 혼잡하지 않은 다른 경로를 제안할 수 있기 때문입니다. 커넥티드 카는 응급 시에 스스로 속도를 줄이고 사고가 났을 때는 해당 기관으로 자동으로 알려줄 수 있습니다.
빅 데이터는 항상 데이터를 생산하는 쪽과 분석하고 사용하는 쪽의 양면을 가지고 있습니다. 산업이나 과학은 빅데이터로부터 이익을 얻습니다. 하지만 데이터 사용자가 비용을 지불하나요? 두가지 측면이 있습니다. 첫째, 소비자들은 흔히 자신이 얼마나 부주의하게 정보를 노출시키며 이 정보가 어디에 사용되는지 인지하지 못합니다. 둘째, 많은 경우 데이터 사용에 대한 동의를 구하지 않습니다.
생년월일과 거주지, 스마트폰 기기 ID, 브라우저 쿠키, IP 주소, 채팅 및 텍스트 메시지, 소셜 네트워크 상의 포스트와 프로파일: 스마트 툴들을 사용해서 이러한 모든 정보를 취합하면 개인의 종합적인 정보를 파악할 수 있습니다. 데이터 기록을 익명으로 하더라도 원래 누구였는지를 쉽게 알아맞힐 수 있습니다. 나머지 사람들은 매우 “투명한” 사용자들입니다. 그리고 나서, 예를 들면 보험 회사나 은행이 보험 및 대출을 판매하거나 기업에서 인력을 채용할 때 개인들을 일련의 범주로 분류합니다.
독일의 “Digitalcourage” 협회 같은 데이터 보호 운동은 빅데이터 분석이 근본적인 위험성을 내포한다고 주장합니다. 이들의 주장은, 사람들을 특정한 알고리즘적 범주로 분류한다면 그 즉시 데이터가 악용되고, 개인 권리가 침해당하고, 사람들이 차별 받을 수 있는 위험성이 있다는 것입니다. 무엇보다도 알고리즘의 결과가 실제와 일치하리라는 보장이 없으며 데이터가 항상 수치적이며 맥락이 없이는 비교적 무의미하다는 주장입니다.
또 한편으로 데이터는 민감한 정보를 비롯한 모든 것을 포함할 수 있으므로 이것을 분석하는 이들에게 힘을 부여합니다. 페이스북은 사용자들이 자동으로 자신의 세계관과 일치하는 것들만 보도록 알고리즘을 프로그램하고 있습니다. 구글의 검색 결과 역시 검색 엔진 알고리즘과 사용자의 이전 검색 내역에 따라서 편향적일 수 있습니다. 전문가들은 이것을 “필터 버블”이라고 합니다.
유럽의 데이터 보호 법에서는 적어도 정보를 수집할 때 제공된 용도로만 데이터를 사용하도록 규정하고 있습니다. 이것을 ‘용도 제한’이라고 합니다. 예를 들어서 피자 주문 데이터를 커넥티드 카와 연동시켜서 이 차가 근처를 지나갈 때 광고를 내보내는 것 같은 것을 금지하는 것입니다.
많은 소비자들은 여전히 정보를 노출시키는 것이 어떤 의미인지 별 감흥이 없습니다. 우리는 “수집되지 않은 데이터만이 안전한 데이터이다”고 한 Digitalcourage 협회의 경고를 새겨들어야 합니다.
소비자 보호 기관들 역시도 빅데이터의 악용 가능성과 데이터 보호의 필요성을 역설하고 있습니다. 커넥티드 카가 자동으로 사고를 보고하거나 교통 정체를 피할 수 있는 것은 소비자들에게 대단히 유용한 기능입니다. 하지만 데이터를 소유한 이들이 소비자들을 조작하고 통제할 수 있다는 문제가 있습니다.
독일 소비자 기구 연맹에서는, 각 개인이 어떤 데이터를 노출하고 어떻게 사용될 것인지를 결정할 권리를 가져야 한다고 주장하고 있습니다.
데이터 보호 가이드라인이 있든 없든, 미래에 빅데이터는 더욱 커질 것입니다. 데이터는 미래의 황금알입니다. 데이터 분석 효율은 점점 더 향상될 것이며, 갈수록 더 많은 기업이 데이터 분석을 활용해서 앞서 나가려고 할 것입니다. 데이터를 정확하게 분석하고 해석할 수 있는 전문가들에 대한 수요 또한 점점 증가할 것입니다.
이미 얼굴 복원 알고리즘이 개발되어서 소셜 네트워크의 프로파일 사진과 의료용 MRT 영상을 비교하는 것이 가능하게 되었습니다. 또한 우리는 조만간, 인터넷 포럼의 어떤 문장과 사람을 연관시키는 최초의 텍스트 마이닝 알고리즘을 보게 될 것입니다. 빅데이터와 인공 지능을 결합하는 것이 추세가 될 것입니다. 로봇과 기계들이 스스로 학습할 수 있도록 프로그램되고 있는데 (“머신 러닝”), 이는 스스로 빠르게 데이터를 처리하고 대응할 수 있도록 합니다. 커넥티드 카와 자율 운전이 그러한 예입니다.
또한 모바일 디바이스의 “맥락 인식” 사용이 늘고 있습니다. 앱들이 특정한 정보를 분석하고 사용자가 그 다음에 무엇을 필요로 할지를 인식하는 것입니다. 예를 들어서 사용자가 고객 이름을 입력하면 디바이스가 즉시 그 고객과 관련된 모든 이메일과 약속을 보여주거나 통화 연결 의사를 물을 수 있습니다.
빅데이터는 사용자들에게 많은 유용함과 새로운 가능성들을 제공합니다. 다만 위험성에 대한 경계를 늦추지 않으면서 이러한 기회를 포착하는 것이 우리에게 주어진 과제입니다. 사용자 자신은 자신에 관한 데이터를 신중하고 주의 깊게 취급해야 합니다.
웹 서버 로그, 소셜 미디어 활동, 휴대전화 요금 고지서, 센서 정보 등을 분석하기 위해서 기업들은 다음과 같은 프로그램을 사용합니다: 오픈 소스 소프트웨어 프레임워크(Apache Hadoop, Spark, NoSQL 데이터베이스, Map Reduce), 데이터베이스 시스템(Big Table, Cassandra), 그래프 데이터베이스, 분산 파일 시스템.
마지막 업데이트: 2017년 10월