April 29, 2013

readwrite ; 빅데이터를 잘못 이해함에 따른 지불 비용의 증가

Originally posted : April 29, 2013.

 The Rising Costs Of Misunderstanding Big Data 
 빅데이터를 잘못 이해함에 따른 지불 비용의 증가 

Matt Asay posted.

The Rising Costs Of Misunderstanding Big Data

빅데이터 붐은 다음과 같은 간단한 계산법으로 더욱 강렬해졌다: 데이터 + 기술 = 활용가능한 인사이트(Actionable Insights), 마법의 망아지(Magic Ponies), 그리고 강력한 힘(Superpowers). 사실은 물론, 그다지 좋지 않다, 왜냐하면 빅데이터 기술은 사실 데이터를 모으는 기술과 실시간으로 쏟아지는 이질적인 수많은 데이터들을 처리하는 기술만 향상시켜주었을 뿐, 그러한 기술들은 오직 그것들을 다룰 수 있는 사람들에게만 유용하기 때문이다. Mediaocean의 CEO인 Bill Wise는 우리가 의지하는 데이터의 규모가 커짐에따라 이러한 것들을 잘못 받아들임으로써 지불하는 가격이 점점 상승하고 있다고 강조했다. 

좀 더 명확히 말해서, 우리는 오랜 시간 소위 "빅 데이터"라고 말하는 것에 대해 의문을 가지고 있었다. 우리는 이미 많은 시간동안 값비싼 data warehousing과 Business Intelligence tools를 사용해왔다. Hadoop 같은 위대한 혁신적인 툴들은 데이터 과학자가 되고자 하는 모두에게, 누구나 그러한 역량을 무료로, 오픈소스 형태로 범용 하드웨어에서 활용할 수 있도록 해주었다.

문제는 이 안에 있다. 

경제학에 대한 영향력 있는 논문을 보고 배경지식으로서 Boston 폭발사태 예측과 관련한 지능적인 수고들을 한 뒤에, 이 때 엑셀에서 몇 줄을 놓치고 Boston Marathon 폭발사태 용의자 Tamerlan Tsarnaev의 이름을 잘못 입력했다면, 이러한 경우처럼 Wise는 "데이터를 다루는 도구들(예를 들어 FBI의 시스템이나 엑셀과 같은 것들)이 단순한 몇 가지 에러만으로도 끔찍한 결과를 낳으며 충분히 잘못되어질 수 있다고" 지적한다. 바꿔말하면, 우리가 만약 빅데이터를 "데이터를 Hadoop에 집어넣으면, 인사이트가 나온다!"라는 식으로 단순하게 믿는 것에 대한 것은 현실적으로 인원들이 얼마나 데이터에 대해 의문을 가질 수 있느냐에 달려있다. 

그리고 데이터 더 커질 수록, 더 큰 공산에 대해 우리는 잘못 읽어낼 것이다, Wise가 다음을 이야기했다:

더 많은 사람/데이터의 상호작용은 갈수록 더 치명적인 데이터 세트들로 인한 더 많은 에러(와 비효율성)들을 야기할 수 있음을 의미한다. - 이러한 것들은 정말 심대한 결과들을 만들어낼 수 있다... 만약 빅데이터를 작업 흐름안에서 편리하고 능숙하게 활용하지 못할 경우, 빅 데이터가 약속한 수많은 기대들은 공허한 데이터 다루기로 그치고 말 것이다. 이러한 문제는 단순히 컴퓨팅 기술의 발전에 관한 것이 아니다. 이것은 좋지 않은 데이터 메니지먼트-좋지 않은 경제학, 종종 더 안 좋은 다른 것들-에 의해 야기될 수 있는 상황이다.

유명한 통계학자인 Nate Silver의 주장에서 데이터는 그 자신 스스로는 말할 수 없으나, 우리들의 성향에 의해 변질될 수 있다는 점이 확인되었다. 더 안 좋은 점은, 데이터세트가 더 커질수록, 더 많은 잡음들이 끼어든다는 점이다: "잡음은 신호보다 더 빠르게 증가한다. 테스트에 대해 수많은 가설들이 있고, 내가 가진 데이터 세트들은 수많다. - 하지만 비교적 일정한 양의 객관적인 진실이 존재한다."

종종, 데이터를 잘못 이해한다는 건 비즈니스가 좀 더 비효율적으로 운영되거나, 혹은 최소한, 이전에 비해 좀 더 효율적이지 못하다는 것을 의미한다. 하지만 만약 Wise의 주장이 맞다면, 데이터를 잘못 다루는 것은 정말 처참한 결과를 낳을 수 있다. 

그것은 예전에 내가 주장했던 것처럼, 우리는 우리의 조직 안을 "데이터 과학자"들처럼 봐야한다는 것을 의미한다. 왜냐하면 문맥은 어떤 데이터가 첫번째로 수집되어야 하는지 알아야 하는 것과 마찬가지로 데이터에 대해 효과적으로 질문하는 것은 굉장히 중요한 부분이다. 이는 또한 Kate Crawford가 Harvard Business Review에서 주장했던 것처럼 "데이터 과학자들은 그들이 다루는 데이터가 어디로부터 오는 지, 그것을 분석하고 모으는데 어떠한 방법론을 활용해야 하는지, 그리고 어떠한 편견들이 이해과정 안에 자리하고 있는지 등에 대해 오랜 시간 연구해 온 사회과학자들에게 배울 필요가 있다"를 의미한다.

바꿔 말하면, 더 많은 데이터라는 것은 우리의 조직에게 영향을 줄 수 있는 잠재력을 가지고 있다, 우리는 이것을 사용할 때 좀 더 겸손하고 신중하게 접근할 필요가 있다는 것이다. 데이터를 잘못 다룸의 결과는 데이터의 용량과 증가 속도에 비례한다.

Image courtesy of Shutterstock.

---

http://readwrite.com/2013/04/29/the-rising-costs-of-misunderstanding-big-data

No comments:

Post a Comment