빅데이터를 데이터 그 자체로 인식하는 오해가 존재한다. 


그 이유는 아마도 빅데이터를 설명할 때 데이터의 속성을 가지고 설명하기 때문이라 생각한다.

  

하지만 빅데이터로 분류할 수 있는 데이터는 사실상 존재하지 않는다. 


크다는 것, 비정형이라는 것 모두 상대적인 개념이기 때문이다. 


빅데이터는 데이터 그 자체가 아니라 데이터를 가지고 무엇을 할 수 있는가에 초점이 맞추어져야 한다. 


데이터를 기반하여 앎의 기초를 다지고 데이터로 자신의 생각을 증명하며 데이터에서 못 보던 무언가를 보는 것 이러한 것들이 빅데이터라 생각한다. 


빅데이터 Myth 첫 번째로 이러한 오해를 깨고자 한다. 




저작자 표시 비영리 변경 금지
Posted by novathinker 트랙백 0 : 댓글 0
많은 사람들이 빅데이터를 말하고 그 보다 더 많은 사람들이 빅데이터에 대해 듣기를 원한다.

빅데이터에 대한 그 많은 얘기 속에 올바른 이해만 있는 것은 아닌 것 같다.

빅데이터는 어려운 개념이다. 빅데이터를 잘하는 것은 그보다 더 어렵다. 

지금과 빅데이터와 비슷한 것은 있었지만 그 비슷한 것들을 잘, 아주 잘 모아야만 한다.

빅데이터는 적토마와 같다. 강력하지만 길들이기가 여간 까다롭지 않다. 

잘만 다룬다면 상상 이상의 효과를 발휘할 수 있지만 잘 다루기는 너무나 어렵다. 

빅데이터에 대해 많은 사람들의 얘기를 들었다. 

제대로 끈기를 가지고 접근하려는 사람도 있지만 그렇지 못 한 경우도 많이 보았다.

쉽게 도전하고 몇 번의 실패로 빅데이터를 폄하하는 사람, 

오해에서 비롯된 잘못된 이해로 빅데이터를 애써 무시하려는 사람 등 많은 사연이 있었다.

그러면서 든 생각은 미약하지만 이 오해를 바로잡을 수만 있다면 

이 강력한 것을 길들이는데 도움이 될 수 있을 지도 모르겠다는 것.

그래서 시작한다. Big Data Myth.

우리 말로 하면 빅데이터 오해와 진실 정도가 될 것이다. 

빅데이터의 여러 개념들에 대해 모호하거나 세간에 잘못 떠도는 얘기들을 다뤄보려 한다. 

혹시 오해를 재생산 하게 될 우려도 있겠지만 이는 여러분의 채찍질에 기대보기로 하겠다.

<목차>




저작자 표시 비영리 변경 금지
Posted by novathinker 트랙백 0 : 댓글 0




4월 7일 데이터 비주얼라이제이션 컨퍼런스에서 발표했던 내용입니다. 

고성능 빅데이터 솔루션 회사가 비주얼라이제이션 컨퍼런스에서 할 수 있는 얘기가 뭘까를 고민하다가 시각화를 위해서 대용량 데이터가 가공될 때 가장 중요한 것은 무엇일까로 초점을 맞추었습니다. 

이 이야기를 보다 이해하기 쉽게 풀어내기 위해 음식을 만드는 과정을 차용하였습니다. 그랬더니 자연스럽게 음식이 식탁 앞에 차려지기 전까지로 주제가 변하더군요.

맛있는 음식을 식탁에 차린 것을 시각화라고 한다면 데이터 수집은 식자재를 모으는 것, 가공은 재료를 다지는 것, 그리고 분석은 레시피로 바로 짝을 이루게 되더라구요.

사실 빅데이터에서도 분석은 전략입니다. 어떤 결과를 어떻게 만들지를 정하게 되면 이에 따라 모아야 하는 데이터와 가공하는 방법이 규정되죠. 하지만 요리와 빅데이터가 다른 점이 하나 있습니다. 

빅데이터에서는 데이터에서 레시피를 끌어내기를 원하기도 하기 때문입니다. 그래서 시각화를 레시피를 만들기 위한 목적으로도 사용하게 됩니다. 그래서 시각화가 과정이냐 결과냐 하는 질문이 나오게 되는 것이지요.

결국 어떤 요리냐를 규정하는 것은 레시피이고 빅데이터에서도 결국 우리 눈에 시각화할 것이 무엇인지는 데이터 레시피가 규정하게 됩니다. 

또 한 가지 중요한 것은 좋은 요리를 만들기 위해 계속 요리를 만들어 보고 레시피를 보완해 나가는 것 처럼 데이터 레시피도 가공, 분석을 반복하면서 보완해 나가게 됩니다. 

이를 위해서는 데이터를 올려놓고 작업하는 솔루션이 사용하기 쉽고, 성능이 뛰어나며, 유연할수록 반복 작업도 효율적이겠지요. 그런 관점에서 로그프레소는 이상적인 빅데이터 솔루션이라 할 수 있겠습니다. 

강의는 이런 흐름이었고 강의 자료를 같이 올려놓습니다.


저작자 표시 비영리 변경 금지
Posted by novathinker 트랙백 0 : 댓글 0
파일과 RDBMS(이후 DB). 몇 년 전까지만 해도 데이터를 저장하는 가장 일반적인 방법이었다. 우선 파일은 관리 비용이 저렴하지만 파일을 처리하기 위해서는 파일 전체를 메모리에 올려야하는 단점이 있다. 다시 말해 1GB 파일에서 1KB를 읽어오려면 메모리에 1GB 전체를 올려야 한다. 게다가 동시에 두 사람 이상 변경할 수 없다.

DB는 이러한 단점을 해결해 주었다. 데이터가 몇 백 GB가 있다고 해서 1KB의 데이터를 찾아오거나 변경하는 데 아무 문제가 없다. DB가 보유한 트랜잭션 처리 메커니즘은 두 사람 이상이 동시에 변경을 가해도 순차적으로 처리해 주는 동시성, 적합성을 보장해 주었다. 이러한 장점에 힘입어 RDBMS는 근 10년 동안 전성기를 구가해 왔다.

그러나 2010년대를 지나 하둡의 부상은 이러한 미묘한 평형에 파문을 일으키기 시작했다. 파일을 잘게 분산하여 저장 처리하는 방식을 가진 하둡은 대용량의 데이터를 손쉽게 처리할 수 있게 해 주었다. 1GB의 데이터를 파일에 저장해도 내부적으로는 여러 파일로 나뉘어져 저장된다. 1KB의 데이터를 처리하려할 때 1KB의 데이터가 들어가 있는 작은 파일만 메모리에 올리면 되기 때문에 파일은 용량의 제약을 벗어던 질 수 있게 되었다.

하둡이 탄생한 이면에는 SNS, 모바일의 트렌드 속에서 사람들은 초 거대 용량의 데이터가 주변에 있다는 것을 실감하게 되었고, 이를 통해 할 수 있는 일이 더 많을 것이라는 기대가 싹트고 있었다. 이러한 기대는 빅데이터라는 용어에 응축되어 급속히 번져나가게 되었다.

하둡을 경험한 사람들은 DB를 다시보기 시작했다. 지금까지 기업에서 사용하는 거의 모든 데이터는 DB에 저장, 관리하는 것이 상식이 되어 있었다. 이는 계정정보와 같은 예민한 정보는 물론 설비에서 나온 로그도 DB에 저장하는 것이 가장 보편적인 방식이었다. 그러나 로그와 같은 머신 데이터는 하루에 테라에 가까운 양으로 쏟아져 들어온다. DB의 처리량은 이를 충족시키지 못하기 때문에 DB에 저장하기 위해 1분에 한 건으로 데이터를 선별해 저장하는 등 처리량을 조절해 왔다.

양의 문제 뿐만 아니었다. DB는 스키마를 전제하고 있다는 점도 빅데이터와 약간 핀트가 맞지 않는 부분이다. DB에 데이터를 저장하기 위해서는 이미 정의된 형태대로 데이터를 잘 맞추어 저장해야 한다. 뒤집어 말하면 데이터를 맞추지 않으면 저장할 수 없다는 얘기가 된다. 머신 데이터의 경우 특정 장비에서 발생하는 경우가 많다. 펌웨어 업그레이드 등의 이유로 로그의 형태가 약간 틀어질 경우 이 형태를 감안하여 DB 스키마에 맞춰주지 않으면 저장할 수 없다.

빅데이터에서 비정형에 대해 강조하는 부분은 이런 것이다. 스키마가 전제되어 있지 않은 경우는 데이터가 이전과 다르더라도 저장에는 문제가 없다. 데이터를 볼때 이 데이터에 맞는 형태로 가공해서 보면 되기 때문이다. 그러나 DB의 경우 데이터를 스키마에 맞추기 전까지는 데이터를 저장할 수 없다.

이러한 문제들로 인데 빅데이터 솔루션으로 DB를 그대로 사용하자는 것은 상식이 아닌 것이 되어 버렸다. 아예 DB를 개발하는 업체들도 아예 하둡을 내장하거나 내세우는 것으로 이를  인정하고 있다. DB가 빅데이터 앞에서 작아지게 된 이유는 DB가 이제 구시대의 유물이라서가 아니라 DB는 그 나름의 용도가 확실한 솔루션이기 때문이다.

엄밀하게 정의를 내리면 DB(RDBMS)는 트랜잭션 데이터 처리 솔루션이다. 사용자 정보, 금융사의 원장과 같이 성능이나 대용량 보다 정합성이 최우선인 분야가 DB의 본래 영역이다. 그러나 DB만큼 데이터를 관리하고 처리할 수 있는 솔루션이 없었기 때문에 DB를 남발하여 사용한  측면이 있다.

머신 데이터나 SNS데이터 등과 같은 분야는 사실 정합성보다는 빅데이터에서 말하는 3V에 해당하는 그러한 분야이다. 이러한 분야는 하둡이나 로그프레소, 스플렁크같은 솔루션들이 더 적합하다. 그렇기 때문에 점차 로그와 같은 머신 데이터를 저장했던 DB는 빅데이터 솔루션에 자리를 내주고 있고 DB는 트랜잭션 처리라는 자신의 영역으로 고착되어 가는 것은 이미 예정된 트렌드로 자리잡아가고 있다.

빅데이터 시장이 점차 성숙할 수록 이러한 구분은 가속화 될 것이고 IoT와 같은 트렌드가 가세하여 향후 머신 데이터는 트랜잭션 데이터의 양을 압도하게 될 것으로 예상된다. 그리고 현재 데이터를 다루는 업무도 빅데이터와 중첩되는 현상이 심화될 것으로 전망한다.



내가 이디엄으로 옮긴지 이제 한 달을 채우게 되었다. 이디엄은 실시간 빅데이터 솔루션인 로그프레소를 개발한 회사이다. 지금까지  Oracle 성능 분석,  ALTIBASE 에서 DB만 파고 살다가 로그프레소를 선택한 이유는 바로 이러한 트렌드 때문이다. 시대가 나를 자극하고 내가 시대에 응답한 방법이라고 할수 있겠다.

로그프레소와 같은 솔루션은 데이터를 다루는 사람에게 있어 미래 그 자체이다. 외산 솔루션을 압도하는 성능과 유연성은 이미 통신, 금융사를 통해 검증이 되었고 나 또한 이를 직접 다뤄보면서 경험하고 있다. 명실공히 이 솔루션은 빅데이터라는 것을 현실로 끄집어 내리는 데 큰 역할을 할 것으로 확신한다.

현재 DB로 처리하는 데이터를 100으로 친다면 머신 데이터가 60을 넘을 것으로 생각된다. 이 60은 지속적으로 빅데이터 솔루션이 다루게 될 것이다. 그러나 여기서 그치지는 않는다. 이 60은 600이 되고 6000이 될 수도 있다. 도로를 만들면 그보다 더 많이 자동차가 생기는 것이 세상의 이치이다. 

경부고속도로도 처음에 개통할 때는 ‘차도 없는데 이렇게 만들어 뭐하나’하는 얘기가 있었다고 한다. 그러나 도로가 좋아지니 차를 탈 맛이 나고 탈 맛이 나니 자동차를 구매하게 되어 결국 고속도로의 이용자가 급증했다고 한다.

데이터 처리에서도 비슷한 현상이 나타나고 있다. 로그프레소로 실시간 빅데이터를 경험해 본 분들 중에는 그동안 하고 싶었지만 포기하고 있었던 것들이 요구사항으로 발전하기도 하고, 하나의 결과를 보니 다른 것과 엮어서 보고 싶어하기도 한다. 이렇게 니즈와 함께 데이터도 확장되고 있다.

빅데이터를 바라보는 관점도 서서히 발전해 나가고 있다. 수집에만 초점을 맞추던 사업들이 이제는 이를 통해 결과를 내는 쪽으로 선회하고 있다. 하둡보다 로그프레소를 선택하는 이유는 바로 이 지점이다. 이 과정이 지나면 데이터의 추이만 보는 것이 아니라 지표와 지표 사이의 관계에 초점을 맞출 것으로 예상된다. 로그프레소가 R을 눈여겨 보는 것은 바로 이 때문이다.

빅데이터라는 말이 하루 아침에 빛을 보기는 했지만 아직도 거친 수준이다. 그렇다고 해서 한갓 유행이 될 것 같지는 않다. 그 이유는 어떤 형태로 까지 성장할지 모르는 것이지 성장을 하지 않는 것은 아니기 때문이다. 

좋은 분위기를 가진 회사에서 그동안 갈망하던 일을 하기 시작한 것에 대해 깊이 감사한다. 글을 쓰는 것이 한결 수월해진 것을 보면 마음 속에 자유의 훈풍이 돌고 있나보다 하는 생각도 가지게 된다. 앞으로 빅데이터 가지고 수다 좀 떨겠구나 하는 예감이 든다. 


저작자 표시 비영리 변경 금지
Posted by novathinker 트랙백 0 : 댓글 0
   놀란의 인간과 기계와의 관계에 대한 시각은 맘에 든다. 작년 이어령 교수는 빅데이터 컨퍼런스에서 인간을 연구하는 인문학은 이제 끝났다고 선언했고 이후 고민이 시작되었다. 

   빅데이터는 머신 러닝 기술과 함께 성장할 것이고 스카이넷이 등장하지는 않더라도 기계가 인간을 압도하는 날이 오게 되는 것은 아닐까하는 두려움도 있었다. 만약 그렇다면 지금 기술 발전은 인류를 해치는 쪽으로 질주하는 것이 아닌지도 걱정하게 되었다. 또한 인간의 창의력 상상력도 기계에게 압도당할 수 있는지를 끊임없이 고민했다.


결국 답을 찾은 것은 기계와의 협력이었다. 놀란도 같은 생각을 한 것 같다. 인터스텔라에서는 유머를 능숙하게하고 감정을 이해하며 거짓말 까지 하는 전천후 로봇이 등장한다. 그러나 이 로봇은 끝까지 인간을 보좌한다는 자세를 단단하게 유지하고 있다.


배신자 만 박사는 이렇게 얘기한다. 이런 오지에 기계를 대신 보낼 수 없었다. 그것은 돌발 상황에 대한 대처가 인간보다 못하기 때문이라고 한다. 기계는 패턴에 민감하다. 패턴이란 과거의 어떤 반복적 상황이다. 돌발 상황이란 과거에 겪어보지 못한 새로운 경험이기 때문에 패턴은 있을 수 없고 기계는 이에 대처할 수 없다.



가장 두드러진 장면은 역시 망가진 인듀어런스호에 화물선이 도킹할 때였다. 로봇은 불가능하다는 결론을 내렸지만 인간 쿠퍼는 같은 속도로 회전하는 묘안을 내놓고 결국 성공한다. 그에게는 이성을 앞지르는 의지가 있었기 때문이다.


지식, 이론, 패턴 기계가 인간 보다 더 잘할 수 있다. 그러나 이것을 어떻게 써야할 지에 대한 판단은 인간이 더 낫다. 인간은 기본적으로 존재의 소멸이라는 근원적인 공포를 지니고 있기 때문이다. 인간은 기본적으로 동물이고 이런 동물적인 감각은 만들 수 없는 것을 놀란은 잘 알고 있는 듯 하다.


만약 이 영화를 보고 우리는 왜 이러한 영화를 만들지 못하냐고 탄식한다면 이렇게 대답하고 싶다. 첫째로 미국사람들도 이렇게 만들 수 있는 사람은 거의 없다. 둘째로 만약 부러워하는 지점이 과학이론을 영화로 잘 버무렸다고 하는 것이라면 그것은 교육행정가를 탓해야 한다. 문과 이과로 나누어 공부한 이상 자신이 따로 노력하지 않으면 거의 불가능하다. 영화인보다 더 큰 잘못을 한 사람들이 있다는 말이다.


세째로 만약 기술과 인간에 대한 깊이있는 철학을 영화속에서 잘 표현한 것이 부럽다면 나도 동감이다. 정말 부럽다. 단지 영화인 만의 문제가 아니다. 아마도 미국에는 각 업종별로 직종별로 이런 철학적 고민을 하는 사람들이 우리보다 훨씬 많을 것이다. 다시 말해 우리 모두가 자신의 위치에서 개념들을 이해하고 구성하는 과정이 필요하다. 그러면 그것이 임계값을 넘어 우리에게도 놀란을 놀라게 할 그런 감독이 나오는 날을 맞이할 수 있을 것이다.


   인간과 기계와의 협력에 대해서는 팰런티어의 CEO인 샤이암 생커가 한 TED 강연에 잘 정리되어 있다. 







저작자 표시 비영리 변경 금지
Posted by novathinker 트랙백 0 : 댓글 0