본문 바로가기

내가 읽은 책 단상

빅데이터 인문학 : 진격의 서막




빅데이터 인문학 : 진격의 서막 - 에레즈 에이든, 장바티스트 미셸 지음

나의 평가 : ★★★


   아주 오래전 구글이 전세계 책들을 디지털화하기로 하고 그 작업을 시작했다는 기사를 보고서 정말 대단한 일을 하는구나 하는 생각을 한적이 있었다. 물론 그 책들을 가지고 어떤 일을 할 수 있는지를 생각해 본적은 별로 없었다.


   그런데 3년전부터 "빅데이터"라는 단어들이 나오기 시작했고 빅데이터를 활용한 마케팅방법이나 각종 자료들이 쏟아져 나오기 시작하면서 빅데이터가 향후 가장 중요한 트렌드중에 하나로 떠오르고 있다. 빅데이터의 특징에 대해서는 많이 알려져 있으니 따로 언급하지 않더라도 바로 구글의 책의 디지털화 작업이 빅데이터의 원소스를 만드는 작업이었다는 것을 알 수 있다.


   물론, 구글이 이 책들의 디지털화를 빅데이터 분석을 위해서 시작한 것은 아니지만 이 책의 저자들은 구글의 프로젝트를 보고 자신들의 아이디어를 구글에 제안하여 "엔그램"이라는 구글의 환상적인 서비스가 제공되는 과정을 연구자의 입장에서 재미있게 풀어 나가고 있다.   



이 책에서도 나오지만 빅데이터는 단지 데이터로만 있을때는 그 의미가 별로 없거나 단지 데이터 덩어리에 불과할 뿐이다. 또한 책은 그 특성상 저작권이라고 하는 문제때문에 분석하여 이용하는 것이 쉽지 않은 부분이 있었고 구글 또한 저작권협회 등으로 부터 저작권에 대한 문제로 항의를 받아 어떤 형태로 이 텍스트들을 활용해야 하는지를 고민하고 있었는데 저자들이 자자들이 저작권 문제 없이 연구에 활용할 수 있는 방법을 고안한 것이 단어 단위의 분석방법이었고 이 방법이 다양한 연구를 할 수 있는 한가지 방법이라는 것을 증명하는 것이 이 책의 가장 중요한 내용이라고 할 수 있다. 


   저자들은 자신들의 연구결과의 일부를 이야기하면서 이처엄 디지털화된 데이터를 활용하면 인문학연구에 혁명적인 변화를 가지고 올 수 있다고 주장하고 있다. 그러면서도 디지털화된 데이터를 인문학 연구에 활용하는데 있어서 어떠한 점들을 주의하면서 진행해야 하는지를 세심하게 이야기 하고 있다.


   책에서 이야기 하는 연구결과들도 재미있는 내용들도 많지만 특히, 빅데이터를 활용한 연구나 분석을 하는 사람들이라면 어떠한 점들을 주의하면서 분석을 진행해야 하는지의 시사점을 얻을수 있는 것이 이 책의 가장 큰 장점이다. 빅데이터를 분석하는데 관심이 있는 사람이라면 꼭 한번 읽어 볼 만한 책이다.


P.s> 이 들의 연구결과에 흥미를 느낀 구글은 일반인들도 1800~2000년까지의 데이터로 챠트를 그려볼 수 있는 서비스를 제공하고 있다. 한글이 분석된다면 재미있는 것들을 알아 볼 수 있을텐데 예를 들어 자장면 과 짜장면이 언제부터 쓰였는지 등등... 하지만 아쉽게도 한글책들은 데이터 대상이 아니다.


https://books.google.com/ngrams