Topic/Think

빅데이터 공부를 하면서

glqdlt 2016. 4. 6. 21:38


한 일주일동안 책만 읽고 읽어서 이제서야 감이 잡히기 시작 했다. 


사실 별거 아닌 데 왤케 어렵게 생각한걸까 싶다.


현재 Mysql 로 운영중인 DB의 Full TEXT로 들어가는 컬럼에 대해 select 시에 100만 로우 기준 3분정도 걸린다.


이는 퍼포먼스상에서 심각한 문제이다.  


이를 해결하고자 관심을 가졌던 것이 빅데이터니 하둡이니 맵리듀스니 키밸류니 뭐니 한거였는 데, 이는 나의 무지함에 일어난 삽질의 시작이었다.


회사 내에 구비된 책이란 책은 다 보아도 관련 플랫폼이 너무 다양해서 한참을 헤맸다.


보면 볼수록 뭔지는 알겠는데, 이게 나랑 연관이 있나?  그래서 어떻게 사용해야하는데? 왜 써야하지? 란 의문들이 더욱 더 헤매게 했던 거 같다.


처음에는 mysql(rdb)를 -> mongodb(mysql) 마이그레이션 해야하나? 부터 시작해서


엘라스틱서치나 solr 도 따지고보면 nosql 로도 활용할 수 있다는데 이건 또 뭔가 까지, 이것저것 헤맸다.


돌고 돌고 돌아서 인덱싱에 대해 곰곰히 생각하다 보니 내가 원하는 그림은 사실상 의미가 틀린 짓이었고 


(mysql에 모듈식으로 엘라스틱서치를 붙이는거라고 생각했다)


인덱싱이란 무엇인가를 생각하다 보니 자연스럽게 mysql | 엘라스틱 서치 연동 의 개념이 맞다는 것이 생각이 났다.


엘라스틱 서치나 solr 은 Full Text 로 검색해야하는 컬럼에 대해서 사전 색인(인덱싱)을 하고 사용하는 개념이란 걸 꺠닳았다. 오우.. 


사실 이걸 검색 엔진(루씬)에 대해 먼저 접근하고 생각해보면 쉬운 것이었을 건데.. 나의 무지를 탓하자


참 별 거 아니고, 어떻게 보면 창피한 이야기인데. 이를 꺠닳음으로써 책이 술술 읽히기 시작했다.


이런 점은 포스팅으로 남겨두는 게 좋다고 생각해서 작성하게 되었다.


덕분에 nosql의 개념이라던지, 여러 플랫폼의 장단점에 대한 공부에 속도가 붙었다.


'Topic > Think' 카테고리의 다른 글

Virustotal Api license (Public vs Private)  (0) 2016.08.02
스프링 탄생에 대한 잡담  (0) 2016.05.10
Selenium 의 정책  (0) 2016.02.12
Ajax 와 WebSocket 에 대해  (0) 2016.02.12
Vm Sphere EXSI 라이센스에 대한 이야기  (0) 2016.01.07