아티클T는 탤런트뱅크의 검증된 콘텐츠 플랫폼입니다.
탤런트뱅크 바로가기

빅데이터를 향한 5가지 의문

첫번째 – 정형된 통계 데이터로 과거는 분석해도 미래를 예측하기란 거의 불가능하다던데?

미래를 보여주는 데이터란 없다. 데이터 분석을 끝내고 의사 결정을 내릴 때쯤이면, 이미 미래는 현재가 돼버린 뒤다. 명확한 알고리즘을 만들어 데이터로 미래를 이해할 수 있어야 한다.

-클레이튼 크리스텐슨 하버드 비즈니스 스쿨 교수

우리가 통계라는 목적으로 수집한 데이터만으로 미래를 예측하기란 불가능에 가깝습니다. 예를 들어 한 지역을 대상으로 중학교 2학년 키를 3년간 측정했더니 매년 전년도보다 평균 키가 커졌다고 가정해봅시다. 그 이유로 ‘우유를 많이 마셨다’와 같은 과거에 기반한 원인을 분석해볼 수 있습니다. 하지만 ‘그러니 앞으로도 우유를 더 먹이면 계속 키가 클 것’이라고 하기에는 뭔가 석연치 않죠. 갑자기 키 큰 학생들이 전학 왔을 가능성도 있으니까요. 평균 신장이 커진 원인을 분석할 또다른 과거 경험과 통찰이 필요합니다.

같은 공장에서 완성된 물건이 모두 똑같은 품질로 생산된 것 같지만, 사용환경에 따라 작동되기도 하고 안 되기도 합니다. 각각 테스트해보면 모두 이상 없이 사양도 동일한데 왜 이런 일이 생기는지 원인을 규명하기 위해서는 과거 여러 경험적 데이터와 통찰력이 있어야 설명이 됩니다. 또다른 변수가 끼어든 환경에서 발생한 오작동을 과거 몇가지 사례만으로 원인이었다고 판단하지 않습니다.

 

 

두번째 – 양이 많으면 ‘빅’데이터?

빅데이터(big data)는 이름 탓에 ‘큰’ 데이터라고 생각하기 쉽습니다. 부분적으로는 맞는 말이죠. 그런데 사실 빅데이터는 양보다 시스템적인 면이 큽니다. 컴퓨터를 동원해야 할 만큼 방대하며, 빅데이터 전용 기술을 써 실시간으로 인터넷에서 데이터를 수집합니다. 빅데이터 발굴 시스템에 분석 과정이 더해지기도 하고요.

또, 앞서 인용한 크레이튼 교수의 “데이터로 미래를 이해할 수 있어야 한다”는 문장 속 ‘데이터’도 지금의 빅데이터를 의미합니다. 대중이 인식하는 빅데이터도 크레이튼 교수가 말한 단어와 유사한 뜻을 가집니다.
결론적으로 다양하게 수집하고, 많이 수집한 데이터만 진정한 빅데이터라고 부를 수 있습니다. 수집하는 데이터가 꼭 정형적일 필요는 없습니다. 동영상이나 그림, 심지어 후각, 미각 등 오각에 의한 결과물 등 비정형 데이터도 수집대상이 됩니다.

 

세번째 – 이미 데이터도 많이 모였고 분석도 가능했는데 왜 이제서야 빅데이터를 분석한다는 말이 나오는가?

과거 우리가 가지고 있던 컴퓨팅 환경은, 속도나 데이터 저장 용량에서 비정형 데이터를 포함한 데이터를 분석할 수 있는 환경을 제공할 수 없었습니다. 그야말로 비용과 규모가 상상을 뛰어넘는 슈퍼컴퓨팅 환경이 있어야 가능했기 때문이죠. 최근에는 개인 컴퓨터로도 빅데이터를 분석할 정도로 기능이 향상됐으며, 엄청난 양의 비정형 데이터를 저장할 수 있는 테라 바이트 수준 저장장치도 구비할 수 있습니다. 게다가 인공지능이 복잡하고 거대한 데이터도 쉽게 식별하면서, 빅데이터 분석이 제대로 된 미래 예측 가치를 갖게 된 측면도 있죠.

 

 

네번째 – 많은 공공기관이나 기업들이 “빅데이터!” “빅데이터!”를 주장하는데, 누구나 할 수 있는 일은 아니지 않은가?

한 편으론 맞는 말이지만 아니기도 합니다. 초기 빅데이터 분석은 데이터 사이언티스트(Data Scientist) 역할이 매우 중요한 상황이었죠. 예로, 커피전문점 창업에 필요한 상권을 분석해봅시다. 향후 매출과 이익이 충분히 발생할지 데이터를 처리하는 경우, 전문가에게 분석에 필요한 데이터 종류와 분석 방법을 모두 물어볼 수밖에 없었습니다. 이제는 솔루션만으로 분석할 수 있죠.

인공지능 기술이 결합된 솔루션은 오차를 최소화한 미래예측 분석결과를 만들어낼 수 있습니다. 솔루션 가격이 조금 비싸긴 하지만, 개인도 빅데이터 분석결과를 손에 받을 수 있게 됐다는 뜻입니다.

 

다섯번째 – 아무리 자동화가 이뤄져도 결국 사람 손을 거쳐야 하던데?

미래를 예측하는 빅데이터 분석을 위해서는 빠른 속도로 데이터 수집이 이뤄져야 합니다. 문제는 분석 속도를 높이려면 데이터를 곧바로 인식하고 분류해야 하는데, 보통 인식과정에서 심각한 오차가 발생합니다. 컴퓨터에게 도로 위를 달리는 자동차 사진을 보여주면 그 자동차가 화물차인지, 승용차인지, 버스인지 구분하지 못합니다. 그래서 사람이 인식대상 특징을 일일이 지정하는 초기 처리작업이 필요합니다.

이런 작업이 쌓여 언젠가 이 세상 모든 데이터들이 쉽게 분류되면 이 과정에 사람이 필요 없어질지도 모릅니다. 그러나 지금 이 순간에도 새로운 형태의 물체는 만들어지고 있기 때문에 데이터 초기 처리는 지속될 수 밖에 없습니다. 더군다나 이제서야 빅데이터 시장이 열리는 한국은 수작업해야하는 데이터가 너무나 많아 앞으로도 적지 않은 시간이 필요합니다.


대표적인 빅데이터 알고리즘 3가지 속성 갖추기
: 크기(Volume), 신속성(Velocity), 종류(Variety)

위키백과에서 ‘빅데이터’는 ‘기존 데이터베이스 관리도구의 데이터 수집-저장-관리-분석의 역량을 넘어서는, 대량의 정형ㆍ비정형 데이터 모음과 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술’이라고 정의합니다. 사실 이게 뭔 말인지 좀 어렵습니다.

간단히 정의하면 ‘대량의 정형·비정형 데이터로부터 가치 있는 결과를 산출하는 알고리즘 기술’이라고 할 수 있습니다. 빅데이터는 ‘어떻게 분석하느냐’는 치밀하며 논리적인 과정이 잘 녹아든 알고리즘과의 싸움입니다. 농작물을 예로 들어봅시다. 농작물을 키우는 데는 날씨가 많은 영향을 끼친다는 사실을 알면서도 제대로 예측하지 못해 어려움을 겪습니다. 기후데이터는 공공 데이터 포털(www.data.go.kr)을 이용하면 충분히 확인할 수 있고 간단한 분석도 가능하죠. 다만 데이터 수집이 원활히 이뤄지지 않는 농경지 이력, 위치에 따른 토양 정보가 빠진 예측은 신뢰성이 낮습니다.

북아메리카나 유럽은 이미 오랫동안 3가지 속성을 고려한 데이터 수집을 여러 산업분야에서 이뤄왔으며 분석 알고리즘에서도 몇 걸음 앞서 있습니다. 이제 우리도 ‘빨리빨리’라는 장점을 이용해 그들을 뛰어넘는 빅데이터 수집과 한국 고유 환경을 반영한 알고리즘이 지속적으로 만들어낼 것이라 믿습니다.

 


임성춘

빅데이터, AI 전문가

現) 탤런트뱅크 전문가, 한국아이티컨설팅 컨설팅사업본부 전무
前) SK C&C ERP 컨설팅 사업본부 이사
前) 조달청 정보관리과 과장
前) 한국오라클 글로벌 ERP 컨설팅 사업본부 이사

시대가 변하고 새로운 기술이 등장하면서 예전엔 골칫거리였던 문제가 쉽게 풀리기도 하죠. ‘신기술 트렌드’는 실무를 뛰는 엄선된 전문가들이 직접 쓴 현장 이야기를 소개합니다. 기업 문제를 손쉽게 고치는 전문가들의 인사이트를 둘러보세요.

뉴스레터 구독
탤런트뱅크 프로젝트
기업의 비즈니스 고민,
검증된 전문가가 해결합니다.
프로젝트 의뢰
최신글
다양성관리는 영어로 ‘DEI(Diversity, Equity, Inclusion)’입니다. 순서대로 다양성, 형평성, 그리고 포용성을 뜻합니다. 기업 외부 환경인 시장뿐만 아니라, 내부에서도 발생하는 문화적 다양성을 관리하기 위해 도출한 실무적인 실천방안을 의미합니다. 즉, 시장에서의 다양성과 형평성, 포용성을 추구하는 것을 넘어서서, 기업 내부에서도 동일한 가치를 존중하면서 발전을 꾀해야 한다는 관점과 함께 등장한 용어입니다.   원래 이 개념은 다분히 정치적으로, 미국 기업에서는 오래 …
무기 국산화 사업2   대한민국 해군 출신으로 제가 가장 뿌듯하게 생각하는 함정이 있습니다. 바로 전설적인 **함입니다. 연안 방어에 머물렀던 대한민국 해군 작전영역을 대양으로 범위를 확대한 전투함입니다. 이 전투함에 승선한 함장과 승무원의 자부심은 실로 대단했습니다. 그런데 이런 해군의 전설인 함정에 문제가 하나 발생합니다. 전투함에 탑재된 무기체계 중 하나인 **mm포 전자기판 하나가 고장이 났습니다. 전투함에는 다양한 무기체계가 …
무기 국산화 사업1 우리 방산 업체가 직접 만든 한국산 미사일시스템(천궁-Ⅱ)과 포병시스템(K2전차)이 아랍에미리트(UAE), 호주와 수출계약을 체결했다는 언론 보도를 접했습니다. 대한민국 국민이라는 자부심에 뿌듯했습니다.   2020년 스톡홀롬 국제평화연구소에 따르면, 대한민국 국방비 지출은 세계 10위입니다. 당해 국방비는 연간 정부 예산의 12.4%, GDP의 2.8%를 차지했는데, 이는 영국(2.2%)보다 많고 인도(2.9%)와 비슷합니다. 대한민국 국방예산은 세계 어느 나라와 비교해도 적잖은 돈을 쓴다는 …
위로가기