그래서 요점이 무엇인가요 ?
마케터인 당신이 데이터 분석을 의뢰하였고 그 내용을 공유 받는 미팅에 있다고 가정해보겠습니다.
한 분석가가 나와서 캠페인 성과에 대한 다양한 결과를 공유하기 시작했고 소비자의 구매빈도, 상품 색상 & 브랜드, 구매 시간대, 할인 가격, 배너의 종류, Creative, CPC 등의 다양한 조건에 따라서 달라지는 마케팅 성과를 분석하여 공유하고 있습니다. 전 방위적인 결과가 1시간 이상 공유되었고 100여 장의 비슷한 그래프와 테이블 당신의 눈앞을 지나갔습니다. 참석한 많은 사람이 집중력을 잃어버리기 시작했다는 것을 느꼈을 무렵 아마 이런 질문 하고 싶을지도 모릅니다 “그래서 요점이 무엇인가요?”
오래 준비한 발표자에게 혹시라도 무례하거나 공격적인 것은 아닐까 생각이 될 수도 있겠지만, 사실 이 상황에서 모두가 더 혼란에 빠지지 않기 위해서는 누군가는 물어 봐야할 질문입니다.
기업 입장에서 고객의 행동을 파악하고 연구하기 위해서 더 많은 데이터 수집하고 분석하는 것이 중요하다는 것은 누구나 인정하는 부분입니다. 그리고, 이제는 여러 데이터를 확인하지 않고 이루어진 결정은 좋은 의사 결정으로 받아들여 지기 어려운 세상에서 살고 있습니다. 데이터 없는 결정은 비즈니스에 위험이 될 가능성이 높아지고 있습니다.
그런데도, 그 내용이 약간 복잡해지는 어느 순간 똑똑한 당신 마저도 아니 우리가 믿고 있는 AI마저도 아이러니하게 좋은 의사결정을 하는데 많은 어려움을 겪게 됩니다 .
차원의 저주(Curse of Dimensionality)
이를 데이터 분석, 머신러닝 분야에서는 차원의 저주(Curse of Dimensionality)라는 중요한 현상으로 설명합니다. 다행히도 누군가를 해치거나 불행하게 만드는 것은 아닙니다.
미국의 유명한 수학자 Richard Bellman이 처음 소개 한 “차원의 저주”는 일정한 정확도 수준으로 임의의 함수를 추정하는데 필요한 데이터수가 입력 변수(차원) 수에 따라 기하급수적으로 증가 함을 의미합니다.
쉽게 말해서, 데이터의 변수(차원/관점/시각)가 많아질수록 데이터를 통해서 결론을 내는 것이 기하급수적으로 어려워진다(데이터가 기하급수적으로 필요하다)는 이야기입니다. 예를 들어, 여러분이 2차원 그래프로 보다가 갑자기 3차원 그래프를 보게 되면 어떤 기분이 처음 들게 되는지 떠올려 보시면 이해가 조금 편할 수 있습니다.
또 다른 예를 들자면, 여러분이 사이트에 방문한 고객의 성별을 분석한다고 가정할 때, 성별로 분류된 고객들을 분석하는 과정에서 나이, 지역, 관심 카테고리 등의 새로운 데이터를 추가하여 같이 분석하게 된다면 기존에 분석한 고객들은 서로 다른 데이터로 변하게 됩니다. 이를 데이터 간에 거리가 더 멀어(Sparsity) 진다고 표현하는데, 이처럼 거리가 멀어지면 분별이 더 잘 될 것 같아 보이지만 그만큼 이를 명확하게 구분하기 위해서는 아주 많은 데이터가 필요하게 됩니다.
이는 사람이 데이터를 분석을 하던 AI가 데이터를 학습하던 정도의 차이가 있을 뿐 비슷합니다.
크리테오 AI가 차원의 저주를 이겨내는 방법
우리가 파악하고자 하는 실질적인 문제들은 다양한 변수를 고려하여 여러 데이터를 살펴보는 것이 중요하고 AI 또한 다양한 조건의 데이터를 학습하는 것이 매우 중요하지만 앞에서 말씀드린 것처럼 데이터 간의 거리가 멀어지면 우리나 AI나 모두 데이터 공간의 소용돌이에 빠지게 됩니다.
이때, Key은 방대한 데이터의 양입니다.
크리테오의 AI는 고객을 다양하게 구분하여 고객별로 다른 value를 실시간으로 계산합니다. 이를 위해서 다양하고 많은 변수가 고려되어야 합니다. 사람의 뇌가 빠르게 아주 미묘한 차이까지 구분하듯이 AI 도 미묘하고 급격하게 변하는 고객의 가치를 (구매 가능성, 광고 반응, 방문 가능성 설치 가능성 등) 빠르게 학습하고 실시간으로 예측하기 위해서는 엄청난 데이터가 필요합니다. 그리고 이것이 가능해야 우리의 캠페인이 Right Person에게 Right Time에 Right Content를 전달 가능하게 됩니다.
다행히도, 크레테오에서 분석하고 AI가 활용하는 데이터의 양은 필요한 수준을 뛰어넘고 있습니다.
크티테오의 데이터는 광고주 파트너쉽, 퍼블리셔 파트너쉽, 그리고 광고 송출 과정에서 수집이 되는데 분석이 되는 데이터의 양이 약 700 테라바이트(terabytes)에 달합니다.
- 10개의 data centers 에서 45000개 서버 활용
- 약 20,600개의 고객데이터가 연동되어 있으며25억의 Active한 쇼퍼 데이터를 분석
- 1초마다 45,625개의 광고가 노출 (1년에4조개의 광고가 하루에40억개 광고가 송출)
사실 단순하게 데이터의 양이 많다는 사실만 가지고는 이 저주가 모두 해결될 수는 없습니다. 데이터양이 부족한 경우에도 차원 축소(Dimensionality Reduction)등 기술들이 존재하며 다양한 Training 기술들을 이용해서 AI를 지속적으로 훈련/개선시키는 것 또한 매우 중요합니다. 이를 위해서 크레테오 역시 630여 명 Product & R&D 인력들이 연간 1,200번의 A/B 테스트와 72,000개의 실험을 통해서 AI를 검증하고 광고 성과 개선을 위해서 힘을 쓰고 있고 있습니다.
이러한 모든 과정을 통해서 크레티오의 광고상품에 사용되는 AI는 지금 이 순간에도 좋은 성과를 만들어 내고 있습니다. 그리고 앞으로 더 여러분의 캠페인이 더 trusted and impactful advertising이 될 수 있도록 진화할 예정입니다.
AI 사용법에 관한 더 많은 정보는 아래에서 참고하시기 바랍니다.
*출처 : Various sources from machine learning communities
Kuo, F.Y. and Sloan, I.H., 2005. Lifting the curse of dimensionality. Notices of the AMS, 52(11), pp.1320-1328.
Verleysen, M. and François, D., 2005, June. The curse of dimensionality in data mining and time series prediction. In International work-conference on artificial neural networks (pp. 758-770). Springer, Berlin, Heidelberg.
Why High Dimensional Data are a Curse?, September 26, 2019 by Niranjan B Subramanian