오래전 비디오 가게가 있더라. 대여점 사장님은 그 공간 안에서만큼은 누가 뭐래도 신이었더라. 꽉 찬 영화의 모든 줄거리를 꿰뚫고 있는 것 같고 재미있는 작품이 있는지 묻자마자 추천작을 쏟아냈다. 시대는 변했고 비디오 대여점은 역사 속으로 사라졌다. 2020년 대여점이 떠나고 남은 자리에는 영상 스트리밍 서비스가 들어갔다. 대여점 사장이 하던 일은 이제 영상 추천 알고리즘이 대신한다.
추천은 이제 일상이 됐다. 유튜브나 넷플릭스에서 무엇을 봐야 할지 모른다면 시선은 자연스럽게 추천 영상 쪽으로 향한다. 달라진 점은 이전에는 개인의 경험에 의존한 추천이었다면 이제는 기계학습까지 적용된 인공지능의 상당히 정교한 추천이 이뤄진다.
대신 어떤 기준으로 추천이 이뤄질지 겉으로는 알기 어렵다. 눈에 보이지 않기 때문에 호기심은 더욱 커진다. 우리의 클릭을 유도하기 위한 영상 플랫폼 추천 알고리즘은 어떻게 발전해왔는지 대표적인 서비스 유튜브와 넷플릭스를 통해 알아보자.
유튜브가 온라인 데이트 서비스로 출발했다는 사실은 유명하다. 설립자들은 자신이 원하는 연애 상대방에 대한 이야기를 찍어주고 이를 공유하는 공간을 만들고자 했다. 처음 세운 기획은 무너졌지만 영상을 올리기에 좋은 공간이라는 판단으로 지금의 동영상 공유 플랫폼의 모습을 갖추기 시작했다. 다행히 반응이 좋아 서비스 시작 6개월 만에 시청자 수는 200만 명으로 크게 늘었다. 서비스가 시작된 지 15년이 지난 지금 전 세계 유튜브 월평균 이용자는 19억명이다.
유튜브 안에서 영상을 만나는 방법은 크게 두 가지다. 검색해서 찾거나 플랫폼 추천을 받는 것이다. 검색은 어디까지나 사용자의 영역이다. 유튜브가 집중하는 것은 영상 추천이었다.
잠시 추천 영상을 제공할 때 가장 중요한 요소는 조회수였다. 역시 조회수가 높은 영상을 추천하면 영상을 클릭하는 비율도 높았다. 그러나 서서히 문제가 드러났다. 조회수를 기준으로 영상을 추천하면 클릭을 유도하기 위한 낚시 별 제목과 썸네일로 제작된 영상이 우후죽순 늘었다. 조회수로 추천이 이뤄진다는 것을 알게 된 채널 운영자들이 이를 악용한 것이다. 클릭에는 성공했을지 모르지만 문제는 그 뒤였다. 제목과 썸네일에 현혹돼 영상을 재생한 이용자는 영상의 품질을 보고 실망했고 경험이 누적될수록 추천 영상에 대한 기대감은 하락했다. 이용자들은 염증을 느끼기 시작했다. 7년간 이어진 조회수 중심의 추천 방식은 생명력을 잃었다.
2012년 유튜브는 영상 추천 방식을 변경했다고 발표한다. 기존 조회수 기반 추천은 사용자가 관심을 가질 만한 영상을 추천하는 최선의 방법이 아니었다고 인정했다. 새롭게 핵심 요소로 삼은 것은 시청 시간이었다. 정확하게는 영상을 클릭하여 끝까지 시청하는 비율을 말한다. 시청시간이 사용자의 참여를 가장 잘 나타내는 지표라는 판단에 시청시간을 기준으로 영상 우선순위가 매겨졌다. 제목과 썸네일에만 공을 들인 영상이라면 사용자가 장시간 영상을 시청할 이유가 없다. 더불어 의도적으로 영상을 짧게 제작해 시청 시간을 늘린다고 우선순위가 높은 것은 아니라고 못 박았다. 반대로 오래 제작된 영상이라면 불리하다고 생각하지 말고 다만 사용자가 좋아할 만한 영상 제작에 신경 쓰면 된다는 입장을 밝혔다.
지금과 같은 정밀한 추천 알고리즘이 구축된 것은 2016년부터다. 유튜브는 기존 추천 알고리즘에 머신러닝을 도입해 개인화된 추천을 본격화한다. 수정사항도 생긴다. 유해 콘텐츠 검열을 강화한 것이다. 추천 알고리즘이 만약 유해한 영상을 추천해서는 곤란하다. 이를 방치하다가는 플랫폼이 이런 정보를 적극적으로 퍼뜨린 꼴이 된다.
유튜브에서 추천 시스템을 다룬 엔지니어 기욤 샬로는 가디언과의 인터뷰에서 유튜브 알고리즘이 영상 체류 시간에 집중된 추천을 했기 때문에 가짜뉴스와 확증 편향을 발생시킨다고 폭로했다. 그는 추천 알고리즘이 민주주의 질서를 유지하고 건강한 정보를 양산하는 데 최적화돼 있지 않다고 말해 한때 논란이 일기도 했다. 최근 닐 모한 유튜브 최고제품책임자(CPO) 인터뷰에 따르면 유튜브는 유해성을 가르는 경계에 있는 영상을 여과하기 위해 지난해에만 알고리즘을 30번 이상 수정했다. 현재 유튜브가 중요시하는 것은 ‘이용자 만족도’다. 사용자가 만족할 수 있는 영상을 추천해 불쾌감을 느끼는 영상은 배제한다. 추천 영상이 꼭 훌륭한 영상은 아닐 수 있다. 그보다는 내가 흥미를 느끼고 볼 만한 영상을 알려준다는 의미가 더 크다.
구글이 자체 추천 알고리즘에 대해 상세히 밝힌 적은 없다. 하지만 유튜브 추천 알고리즘을 분석한 결과를 종합해보면 공통된 부분은 있다.
(source: 구글)
유튜브가 영상 우선순위를 매길 때는 △조회수 △조회수 증가속도 △시청시간 △좋아요, 싫어요, 댓글, 공유 등 사용자 참여 정도 △참신성 △채널 내 영상 업로드 빈도 △세션시간 △지역 등이 고려될 것으로 알려졌다. 참고로 세션 시간은 영상을 시청한 채널에서 다른 영상을 시청하거나 머무는 시간을 말한다. 여기서 끝나면 부족하다. 보다 개인 맞춤형 추천을 위해 사용자가 시청하는 주제와 시청하지 않는 주제를 인지하고 과거 시청 데이터를 참고해 최종 추천 영상 목록이 완성된다.
한국언론진흥재단이 발간한 연구보고서 ‘유튜브 추천 알고리즘과 저널리즘’에서는 △방송사와 같은 전통언론사에서 제작한 영상 △길고 인기 키워드가 포함된 제목 △생중계 콘텐츠 등이 높은 우선순위를 받는 경향이 있다고 분석했다. 유튜브 이용자가 보는 영상 70%는 추천된 영상에서 발생했지만 유튜브 측에서도 이 사실은 인정했다.
넷플릭스의 경우는 어떨까. 약 1억9300만명의 가입자를 보유하고 있는 넷플릭스. 넷플릭스에 업로드되는 영상은 유튜브에 업로드되는 영상과 다르다. 하지만 둘 다 영상을 제공하고 때로는 추천해야 한다는 점에서는 비슷하다.
리드 헤이스팅스 넷플릭스 최고경영자(source: O’Reilly Media, Inc.)
넷플릭스 창업자인 리드 헤이스팅스와 마크 랜돌프는 창업 초기부터 영상을 추천하는 노하우를 축적해왔다. 넷플릭스는 시작은 DVD 대여 서비스였다. 서비스를 시작한 연도가 1998년이어서 비디오 대여 시대가 끝나고 DVD 대여가 시작되는 시기였다. 넷플릭스는 개인화된 추천을 제공하기 위해 이때부터 자체적으로 고객의 DVD 대여 정보를 기반으로 영화를 추천하는 알고리즘을 구축했다. 알고리즘의 이름은 시네매치(cinematch)였다. 알고리즘의 궁극적인 목표는 사용자가 어떤 영화를 본 뒤 매길 평점을 예측하는 것이었다. 기다릴 필요 없이 영상을 재생하면 바로 볼 수 있는 지금과 달리 DVD 타이틀을 주문해 집에서 받는 데는 며칠이 걸렸다. 다음에 보고 싶은 DVD를 빨리 보려면 미리 주문해야 했다. 추천 알고리즘은 이용자가 다음 영상을 선택하는 데 도움이 됐다.
이에 만족하지 않고 2006년에는 넷플릭스 프라이즈(NetflixPrize)라는 이름의 콘테스트를 개최해 영화 데이터베이스를 공개하고 추천 결과를 개선할 수 있는 알고리즘 경쟁을 벌이도록 했다. 우승은 벨코스 Pragmatic Chaos팀에 주어졌는데 추천 알고리즘을 약 10.06% 개선했다. 10%가 넘은 다른 팀인 더앤샘블과 점수는 같았지만 10분 먼저 답을 제시해 1위에 올랐다. 이때 개발된 알고리즘은 지금도 사용되고 있다고 한다.
본격적으로 스트리밍 서비스가 시작된 시기는 넷플릭스가 문을 연 지 10여 년이 지났기 때문이었다. 넷플릭스는 2007년 미국에서 영상 스트리밍 서비스에 첫발을 내딛는다. 이후 캐나다를 시작으로 서비스 지역을 전 세계로 확대했다. 현재 190개국이 넘는 국가에서 넷플릭스가 서비스되고 있다.
회사는 콘텐츠 확보를 위해 제작에 투자하고 독창적인 생태계를 구축해 나갔다. 보고 싶은 콘텐츠가 넷플릭스에만 있다면 사용자가 구독결제를 할 확률은 올라간다. 이렇게 구독자를 확보했다면 플랫폼 내에서 지루할 틈 없이 영상을 소비시켜야 한다. 이때 필요한 것이 영상 추천이다. 다음 달, 재다음 달까지 구독을 이어갈 힘은 여기서 나온다. 매력적인 콘텐츠가 어느 정도 확보됐다면 회사의 핵심 과제는 영상 추천 엔진을 구축하게 된다. DVD 대여 이용자와 스트리밍 서비스 이용자의 사용 패턴도 달라졌다. 서비스가 전 세계로 확대될수록 영상을 추천할 때 고려하는 것도 늘었다.
넷플릭스는 자체 추천 알고리즘 방식에 대해 비교적 투명하게 공개하고 있다. 만약 추천 시스템에 의혹을 품는 사람이 있다면 궁금증이 어느 정도 해소될 것이다. 기본적으로 수집되는 사용자 정보로는 △좋아요△선택할 영상과 선택하지 않는 영상 △시청 시간대 △영상시청기기 등이 있다. 꼼꼼히 들어가면 영상을 시청했다가 되감았다가 멈춘 지점, 끝까지 시청할지도 파악된다.
분석된 결과를 가지고 이용자를 분류한다. 비슷한 시청 패턴을 가진 이들은 같은 그룹군에 묶이게 된다. 철저하게 사용자 행동 데이터를 기반으로 구성된다.
넷플릭스 추천 시스템에는 특별한 방식이 하나 더 추가된다. 바로 영상에 태그를 붙이는 것이다. 모든 작업은 사람이 직접 영상을 보고 수행한다. 아직은 인공지능보다 사람이 더 잘할 수 있는 작업이기도 하다. 가이드라인을 바탕으로 영상에는 적당한 태그가 붙게 되는데, ‘화려한 출연진’, ‘우주 관련 영상’과 같은 특징이 태그로 붙는다.
플랫폼 사용자로부터 수집한 정보와 영상에 붙은 태그 정보는 머신러닝을 적용한 알고리즘을 이용해 분석된다.
넷플릭스도 추천 알고리즘으로 논란이 된 바 있다. 출연진이 주로 백인 영화를 흑인 사용자에게만 흑인이 들어간 썸네일을 걸어 영상을 추천한다는 문제가 제기됐다. 이에 넷플릭스는 머신러닝 알고리즘에 의한 결과일 뿐 연령대와 인종, 성별과 같은 정보는 수집하지 않는다고 해명했다.
마찬가지로 서로 다른 두 서비스인 유튜브와 넷플릭스는 추천 알고리즘을 개선하는 데 신경을 쓰고 있다. 추천 알고리즘이 플랫폼을 성장시키는 핵심 요소라는 것을 잘 알고 있기 때문이다. 클릭할 가능성이 높은 영상이 제안될수록 사용자는 더 오래 플랫폼에 머물게 된다. 만약 당신이 유튜브나 넷플릭스가 추천해 주는 영상으로 밤을 새는 날이 늘었다면 매 순간 사용자를 지켜보고 있는 추천 알고리즘의 역할이 컸다는 것을 기억하자.
테크플러스에디타나유권텍 – [email protected]