동영상 알고리즘 추천 전략 지금은 유튜브 넷플릭스 천하 나를 유혹하는

오래 전에 비디오 대여점이 있었어 대여점 사장은 그 공간 안에서는 누가 뭐래도 신이었다. 꽉 찬 영화의 모든 줄거리를 알고 있는 듯했고 재미있는 작품이 있는지 묻자마자 추천작을 쏟아냈다. 시대는 변해 비디오 대여점은 역사 속으로 사라졌다. 2020년 대여점이 떠나고 나머지 장소에는 영상 스트리밍 서비스가 들어섰다. 대여점 사장이 하던 일은 이제 영상추천 알고리즘이 대신한다.

추천은 이제 일상이 됐다. 유튜브나 넷플릭스에서 무엇을 봐야 할지 모를 경우 시선은 자연스럽게 추천 동영상 쪽으로 향한다. 달라진 점은 과거에는 한 개인의 경험에 의존한 추천이었다면 지금은 기계학습까지 적용된 인공지능의 상당히 정교한 추천이 이뤄진다.

그 대신 어떤 기준으로 추천이 이뤄지는지 겉으로는 알 수 없다. 눈에 보이지 않으니 의문은 더 커진다. 우리의 클릭을 유도하기 위한 영상 플랫폼의 권장 알고리즘은 어떻게 발전해 왔는지 대표적인 서비스 YouTube와 넷플릭스를 통해 알아보자.

유튜브가 온라인 데이트 서비스에서 출발했다는 사실은 유명하다. 설립자들은 연애 상대에 대한 오리지널 스토리를 찍고 그것을 공유하는 공간을 만들고자 했다. 당초 세웠던 기획은 무너졌지만 영상을 싣기 좋은 공간이라는 판단 아래 지금의 동영상 공유 플랫폼 모습을 갖추기 시작했다. 다행히 반응이 좋아 서비스 시작 6개월 만에 시청자 수는 200만 명으로 크게 늘었다. 서비스가 시작된 지 15년이 지난 지금 세계 유튜브 이용자는 월평균 19억 명에 이른다.

유튜브 내에서 영상을 보는 방법은 크게 두 가지다. 검색하여 찾거나, 아니면 플랫폼의 추천을 받는 것이다. 검색은 어디까지나 유저의 영역이다. 유튜브가 집중할 수 있는 것은 동영상 추천이었다.

잠시 동안 추천 동영상을 제공할 때 가장 중요한 요소는 조회수였다. 조회수가 높은 영상을 추천했더니 영상을 클릭하는 비율도 높았다. 그러나 점차 문제가 드러났다. 조회수를 기준으로 영상을 추천했더니 클릭 유도를 위한 낚시성 제목과 썸네일로 제작된 영상이 우후죽순처럼 늘었다. 재생 수로 추천이 이뤄진다는 사실을 알게 된 채널 운영자들이 이를 악용한 것이다. 클릭에는 성공했을지 몰라도 문제는 그 다음이었다. 제목과 썸네일에 빠져 영상을 재생한 이용자는 영상 품질을 보고 실망했고 경험이 누적될수록 추천 영상에 대한 기대는 낮아졌다. 이용자는 싫증이 나기 시작했다. 7년간 계속된 조회수 위주 추천 방식은 생명력을 잃었다.

2012년 유튜브는 동영상 추천 방식을 변경했다고 발표한다. 기존 조회수 기반 추천은 사용자가 관심을 가질 만한 영상을 추천하는 최선의 방법이 아니었다고 인정했다. 새롭게 핵심 요소로 삼은 것은 시청 시간이었다. 정확하게는 영상을 클릭해 끝까지 시청하는 비율이다. 시청시간이 이용자의 참여를 가장 잘 나타내는 지표라는 판단에서 시청시간 기준으로 영상 우선순위가 매겨졌다. 제목과 썸네일에만 주력한 영상이라면 사용자가 장시간 영상을 시청할 이유가 없다. 또 의도적으로 영상을 짧게 제작해 시청시간을 늘린다고 해서 우선순위가 높은 것은 아니라고 못 박았다. 반대로 오래 제작된 영상이라고 생각하지 말고 다만 이용자가 좋아할 만한 영상 제작만 조심하면 된다는 입장을 밝혔다.

지금처럼 정밀한 추천 아르고 리듬이 구축된 것은 2016년부터다. 유튜브는 기존 추천 알고리즘에 머신러닝을 도입한 뒤 개인화된 추천을 본격화한다. 수정해야 할 사항도 생긴다. 유해 콘텐츠에 대한 검열을 강화한 것이다. 추천 알고리즘이 만약 유해한 영상을 추천하면 곤란하다. 이를 방치하면 플랫폼이 이런 정보를 적극적으로 흘린 셈이다.

유튜브에서 추천 시스템을 다룬 엔지니어 기욤 샬로 씨는 가디언과의 인터뷰에서 유튜브 알고리즘이 영상 체류 시간에 집중된 추천을 했기 때문에 가짜 뉴스와 확증 편향을 발생시킨다고 폭로했다. 그는 추천 알고리즘이 민주주의 질서를 유지하고 건강한 정보를 양산하는 데 최적화돼 있지 않다고 말해 한때 논란을 빚기도 했다. 최근 유튜브 최고제품책임자(CPO) 닐 모한의 인터뷰에 따르면 유튜브는 유해성을 가르는 경계에 있는 영상을 걸러내기 위해 지난해에만 알고리즘을 30번 이상 수정했다. 현재 유튜브가 중요하게 여기는 것은 ‘이용자 만족도’다. 사용자가 만족할 수 있는 영상을 권장하고, 불쾌감을 느낄 만한 영상은 배제한다. 추천 영상은 반드시 훌륭한 영상은 아닐지도 모른다. 그보다는 자신이 흥미를 느끼고 봐야 할 영상을 알린다는 의미가 더 크다.

구글이 자체 추천 알고리즘에 대해 상세히 밝힌 적은 없다. 하지만 유튜브 추천 알고리즘을 분석한 결과를 종합하면 공통된 부분은 있다.

( source : google )

유튜브가 영상 우선순위를 부여하는 경우는 △조회수△조회수 증가 속도△시청시간△좋아요, 싫어요, 댓글, 공유 등 이용자 참여 정도△참신성△채널 내 영상 업로드 빈도△세션 시간△지역 등이 고려된 것으로 알려졌다. 참고로 세션 시간은 영상을 시청한 채널에서 다른 영상을 시청하거나 머무는 시간을 말한다. 여기서 마치면 부족한 보다 개인 맞춤형 추천을 위해 사용자가 시청하는 주제와 시청하지 않는 주제를 인지하고 과거의 시청 데이터를 참고해 최종 추천 영상 목록이 완성된다.

한국언론진흥재단이 발간한 연구보고서 유튜브 추천 알고리즘과 저널리즘은 △ 방송사 등 전통 매체로 제작된 영상 △ 길고 인기 있는 키워드가 포함된 제목 △ 생중계 콘텐츠 등이 우선순위에 오르는 경향이 있다고 분석했다. 유튜브 이용자가 보는 영상의 70%는 추천 영상에서 발생했는데 유튜브 측에서도 이 사실을 인정했다.

넷플릭스의 경우는 어떨까. 약 1억 9300만명의 가입자를 가진 넷플릭스. 넷플릭스에 올라오는 영상은 유튜브에 올라오는 영상과 다르다. 그러나 둘 다 영상을 제공하고 때로는 추천해야 한다는 점에서는 비슷하다.

리드헤이스팅스넷플릭스의 최고경영책임자(source: O’Reilly Media, Inc.)

넷플릭스 창업자인 리드 헤이스팅스와 마크 랜돌프는 창업 초기부터 영상을 추천하는 노하우를 쌓아왔다. 넷플릭스는 DVD 대여 서비스였다. 서비스를 시작한 해가 1998년이니 비디오 대여 시대가 끝나고 DVD 대여가 인기를 끌 때였다. 넷플릭스는 개인화된 추천을 제공하기 위해 이때부터 고객의 DVD 대여 정보를 기반으로 영화를 추천하는 알고리즘을 구축했다. 알고리즘 이름은 시네매치였다. 알고리즘의 궁극적인 목표는 사용자가 어떤 영화를 본 후에 매길 평점을 예측하는 것이었다. 기다리지 않고 영상을 재생하면 바로 볼 수 있는 지금과는 달리 DVD 타이틀을 주문해 집에서 받으려면 며칠이 걸렸다. 다음에 보고 싶은 DVD를 빨리 보려면 미리 주문해야 한다. 추천 알고리즘은 이용자가 다음 영상을 선택하는 데 도움이 됐다.

이에 만족하지 않고 2006년에는 넷플릭스 프라이즈(Netflix Prize)라는 이름의 경연 대회를 개최해 영화 데이터베이스를 공개하고 추천 결과를 개선할 수 있는 알고리즘 경쟁을 벌이도록 했다. 우승은 Bell Kor’s Pragmatic Chaos 팀이 차지했는데, 추천 알고리즘을 약 10.06% 개선했다. 10%를 넘은 다른 팀인 엔즈엠블과 점수는 같았지만 10분 먼저 답을 제시해 1위를 차지했다. 이때 개발된 알고리즘은 지금도 사용되고 있다고 한다.

본격적으로 스트리밍 서비스가 시작된 시기는 넷플릭스가 문을 연 지 10여 년이 지나서였다. 넷플릭스는 2007년 미국에서 영상 스트리밍 서비스에 첫발을 내디딘다. 그 후 캐나다를 시작으로 서비스 구역을 전 세계로 넓혔다. 현재 190여 개 국가에서 넷플릭스가 서비스되고 있다.

회사는 콘텐츠 확보를 위해 제작에 투자해 독창적인 생태계를 구축해 왔다. 보고 싶은 콘텐츠가 넷플릭스에만 있으면 이용자가 구독 결제를 할 확률은 올라간다. 이렇게 구독자를 확보했으면 플랫폼 안에서 지루할 틈 없이 영상을 소비할 수 있어야 한다. 이때 필요한 게 영상 추천이다 다음 달, 다음 달까지 구독을 계속하게 하는 힘은 여기서 나온다. 매력적인 콘텐츠가 어느 정도 확보됐다면 회사의 핵심 과제는 영상 추천 엔진 구축으로 넘어가게 된다. DVD 대여 이용자와 스트리밍 서비스 이용자의 사용 패턴도 달라졌다. 서비스가 전 세계로 확대될수록 영상을 추천할 때 고려하는 것도 늘었다.

Netflix는 독자적인 추천 알고리즘의 방식에 대해 비교적 투명하게 공개하고 있다. 만약 추천 시스템에 의혹을 품는 사람이 있다면 의문은 어느 정도 해소될 수 있을 것이다. 기본적으로 수집되는 유저 정보에는, △좋아요△선택하는 영상과 선택하지 않는 영상△시청 시간대△영상 시청 기기등이 있습니다. 자세히 들어가면, 영상을 시청해 되감거나 멈추거나 하는 지점, 끝까지 시청 하고 있는지 여부도 파악할 수 있다.

분석된 결과를 가지고 이용자를 분류한다. 비슷한 시청 패턴을 가진 사람들은 같은 그룹군에 묶이게 된다. 철저한 사용자 행동 데이터를 바탕으로 구성된다.

넷플릭스 추천 시스템에는 특별한 방식이 하나 더 추가된다. 영상에 태그를 다는 것이다. 모든 작업은 사람이 직접 영상을 보고 수행한다. 아직은 인공지능보다 사람이 더 잘할 수 있는 작업이기도 하다. 가이드라인을 바탕으로 영상에는 적당한 태그가 부착되지만 화려한 출연자 우주 관련 영상 같은 특징이 태그로 붙일 수 있다.

플랫폼 유저로부터 수집한 정보와 영상에 붙은 태그 정보는 머신 러닝을 적용한 알고리즘을 이용해 분석된다.

넷플릭스도 추천 알고리즘으로 논란이 된 바 있다. 출연자가 주로 백인인 영화를 흑인 사용자에게만은 흑인이 들어간 썸네일을 걸어 영상을 추천한다는 문제가 제기됐다. 이에 대해 넷플릭스는 머신러닝 알고리즘에 따른 결과일 뿐 연령대와 인종, 성별 등의 정보는 수집하지 않는다고 해명했다.

마찬가지로 다른 두 서비스인 유튜브와 넷플릭스는 추천 알고리즘 개선에 신경을 쓰고 있다. 추천 알고리즘이 플랫폼을 성장시키는 핵심 요소임을 잘 알고 있기 때문이다. 클릭할 가능성이 높은 영상이 제안될수록, 유저는 보다 오래 플랫폼에 머무르게 된다. 만약 당신이 유튜브나 넷플릭스가 추천하는 영상에서 밤샘하는 날이 늘었다면 매 순간 사용자를 지켜보는 추천 알고리즘의 역할이 컸음을 기억하자.

테크플러스 에디터 나유권 [email protected]

error: Content is protected !!