멀티모달 사례 및 인터랙션 제안[공지][UX스터디] 자율주행 맥락의

자율주행 맥락의 멀티모달

글 : 최다혜(연세대 정보대학원 UX트랙 석사과정)

자동차의 자율주행화가 진행되면서 차량이 단순 이동수단에서 생활영역으로 확장될 것으로 예측된다. 또한 생체인식센서 활용 등 다양한 모달리티를 제공할 수 있는 기술적 조건이 마련됨에 따라 차량과 사용자가 상호작용할 수 있는 방법이 다양해지고 있다. 이에 따라 자동차 브랜드는 풍부한 사용자 경험을 제공하기 위해 터치, 음성, 생체신호 등 다양한 멀티모달 요소에 높은 관심을 보이고 있다.

<그림1: 현대자동차 지문인식 기술>

스마트 차량은 일반적인 스마트 기기에 비해 입출력 인터랙션 방법이 가장 다양해지고 있다. 또 자율주행 자동차는 공간 내에서 할 수 있는 다른 활동(Activity) 범위가 운전을 넘어 매우 다양해지기 때문에 안전하고 만족스러운 사용자 경험을 제공하기 위해서는 차량 내/외부 상황 및 활동별로 각기 다른 최적의 멀티 모달리티를 제공해야 한다.

멀티모달 인터랙션 1.1 멀티모달이란 무엇인가?모달리티는 감각의 유형으로 인터랙션 과정에서 사용되는 커뮤니케이션 채널로 정의할 수 있다[1]. 예를 들어 시각과 청각은 모달리티의 종류가 다른 인터랙션 방법이다. PC에서 문자를 입력하기 위해 사용하는 키보드, 스마트폰 화면을 터치하고 물리적 볼륨 버튼을 누르는 것 모두 각각의 모달리티다.
멀티모달 인터랙션은 단일 방법이 아닌 다양한 모달리티를 통합적으로 이용해 기기와 소통하는 것을 말한다. 사용자는 다양한 모달리티를 사용하여 명령을 입력하고 기기는 그에 따른 반응을 여러 방법으로 출력한다. 멀티모달 종류로는 터치, 음성, 얼굴 표정, 제스처, 바이오메트릭스(생체 신호) 등이 있다. 멀티모달을 적용하면 사용자는 다양한 요구사항을 음성, 터치, 제스처 등 다양한 방식으로 표현할 수 있다.

<표 1: 다양한 입력 모달리티와 디바이스 예 [1]>

사용 목적이 시청에 국한된 TV, 청취에 한정돼 있는 블루투스 이어폰에도 음성명령, 터치, 압력을 가하는 포스터값(Force Touch), 제스처, 카메라 등 다양한 멀티모달이 적용돼 있다. 차량은 이러한 기존 디바이스를 모두 사용할 수 있는 공간인 동시에 새롭고 보다 다양한 활동이 일어나는 공간이기 때문에 그야말로 멀티모달 파티가 일어날 수 있는 잠재력이 큰 공간이라 할 수 있다. 또 생체정보를 활용하면 사용자가 직접 명령하지 않고도 사용자의 상태를 차량이 파악할 수 있기 때문에 생체신호를 활용한 멀티모달로 제공할 수 있는 서비스가 무한해진다.

1.2. 자율주행 모빌리티에 멀티모달이 왜 중요한가?자율주행 환경에서 멀티모달 인터랙션 적용이 중요한 이유는 상황별로 최적화된 멀티모달이 1) 차량과 사용자의 상호작용성을 높이고 2) 자율주행차에 대한 사용자의 신뢰감과 지각된 안전감을 높이고 3) 사용성도 향상시킬 수 있기 때문이다.

상호작용성 수준을 높이는 멀티모달 자율주행차에서는 운전모드 외에도 휴식, 엔터테인먼트, 대화, 업무 등 NDRT(Non-Driving Related Task) 상황이 발생한다. 따라서 새로 적용되는 차량 내 문맥을 이해하고 각 상황에 맞는 멀티모달을 적용할 수 있어야 한다. 기존 멀티모달 요소에 음성인식뿐만 아니라 생체정보를 활용한 멀티모달을 더해 상호작용성 수준을 높이고 역동성과 실재감 있는 경험을 제공할 수 있을 것으로 기대한다. 특히 생체 신호나 제스처 멀티모달을 적용한다면 주행 경험을 즐겁게 하고 엔터테인먼트 관점에서 자율주행차의 유희적 가치를 높일 것이다.
2) 신뢰감, 안전감을 전달하는 멀티모달 자율주행차의 가장 큰 이슈 중 하나는 신뢰감과 지각한 안전감이다. 학계와 업계에서는 특히 자율주행차 제어권 상황(TOR)에서의 정보 제공 방식 등 탑승객의 신뢰감과 지각된 안전감을 높이기 위한 다양한 연구를 진행하고 있다.
시장조사 전문기업 엠블렌트렌드모니터가 전국 만 19세~59세 운전면허 소지 성인남녀 1,000명을 대상으로 ‘자율주행자동차’와 관련한 인식조사를 실시한 결과 자율주행차 상용화에 대해 33.4%가 불안감을 나타냈고 20.1%가 위험하다고 인식했다. 부분자율주행차인 Level3에 대해서는 응답자의 절반 이상이 도입에 찬성했으나 완전자율주행 Level5에 대해서는 20.6%만이 도입에 찬성했다[2]. 이 같은 결과는 일반 소비자에게 자율주행에 익숙하지 않은 기술이기 때문에 오류와 사고 가능성을 실제보다 높게 인식하고 문제 상황에 대비한 통제성을 갖고 싶어하는 것으로 해석할 수 있다. 통제감은 사용자에게 대상을 직접 조작하도록 하여 언제든지 통제권을 수행할 수 있도록 하는 UX의 중요한 속성이다[3].
이처럼 인간 운전자보다 자율주행 AI 사고 발생 확률이 적더라도 지각한 안전감은 실제 안전성에 비해 크게 떨어진다. 이때 멀티모달을 통해 탑승자의 안전감 및 신뢰감 인식과 관련된 각각의 상황에 적합한 인터랙션을 제공해 신뢰감과 지각된 안전감을 높일 수 있다. 에이전트가 라이팅(빛), 사운드, 디스플레이 등으로 충분한 정보를 제공하거나 사용자를 안심시킬 수 있는 환경을 조성하는 등의 멀티모달 활용 방법이 있다.
3) 사용성을 향상시키는 멀티모달 운전 상황에서는 우리에게 익숙한 기존 HMI 멀티모달인 물리버튼, 터치컨트롤, 스위치 방식으로도 충분히 쉽고 편리한 경험을 제공하지만 NDRT 상황에서는 사용자의 시선, 자세, 방향 등이 다르고 손이 항상 스티어링 휠에 위치하지 않기 때문에 전통적인 버튼, 터치멀티모달에서는 사용성이 떨어질 수 있다.
예를 들어 자율주행 모드에서 사용자가 뒷좌석의 다른 승객과 대화하는 상황을 생각해보자. 사용자가 좌석 방향을 바꿔 윈실드를 등에 업고 있다면 음악 볼륨을 줄이거나 에어컨을 켜는 등의 조작을 하고 싶을 때 센터페시아 또는 스티어링 휠에 있는 버튼을 이용하는 것이 번거롭다. 간단한 설정을 조작하기 위해 사용자는 등을 돌리고 버튼을 눌러야 하며 기능 수행까지의 시간이 지연될 것이다. 이런 사소한 불편함이 수차례 반복되면 사용자 만족도를 떨어뜨리는 요소가 된다. 이때 음성인식 모달리티를 제공하면 단순히 에이전트를 호출하여 사용자가 어느 방향으로 앉아 있어도 쉽게 원하는 조작을 할 수 있어 사용자 주도성을 높일 수 있다.

2. 자율주행 멀티모달의 현재는 지금까지 자동차 업계에서는 어떤 멀티모달을 적용하고 있을까? 자율주행 컨셉트카를 포함한 주요 자동차 브랜드의 멀티모달 적용 최신 사례는 다음과 같다.

2.1. 수동적 차량 조작 멀티모달 사례 BMW는 자체 운영체제 iDrive7.0에서는 운전자가 주행 중 화면을 보지 않고도 원하는 기능을 수행할 수 있도록 제스처 컨트롤 기능을 제공한다. 센터 디스플레이 앞에서 손바닥을 펴거나 손가락을 빙글빙글 돌리는 등의 제스처를 통해 전화를 받는다/거부, 볼륨 조절뿐만 아니라 이전에(REW)/다음으로(FF) 등의 기능을 수행할 수 있다.

<그림2 : BMW iDrive 7.0 제스처 인터랙션>

<그림 3: BMW iDrive 7.0 제스처 인터랙션 예 [5]>

BMW는 2021년도 기준 아직 자율주행 레벨2 수준으로 모든 주행에서 운전자가 전방을 주시하고 직접 운전해야 하기 때문에 운전자의 주의를 다른 곳으로 돌리지 않고 원하는 조작을 시키는 이러한 제스처 방식이 효과적이다. 그러나 차가 스스로 달릴 수 있는 레벨3 이상의 자율주행 레벨에서는 센터 디스플레이를 향해 제스처 액션을 취하는 게 좋은 멀티모달 인터랙션이라고 할 수 없다. 사용자가 전방을 주시하지 않는 상황이 있거나 몸을 돌리는 상황이 빈번하게 발생하기 때문에 인터랙션을 센터 디스플레이에 한정할 필요가 없고 탑승자가 어느 위치에 있더라도 원하는 정보를 확인해 차량을 조작할 수 있어야 한다.

자율주행 레벨2까지는 멀티모달 인터랙션 목표가 운전 중 안전하고 용이한 Manipulation이라면 레벨3 이후에는 사용자와 차량의 Communication을 위한 것으로 변화해야 한다. 운전자와 보다 원활하게 소통하는 차량이 객관적 안전성과 지각된 안전감을 높이고 신뢰성을 높이기 위해서다.

벤즈의 완전 자율주행 콘셉트카 F015는 차량 내 도어를 스크린화해 탑승자가 어느 위치에 앉아있든 각자에 가까운 도어로 내비게이션 확인, 음악 조절, 기타 기능 조작이 가능하다.

<그림 4: BenzF015>

벤즈F015에서 탑승자가 앉은 자리에서 손쉽게 디스플레이를 확인하고 터치 조작할 수 있도록 한 것은 사용성을 높인 사례로 보인다.

2.1. 생체정보를 활용한 능동적 멀티모달 사례 생체정보(뇌파, 심박수, 표정 등)는 운전자의 졸음상태, 건강상태 등 실시간으로 변하는 다양한 정보를 확인할 수 있는 멀티모달 요소다. 이는 터치, 제스처와 같은 수동적 멀티모달과 달리 차량이 능동적으로 액션을 취할 수 있도록 한다.

기아차는 CES 2019에서 실시간 감정반응 차량제어시스템(Real-time Emotion Adaptive Driving, R.E.A.D. 시스템)을 공개했다. 생체신호 멀티모달을 이용해 차량이 실시간으로 운전자의 감정과 상황에 맞춰 차량의 실내공간을 최적화하는 기술로 미래 자율주행 시대에 적용 가능한 생체 멀티모달 활용의 긍정적 사례다.

<그림5 : 기아자동차 R.E.A.D. 시스템의 심전도 센서(ECG)>

<그림6 : 기아자동차 R.E.A.D. 시스템 표정인식 3D 카메라 센서>

자율주행 레벨2 이하 차량에서는 생체신호를 통해 운전자 안전을 위한 건강상태 파악이 주된 목적이 된다. 기아차 R.E.A.D 시스템은 스티어링 휠에 심전도 센서를 부착해 심장 박동수와 피부 전도율을 통해 생체 정보를 추출한다. 인간 운전자가 꼭 필요한 레벨2 이하 차량에서는 이러한 멀티모달을 통해 운전자 상태에 따라 졸음방지 경고, 위험상황 대응을 할 수 있다.

그러나 자율주행 레벨3 이상일 경우에는 운전자의 건강상태를 넘어 감정파악을 중요한 커뮤니케이션 요소로 고려해야 한다. 감정 센싱이 가능한 차량은 NDRT(운전 외 활동) 상황에서 운전자의 감정 상태에 맞는 음악, 온도, 조명, 향기 등을 능동적으로 제공할 수 있다. 기아차 R.E.A.D 시스템은 차량 내 대시보드에 위치한 카메라와 얼굴인식 센서를 멀티모달로 활용해 사용자 건강정보 파악뿐 아니라 표정인식을 통해 감성주행(Emotive Driving) 공간을 조성한다.

다만 전방 디스플레이에 위치한 카메라와 얼굴인식 센서의 부착 위치를 향후 완전 자율주행차의 공간 변화에 따라 조정해야 하고 다수의 탑승자가 있을 때 누구의 표정과 감정에 맞춰 공간을 조성해야 하는지 우선순위까지 파악할 수 있어야 한다.

3. 자율주행 멀티모달의 향후 방향 및 제안 차량 내 적용 가능한 멀티모달은 빛(Lighting), 시각적 디스플레이(Visual Display), 시선(eye-tracking), 움직임(movement), 제스처, 음성 대화 등 다양하다. 그렇다면 레벨4 이상의 자율주행차에서는 각각의 모달리티를 언제, 어떤 서비스 제공에 적용해야 할까?자율주행 멀티모달은 우선 맥락(context) 읽기 측면에서 방향성을 고려해 볼 필요가 있다. 레벨4 이상 자율주행차는 운전자가 항상 필요하지 않기 때문에 차량 내 활동의 자유도가 높아진다. 자율주행차로 할 수 있는 활동은 크게 3가지로 휴식/편의, 엔터테인먼트, 업무/학습 등으로 분류되며 [7], 제어권이양(TOR)이 필요한 상황 발생 시 주행활동도 포함된다. 자율주행차 멀티모달은 이 같은 사용자 활동 맥락에 맞춰 적용돼야 한다. 따라서, 각 상황에 맞는 멀티모달을 다음과 같이 제안하고, 각 맥락별 멀티모달 요소 제공에 따른 사용자 요구 및 만족도 평가 연구의 필요성을 제기한다.

<그림7: Volvo 360c conceptcar의 다양한 맥락: 수면, 독서, 대화, 식사>

3.1. 제어권 이양 상황 제어권 이양이 필요한 상황에서 중요한 것은 사용자의 빠른 각성과 상황 이해이다. 사용자가 어떤 활동을 하고 있더라도 빨리 도로 상황을 인지시키고 제어권을 되찾을 수 있도록 해야 한다. 따라서 운전자가 어느 방향을 향하고 있더라도 TOR 알림을 전달할 수 있도록 시각(빛)과 청각(음성, 사운드 피드백) 모달리티를 함께 사용하여 안내하는 것이 효과적일 것이다. 또 디스플레이 설명과 음성 안내를 병행해 도로 상황을 이해할 수 있도록 도와야 한다.TOR 상황 종료 후에는 불쾌감과 스트레스를 인식하게 되는데 [8] 갑자기 높아진 운전자의 스트레스를 해소시키기 위해 ECG(심전도)와 GSV(피부전도도) 생체정보를 측정해 음악, 빛, 향기 등으로 마음을 안정시키는 분위기까지 만들어야 한다.

3. 2. 휴식상황 사용자가 잠을 자려고 하거나 휴식상태일 때는 최대한 방해받지 않고 쾌적한 환경을 조성해야 한다. 이때 사용자는 디스플레이를 바라보거나 버튼을 누를 수 없는 상황이기 때문에 음성명령 또는 박수와 같은 소리, 허공에 그리는 간단한 제스처를 인식하는 것이 편리하며, 이에 따른 피드백이 필요하다면 음성 피드백이 적절하다. 그러나 온도조절 등과 같이 사용자 명령에 따른 단순 기능 수행이라면 휴식을 자칫 방해할 수 있는 긴 음성 피드백 대신 기분 나쁘지 않은 벨로 기능 수행 여부를 전달하는 것도 바람직할 것이다.

3.3. 엔터테인먼트 상황 자율주행차에서의 엔터테인먼트 상황에서는 몰입감 있는 경험을 제공하는 것이 중요하다[9]. AR/VR 및 3D 카메라를 사용하여 제스처와 시선, 표정을 인식하고 조명의 변화와 함께 서라운드 사운드와 진동 피드백을 제공한다면 보다 입체적인 엔터테인먼트 경험을 제공하여 사용자 만족감을 높일 수 있을 것이다.

3.4. 업무/학습상황 업무 또는 학습상황은 집중을 방해하지 않는 멀티모달의 제공이 필요하다. 일반적으로 업무를 하거나 학습하는 상황에서는 사용자가 테이블을 활용할 것이다. 따라서 고개를 들지 않고도 원하는 기능을 조작할 수 있도록 테이블 터치 및 모션 인식을 활용할 수 있다. 차량 피드백이 필요한 경우 사용자의 호흡을 감지해 집중도를 파악하고 집중도에 따라 사용자를 방해하지 않는 수준의 얕은 진동 또는 라이팅 알림으로 피드백을 주는 것이 적절하다.

이 핸드북에서는 자율주행차와 사용자의 상호작용을 위한 멀티모달의 중요성과 적용 사례 및 방향성에 대해 다뤘다. 앞으로 자율주행차 멀티모달의 궁극적인 목표는 앞서 제안한 맥락 읽기에서 보다 앞선 생각을 읽게 될 것이다. 사용자는 앞으로 각자가 가진 웨어러블 기기를 연결해 ECG(심전도), EEG(뇌파), GSV(피부전도도) 등 차량과 더 많은 생체정보를 공유할 수 있게 되며 사용자가 직접 명령하지 않고도 생각과 감정을 파악해 능동적으로 서비스를 제공하게 될 것이다. 맥락 읽기와 생각을 읽기 위한 다양한 멀티모달 활용을 통해 향후 자동차 브랜드가 더욱 풍부하고 몰입감 있는 모빌리티 경험을 제공할 것으로 기대한다.

참고문헌 [1] 임미정, 박봄. (2006) 멀티모달 인터랙션을 위한 사용자 병렬 모달리티 입력 방식 및 입력 동기화 방법 설계. 대한인간공학회지, 25(2), 135-146.[2] 엠블렌 트렌드 모니터(2020). 2020 자율주행자동차 인식조사 http://www.trendmonitor.co.kr/tmweb/trend/allTrend/detail.do?bIdx=1874&code=0304&trendType=CKOREA [3] 김진우(2014). 경험 디자인. 앵글러픽스 [4] Bimmer Tech YouTube Channel (2021) http://youtu.be/VADqo_8cBIU [5] Autosonics YouTube Channel (2021) https://youtu.be/QaOnDrF8BZ4 [6] 기아자동차 CES에서 감성주행 핵심기술 ‘READ 시스템’을 최초 공개(2019). 연합뉴스 http://www.yna.co.kr/view/AKR20190103071200003 [7] 유채문, 방영환, 유흥식. (2019) 자율주행 자동차의 시트 공간 구성 유형의 분류와 선호도 분석.대한인간공학회지, 38(6), 403-418. [8] Wörle, J., Metz, B., Othersen, I., & Baumann, M. (20). Sleep in highly automated driving : Takeover performance after waking up. Accident Analysis and Prevention, 144,105617. [9] 박명환. (20). 자율주행 시대의 Car Entertainment 서비스.방송과 매체

(본 게시판은 연세대학교 정보대학원 UX트랙-모빌리티 UX세미나에 제출한 개인텀페이퍼입니다.)