“비꼬는 어조까지 알아챈다”… UNIST, 목소리로 표정 바꾸는 AI 개발

[연구그림] C-MET와 기존 방법들의 감정 편집 결과 비교. UNIST 제공

“잘한다”는 말은 어조에 따라 칭찬이 될 수도, 비꼼이 될 수도 있다. 이러한 음성 속 미묘한 감정을 인식해 영상 속 화자의 표정을 바꾸는 기술이 나왔다.

원하는 감정을 보여주는 고품질 사진 없이도 학습 과정에서 보지 못한 감정까지 표현할 수 있고, 감정 표현 정확도도 최신 기술보다 약 14%p 높아졌다. 가상 인간과 교육용 아바타, 상담 AI, 영상 콘텐츠 제작 등에 필요한 자연스러운 얼굴 표정을 더 쉽고 정확하게 만들 수 있게 됐다.

UNIST 인공지능대학원 김태환 교수팀은 음성 신호에서 감정을 추출해, 별도의 참조 이미지 없이도 영상 속 화자의 표정을 원하는 감정으로 바꿀 수 있는 인공지능 모듈인 C-MET(Cross-Modal Emotion Transfer)을 개발했다고 18일 밝혔다.

C-MET은 음성에 담긴 감정의 ‘변화량’을 얼굴 표정의 ‘변화량’으로 옮기는 것이 특징이다. 중립적 음성과 감정이 실린 음성의 차이를 벡터, 즉 변화의 방향과 크기를 담은 숫자 정보로 계산하고, 이 벡터가 얼굴에서는 어떤 표정 변화로 나타나는지를 AI가 학습하는 것이다.

이 덕분에 음성 안에 말의 내용과 감정이 함께 섞여 있어도, 표정 변화에 필요한 감정 신호를 따로 읽어낼 수 있다. 같은 문장이라도 어조가 달라지면 입꼬리, 눈썹, 눈 주변 움직임이 다르게 나타나도록 표정을 바꿀 수 있는 것이다.

또 각각의 감정에 ‘슬픔’, ‘기쁨’ 같은 이름표를 붙여 학습시키는 방식과 달리, 두 감정 사이의 변화량을 보기 때문에 비꼼, 공감, 카리스마처럼 학습 과정에서 직접 보지 못한 미묘한 감정도 얼굴 표정에 반영할 수 있다. 감정이 담긴 음성을 입력으로 쓰기 때문에, 감정을 표현한 고품질 정면 사진과 같은 참조 이미지도 필요없다.

이 기술은 최신 말하는 얼굴 표정 편집 기술인 ‘이디톡(EDTalk)’과 비교해 감정 표현 정확도가 14%p 이상 높았다. C-MET은 부품처럼 끼워 쓸 수 있는 모듈 형

태 인데, 기존 EDTalk 모델의 표정 인코더를 C-MET으로 대체해 실험한 결과, MEAD 데이터셋 기준 감정 정확도가 41.99%에서 55.91%로 향상됐다.

또 다른 말하는 얼굴 생성 모델인 ‘PD-FGC’에도 C-MET을 적용한 결과 감정 정확도가 33.36%에서 36.82%로 높아졌다. 두 모델 모두에서 추론 속도도 빨라졌다. C-MET이 특정 모델에만 묶이지 않고 여러 얼굴 생성 AI 모델에 적용될 수 있음을 보여주는 결과다.

김태환 교수는 “이번 연구는 참조 이미지 없이 음성만으로 얼굴 영상의 감정을 바꿀 수 있다는 점에서 기존 방식들의 한계를 실질적으로 해결했다”며 “가상 인간 제작, 영화·콘텐츠 후반 작업, 감정 인식 AI 등 다양한 분야에 폭넓게 활용될 수 있는 기반 기술”이라고 설명했다.

이번 연구 최찬혁 UNIST 인공지능대학원 석사과정생이 제1저자로 참여했으며, 성과는 인공지능 및 컴퓨터 비전 분야 최우수 국제학회 CVPR(Computer Vision and Pattern Recognition) 2026에 채택됐다.

기자의 다른기사

“비꼬는 어조까지 알아챈다”… UNIST, 목소리로 표정 바꾸는 AI 개발

인공지능대학원 김태환 교수팀 ‘성과’
비꼼·공감 등 학습 않은 감정 표정 구현
최신 기술보다 감정표현 정확도 14%p↑
CVPR 채택…가상인간·상담AI 활용 기대

울산 삼산동 ‘디자인거리 공영주차장’ 이달 문연다

울산서 양수 터진 임신부, 119 공조로 서울서 극적 출산

현대차 노조, 임금협상 결렬…파업권 확보 절차 돌입

‘김상욱호’ 울산시 인수위 16일 출범…위원장 오문완 교수 내정

민선9기 울산, 2차 공공기관 이전 ‘발등의 불’

[진희영의 경주남산 답사기] 흔적조차 희미한 옛 절터에 깃든 신라 천년의 불심

[교단일기] 학부모 공개수업을 바라보는 일상 이야기

[김진영의 울산여지도] 금곡, 엄흥도의 흔적이 남은 철의 요새