“멀티모달 AI 왜 똑똑한가 했더니”… UNIST, ‘비밀의 수학적 공식’ 풀었다

인공지능대학원 윤성환 교수팀 연구 성과 성능 향상 학습법 ‘DML’ 제안·실험 검증 노이즈 등 강한 차세대 AI 설계 기반 마련

2026-06-28 정수진 기자

[연구그림] 다양한 형태의 데이터를 함께 학습할 때 나타나는 ‘합성곱 스무딩’ 효과. UNIST 제공

이미지나 소리, 텍스트 등 다양한 형태의 데이터를 함께 학습하는 멀티모달 AI가 왜 한 종류의 데이터만 학습한 AI보다 더 정확하고 안정적인지 수학적으로 설명됐다.

UNIST 인공지능대학원 윤성환 교수팀은 멀티모달 인공지능이 단일모달 인공지능보다 더 좋은 성능을 내는 원리를 ‘손실 지형’의 평탄화 관점에서 규명했다고 28일 밝혔다.

멀티모달 학습은 이미지, 음성, 텍스트처럼 서로 다른 ‘모달리티’의 데이터를 함께 활용해 AI가 같은 대상이나 상황을 더 잘 이해하도록 하는 학습 방식이다. 일반적으로 단일모달 학습보다 성능이 뛰어나다고 알려졌지만, 그 이유를 실제 딥러닝 학습 과정과 연결해 설명하는 이론적 근거는 부족했다.

연구에 따르면, 음성이나 이미지와 같은 여러 모달리티의 데이터를 함께 학습하는 경우 손실 지형이 더 평탄해져 학습 과정에서 배우지 못한 상황에 대응하는 능력인 ‘강건성’이 향상된다.

손실 지형은 AI가 학습 과정에서 겪는 오차와 모델 내부 설정값들의 관계를 산과 골짜기 같은 공간으로 나타낸 개념인데, 넓고 완만하면 경험하지 못한 새로운 데이터가 들어와도 성능을 안정적으로 유지하기 쉽다.

[연구진사진] 윤성환 교수와 이재준 연구원. UNIST 제공

연구팀은 손실 지형이 평탄화되는 이유를 서로 다른 데이터가 오차의 거친 변화를 평균 내듯 완화하는 수학적 ‘합성곱 스무딩 효과’로 설명했다. 이미지 하나만 보고 학습할 때 생기는 뾰족한 오차 변화가 음성이나 문장 정보와 함께 학습되면서 눌리고 퍼지는 것이다.

이 같은 증명을 기반으로 멀티모달 학습 성능을 더 높일 수 있는 새로운 학습법인 ‘분포 기반 멀티모달 학습(DML, Distributional Multimodal Learning)’도 제안했다.

기존 멀티모달 학습은 이미지 하나와 그에 정확히 대응하는 음성이나 문장 하나를 고정된 쌍으로 묶어 학습하는 반면, DML은 같은 정답 범주 안에서 서로 다른 모달리티의 데이터를 무작위로 다시 짝짓는 방식이다. 이 방식이 학습 데이터 조합을 훨씬 다양하게 만들면서, 평탄화 효과가 극대화된다.

여러 종류의 멀티모달 실험용 데이터셋에서 DML의 성능을 검증한 결과, DML은 기존처럼 정해진 데이터 쌍만 학습하는 방식보다 분류 정확도가 높았다. 또 사진을 보고 맞는 설명문을 찾거나, 설명문을 읽고 맞는 사진을 찾는 실험에서도 더 많이 정답을 맞혔다.

이번 연구는 UNIST 인공지능대학원 이재준 연구원이 제1저자로 참여했다.

연구팀은 “이번 연구는 멀티모달 AI가 왜 더 강건하게 일반화될 수 있는지에 대한 이론적 근거와 그 근거를 좀 더 활용한 단순하지만 효율적인 새로운 멀티모달 샘플링 학습 방법을 제시했다”며 “향후 데이터를 보다 효율적으로 활용하면서도, 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것”이라고 강조했다.

이번 연구는 인공지능 분야 세계 최고 권위의 국제 학술대회인 국제 머신러닝 학회 (ICML 2026)에서 발표될 예정이다. 올해 ICML은 다음 달 6일부터 서울에서 열린다.