[앵커]
국내 연구진이 물체의 무게와 속도 같은 물리 정보를 스스로 추론해, 화면에 어울리는 현실감 있는 소리를 만들어내는 인공지능 기술을 개발했습니다.
권석화 기자가 보도합니다.
[기자]
영화 '쥬라기 공원'의 거대한 공룡이 걸어오는 장면에서 관객들은 화면만 봐도 땅이 울리는 묵직한 소리를 떠올립니다.
하지만 지금까지의 '영상-음향 생성 AI'는 화면 속 사물의 형태나 움직임만 분석할 뿐 질량과 속도 같은 물리적 특성은 제대로 이해하지 못했습니다.
이번에 국내 연구진이 개발한 인공지능은 주변 환경과 움직임의 맥락을 분석해 영상 속 물리적 정보를 추론하고, 소리 생성 과정에 반영하는 기술입니다.
연구팀은 영상과 소리 데이터를 반복 학습시키는 데 그치지 않고, 별도의 AI 모듈을 통해 물체의 질량과 속도 변화를 추정한 뒤 음향 생성 과정에 반영하도록 했습니다.
특히 멀티모달 AI를 활용해 물체의 크기와 움직임을 분석하고, 3차원 공간 복원 기술까지 적용해 실제 속도와 충돌 강도를 보다 정교하게 계산할 수 있도록 했습니다.
단순히 화면 속 장면에 맞춰 소리를 입히는 수준을 넘어, '왜 이런 소리가 나야 하는지'에 대한 물리적 원인까지 인공지능이 이해하도록 설계한 겁니다.
[오 태 현 / KAIST 전산학부 교수 : "기존에는 이런 비디오가 들어왔을 때 어떤 소리가 나야 되는지 헷갈리던 그런 AI가 이런 것들을 더 잘 구분하는 물리적인 양에 따라서, 조건에 따라서 어떤 소리가 나야 되는지 좀 더 잘 민감하게 반응하고 조금 더 이해를 잘하는 그런 모델이 이제 탄생하게 되는 거죠."]
이 기술은 앞으로 영화와 게임, VR 콘텐츠의 음향 제작을 돕는 것은 물론 사람처럼 주변 상황을 이해하고 반응하는 로봇을 개발하는 데도 활용될 수 있을 것으로 기대됩니다.
YTN 사이언스 권석화 입니다.
YTN 사이언스 권석화 (stoneflower@ytn.co.kr)
[저작권자(c) YTN science 무단전재, 재배포 및 AI 데이터 활용 금지]