YTN 사이언스

위로 가기

[과학의 달인] "칙칙폭폭" 소리 듣자 기차 등장…영상 생성 AI 기술

2023년 06월 01일 16시 48분
■ 오태현 / 포스텍 전자 전기공학과 교수

[앵커]
사람은 특정 소리를 들으면 그 장면을 바로 상상할 수 있는 능력이 있죠. 바로 심상형 공감각이라고 하는데요. 국내 연구진이 이러한 사람의 감각을 AI에 적용해 AI가 소리만 듣고 영상을 스스로 생성하는 기술을 개발했습니다. 오늘 '과학의 달인'에서는 '영상 생성 AI 기술'에 대해 이야기 나눠보겠습니다. 포스텍 전자 전기공학과 오태현 교수와 함께합니다. 안녕하세요.

[인터뷰]
안녕하세요.

[앵커]
교수님께서 개발하신 영상 생성 AI 기술이라는 게 어떤 기술인지 소개해주세요.

[인터뷰]
최근 생성 AI의 발달로 인해서 영상 AI 생성 기술은 이제 대중에게 낯선 기술이 아닐 것 같습니다. 텍스트를 입력해주면 고화질의 영상을 생성해주는 기술들을 기반으로 한 결과들이 많이 공유되고 있고, 서비스들도 활발하게 이뤄지고 있습니다. 이번에 저희가 연구한 기술은 'Sound2Scene'이라고 불리는 기술로, 소리를 듣고 시각적인 장면을 상상해서 그려주는 '영상 생성 AI 기술'입니다.

예를 들어, 사람은 길을 걷다가도 뒤에서 다가오는 자동차 소리를 듣고 피할 수 있죠. 직접 바라보지 않고도 소리에 의지하여 주변 환경을 파악할 수 있습니다. 또, 사람은 소리를 통해서, 실내에서 창밖을 직접 내다보지 않아도 창문 밖의 장면을 시각적인 이벤트로 상상할 수 있는 능력이 있습니다. 예를 들어서, 짹짹거리는 소리가 들리면 "참새가 왔구나"를 알고, "야옹" 거리는 소리가 들리면 "고양이가 왔구나"하는 식으로, 사람은 주변 환경의 소리와 시각적인 이벤트를 연결해서 상상할 수 있는 능력이 있습니다. 이를 심상형 공감각 (Associator)이라고 할 수 있을 것 같습니다.

즉, 실제로 관찰하지 않더라도, 다른 감각을 통해 시각 이미지를 상상할 수 있는 능력이죠. 이번 연구는 그런 "사람이나 동물이 가질 수 있는 심상형 공감각을 AI로 재현해낸 연구이다" 라고 할 수 있을 것 같습니다.

[앵커]
네, 기존에 이런 이미지 생성해줘 하면 만들어주는 생성 기술은 많이 들어봤는데요. 이런 소리로 영상을 생성하는 AI 기술이 이전에도 있었을까요?

[인터뷰]
좋은 질문이신데요. 저희 연구가 소리에서 영상을 생성하는 첫 번째 연구는 아닙니다. 과거에도 다양한 시도가 있었지만, 한정된 소리의 종류만 다룰 수 있는 방법들 뿐이었습니다. 예를 들어, 악기의 솔로 연주를 들려주면 해당 악기 사진을 보여주는 기술은 있었습니다. 악기는 각기 고유한 음색을 지니고 있어 구분하기도 쉽고, 이미지로 생성하기도 상대적으로 쉬웠습니다. 그러나 당시의 AI 기술로는 보다, 다채롭고 복잡한 일상생활과 같은 자연의 소리는 다룰 수가 없었습니다.

본격적으로 일상 물체에 대해 다룬 것은 2019년부터였습니다. 대만의 한 연구팀은 소리로부터 영상 생성을 좀 더 일반화하려는 시도를 시작했습니다. 기존에 한정된 범주의 물체에서 벗어나서, 동물이나 자동차와 같은 최대 9개의 서로 다른 일상 물체에 대한 영상을 생성하는 데까지는 성공했지만, 사람이 인식하기 힘든 저해상도의 결과를 보여주었습니다. 이후에 저희 연구 직전까지 발표된 연구들도 모두 5~9개의 한정된 종류의 장면과 물체만 생성이 가능했었고요.

반면에, 저희 연구는 50가지 이상의 물체와 환경의 소리 및 그 조합을 다룰 수 있게 일반화했다고 볼 수 있습니다. 50가지 이상의 물체와 장면의 종류에 대해서 학습하였고 사람이 봤을 때, 소리로부터 명확하게 인식 가능한 영상 결과를 생성한 첫 연구입니다. 또, AI 모델의 설계상 장면의 종류 수나 범위를 제한하는 요소가 없기 때문에, 추후 더 다양한 학습 비디오를 사용하면 더 다양한 장면과 물체에 대해서도 확장 가능한 방법이라고 생각합니다.

[앵커]
그러니까, 이런 아이디어는 기존에도 있었지만, 최근에 발전된 AI 기술을 만나서 이제는 구현이 가능해졌다. 이렇게 이해하면 좋을 것 같은데요, 그렇다면 지나치게 작은 소리나 지나치게 큰 소리도 인식을 할 수 있는 건가요?

[인터뷰]
일단 첫 번째로 마이크에 소리가 녹음 가능할 만큼은 커야겠죠. 너무 작으면 안 될 것 같고, 또 반대로 마이크의 녹음 한계 볼륨이 있을 텐데요. 그걸 넘는 큰 소리를 녹음하면 전혀 다른 노이즈 소리로 들리는 경험들이 있으실 겁니다. 이 경우에는 예측되지 않는 결과가 나올 수 있을 것 같습니다.

그런데 저희가 연구 중에 볼륨 관련해서 흥미로운 결과를 관찰했는데요. 저희가 만든 AI 모델은 대략 3만 개의 Youtube 비디오 데이터로 학습을 하였습니다. 흥미롭게도 그냥 유튜브 비디오를 계속 보여주면서 학습시켰는데도 불구하고 기차 소리가 작으면 먼 기차가, 큰 기차 소리에는 가까운 기차가 나오는 등, 볼륨과 물체와의 물리적인 거리 관계를 스스로 학습한 결과를 보여주었습니다. 이는 볼륨 크기에 따른 장면의 효과나 물리적인 관계를 AI가 비디오만 시청하고도 스스로 학습 할 수 있었다고 볼 수 있겠습니다.

[앵커]
굉장히 신기하네요. 사람 목소리를 들려주면 음성에 따라 외형이 다른 얼굴이 나오는지도 알 수 있을까요?

[인터뷰]
아쉽게도 현재 저희 Sound2Scene 연구에서는 목소리 차이에 따른 사람을 구분하지는 못합니다. 이는 학습에 사용한 데이터의 차이인데요. 저희가 수행한 Sound2Scene 연구에서는 강아지 짖는 소리, 고양이 우는 소리, 불꽃놀이, 비행기 소리 그런 소리 등 대략 50개의 넓은 범주의 비디오를 사용하여 학습시켰기 때문에, 사람 목소리에 특화되어 있지 않습니다. 그러나 만약 사람의 인터뷰나 대화를 포함하는 학습 비디오를 많이 사용하면 사람의 목소리를 구분하여 얼굴을 생성하는, 목소리 전문 생성 AI를 만들 수 있을 겁니다.

이런 접근방식은 제가 주저자로 2019년에 MIT 연구진과 개발한 'Speech2Face' 연구에 적용되었습니다. 이번 연구의 전신이 된 연구인데요. 이 연구에서는 대규모 유튜브 비디오를 통해 사람 얼굴과 목소리 사이의 관계를 학습해내고 영상 생성까지 가능함을 최초로 보였습니다. 이 'Speech2Face' 연구는 이번에 소개시켜드린 Sound2Scene 과 같은 저명 국제 학회인 CVPR에서 2019년에 발표되었습니다.

정리하자면, 'Speech2Face' 연구에서는 사람 얼굴과 목소리 사이의 관계를 학습시켜서 얼굴을 생성했지만, 이번 프로젝트 'Sound2Scene' 연구에서는 목소리 차이에 따른 사람을 구분하지는 못하더라도 사람의 대화를 녹화한 비디오를 들려줘서 추가 적으로 학습시키면 충분히 가능한 방법이라고 생각합니다.

[앵커]
그러니까 같은 원리이니까, 학습하는 데이터만 바꾼다면 활용이 가능하다. 이렇게 이해하면 좋을 것 같은데요. 그렇다면 구분할 수 있는 소리가 어느 정도로 세분화되어 있는지도 궁금한데 새소리로 예를 들면 짹짹 소리가 나면 그냥 새라고 인식을 하는건지, 아니면 참새나 제비처럼 세부적인 종까지 구분을 해내는 건지 궁금합니다.

[인터뷰]
방금 말씀드렸던 것처럼, 저희 Sound2Scene 모델은 대략 50가지 정도의 넓은 비디오 범주에만 학습이 되어 있어서 새의 종류에 특화된 모델은 아닙니다. 새 종류까지는 아니더라도, 이렇게 넓은 소리 카테고리로 학습했음에도 불구하고 똑같은 물소리는 바다, 폭포, 강, 수중의 다양한 물소리 타입이라든지, 체인톱, 잔디깎이, 트랙터, 자동차, 스노우 모바일 같은 다양한 엔진 소리와 같은 비슷한 종류의 소리를 어느 정도 세분화 할 수 있음은 확인하였습니다.

이러한 데이터에 의한 세분화의 제약은 저희 모델의 디자인 한계는 아니기 때문에 말씀하신 대로, 만약 학습에 사용할 비디오가 다양한 종류의 새와 그 소리를 담고 있다면, Speech2Face와 마찬가지로, 조류 전문 AI 모델을 학습시키는 것도 충분히 가능하겠죠.

[앵커]
아직까지는 새의 종류에 대해서 구분할 수 없다고 하시지만 그래도 참새 소리를 입력하면 영상이 자동으로 생성된다고 하셨는데요. 그렇다면 녹음된 새소리, 자연 새소리도 구분할 수 있을까요?

[인터뷰]
결국, AI의 연산을 수행하려면 컴퓨터를 거쳐야 하기 때문에 자연의 소리도 반드시 먼저 마이크로 녹음되어야 합니다. 때문에, 자연의 소리도 학습에 사용한 유튜브 비디오와 비슷한 품질로 녹음되었다면 문제없이 작동할 수 있습니다. 다만, 사람이 듣기에는 비슷하게 느껴져도 AI가 소리를 듣는 방식은 매우 다르기 때문에 유의해야 합니다.

만약 유튜브에서 흔히 사용되는 마이크 세팅이 아닌 전혀 다른 세팅이라고 한다면, AI 모델 입장에서는 학습할 때 많이 들었던 익숙한 소리가 아니기 때문에 AI 모델이 헷갈려할 수는 있습니다.

[앵커]
그렇군요, 사람의 귀와 AI의 귀는 다를 수 있으니까요. 그렇다면 어떤 원리로 소리만 듣고 영상 생성을 하는지 궁금한데요. 사람이 소리를 듣고 그 장면을 떠올리는 과정과 비슷한지 궁금합니다.

[인터뷰]
네 이번 연구의 원리는 사람의 뇌에서 발견되는 현상인, 소리와 영상의 교차인식 현상을 모방하여 개발되었습니다. 한 연구에서는 뇌의 시각을 담당하는 부분의 활성 패턴을 살펴봤는데요. 사람이 특정 소리 이벤트를 들었을 때, 그와 관련된 시각적 부분에서도 비슷한 반응이 발생했다고 합니다.

예를 들어, 고양이를 보는데 관련된 뇌 부분의 활성 패턴과 고양이 소리를 들었을 때 활성 패턴이 비슷하다는 거죠. 이런 식으로 같은 주제의 소리와 장면은 뇌에서 비슷한 부분을 활성화 시킨다는 것을 알 수 있었습니다.

또 다른 예로, 오프라 윈프리의 실험 사례도 이를 보여주는데요. 2009년 영국의 한 연구팀이 오프라 윈프리와 같이 대중 연예인들에 대한 자극에 대해서 뇌의 신호 패턴을 살펴봤는데요. 이 오프라 윈프리 사진을 보거나, 이름을 쓴 글자를 보거나, 이름을 들었을 때, 모두 뇌의 같은 부분에서 비슷한 활성 반응을 일으킨다는 겁니다.

이러한 심상형 공감각을 AI로 구현하기 위해서, 저희 연구팀은 인공신경망을 이용해서 소리와 영상 사이에서 공통적인 정보를 추출하도록 학습시켰습니다. 그렇게 함으로써 사람 뇌에서 일어나는 비슷한 과정을 AI가 흉내 낼 수 있게 유도하였습니다. 즉, 사람과 비슷한 심상형 공감각 시스템을 구현했다고 할 수 있겠습니다.

[앵커]
네, 말씀을 들어보니 기존 이미지 생성 기술보다 더 고차원적이고 복잡한 알고리즘이 있어야 할 것 같은데요, 이런 데이터 계산을 모두 AI가 하는 걸까요?

[인터뷰]
네 맞습니다. 하지만 AI에게 모두 맡겨서는 학습이 잘 안 됩니다. 소리와 영상은 서로 다른 다양하고 복잡한 정보를 담고 있기 때문에, 이 두 가지를 연결하는 것은 생각보다 매우 복잡한 작업입니다. 이전 연구들이 좋은 결과를 보여주지 못한 것도, 모두 AI에게만 이 두 복잡한 관계를 학습하라고 맡겼기 때문인데요.

이런 어려운 연관성을 학습을 통해 추출하기 위해, 저희 연구팀에서는 조금 더 정제된 절차를 제안하여, 더 명료한 연관성을 유도했습니다.

저희가 제안한 학습 방법은 나무의 접붙이기와 유사한 방식을 사용합니다. 먼저, 영상을 잘 이해하는 “영상 엔코더”와 영상을 잘 생성하는 “영상 디코더”를 이어붙여 영상 생성 전문 모델을 학습시킵니다. 영상을 전문적으로 이해하는 영상 전문 나무를 만드는 거죠. 이렇게 학습이 끝난 영상 전문 나무에서 영상 디코더 부분만 남겨두고 나머지는 잘라냅니다.

그다음은 접붙이기인데요. 이번에는 소리를 영상으로써 이해하는 “소리 엔코더”를 만듭니다. 이 “소리 엔코더”를 학습시킬 때, 미리 학습된 영상 엔코더와 같은 행동을 따라 하도록 학습시킵니다. 즉, 소리를 통해 영상을 이해하는 작업을 학습을 시키는 겁니다.

최종적으로는 이렇게 학습된 “소리 엔코더”를 앞서 만든 영상 디코더에 접붙여서 사용합니다. 그래서 소리만 들어도 그에 맞는 영상을 만들 수 있게 되는 원리입니다. 이렇게 나무 접붙이기와 비슷한 방식으로 학습한 것이 과거 연구들과의 핵심 차이라고 볼 수 있겠습니다.

[앵커]
네, 설명을 들어도 말은 좀 어렵지만 쉽게 이해를 하자면 공부법을 가르쳐 줘서 공부를 시켰다 라고 이해를 하면 좋을 것 같은데요 그렇다면 이 기술이 상용화가 되면 어떤 용도로 사용할 수 있을지 전망을 한 번 들려주시죠

[인터뷰]
네, 상용화가 되면 게임이나 놀이, 엔터테이닝 목적 등에 당연히 활용될 수 있고요. 조금 더 전문적인 응용 사례로, 작곡가나, 사운드 프로듀서들에게 큰 도움이 될 것 같습니다. 보통 이들은 효과음을 찾을 때, 데이터베이스 검색에 많은 시간을 소비하는데요. 이 기술을 이용하면 소리를 “눈으로 볼 수 있는” 영상으로 변환해서 보여주니, 파일 브라우저에서 사진 찾는 것처럼 쉽게 원하는 소리를 찾을 수 있을 겁니다.

또 BGM 같은 배경 소리를 기반으로 어울리는 배경 화면 등을 생성해서 사용하는 Creative AI로도 확장될 수 있습니다. 더 나아가 이 기술은 미래에 AR 글라스 기술과 접목되면, 사회적으로도 매우 유용한 도구가 될 수 있다고 생각합니다. 예를 들어, 청각 장애인이나 노인분들이 뒤에서 차가 오는 소리를 듣지 못했을 때, 이 기술은 그 소리를 시각화해서 빠르게 시각 경고를 보여줄 수 있을 겁니다. 그렇게 되면 텍스트나 음성으로 나오는 경고 설명을 읽거나 듣는 것보다 더 빠르게 상황을 인지하고 대응할 수 있을 겁니다.

[앵커]
오늘 설명해주신 기술은 그야말로 공감의 영역인 것 같은데요. AI의 활용 범위가 더 넓어질 것으로 기대됩니다. 자 말씀 여기까지 듣겠습니다. 포스텍 전자전기공학과 오태현 교수와 함께했습니다. 고맙습니다.


YTN 사이언스 김기봉 (kgb@ytn.co.kr)

거의모든것의과학