사이언스 투데이
과학본색 사이언스 매거진 별별 이야기 내 몸 보고서 날씨학개론 생각 연구소 줌 인 피플 궁금한S

[과학돋보기] 학습으로 인식한다…인간처럼 보고 이해하는 '시각 인공지능'

■ 박종열 / ETRI 시각지능연구실 실장

[앵커]
딥러닝으로 인한 인공지능의 발전은 여러 분야에 접목되며 그 영역이 더욱 커지고 있는데요. 특히 시각 지능을 기반으로 한 인공지능은 실제 생활에 적용되며 다양한 변화를 만들 것으로 전망됩니다. 그래서 오늘 '과학돋보기' 시간에는 '시각 인공지능'에 대해서 알아보도록 하겠습니다. 한국전자통신연구원 시각 지능연구실 박종열 실장과 함께합니다. 안녕하세요?

요즘에도 불법 쓰레기 무단투기를 하시는 분들이 많다고 하는데요. 이런 비양심적 행동을 하는 분들을 감시하는 인공지능이 등장했다고 하는데 어떤 프로그램인가요?

[인터뷰]
저희 ETRI에서 개발한 시각 인공지능 '딥뷰 (Deep View)'기술입니다. 불법 쓰레기 투기를 보면 현장에서 '찰칵' 소리를 내고 "사진이 촬영되었습니다. 투기물을 가져가지 않으면 관련 법에 따라 처벌받게 됩니다"라는 메시지가 나가게 됩니다.

딥뷰 기술은 사람을 알아보고 행동을 인식하는 기술인데요. 사람의 관절 움직임을 보고 행인이 물건을 내려놓는지 또는 던지는지를 알 수 있습니다.

[앵커]
찰칵 사진까지 찍힌다고 하니까 몰래 쓰레기 투기를 하러 왔다가, 놀라서 다시 가지고 갈 것 같은데요. 사실 기존에도 이런 불법 쓰레기 투기를 감시하는 CCTV가 있는 것으로 알고 있거든요.

기존 CCTV와 딥뷰, 어떤 차이가 있나요?

[인터뷰]
기존 CCTV 기술은 정확도가 매우 낮았습니다. 그래서 지방자치단체와 저희가 함께 개발에 나섰는데요. 기존 CCTV 기술은 투기 지역을 지나가기만 해도 경고를 하는 등 잘못된 탐지가 굉장히 많았습니다. 딥뷰 기술은 세밀한 행동을 이해해서 그를 통해서 딥러닝 기반으로 사물을 이해하고 사람을 움직이는 것을 이용해서 행동을 인식하는 기술입니다. 특히 사람의 관절 위치를 찾고 그 사람이 들고 있는 물체를 인식한 다음에 사람과 물체의 관계를 모델링하는 방식으로 투기 행동을 인식합니다.

여기서 포인트는 사람의 관절 움직임을 통해 행동을 인식하는 기술하고 사람이 들고 가는 물체를 추적하는 기술이 유기적으로 결합한 것입니다. 일정 거리 이상 떨어져 있는지, 쓰레기를 던지는지, 완전히 버렸는지 등의 다양한 행동들에 대해서 기계 학습으로 인식하게 됩니다.

실제 CCTV에 적용된 각각의 구성 알고리즘들은 스트리밍 방식에 맞도록 구성하였고, 실시간 처리를 위해 알고리즘 효율화에 집중하였습니다.

[앵커]
저렇게 사람의 동작들을 파악하는 거군요. 그러니까 전에 있었던 단순히 이미지 속의 사물의 종류를 구분하는 것을 넘어 상황까지 깊이 더 이해한다는 건데, 그럼 이 딥뷰가 어떤 행동에 대한 연관 관계를 파악할 수 있다고 볼 수 있을까요?

[인터뷰]
화면에서 박스가 쳐진 것은 딥뷰가 사물의 존재를 알아본다는 것인데요. 이를 '명사'를 인식한다고 표현합니다. '명사'라는 것은 사건의 주체가 되기도 하고 대상이 되기도 합니다. 딥뷰는 '동사'도 알아보는데 타다, 걷는다, 넘어지다 와 같은 동사는 사물이나 사람의 움직임을 잡아내는 능력입니다.
자전거가 있다는 것은 알아내는 것이 아니라 자전거가 서 있는지, 움직이는지, 넘어지는지 이런 여러 가지 상황들을 파악하는 것이 동사의 능력입니다. 그리고 명사와 동사의 관계를 이해하고 그 장면의 의미가 무엇인지를 이해하는 것이 저희 과제의 목표이죠. 기존의 패턴인식 방식은 특정 사물과 특정 움직임만을 인식하는데요. 그 연관 관계까지는 보지 못했습니다. 자전거를 타고 넘어진 건 알 수 있지만 왜 넘어졌는지를 알 수 없었던 것이죠.

[앵커]
그러니까 사람의 행동은 동사로 이해를 하고 그 사람이 들고 있는 물건은 명사로 인식해서 구체적으로 어떤 행동을 하는지 더 잘 파악할 수 있다는 딥뷰만의 장점으로 보이는데, 딥뷰의 기술이 더욱 고도화되면 앞으로 범죄 등에 활용하는데 더 많이 쓰일 것 같거든요. 어떤 식으로 활용될 수 있을까요?

[인터뷰]
딥뷰의 연구가 완성되면 경찰관들이 고마워할 일들이 좀 많아질 것 같습니다. 경찰관들이 에트리 연구진을 찾는 경우가 종종 있는데요. 그 이유는 CCTV에 보이는 사람이 피의자 같기는 한데, 너무 흐릿해서 애를 먹기 때문입니다. 심지어 훼손된 사진 한 장 갖고 오셔서 이것을 분석해달라고 하시는 분들도 계시고요.

향후 딥뷰가 완성되면 키워드 검색 형태로도 범인을 잡거나 피의자 추적이 가능할 것으로 보입니다. 물론 미아 찾기나 지능형 교통 시스템에도 유용하게 활용될 것으로 보이고요.

조금 구체적으로 말씀드리면, 폭행 사건이 발생했던 주변의 지능형 CCTV를 보면 범인으로 보이는 사람의 행적을 역추적해서 피의자를 찾을 수 있게 됩니다. 예를 들어 탐문 검색 결과 피의자로 보이는 사람이 어젯밤 강남역 사거리에서 새벽 2시경 뛰어가는 모습을 목격했다면, CCTV에 그 시간대에 입력으로 '뛰다'라는 키워드를 검색하면 찾을 수 있습니다.

이를 통해서 저희가 '뛰다'라는 동사를 바로 찾을 수 있게 하는 것이고요. 지능을 부여받은 CCTV는 역할에 충실할 것이고, 형사 한 명이 3일 동안 찾을 분량을 이 지능형 CCTV를 통해서 단 몇 초 만에 찾아줄 수 있게 됩니다. 경찰관들의 수고를 많이 덜어줄 수 있을 겁니다.

[앵커]
방금 화면에서 나왔지만, 미아 찾기에도 활용될 수 있을 것 같네요. 사실 이 CCTV를 확인하는 장면은 직접 보지는 못하고 보통 영화나 드라마에서 볼 수 있는데 일일이 그 장면마다 시간대에 따라서 일일이 찾아보는 수고로움을 덜 수 있겠다는 생각이 드는데요.

이외에도 교량에서 자살을 시도하는 분들을 막을 수도 있을 테고 공장 근로자 위험 행동에 대한 경고를 딥뷰가 해낼 수 있지 않겠냐는 생각이 듭니다. 이 딥뷰 시각 지능 기술 프로젝트 일부분으로 이 포토샵 편집 기술을 도와주는 프로그램도 있다고 하는데요. 이건 어떤 프로그램인가요?

[인터뷰]
'SC-FEGAN'이라고 하는 기술입니다. 사진 일부가 손상되더라도 사용자가 밑그림이나 색을 지정하면 인공지능이 이를 가이드 삼아서 스스로 고품질의 이미지를 생성해주는 프로그램입니다.

딥러닝 기반으로 만들어져 있어서 사실 같은 사진을 만들 수 있고요. 수정하고 싶은 부분을 지워서 흰색 공백을 만든 다음에 임의로 스케치한 다음에 색을 지정하면 바로 만들어집니다.

프로그램의 사진을 보면 사람의 얼굴 사진에 눈, 코, 입, 눈썹을 지우고 새로 그리면 무표정한 얼굴도 활짝 웃는 얼굴로 바꿀 수 있고요. 귀 부분을 지우고 귀고리를 그리면 장신구도 자연스럽게 달 수 있습니다. 또 눈 감고 찍은 사진들도 뜨게 할 수 있죠. 기존 사진 편집 소프트웨어는 사용자가 원하는 대로 편집하려면 상당한 전문지식을 가져야 하거나 지루한 편집을 거쳐야 합니다. 하지만 이 프로그램은 다양한 데이터를 기반으로 사람이 하던 지난한 작업을 인공지능이 대신할 수 있는 거죠. 장기적으로 딥뷰 과제를 통해 인공지능이 영상물을 만들 수 있는 수준으로 발전시킬 계획입니다.

[앵커]
비단 사회문제 해결뿐만이 아니라 이런 디자인 쪽으로도 접목될 수 있다는 말씀이신데, 현재 우리나라의 시각 인공지능 기술은 어느 정도로 발전한 수준인지 궁금하고요. 그리고 앞으로 얼마나 더 나아갈 수 있을까요?

[인터뷰]
네, 시각 인공지능의 일부 기술은 이미 세계적인 수준에 도달해 있고요. 그러나 전반적인 수준에서는 약 2년에서 2.5년 정도 뒤져있는 게 통상적인 현실입니다. 하지만 우리가 잘하는 부분에서는 세계적인 성과를 내고 있기 때문에 점차 빠르게 성장할 것으로 기대하고 있습니다.

[앵커]
인공지능 딥뷰의 발달로 전 세계에 수출하는 계기가 됐으면 좋겠다는 생각이 들면서 각종 범죄로부터 우리 생활이 좀 더 자유롭게 우리가 생활할 수 있는 사회가 찾아오길 바랍니다. 오늘 말씀 고맙습니다.
  1.  02:00한국사 探 패션, 아름다움의 ...
  2.  03:00황금 나침반 <211회> (4)
  3.  03:45황금나침반 코로나19 속설과 ...
  1.  제21대 국회의원선거 운동 기간(4/2~1...
  2. [종료] YTN 사이언스 유튜브 채널 구...