[국대들의 연구실] 과학기술 데이터 수집부터 활용까지…한국과학기술정보연구원

2023년 12월 06일 11시 25분

사이언스 투데이 일반

■ 문태경 / 한국과학기술정보연구원 기획본부장

[앵커]
우리나라 대표 연구자들과 함께 다양한 연구분야에 관해 깊은 이야기를 나눠보는 코너, '국대들의 연구실'시간입니다. 오늘은 한국과학기술정보연구원의 연구실을 방문해보겠습니다. 과학기술 분야에는 셀 수 없이 많은 정보가 필요하죠. 개인이 사용하는 작은 데이터부터 오랜 시간 처리해야 하는 대규모 데이터까지 그 종류와 양도 다양한데요, 이런 과학기술 데이터를 수집하고 체계화하는 것부터 일반인이 사용할 수 있도록 제공하는 것까지 담당하는 기관이 바로 한국과학기술정보연구원입니다. 이곳에서는 어떤 연구가 이뤄지고 있는지 문태경 기획본부장과 함께 자세히 이야기 나눠보겠습니다. 어서 오세요.

[인터뷰]
안녕하세요.

[앵커]
방금 제가 간략하게 소개해 드리긴 했는데, 먼저 한국과학기술정보연구원이 어떤 곳인지 설명 부탁 드리겠습니다.

[인터뷰]
저희 한국과학기술정보연구원은 1962년 설립된 과학기술 정보와 데이터 관련 전문연구기관입니다. 크게 두 가지 역할을 수행하고 있는데요, 먼저 국내외의 과학기술정보와 데이터를 한곳으로 모으고 이를 이용자가 효율적으로 활용할 수 있는 데이터 서비스와 분석 기능과 방대한 데이터를 빠르고 정확하게 처리하며 이를 전송할 수 있는 국가 슈퍼컴퓨터와 국가 과학 기술 연구망을 운영하는 역할을 맡고 있습니다.

[앵커]
한마디로 과학기술과 관련된 데이터를 굉장히 방대하게 다루는 곳인데, 데이터가 눈에 보이지가 않는데, 그래서 처리하는 과정이 궁금합니다. 구체적으로 어떤 종류의 데이터가 있나요?

[인터뷰]
말씀하시는 것과 같이 데이터 시대는 모든 것이 데이터고 그 범위와 양이 방대합니다. 저희 한국과학기술정보연구원이 다루는 데이터는 과학기술 분야에 한정되어 있지만, 과학기술 분야의 데이터 역시 굉장히 세분화 되어 있습니다.

연구 과정과 실험 중간에서 나오는 연구데이터, 연구가 끝나고 나오는 논문 데이터와 학술지데이터, 국가연구개발사업 과제데이터, 연구보고서 데이터, 연구성과가 기술사업화되어 나오는 특허데이터 등이 있습니다. 현재 저희 연구원에서는 연구논문 등의 데이터 1억7천만 건, 연구학술지데이터 4천만 건, 국가연구개발사업 관련 데이터 1천만 건, 그리고 연구데이터 1백만 건 등 약 2억1천만 건의 과학기술데이터를 보유하고 이를 대국민 서비스를 하고 있습니다.

[앵커]
2억1천만 건이라고 하니까 굉장히 방대한 양으로 들리는데, 이런 데이터를 각각 수집하고 관리하는 방법도 궁금합니다.

[인터뷰]
과거 인터넷이 발달하지 않은 시대에는 저희 연구자들이 일일이 해외에 나가서 이를 수집하고 원문을 복사하여 서비스하는 방식으로 운영을 했는데 인터넷이 본격적으로 보급된 이후에는 국내 최초로 온라인 통신을 통해서 이러한 정보들을 스캔한 자료를 온라인으로 서비스하는 단계를 거쳤습니다.

본격적인 디지털 전환 시대에는 연구성과나 데이터 자체가 디지털화되어 과학기술데이터를 수집되고 있기 때문에, 보다 많은 양질의 데이터를 수집하기 위하여 국내외 연구기관 및 학술단체, 대학, 연구기관과의 협력은 필수입니다.

이제는 데이터의 수집보다는 이용자들에게 가치 있는 데이터를 효율적으로 서비스하기 위한 관련에 업무의 역점을 두고 있습니다. 이용자가 보다 편리하게 원하는 데이터를 빠르게 검색할 수 있는 데이터 큐레이션과 함께 AI를 결합한 생성형 서비스의 개발을 서두르고 있습니다.

[앵커]
그런데 데이터 연구 관리라고 하면 괜히 연구자들의 것으로 느껴지면서 저희 같은 일반인들에게 안 와 닿을 수도 있을 것 같아요. 저희 같은 일반인들에게도 이런 데이터 관리가 영향을 주는 사례가 있을까요?

[인터뷰]
물론입니다. 과학기술데이터라 할 때 굉장히 어렵게 생각하시는데 그렇지는 않습니다. 저희 연구원이 서비스하는 데이터들은 연구자를 위한 전문 연구 데이터도 있지만, 중소기업의 연구개발을 위한 분석데이터, 일반 대학생들이 논문이나 보고서 작성에 필요한 논문데이터 또 초중고 학생들이 활용할 수 있는 과학상식 데이터 등 다양한 이용자 눈높이에 맞는 다양한 데이터 서비스를 제공하고 있습니다.

[앵커]
논문 데이터 말씀해주시니까 대학생 때 봤던 수많은 논문들이 지나가는 거 같습니다. 그렇다면 일반인들이 이런 정보를 어떻게 이용할 수 있을까요?

[인터뷰]
기본적인 논문 및 학술지 관련 데이터는 국내 최대의 과학기술데이터 포털인 ScienceOn(www.scienceon.kisti.re.kr)에서 이용 가능하시고요. 국가연구개발사업에 관한 모든 정보는 국가지식정보서비스인 NTIS(www.ntis.go.kr), 국내외 학술지 정보에 관한 사항은 국가오픈엑세스플랫폼인 AccessOn(www.accesson.kisti.re.kr)에서 누구나 이용 가능합니다.

[앵커]
생각보다 국민들이 쉽게 접근할 수 있는 것 같은데, 활용도는 얼마나 되나요?

[인터뷰]
현재 저희가 운영하고 있는 과학데이터 기술 서비스인 ScienceOn의 회원은 약 21만 명이 이용하고 있으면 ScienceOn을 통해서 연평균 1억5천만 건의 활용실적을 보이고 있습니다.

[앵커]
데이터라고 하면 우리가 쉽게 주고받는 이런 것들도 있지만, 연구에 쓰이는 대규모 데이터도 관리하시잖아요? 앞서 초반에 언급을 해주셨지만, 슈퍼컴퓨터를 이용하신다고요?

[인터뷰]
맞습니다. 논문이나 학술지 데이터는 그 크기가 굉장히 작은 반면에 고에너지 물리, 우주데이터 등은 데이터 크기가 어마어마하게 큽니다. 이러한 데이터를 빠르게 처리하기 위해서 국가 유일의 범용 슈퍼컴퓨터를 보유하고 운영하고 있습니다. 국내에도 슈퍼컴퓨터가 많이 있지만, 기상청과 같이 대부분이 인하우스용 즉 해당 기관에서만 사용하는 폐쇄형 슈퍼컴퓨터입니다.

반면 저희 슈퍼컴퓨터는 국가 슈퍼컴퓨터로 일반 국민에게 개방된 유일한 컴퓨터입니다. 1988년 국내 1호 슈퍼컴퓨터 도입을 시작으로 현재 세계슈퍼컴 순위 49위인 5호기 누리온이 운영되고 있습니다.

[앵커]
그러면 이런 첨단 슈퍼컴퓨터를 이용하면 구체적으로 어떤 데이터를 어떻게 처리할 수 있나요?

[인터뷰]
보통 슈퍼컴의 데이터 처리는 두 가지 분야입니다. 앞서 말씀드린 바와 같이 천체, 해양, 우주 등 데이터의 크기 자체가 엄청나게 큰 데이터라서 일반적인 서버에서는 계산 자체가 안되는 데이터가 있고, 일반적인 실험 데이터로서 대형 서버에서 계산은 가능하나 이를 빠르게 계산하고 해석하여 과학적 발견을 보다 신속하게 할 수 있게 하거나 하는 두 가지 측면에서 운영이 됩니다.

통상 슈퍼컴퓨터에 대한 연산 능력이 실감이 안 되실 텐데요. 저희 슈퍼컴 5호기의 현재 연산능력은 25.7페타 플롭스입니다. 1페타플롭스의 능력은 1초당 1,000조 번의 연산처리를 의미하기 때문에 저희 슈퍼컴은 1초에 2경 5천조 번의 연산을 처리한다는 의미입니다. 이는 전 세계 인구 70억 명이 420년 걸릴 계산을 단 1시간 만에 해결하는 성능입니다.

[앵커]
2경 5천조라는 숫자가 어느 정도의 규모인지 가늠이 잘 안 갈 정도로 엄청난 성능을 자랑하는 거 같습니다. 이렇게 최첨단 장비들도 많지만, 이 기관에 데이터와 관련된 연구를 하시는 분들도 굉장히 많잖아요? 한국과학기술정보연구원에 연구 성과도 궁금합니다.

[인터뷰]
가장 쉽게 설명 드릴 수 있는 것은 코로나19가 한창일 때 빠른 신약개발이 절실하였습니다. 저희 연구원은 코로나19 초창기 슈퍼컴퓨터를 활용하여 약 2만 개의 약물을 대상으로 탐색과 계산을 통해 8개의 신약 후보 물질 제시하였습니다. 통상 2만 개의 약물을 계산하여 치료후보 물질로 적합한지를 탐색하려면 몇십 년이 걸리는 작업을 슈퍼컴퓨터를 통해 1주일 이내로 탐색을 완료하였습니다.

[앵커]
코로나19 신약을 개발하는 데도 슈퍼컴퓨터가 큰 역할을 했네요. 생각보다 우리 일상 가까이에서 슈퍼컴퓨터가 활용되는 것 같은데 또 다른 사례가 있나요?

[인터뷰]
산업체에서의 극한 기술개발에서도 슈퍼컴이 활용되고 있습니다. 예를 들어 온도 차이에 따른 열 흐름을 예측하는 사례가 있습니다. 반도체, 소재전자, 김치냉장고 등 가전, 자동차 엔진 등 열에너지의 흐름을 정확하게 계산하고 예측하는데 많은 데이터와 연산이 필요한데 이를 슈퍼컴퓨터로 빠르게 계산하고 최적의 값을 찾는 연구입니다.

세계 최초로 극한 영역에서 난류 열전달 현상을 해석하였고 산업계 전반에 활용이 가능할 것으로 보입니다. 이외에 폭염, 우박 등 기상이변에 대한 예측, 우리나라 주변 해양온도 변화에 대한 수치예측 모델 구축 등 여러 곳에 슈퍼컴퓨터가 활용되고 있습니다.

[앵커]
오늘 말씀을 쭉 들어보니까 단순히 데이터를 수집하고 관리하는 걸 넘어서 수많은 과학기술 정보를 잘 활용할 수 있는 방법을 연구하고 계신데요, 앞으로 연구 목표도 들어보고 싶습니다.

[인터뷰]
모든 분야가 마찬가지이겠지만 데이터 환경이 가장 빠르게 변화하는 부분일 것입니다. 올해 가장 화두가 된 것이 챗GPT를 비롯한 인공지능 검색환경으로 급속하게 재편이 될 것으로 예상되고 있습니다. 이에 과학기술데이터 전문연구기관인 저희 한국과학기술정보연구원도 과학기술 전용 생성형 서비스 기술개발에 박차를 가하고 있습니다. 이를 적용한 지능형 서비스로의 개편을 준비 중에 있습니다.

또 앞서 말씀드린 바와 같이 과학기술데이터란 것이 소수 연구자들의 연구에만 활용되는 것이 아닌 국민 생활 전체에 도움이 되는 데이터로 활용되는 것을 지향하고 있습니다. 각종 재난문제, 국방, 미래농업, 소리, 글로벌 공급망 문제 등 다양한 사회현안을 과학기술데이터로 분석하고 솔루션을 제시하여 과학기술데이터가 국가의 발전 및 국민 삶의 질 향상에 직접적으로 기여 할 수 있도록 노력하고 있습니다.

[앵커]
말씀해주신 것처럼 과학 기술 데이터 잘 활용해서 국민의 삶의 질 전체 향상에 힘써주시길 바라겠습니다. 지금까지 한국과학기술정보연구원 문태경 기획본부장과 함께했습니다. 오늘 말씀 잘 들었습니다.

YTN 사이언스 김기봉 (kgb@ytn.co.kr)