인공지능은 어떻게 과학자들이 코로나바이러스 치료법을 찾도록 돕고 있는가
※ 기사. How artificial intelligence is helping scientists find a coronavirus treatment
https://www.brandeis.edu/now/2020/april/artificial-intelligence-coronavirus.html
11월 바이러스가 등장한 이후 COVID-19에 대한 학술논문(academic articles)만 5만 건이 넘음. 새로운 정보의 양이 반드시 좋은 것만은 아님. 최근의 코로나바이러스 문헌이 모두 동료 검토를 받은(peer reviewed) 것은 아니지만, 논문의 수가 순전히(sheer) 많아 정확하고 전도유망한 연구가 두드러지거나 더 연구되는 것은 어려운 일임. 컴퓨터 과학 및 언어학 교수 제임스 푸스테조프스키(James Pustejovsky)는 브란데이스 팀(Brandeis team)을 이끌고 코로나바이러스에 관해 출판된 방대한 양의 연구를 분류하고, 질병을 연구하는 생물학자들이 치료나 치료로 이어질 수 있는 연구 전반에 걸쳐 통찰력을 얻고 패턴과 경향을 알아차릴 수 있도록 도울 수 있는, 과학 데이터의 의미론적 시각화(Semantic Visualization of Scientific Data, SemViz)라는 인공지능 플랫폼을 만들고 있음.
컴퓨터 언어학자로서 당신의 배경(background)을 현재의 코로나바이러스 연구에 적용한 방법에 대한 조감도(bird’s-eye view)를 제공할 수 있는가?
나는 현재 5만 개 이상의 학술 논문이 포함된 COVID-19 데이터 세트(dataset)처럼 언어와 대량의 텍스트에서 정보를 추출하는 데 주력하는 연구원이다. 코로나바이러스의 최전선에 있는 생물학자들은 유전자와 단백질, 약물 사이의 연관성, 그리고 그것들이 인체의 세포에서 바이러스와 어떻게 상호작용하는지를 찾으려고 애쓰고 있다.
SemViz는 기존의 논문과 원고를 통해 융합하고 과학자들이 한 번에 한 논문을 읽어도 분명하지 않은 연결고리와 일반화를 가능하게 한다.
그렇다면 코로나바이러스를 연구하는 생물학자가 실제로 SemViz를 어떻게 사용할 수 있을까?
이 도구는 코로나바이러스를 연구하는 생물학자들이 질병과 관련된 유전자와 단백질의 억제제, 조절제, 활성제의 전지구적 개요(global overview)를 볼 수 있는 빠른 방법을 제공한다.
예를 들어, COVID-19 바이러스의 수용체를 조절하는 약물과 단백질은 무엇인가? 이것은 환자의 폐에서 바이러스에 대한 수용체의 발현을 감소시키는 치료법을 발견하는 데 도움이 될 수 있다. 이것은 현재 수백만 명의 사람들이 이 수용체를 변화시키고 질병에 걸릴 위험을 증가시킬 수 있는 혈압약을 복용하기 때문에 중요하다.
SemViz는 생물학자들이 인간의 유전자, 약물, 단백질, 바이러스 사이에 지구적이고 구체적인 연관성을 둘 다 만들 수 있도록 도와주는 시각화 풍경(visualization landscape)을 만든다. 내가 작업 중인 전체 프로그램에는 세 가지 구성 요소가 포함되어 있는데, 전체 코로나바이러스 연구 데이터 세트에 기반한 두 가지 의미 시각화 출력과 자연 언어 기반 질문 탐색 애플리케이션(natural language-based question-answering application)이다.