현 업적평가 방법이 안고 있는 한계와 질적 평가를 위한 대안
김현창
연세의대 연구부학장
의과대학의 교수 평가
이제는 대학교수의 업적평가는 당연한 것으로 받아 들여지고 있다. 교수 업적평가의 기본 목적은 교수로서의 책임을 제대로 수행하고 있는지를 파악하여 현재 상태를 확인케 하고 발전을 유도하는 것이다. 그러나 현실적으로 와 닿는 평가 목적은 교수 개인의 재임용, 승진, 포상 등을 위한 근거 자료로 쓰거나, 소속 대학, 학과, 연구소의 인력 및 예산 배정에 반영하는 것이다. 이러한 중요한 의사결정의 근거 자료로 쓰이기 때문에 업적평가는 공정성, 객관성, 합리성, 합목적성을 가져야 하고 지속적으로 개선하여야 한다.
모든 대학교가 분야에 관계없이 교수 업적평가를 하고 있으며, 대부분 교육, 연구, 봉사 세가지 영역을 대상으로 한다. 이는 대학교수의 기본 임무가 후학들을 길러내고, 학술 연구를 수행하며, 사회 발전을 위해 봉사하는 것임을 의미한다. 의과대학 교수 중 임상의사는 진료 영역을 더하여 교육, 연구, 진료, 봉사의 네 가지 영역에 대한 평가를 받기도 한다. 의과대학 또는 의과대학 교수들에게 연구의 중요성은 날로 커지고 있으며, 이에 따라 학교 당국과 교수들의 연구업적 평가 방법론에 대한 관심도 높아지고 있다.
의과대학 교수의 연구성과 요소
의과대학 교수의 연구성과로 평가되는 항목은 학술지 게재 논문, 학술저서(단행본), 연구비, 특허 및 기술이전, 학술회의, 학술상 등이다. 이 가운데 학술지 연구논문을 가장 비중 있게 평가하는 경우가 많으며, 최근에는 연구비, 특허 및 기술이전 등에 대한 평가 비중도 점차 커지고 있다.
독일의학협회 (AWMF)는 2014년 의학연구성과 평가에 대한 성명서에서(Evaluation of medical research performance-position paper) 연구성과를 세가지 핵심영역으로 구분하여 평가할 것을 권고하였다. 이 세가지 핵심영역은 영향력(impact), 투입요소(input), 그리고 신진연구자양성(attraction and promotion of junior scientists)이다. 영향력(impact) 평가는 다시 세가지 부분으로 나뉘며, 첫 번째 부분이 출판물(publication)이다. 출판물 평가 대상은 동료심사를 통과한 연구논문(peer reviewed publication), 단행본, 진료지침(guideline) 등을 포함하되, 출판물이 진료지침이나 권고안에 인용되면 영향력이 인정되는 것으로 보아 별도로 고려할 것을 권고하고 있다. 우리나라에서는 아직 제대로 평가 받지 못하고 있는 연구자료(data sets), 소프트웨어 등의 가치 평가도 강조되고 있다. 연구자료 구축이나 소프트웨어 개발 등은 관련분야 연구활성화를 이끌어 낼 수 있는 의학연구 기반을 마련한다는 면에서 중요한데, 이러한 연구기반 구축 성과가 이를 활용하여 발표한 논문에 비하여 과소평가되는 경향이 있다. 영향력 평가의 두 번째 부분은 학술단체나 학술지에 대한 기여도 평가이며, 세 번째 부분은 학술대회 조직과 리더십 평가이다. 우리나라에서는 두 번째와 세 번째 부분은 연구 영역보다는 봉사영역으로 평가하는 경향이 많다.
연구성과의 두 번째 핵심영역인 투입요소(input)는 전반적 연구체계(framework)와 연구비 등을 말한다. 연구체계는 전문성, 연구컨셉과 전략, 연구참여도 등 계량화하기 어려운 요소가 많아서 연구비 수주 실적이 대표적 지표로 많이 쓰인다. AWMF 성명서에서는 독립적인 평가 절차가 있는 연구비를 그렇지 않은 연구비보다 높게 평가하고, 정부 또는 공공재단의 연구비를 이해집단이나 산업체의 연구비보다 높게 평가할 것을 권고하고 있다. 경쟁이 없는 계약 연구과제(contract research)는 연구성과로 평가하기에는 적절하지 않으나, 응용학문 분야에서는 제한적으로 쓰일 수도 있다고 첨언하였다. 또한 협력연구나 다기관연구의 경우 연구책임자의 성과만 인정하지 말고 공동연구자들의 성과도 평가하는 것이 중요하다고 한다. 연구성과 평가의 마지막 영역인 신진연구자 양성은 우리나라에서는 대부분 연구성과 보다는 교육 영역으로 분류하지만, AWMF 성명서에서는 연구의 중요한 부분으로 포함하고 있다.
질적 평가와 계량적 지표 평가
AWMF 성명서도 연구성과 평가의 가장 좋은 방법이 동료 전문가들의 질적 평가(informed peer review)이지만 평가에 너무 많은 노력과 시간이 필요하므로 신규임용이나 정년보장심사 등 한정된 목적에만 쓰는 것이 현실적이라고 언급하였다. 질적 평가 대신 수치화된 객관적 지표를 쓸 수 있으나, 특정 수치를 경제적 보상이나 승진 등에 기계적으로 연동하는 것은 심각한 부작용이 있기 때문에 반대하고 있다. 그러나, 우리나라의 많은 대학들은 여전히 학술지 인용지수(impact factor)나 연구비 수주액 등의 단순지표를 별도의 심의나 질적 평가 절차도 없이 그대로 경제적 인센티브 제공이나 승진심사에 활용하고 있다.
연구성과 평가에 흔히 쓰이는 방법은 계량서지학(bibliometrics) 지표로, journal impact factor가 대표적이다. 계량서지학 지표들도 평가 대상에 따라서 구분을 할 수가 있다. Impact Factor, Five-year Impact Factor, Immediacy Index, Eigenfactor Score, Article Influence Score, Journal Ranking 등은 계산 방법에 약간의 차이는 있지만 모두 특정 학술지에 실린 논문이 얼마나 많이 인용되는 지를 평가하는 지표이다. 이러한 지표는 학술지의 영향력을 평가하는 것이며, 특정 논문이나 연구자의 영향력을 평가할 수 없다는 점을 유념해야 한다. 특정 논문의 영향력을 평가하는 대표적인 방법은 해당 논문이 얼마나 많이 인용되었는지를 세는 것이다. 인용횟수 계산에 과거에는 Thomson Reuters의 Web of Science 데이터베이스를 많이 활용하였으나, 최근에는 SCOPUS나 Google Scholar 등 다른 데이터베이스도 많이 이용되고 있다. 인용횟수 계산의 가장 큰 단점은 논문이 동료 과학자들에게 읽히고 인용되기 까지 시간이 걸리기 때문에, 오래 전에 발표된 논문과 최근에 발표된 논문을 직접 비교하기가 어렵다는 점이다. 또한 메타분석이나 가이드라인처럼 연구의 질적 수준에 비하여 인용빈도가 높은 경향이 있는 종류의 논문(article type)을 분별하기 어렵다는 것도 단점이다. 교수 개인의 연구 영향력 평가를 위해서는 Total Citation(발표한 논문의 인용횟수 총합), H-index(발표 논문 중 h번 이상 인용된 논문이 h개 있음), i10-index (10번 이상 인용된 논문의 수) 등을 쓸 수도 있다. 그러나 이러한 지표도 개인의 연구분야, 발표된 논문의 시기나 논문 종류(article type)의 영향을 많이 받는다는 점을 반드시 고려하여야 한다.
논문 인용지수의 제한점과 대안
특히, 오랫동안 연구성과 평가에 널리 쓰인 학술지 인용지수(impact factor)는 많이 쓰인 만큼이나 그 문제점에 대하여 비판도 많다. Impact Factor가 인센티브 지급, 승진 심사, 연구과제 수주 및 결과평가 등에 폭넓게 쓰이면서, 교수들도 창의적 도전적 연구를 수행하기 보다는 Impact Factor 높은 학술지에 논문을 발표하는 것이 최대 목표가 되었고, 학술지들도 Impact Factor 관리에 신경을 쓰는 경향이 뚜렷해지고 있다. 급기야 2012년 12월에는 샌프란시스코에서 전세계 78개 연구기관/학술지를 대표하는 154명의 학자들이 연구평가에 대한 DORA 선언문(San Francisco Declaration on Research Assessment)을 발표하기도 하였다. DORA 선언의 핵심은 Impact Factor 같은 학술지 기반 지표를 개별 연구 논문의 질 평가, 연구자의 학술적 기여도 평가, 채용, 승진, 연구비 심사 등에 쓰지 말라는 것이다. 최근 우리나라에서도 논문 숫자나 Impact Factor 중심의 연구성과 평가의 문제점에 대한 인식이 높아지고, 연구비 심사나 연구 성과 평가에 사용하지 말라는 정부 지침이 발표되기도 하였다. 그러나, 마땅한 대안 없이 단순히 논문 숫자나 Impact Factor를 사용하지 말라는 것은 대책이 될 수 없다.
계량서지학 지표나, 연구비 수주액, 특허나 기술이전 등도 각 지표의 의미와 제한점을 충분히 고려하면 연구업적 평가에 유용한 보조 수단으로 쓸 수 있다. 예를 들어 오랜 기간의 연구성과를 평가하여 정년보장심사나 학술상 수여 등을 결정할 때에는, 전문가 질적 평가를 같이 한다면 H-index, i10-index 등을 영향력 평가 지표로 유용하게 쓸 수 있다. 부득이하게 최근 발표된 논문의 평가가 필요한 경우, 해당 논문의 인용 횟수를 보거나 학술지 평가 지표라는 한계가 있지만 Impact Factor나 Journal Ranking 등을 보조적으로 쓸 수도 있다. 이 경우 지표의 한계를 명확히 이해하여야 하며, 교수의 연구분야나 논문 종류에 따라서도 인용도가 달라짐을 인식하여야 한다. 그러나, 교수임용, 정년심사, 대형 국책과제 심사 등은 충분한 시간과 비용을 들여서라도 동료전문가 또는 독립적 심의기구에 의한 질적 평가가 반드시 필요하다.
참고문헌
Herrmann-Lingen C, et al Evaluation of medical research performance--position paper of the Association of the Scientific Medical Societies in Germany (AWMF). Ger Med Sci. 2014;26:12
Alberts B. Impact factor distortions. Science. 2013;340(6134):787.
출처 ; 대한의학회 E-Newsletter No. 72 (2016년 5월호)