您的位置: 首页>>新闻动态

数字评价“骑虎难下” 还要继续曲解影响因子吗


点击:0   发布日期:2017-05-23

数字评价“骑虎难下” 还要继续曲解影响因子吗
 

郭刚制图

■本报记者 胡珉琦

影响因子是聪明人可以玩转的‘游戏’,影响因子排名也并非是纯粹的学术公器。”

影响因子只代表研究热点,不能直接代表研究水平。”

数字(定量)评价需和同行评议进行配合。定量评价可作为同行评议的补充和参考,而非替代。且数字评价的指标数不能过少,不能‘唯影响因子是论’。”

前不久,中国医学论文大面积被外国学术期刊撤稿事件,再次掀起学术界关于科研成果评价体系的探讨。同一时期,在国外任教的一位科学网博主因发表博文,质疑“唯影响因子是论”的评价标准尤其对应用研究者不公,引起了诸多科研人员的共鸣。有博友质问,这样的学术评价政策真的促进科学研究质量提高了吗?

近年来,有更多的学术队伍开始挑战不恰当地依靠期刊影响因子进行科研评价的行为,可现实是,影响因子的影响力依旧是势不可挡,对影响因子的曲解还在持续。

你真的认识“影响因子”吗

在国内学术圈,“影响因子”已经叱咤风云多年。因为其与学术影响力、职称、基金、奖励等息息相关,几乎没有科研人员对它是陌生的。但并非每一位科研人员或者科研管理者都真正了解它的内涵,知道它是如何而来又是如何发展的。

影响因子作为对学术期刊影响力评估的指标之一并非是汤森路透创造的。它的真正发明者是美国科技情报所(ISI),1992年并入了汤森路透。自1975年以来,ISI每年定期发布“期刊引证报告”(Journal Citation Reports,简称JCR),其中的一个核心指标就是期刊影响因子。

它是指一份期刊前两年中发表的所有文本在当年度的总被引用数,除以该期刊在前两年所发表的“引用项”文章总篇数。

一般来说,一本期刊的影响因子越高,证明它的学术影响力越大。因此,ISI最初的想法很简单,就是用一种文献计量学的工具来帮助图书馆评估和挑选期刊。后来,影响因子的数值逐渐变成为反映科学家和学者对于值得关注和有帮助的科学研究的判断。

至此,对于影响因子的解释仍是粗浅的。使用它的人必须懂得,究竟什么因素能影响影响因子的高低,这就涉及它的具体计算方法。

从事文献计量学研究的科学网资深博主武夷山解释,根据它的定义,科研人员也许以为,被引用的一定都是研究论文和综述,所以才把它们称为“可引文献”,而社评、读者来信、新闻、观点等则被定义为“不可引文献”。但实际在计算影响因子时,分母是某期刊在统计年的前两年发表的“可引文献总数”,分子则是该期刊在统计当年获得的所有引用数量,其中既包括了“可引文献”,也包括了那些“不可引文献”。

于是,影响因子就成了聪明人可以玩转的“游戏”。上海交通大学科学史与科学文化研究院院长江晓原说,一般来讲,想要玩好这个“游戏”有两种方法。

第一种直接扩大分子。在学术杂志上发表一篇综述文章,往往引用率会非常高,于是综述文章越来越受到青睐,目前影响因子排名前20的玩家中,有10家是综述类杂志,其中就有全世界影响因子最高的刊物。

第二种方法是进行杂志的两栖化改造。大量增加非学术文本的比重,也就是非引用项的数量,从而减小分母。以《自然》杂志为例,目前通常有18个栏目,但只有3个栏目是属于引用项,即学术文本,还有15个栏目里面都是非引用项。此外,《新英格兰医学杂志》《美国医学会杂志》《柳叶刀》等知名期刊也都是非引用项的“重灾区”。

有意思的是,在影响因子诞生之初,计算公式相对合理,即分母部分是包括所有文本的。之所以修改成现在的样子,还要从ISI的创始人加菲尔德说起。

江晓原在接受《中国科学报》记者采访时表示,“科学情报研究所”是加菲尔德在读博期间就成立的私人商业机构,无论是SCI报告还是JCR报告本身都是企业的盈利点。

影响因子出现3年后,加菲尔德改变了影响因子的计算公式,《自然》《科学》杂志的低排名有了显著的上升。

对杂志而言,影响因子也并非只关系到自身的影响力评价。江晓原举例道,《自然》子刊《自然通讯》(Nature Communications)是2010年才正式出版的综合性期刊,它目前的影响因子达到了12,甚至超过了已有百年历史的美国国家科学院官方科学周刊《国家科学院院刊》。2015年,它在一年内发表了多达3192篇的论文,并且明文规定,每篇文章收费5200美元(折合人民币33000多元)。

“当然,影响因子的商业背景并不必然与公正性、权威性相冲突。但这至少说明,影响因子排名并非是纯粹的学术公器。”江晓原说。

影响因子等于影响力吗

2016年底,学术出版巨头之一的爱思唯尔推出了自己的期刊影响因子评分系统CiteScore。实际上,就计算方法来说,爱思唯尔主要就是在两方面做出了调整。一是分母不区分文章类型,也就是回到了影响因子诞生时的设定;二是将论文引用两年的时间窗口延长至3年。

在业内,它被看成是ISI影响因子的挑战者。就在2017年2月26日,91岁的加菲尔德在美国去世,人们一定不会怀疑,会有越来越多的机构乐于参与制定新的影响因子“游戏规则”。

但在江晓原看来,看似不同的影响因子规则其实都是“换汤不换药”。如果管理者用它来评价某一篇具体的论文,无论用哪一种规则,都存在先天不足。

武夷山提到,影响因子反映的其实是期刊所登载论文的平均被引次数,实际上,每本杂志都是少量论文占据了大部分的被引量,影响因子被相对高被引的论文带上来的。统计发现,从1900~2005年被引用的3800万篇论文中,仅有0.5%的论文被引200次以上,有一半的论文根本没有被引用过。这就意味着,即便是一篇发在高影响因子期刊的文章,它也很可能无人问津。

此外,不同学科、领域间研究的热度差异巨大。有时,不在于研究质量,而是内容是否热门就能决定一篇文章的被引率。一些冷门、偏门、规模较窄的学科本身受关注程度低,得到认可、被引用所需要的时间周期远超过影响因子规定的时间窗。因此,用同一套标准对这些研究进行评价是不合理的。这也是北京大学学科建设办公室研究员、科学网博主贺飞在博文《影响因子的前世今生》中早就指出的,“影响因子只代表研究热点,不能直接代表研究水平”。

实际上,汤森路透也强调,影响因子是衡量期刊影响力的指标,而不是作为评估作者或机构的替代品。这不是一个文献计量学工具产生的初衷,但当它的影响力在不断扩大,对它的扭曲和滥用也愈演愈烈。

国外同样存在这样的现象,教师的任命、晋升以及科研项目的获取,会把研究工作发表在所谓的“高影响力”期刊上作为重要依据。例如,有的机构在给予tenure(终身教授)时也会考核申请人所发表论文的累积期刊影响因子是否达到一个阈值。

2012年美国细胞生物学年会发表了一份《科研评价的旧金山宣言(DORA)》,当时,它的声明就非常值得深思。它认为,科学界不应该使用影响因子等评价期刊的指标作为评价单篇研究论文质量的代替指标,也不应该用来评价某位科学家的贡献,决定是否聘用、提职或经费资助。在决策经费资助、聘用、tenure或晋升时,应基于论文的科学内容而非所发表的期刊指标来做出评价。

敢于挑战不恰当地依靠期刊影响因子进行科研评价的这种行为令人赞赏,但是,影响因子的影响力似乎依旧势不可挡。

数字评价“骑虎难下”

既然一个指标并不适合进行科研影响力的评价,为什么不直接从评价体系中剔除?

武夷山认为,这是“骑虎难下”。从科研管理的角度,定量评价的好处是统一、便捷,在处处是竞争的学术圈,体现了某种程度上的公平和实用性。因此,有些管理者往往没有动力去制定一套适合本单位本学科的科学评价体系。

贺飞在《诱惑与困惑:“影响因子游戏”该如何继续?》一文中指出,客观上,影响因子在同一学科内作为一般性评价指标还是有价值和意义的。一般来说,同一学科内影响因子高的刊物的论文发表要求相对较高,文章的总体质量和平均水平也是相对较高的。虽然影响因子并不能完全反映一个科研工作者的水平,但从统计学的意义上讲,同一领域内,发在高影响因子杂志上的文章水平还是要普遍高于低影响因子杂志上的文章。

这个问题还涉及到现阶段是否存在比数字评价更好的方法。在江晓原看来,学界公认的评价方法是小同行的同行评议,这才是回归学术评价的本真。

武夷山却表示,目前的同行评议也未必能做到完全客观和全面。且不论具有小同行评审资格的人力资源稀缺,对于涉及跨学科的研究领域,甚至找不到真正的同行。而且,同行评审受限于主观判断和偏见、缺乏透明度,如果是在一个缺乏学术诚信的环境中,同样存在被滥用的风险。

反之,江晓原认为,同行评审即使出现误评问题,至少是可以被追责的。“事实上,评审专家并不能随心所欲,因为他们需要承担必要的责任。而在所谓‘客观’的评价体系中,也就意味着,没有任何人需要对一项错误的评价结果负责。”

可见,学术评价本身就是如此复杂,这也是为何针对影响因子依然争议不断的原因。

不过,一个相对被认可的观点是,合理化地使用这一指标,数字评价需和同行评议进行配合。对此,武夷山还特别强调,全世界的文献计量学研究人员都认为,定量评价可作为同行评议的补充和参考,而非替代。

而且,数字评价的指标数不能过少,不能“唯影响因子是论”。实际上,针对期刊的评价还涉及期刊影响百分位、标准化特征因子、期刊规范化引文影响力、期刊期望引文数等更多指标。更为关键的是,不能将数字评价直接与利益相捆绑。