一个庞大的数据库里究竟有多少知识?如何衡量一位科学家的成就?如何判断科学论著的价值?这些问题似乎都没有完美的答案。而南京大学教授、欧洲文理科学院院士叶鹰正在探索这些答案。
在叶鹰教授眼里,知识世界是相对独立于物质世界和精神世界的“第三世界”,充满无穷的魅力,“研究知识,我们需要从信息开始科学计量,更需要超越科学计量”。
“关注论文数量不如关注h指数”
近年来高校引才用才普遍依赖SCI论文数量考核,那发表一堆SCI是不是优秀科研学者?那可不一定。
来自全球科学家社区“ResearchGate”的一条评论显示:一位优秀的学者的h指数不应低于自己从事学术研究的年数。叶鹰教授是国内h指数和h型指数理论研究方面的领军人物,他为记者作了个小小的科普。
美国加利福尼亚大学圣地亚哥分校的物理学家乔治赫希(Jorge EHirsch)2005年提出了“h指数”,h代表“高引”(high citations)。什么叫h指数呢,科学家如果发表了h篇论文,每篇论文又被引用h次,那么该指数就是h。一个学者无论发表多少篇论文都可以找到一个h指数。按照赫希原来的研究,在美国,一个科学家的h指数能够达到12的话,他应该可以升副教授了;如果能够达到18的话,他应该能够升正教授了。达到45左右的话就到美国院士水准了。美国高校在评聘教授的时候,对此已经有所参考。当然这说的是物理领域,生命科学可能还要更高些。这个指数在不同学科有差异。
叶鹰介绍,如果单纯看论文数,只是一个简单的“加和”,发表论文越多越好。然而如果发表论文多,但被引次数低,那么很可能h指数就会很低。假设你发表了100篇论文,但是每篇最高被引量次数是1,那么h指数还是1。甚至有人发表了很多零引用论文,那么对于“h指数”而言,它产生的只是“垃圾”。
“h指数的特点比较稳健,衡量测评一个科学家终身成就是有意义的。”叶鹰说,虽然这仍然不是一个反映科研质量的绝对指标,但部分反映了“质”的侧面,“比如h指数从10升到11,并不是多发一篇文章就可以,而是要多发11篇被引量都超过11的论文。所以h指数越高,每提升1难度越大。但h指数没有普遍使用的一个原因,是因为这是一个只升不降的指数,对年轻人是不利的,更适宜用于同龄人的比较,当然反过来说,假如一个年轻科学家的h指数,超过一个老科学家的h指数,那就证明这个年轻人相当有成就。”
“综合评价,才能全面评判研究成果”
为了对科学家、研究机构进行更好的评价,叶鹰拓展了h型指数,并发展了科学测度学,“我们发展了一些新的测度,例如可以将h分布做成学术矩阵,以h指数为界划分发文和引文而成核、尾、总体等部分,可以体现出科研的‘学术轨迹’。核分体现相对好的科研品质,表征核心竞争力;而尾分体现相对次要的学术贡献,表征为提升学术品质做了铺垫工作。如果零引用太多,覆盖了前面的贡献,就会产生‘负迹’。学者要避免成为‘负迹学者’,大学要避免成为‘负迹大学’。”
在实证研究中,叶鹰发现,我国名牌大学的“h尾分值”和哈佛、斯坦福等国际一流大学已很接近,基本在一个数量级,而且具有超越的潜能。但是我们的“h核分值”却落后了一个数量级。“换言之,我们的高品质论文还比较少,我们与一流的差距在于品质。因此,我们的大学应鼓励学者提升学术品质,而不能单纯追求数量。”
当然“高引”也并不一定代表好的品质,而只是体现“影响”。在科研信息爆炸的时代,科学计量研究领域中有人注意到了 “睡美人”(sleeping beauties)和 “时髦女”(Smart girls)现象。前者说的是“论文发表后每年被引可能仅有1次到2次,甚至有的时候就是零引,但多年后一旦被‘唤醒’,则随后四年内会达到被引至少20次,学术上叫延迟承认。”后者则相反,“论文刚发表就很快被大量关注,形成高引,但热度很快消退,引用趋近于零,学术上叫昙花一现。”
大量的统计数据显示,普通论文中,“睡美人”存在的概率约为千分之一,甚至万分之一。但诺贝尔奖得主论文中“睡美人”的概率则高于1%,“天鹅”的概率更是高达20%以上。最典型的“睡美人”莫过于孟德尔(遗传学家)的豌豆杂交育种实验,实验结果发表于1866年,但直到1901年才逐渐被认可最终成为经典。因此,如何发现和识别这类最具原创意义的研究成果是非常重要的话题。
最近,叶鹰课题组还发现在诺奖得主的关键论文集中存在普遍高引的“天鹅”现象,其中“黑天鹅”(已有的权威性的研究)和“白天鹅”(新出现的突破性发现)的交互作用可以构成一幅高品质与高影响交织的“美丽画卷”。叶鹰说,目前的研究揭示需要关注“睡美人”型和“天鹅”型论文,但这些现象仅局限于基础研究,对于应用研究和文科研究则不一定适用。总的来说,只有综合评价,才能较全面地评判研究成果。
“信息和知识网络中的规律很美妙”
“云计算和大数据已经逐步涌入图书情报界成为热点,观望热点,如同海边冲浪,浪潮过后是留下大数据处理技术还是海量信息分析方法,只能拭目以待。”叶鹰曾经在一篇文章中将研究热点比作浪潮,前沿比作沙滩,研究者或追逐热点,如同冲浪;或钻研前沿,如同海滩拾贝、沙里淘金,各有其乐。
叶鹰乐在其中的是,追逐信息和知识网络中的美妙规律。他告诉记者,目前课题组已经将h指数的思想扩展应用到了网络分析中,特别是在有权网络(weighted network)中可以用h度和h强度等指标来判断重要的点和边。
“与h指数的定义类似,有权网络中某节点h度数的定义综合考虑了与该节点相邻的边的数量和质量。”在电脑上,叶鹰给记者展示了一张晶体状的立体网络,是用h型测度分析文献信息网络获得的“h结晶”。现实世界中有很多复杂网络,其中有各类庞杂的数据,那么在复杂网络中,什么才是最重要的,什么是次要的?这就需要根据数据搭建不同的网络模型,再进行分析。而h型测度则提供了分析提取核心结构的一种高效方法。这不仅适用于文献信息网络,还可以用于社会网络、分子网络、疾病网络等等,有着广阔的应用空间。
叶鹰解释,按照波普尔的“三个世界”哲学理论,自然科学家,研究的是“世界一”,即物质世界;社会科学家,研究的是“世界二”,即精神世界,也包括物质世界和精神世界的相互作用;而我们研究的则是“世界三”,即以文献信息为基础的知识世界,但也关注“三个世界”之间的关联。“从数据、信息到知识,可以构成一条测度链,丰富多彩的信息和知识世界充满有待发现的规律,用信息网络和知识网络可以揭示和展示其中部分美妙的规律,更多复杂且有趣的内容,还有待我们不断地探索。” 本报记者 杨频萍 本报通讯员 齐 琦