学术研究团队的可视化识别及评估方法研究以科
学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例1’汤建民(浙江树人大学科学计嚣学研究中心,杭州)摘要随着科学合作的日益普及和扩大,引发了对学术研究团队的识别、评估、监测的需要,而科技文献数据库的日益齐备和计算机数据挖掘技术、信息可视化技术的发展,又为自动、高效地实现上述目的提供了可能。基于此,本文提出了一种主要基于数据挖掘和可视化技术的学术研究团队的可视化识别及评估方法,实现了从数据获取、数据挖掘、可视化分析为一体的研究流程,同时以国内科学学研究领域为例说明了此种方法的可行性和有效性,为学术研究团队的分析和研究拓展了新的方法和空间。关键词文献计量学学术研究团队数据挖掘可视化社会网络分析科学学研究TheVisualIdentification of andEvaluationMethod forAcademicResearchTeams:withScience ofScienceField as anExampleTangJianmin(ResearchCenterforScientometrics ofZhefiangShurenUniversity,Hangzhou)Abstract’Fhe increasing popularization and expansion of scientific cooperation have given rise to the need for the identification,evaluation and supervision of the academic research team while the increasing perfection of scientific literature database and the development of the computer data mining technique and information visualization technique have offered a chance for the realization of the above—mentioned aim automatically and efficiently.On such a basis,this article brings forth a method for the visual identification and evaluation of the academic research team based on the data mining and visualization technique, realizes a researching progress integrated with the data acquisition,data mining and visualization analysis and explains the feasibility and efficiency of such a method by the example of the national studies in science of science field,providing a new method and space for the analysis and research of the academic research team.Keywords bibliometrics,the academic research team,data mining,visualization,social network analysis,studies in scienee of science随着科学研究朝着微分化和积分化的方向发展,科学合作日益普及,由此也引发了科研管理部门和学术界对学术研究团队的高度关注。目前国内的研究主要集中在:学术研究合作的缘由…、学术研究团队的形成和管理机制胁6|、学术团队带头人的培养…、创新研究群体科学基金的资助与管理工作㈨、学术团队内如何促进知识共享㈨、大学等组织如何建设有效的学术团队…1等方面。但从管理、评估、学术跟踪的角度看,对学术研究团队的识别和评估也越来越重要。比如,对于一个学科(或学术领域)收稿日期:2008年10月2013作者简介:汤建民,男,1967年生,浙江树人大学科学计量学研究中心主任,教授,主要研究方向:科学计量学。E—mail tjmjm@sina.tom。1)基金项目:浙江省哲学社会科学规划课题“词频统计法应用于学科动态分析的综合研究”(07WTrQ001YBM)。情报学报第29卷第2期2010年4月来说,究竟有哪些主要的研究机构?它们的实力、特点如何?最主要的学者以及他们的团队成员有哪些?他们各自关心的研究主题又有哪些?等等,显然,对这些问题的回答都十分重要。然而,由于各种条件的限制,这些问题在以前一般都只能由专家作出以定性为主的判断,这样的方法不仅费时费力,而且也很难做到全面、客观、及时。现在随着国内外各种科技文献数据库的日益齐备和计算机数据挖掘技术、信息可视化技术的发展,这就为我们有可能通过对科技文献数据库的数据挖掘来解决这些问题。基于上述思考,笔者借鉴数据挖掘的思想,对科技文献库中的论文作者利用共现分析、社会网络分析等技术与方法开发了一套简单、高效的可视化识别和评估模型,并以国内科学学研究领域为例说明了此种方法的可行性和有效性,以便为学术研究团队的分析和研究拓展出新的方法和空问。1.1研究假设1研究设计本研究建立在如下的假设基础之上:即任何科学研究和科技进步最终都会以文字的形式反映出来,因此通过对科技文献的分析,我们可以在一定程度上反映出科学研究的历史、现状乃至未来发展趋势,比如研究的热点,科技文献产出的模式,机构或学者以及期刊的学术影响力等。由于科技论文都具备篇名、作者、机构、摘要、关键词等基本要素,而且由于科学合作的结果一般也都会以合作研究者共同署名在学术期刊上发表论文的形式体现出来,因此通过对论文作者、机构等基本要素的统计分析,我们可以获知该领域主要有哪些学者、哪些机构,及其合作情况,并通过关联分析,进一步分析出他们的各种特点。1.2研究过程中的关键技术通过科技文献来对学术研究团队进行识别、评估和监测,需要通过数据收集、数据分析、可视化等步骤,其中最关键的一个技术是要将学术期刊上的作者合作情况以可视化的形式呈现出来。本文借助社会网络分析(social network analysis)技术来实现这个目标。社会网络分析是一种研究社会实体间关系的方法技术,目前已被广泛应用于社会行为科学以及经济学,营销学和工业工程之中。如可以应用它来研究群体成员间的沟通、公司间的经济交易等。将其应用于文献计量学研究,则可以通过社会网络分析中的K核、中心性和中介性等概念,找寻出具有重要地位的论著、作者或者是关键词之间的关系和交互,发现它们的结构、特征等。1h”。。社会网络分析的可视化软件有多种,以netdraw的使用为最多。为容易理解起见,下面以学术论文合作网为例来说明社会网络分析的方法和相关概念。比如,假设某领域有7位作者发表了论文,其中作者A和B合作发表了3篇论文,B和C合作发表了1篇论文,B和D合作发表了5篇论文,A、E、F合作发表了1篇论文,G单独发表了3篇论文。根据上述数据,应用社会网络分析方法就可以得到他们合作情况的可视化图形,见图1。图1中,顶点代表作者,顶点之问的连线说明这两个作者合作发表过论文,其中线条的粗细说明了合作的强度,线越粗,说明合作次数越多。图中的孤立点G,说明该作者和其他作者没有合作经历。显然,图1是一个非常简单的图,可以想象,当论文数、作者数达到成百上千甚至上万时,相应的图一般就会变得非常复杂,通过观察图的整体或局部的结构、点与点的连接情况以及线条的粗细等,我们就可以从中得到大量的结论,不用说,这时候社会网络分析方法就会更显出它的威力。1.3研究视角学术研究团队一般有两层意思,一是建立在固定机构之上的团队,简称“机构团队”,即一般意义上图1论文作者合作关系图学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例的所在单位,比如,北京大学团队、浙江大学团队等;二是实际的由科研人员合作形成的团队,比如由某~个学术带头人组织形成的团队,简称“学者团队”,在这种情况下,其成员可能来自多个不同的单位。基于此,本研究的视角将同时关注“机构团队”和“学者团队”。区分一个团队和另一个团队的异同显然也有多种指标,对于学术研究团队来说,本研究将着重进行以下几个方面的区分:主要的团队带头人及其特征;团队成员的规模;团队产出的大小;团队成员之间的相互关系;各主要团队的相关研究主题;团队的发展潜力和趋势分析等。1.4研究流程按照数据挖掘的基本思想,本研究流程主要有以下几个步骤,见图2。图2学术研究团队的可视化识别和评估的流程(1)数据收集。即在明确研究目标的基础上,选取最合适的数据库获得数据。(2)数据预处理。主要工作是将收集到的数据进行规范化整理,以便于下一步统计分析。如进行数据格式的转换,剔除多余或不合格的数据等。(3)数据计算。核心是围绕研究目标,对数据进行排序、求和、聚类、共现等计算。(4)绘制图谱。将获得的计算结果整理为可以用来可视化表达的数据,并且运用合适的可视化工具绘制成图形,以有利于研究者和用户的理解和分析需要。(5)研究报告形成。根据研究目的,在对数据计算的结果和可视化图形的分析基础上形成研究报告。2案例:以国内科学学研究领域为例2.1数据来源本文研究数据来源于国内科学学研究领域2001~2007年度最主要的六种期刊所发表的论文,这六种期刊是《科学学研究》、《科研管理》、《科学学与科学技术管理》、《中国软科学》、《研究与发展管理》和《科学管理研究》。经过数据预处理后,共得到8909篇论文的详细信息,包括论文题名、作者、机构、关键词、发表期刊和发表的时间等。统计发现,这8909篇论文中,共出现8945个作者,总署名次数为次。其中由单个作者独立完成的论文有3399篇,由2个作者共同完成的有2461篇,由3个作者共同完成的有1715篇,由4个作者共同完成的有298篇,由5个及以上作者共同完成的有86篇。2.2高产作者合作网通过对论文作者出现频次的统计,可以得到每一个作者的发表论文篇数(含非第一作者身份发表的论文),发表论文较多的作者见表l。表1发表论文在20篇及以上的作者(含非第一作者身份发表的论文)┏━━━━┳━━━┳━━━━┳━━━┳━━━━┳━━━┳━━━━┳━━━┳━━━━┳━━━┓┃作者┃篇数┃作者┃篇数┃作者┃篇数┃作者┃篇数┃作者┃篇数┃┣━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━┫┃陈劲┃8l┃刘则渊┃32┃孙林岩┃25┃谈毅┃22┃王勇┃20┃┣━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━┫┃许庆瑞┃59┃曾德明┃30┃姜照华┃25┃司春林┃22┃苏敬勤┃20┃┣━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━┫┃吴贵生┃46┃黄瑞华┃30┃冯之浚┃24┃姜彦福┃22┃刘希宋┃20┃┣━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━┫┃吴晓波┃41┃黄鲁成┃29┃谢洪明┃23┃苏竣┃21┃陈德棉┃20┃┣━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━┫┃李垣┃41┃陈士俊┃29┃杨乃定┃22┃官建成┃21┃┃┃┣━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━╋━━━━╋━━━┫┃魏江┃33┃柳卸林┃26┃王重呜┃22┃郑刚┃20┃┃┃┗━━━━┻━━━┻━━━━┻━━━┻━━━━┻━━━┻━━━━┻━━━┻━━━━┻━━━┛为了进一步反映作者之间的合作情况,下面我们用共现分析、社会网络分析等方法对这些作者的合作情况进一步进行分析并进行可视化识别。具体做法是:先选择频次不少于10次的作者,即认为在这7年时间里至少在这些期刊上发表了10篇论文的作者,才认为这个作者是比较重要的,这样共得到一32S一情报学报第29卷第2期2010年4月●琏燕华●冯英泼●聂呜●倍福绦●陆立军图3科学学研究高产作者合作网161位作者。然后计算他们中任意两个作者在所有论文中同时出现的次数,并将共现计算得到的结果用社会网络分析中常用的netdraw软件将其可视化,这样就得到了图3。图3中的每个顶点代表一个作者,顶点的大小和该作者发表论文篇数的多少成正比,顶点之间的连线代表这2个作者有共同合作发表论文的情况,线条粗重的说明它们共同合作发表论文的次数多,反之则共同合作发表论文的次数少或是没有合作。由图3可以发现:(1)发表论文较多的学者有:陈劲、许庆瑞、吴贵生、吴晓波、李垣、魏江、刘则渊、曾德明、黄鲁成等,他们大都是某知名大学的博士生导师、教授。(2)161个高产作者中,有96位作者在不同程度上有过相互合作发表论文的情况,其余65位作者则没有和其他高产作者合作过(显然,这不排除他们和除这161位高产作者以外的作者合作过)。在图3中,这65位作者属单点型子网。(3)较典型的两人合作型子网有:谭清美和王子龙,周立和何建坤,程如烟和罗晖等。(4)较典型的3人合作型子网有:武书连、吕嘉和郭石林,曾德明、张运生和张利飞,李纲、张玉臣和陈德棉等。(5)人数较多的合作网络有浙江大学和大连理学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例工大学,其中浙江大学子网中的主要成员有陈劲、许庆瑞等,大连理:.r:大学子网中的主要成员有刘则渊、姜照华等。(6)图3中有少数作者同时和两个以上子网有联系,他们在某种程度上起到了一种桥梁作用。比较典型的,如郑钢联系了浙江大学和大连理工大学。处于这两个子网中间的桥梁型作者,一般是人才流动或开展学术交流的结果,比如,一个作者从A大学硕士毕业,接着又到B大学读博士;或是一个在A大学工作的作者,到B大学在职攻读学位或是做访问学者等,这样就形成了这两个子网之间相联的情况。2.3主要研究机构的作者合作网图3描绘了国内科学学研究领域高产作者的合作网总图,下面我们再进一步对主要研究机构的作者合作网情况进行分析。具体研究步骤是:先对论文第一作者所在的机构进行统计,这样就得到了科学学研究领域各主要研究机构的产出情况,见表2,由此可知,浙江大学、西安交通大学、清华大学等是我国科学学研究的主要机构。对这三个单位所发表的论文,参照前面的程序,可以分别画出这三个单位作者的合作网图,所不同的只是,在画这三个图时,将作者入选的频次门槛降为3,这样就得到了图4至图6。其中图4反映的是浙江大学640篇论文(含非第一作者属于浙江大学的论文)的作者合作网,该网中共有发表论文在3篇及以上的作者108人(含非浙江大学的合作者),图5反映的是西安交通大学519篇论文的作者合作网(3篇及以上作者105人),图6反映的是清华大学467篇论文的作者合作网(3篇及以上作者89人)。观察图4、图5和图6,可以直观地发现如下一些结果:(1)浙江大学网络的中心型学者主要有:陈劲、许庆瑞、吴晓波、魏江等,西安交通大学网络的中心型学者主要有:李桓、黄瑞华、孙林岩等,清华大学网络的中心型学者主要有:吴贵生、曾国屏、苏竣、姜彦福等。(2)从整体结构看,相比之下,浙江大学、西安交通大学的网络比较大、比较广,子网之间大都有或多或少的联系,而清华大学的子网之间则区分得很清晰,界限比较分明。为什么会出现这种情况,其原因还需要进一步分析。一种可能的原因会否是由于清华大学研究方向上存在较大的区别?或者也可能和其教师的来源比较广泛有关?如果对这三个机构的论文关键词进行进一步的统计,则还可以发现,这几年来他们的研究主题主要是“技术创新”和“知识管理”,但也有一些区别,如浙江大学比较关注“竞争优势、核心能力、产业集群、复杂产品系统”等问题,西安交通大学比较关注“组织学习、人力资本、合作创新、突变创新”等,而清华大学则比较关注“基础研究、战略”等。表2发表论文数量在50篇及以上的研究机构┏━━━━━━━━━━┳━━━━┳━━━━━━━━━━━━━━━━━━┳━━━━┳━━━━━━━━━━━━┳━━━━┓┃研究机构┃篇数┃研究机构┃篇数┃研究机构┃篇数┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃浙江大学┃590┃中国科学院科技政策与管理科学研究所┃131┃中南大学┃76┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃西安交通大学┃485┃南开大学┃118┃南京航空航天大学┃70┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃清华大学┃4J4l┃武汉理工大学┃117┃湖南大学┃69┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃天津大学┃338┃哈尔滨工业大学┃115┃北京航空航天大学┃68┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃华中科技大学┃291┃华南理工大学┃114┃北京交通大学┃67┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃大连理工大学┃286┃重庆大学┃114┃中国科学院研究生院┃66┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃上海交通大学┃242┃中国人民大学┃107┃吉林大学┃64┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃复旦大学┃206┃同济大学┃105┃南京理工大学┃59┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃武汉大学┃162┃西北工业大学┃103┃浙江工商大学┃58┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃中国科学技术大学┃156┃东北大学┃101┃苏州大学┃57┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃东南大学┃143┃北京大学┃90┃西南交通大学┃55┃┣━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━━━━━━━╋━━━━╋━━━━━━━━━━━━╋━━━━┫┃南京大学┃136┃北京理工大学┃83┃北京工业大学┃50┃┗━━━━━━━━━━┻━━━━┻━━━━━━━━━━━━━━━━━━┻━━━━┻━━━━━━━━━━━━┻━━━━┛情报学报第29卷第2期2010年4月————————————————————————————————————————————————————————————一_图4浙江大学作者合作网·——328-——图5西安交通大学作者合作网学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例图6清华大学作者合作网图7陈劲团队合作网
上一篇:年科学学研究被引期刊情况分析
下一篇:没有了