不同数据库中机构检索的检索方法及技巧论文

时间:2021-06-28 10:31:26 论文范文 我要投稿

不同数据库中机构检索的检索方法及技巧论文

  当前,很多高校科研管理部门每年都会进行科研成果统计,对本机构内科研活动状况进行定量测定。通过不同数据库的机构检索,能够反映高校科学研究的动态和水平,从而为在院校的学科建设、科研规划、人才培养、宏观决策的制定等方面建立机构知识库提供重要依据; 同时也有助于与拥有相近学科的高校进行横向比较。在实际工作中,经常会接到某高校科研处的委托,请求检索该高校人员在某个时间段( 常常是逐年委托连续起来) 发表的论文在国内外著名检索工具中的收录情况,借以统计该机构的科研成果。

不同数据库中机构检索的检索方法及技巧论文

  1 机构检索中遇到的问题

  在检索时发现,机构中英文名称不规范的情况很普遍,如机构名称有常用名称和别名,机构名称采用缩写或简写,机构改名后仍然有为数不少的作者沿用原来机构的英文名称。还有一些作者在发表论文时未使用所在机构的正式英文名称,有好几种非正式名称出现[1 -2].这给检索过程中想要求全带来极大的困难。另外,不同的数据库收录论文时着录规则不同,如果检索策略不对,会导致检索结果出入很大[3].笔者根据实际工作中积累的经验,介绍以机构委托时通常会用来统计的数据库以及在不同数据库中检索的具体方法及技巧,确保检索机构的查全率和查准率。

  2 机构检索时通常选取的国内外著名数据库

  现在很多高校都是综合性大学,理工文史哲经管农医教各学科都有。所以在成果统计时可以大致按照自然科学和社会科学来分类。其中,自然科学类常用的数据库有 SCI、EI Compendex、CPCI - S、MEDLINE、CSCD、CNKI 等,社会科学类常用的数据库有 SSCI、A&HCI、CPCI - SSH、CSSCI 等。这其中又区分这些数据库的核心版和非核心版的收录情况。这些数据库都是在国内外有重大影响力的数据库,其中有专门收录期刊论文的,或专门收录会议论文的,也有都收录的。

  除了上述检索收录时常用的数据库,基本科学指标数据库( Essential Science Indicators,简称 ESI)也是机构检索的重要工具,它是由世界著名的学术信息出版机构美国科技信息所( ISI) 于 2001 年推出的衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具,是当今世界范围内普遍用以评价大学、科研机构、个人国际学术水平及影响力的重要指标。

  3 不同数据库中可以使用的着录规则特征及基本检索方法

  机构人员发表论文时一般都会在作者地址中留下机构名称、具体地址及邮编,团体作者也符合这个特点。所以检索时考虑凡地址字段中出现该机构名称即可确认是该机构人员发表的论文。

  不同数据库对信息的着录规则不同,会导致同样的检索策略检索出的结果差别很大。而同一家数据库商所做的同一平台上的数据库的着录方法是基本一致的,所以这里按照不同的平台来介绍。

  3. 1 ISI 平台

  目前,我们常用的是 ISI 平台上的 Web of Sci-ence Core Collection 数 据 库 集,包 括: SCI / SSCI /A&HCI / CPCI - S / CPCI - SSH / CCR / IC 等 7 个数据库,该平台还有 MEDLINE/BIOSIS 等数据库。

  通过在作者地址中输入机构和/或地点的完整或部分名称,可以检索“地址”字段。例如,Univ 和University 可查找记录中的地址字段出现检索词 “Univ” 的机构。

  可以使用逻辑运算符( AND、OR、NOT、NEAR和 SAME) 和通配符 ( * $ ?) 来组合检索使检索结果更精确。但是检索包含上述逻辑运算符的地址,需要将该运算符名称括在引号内。

  在检索时,逻辑运算符和通配符的使用与其他数据库的不同点在于:SAME 运算符指定了由运算符连接的检索词位于同一地址,而不仅仅是位于相同的字段,使得检索结果更精确。

  使用 NEAR/x 可查找由该运算符连接的检索词之间相隔指定数量单词的记录。该规则也适用于单词处于不同字段的情况,用数字取代 x( x≤15) 可指定将检索词分开的最大单词数。

  通配符星号 ( * ) 表示任何字符组,包括空字符,只能放在词尾。

  通配符问号 ( ?) 表示任意一个字符,用于单词中间。

  通配符美元符号 ( $ ) 表示零或一个字符,可用于词尾或词中间。

  3. 2 Engineering Village 平台

  目前,国家图书馆仅购买了该平台的 EI Com-pendex 数据库,所以以下只针对该数据库的检索规则进行介绍。

  作者地址字段 Author affiliation 简写为 AF 字段。EI Compendex 数据库提供了该字段的索引,但实际按照作者机构检索时发现效果很不理想,原因在于作者对机构名称的书写不规范,用索引列表很难穷尽。

  EI Compendex 数据库也提供了逻辑运算符( AND、OR、NOT、NEAR 、ONEAR 和 SAME) 和通配符 ( * $ ?) 组合检索来提高检索效率和精准度。

  但是具体的使用方法和含义不尽相同。

  截词符星号 ( * ) 用来检索以相同字母开始的单词。

  通配符问号 ( ?) 表示任意一个字符,用于单词中间。

  美元符号 ( $ ) 表示词干搜索条件。在一个完整的单词前面加上 $ ,可以将其各种形式的变形都搜索出来。

  位置算符 NEAR 或 ONEAR 限制检索时两个词组之间距更邻近,ONEAR 更是限定了词与词之间的先后顺序。但它们不能与* 、?、( ) 、{ } 、“”同时使用。

  3. 3 ESI 数据库

  ESI 数据库的功能主要包括 3 个方面: 引用排行( Citation Rankings) 、高被引论文( Most Cited Pa-pers) 和引用分析( Citation Analysis)[7].ESI 根据各机构不同学科领域 10 年内论文的被引频次的总和对机构进行排名。ESI 中机构名称都很规范,只考虑机构的正式英文名称即可。

  可以按学科浏览,查看在同一学科不同机构的排名情况; 也可以进行机构检索,查看同一机构在不同学科的排名情况; 也可以检索该机构近 10 年来在某学科的高被引论文数或热点论文数。

  机构检索时默认在地址字段检索,只要包含该机构名称就符合检索条件。可以浏览字顺表进行机构检索,或用机构正式英文名称的缩写进行检索; 输入“HARVARD UNIV”,对应机构名称就是 HAR-VARD UNIV; 输入“HARVARD UNIV* ”,检索结果为包含前述两个词的任一地址,如: HARVARDUNIV 或 HARVARD UNIV MEDICAL AFFILIATES.

  3. 4 中文数据库 CSCD / CSSCI / CNKI

  CSCD 数据库机构字段只需了解加双引号( “”)是精确检索。不加是模糊检索。

  CSSCI 数据库中作者机构字段默认就是精确检索。

  CNKI 数据库中单位字段提供精确或模糊两种选择。这里要说明的是在机构检索时需要选择“模糊”,因为 CNKI 中“精确”是与所输入检索词完全匹配,而机构地址通常都是某大学某学院某系等信息,选择“精确”就会造成漏检很多。

  中文数据库由于没有语言问题,相对来说检索规则也较简单,不再另述其检索技巧。都可以区分核心版和非核心版。需要注意的是,一定要将机构名称的常用名、别名、简写或缩写找全,并配合地址和邮编来检索,这样才能保证检索结果既全面又准确。

  4 机构检索在英文数据库中的检索技巧

  根据我们多年的实际工作经验,认为初步设定检索式时要尽可能的.放大范围以保证检索全面; 同时,既考虑增加检索条件,又要使用算符,确保检索准确性。当机构名称较长时,不容易引起干扰; 机构名称简单,则干扰项会很多。

  4. 1 机构名称较长,直接用机构名称检索引起的干扰项较少

  以华北水利水电大学为例,检索该机构 2013 年发表的论文在数据库中收录情况。

  该机构的正式英文名称及邮编为:North China University of Water Resources and ElectricPower ,Henan Zhengzhou 450011地址字段输入邮编 450011,浏览可发现该机构的其他不规范写法,例如:“水利”有用 Water Resources 或 Water Conservancy,“水电”有用 Electric Power 或 hydroelectric Power,“学院”有用 U-niversity 或 institute.

  以 SCI 为例,SCI 数据库中地址字段检索时默认词与词之间的精确顺序,构造检索式如下:ad = ( N* China ( Univ* or inst* ) Water ( Conservan*or Resource* ) ( Elect* or Hydroelec* ) Powe* or 450011)以 EI Compendex 为例,EI Compendex 数据库检索时默认词与词之间就是“and”关系,不指定检索词的顺序。这个原则适用于地址字段。所以实际检索时要具体情况具体分析。考虑到该机构名称较长,模糊检索,干扰项也不会太多。所以直接将检索式变更为 EI 中格式即可,如下:( N* China and ( Univ* or inst* ) and Water and ( Con-servan* or Resource * ) and ( Elect * or Hydroelec * ) andPowe* ) wn AF or 450011 wn AF

  4. 2 机构名称简单,直接用机构名称检索引起的干扰项很多

  当机构名称较短时,就会有很多干扰项。如检索“河北大学”,该机构正式名称及地址如下:Hebei University,Hebei Baoding 071002在 SCI 地址字段输入 Hebei Univ* 检索,会发现以 Hebei Univ* 打头的各种干扰项,如: HEBEIUNIV TECHNOL 、HEBEI UNIVERSITY OF TECH-NOLOGY、HEBEI UNIVERSITY OF SCIENCE TECH-NOLOGY 、HEBEI UNIV ECON BUSINESS 等等;在 EI 地址字段输入 Hebei Univ* 检索,会发现只要地址字段中包含了 Hebei 和 University 两个词,就满足了检索条件,导致检索结果极不精确,除了上述干扰项,还会有诸如: HEBEI MEDICAL UNIVER-SITY、HEBEI NORTH UNIV、HEBEI UNITED UNIV等等。

  这时,一方面可以通过增加检索条件,如将机构名称与地址或邮编组合检索来缩小范围使得检索结果更精确。也避免了漏检同时将地址和邮编都写错的情况。

  以 2013 年 SCI 收录为例:原检索式: ad = ( hebei univ* ) and py =2013 检索结果:1023 条修改为: ad = ( Hebei Univ* and ( Baoding or 071002) )and py = 2013,检索结果: 469 条可以看出修改后的检索式大大提高了准确率。

  然后再在这个相对准确的结果中去确认就容易得多。

  以上操作都是基于先将范围最大化从而不会漏检,保证检索结果更全面的角度出发。

  另一方面,巧妙使用数据库中的算符以提高准确率。

  以河北北方学院 2013 年发表论文的 SCI 收录情况为例:机构正式名称及地址: Hebei North University,hebeiZhangjiakou 075000North 在数据库中有可能以 NORTH 或 N 或 Northern出现。

  构造原检索式: ad = hebei n* univ* and py =2013 检索结果: 450 条情况 1: 粗略浏览检索结果发现干扰项 HEBEI NORMALUNIVERSITY 很多,去除干扰项,检索式修改为: ad = ( hebein* univ* not hebei norm* univ* ) and py = 2013 检索结果: 59 条但这样会将地址字段既有河北北方学院又有河北师范大学的条目也去掉,所以补充修改检索式为:( ad = ( hebei n* univ* not hebei norm* univ* ) or ad= ( hebei nort* univ* and hebei norm* univ* ) ) and py =2013 检索结果: 60 条情况 2: 使用地址与名称组合检索。如上文中介绍,在 SCI 地址字段检索时,算符 SAME 有将检索词限制于同一地址检索的功能,所以做对比如下:原检索式: ad = ( hebei n * ( univ * or coll * ) and( zhangjiakou or 075000) ) and py =2013 检索结果: 60 条修改为: ad = ( hebei n * ( univ * or coll * ) same( zhangjiakou or 075000) ) and py =2013 检索结果: 58 条可见,使用 same 算符后检索结果更精确。

  再以 EI 数据库中地址字段检索举例说明:原检索式: Hebei north* univ* wn af 发表时间: 2013 年检索结果: 640 条( 可以单独检索 hebei n univ* 以补充全面)如上文介绍,位置算符 NEAR 或 ONEAR 可以使检索结果更准确。可以修改检索式如下,以便看出其中差别:#1 Hebei NEAR north NEAR university wn af 发表时间:2013 年 检索结果: 92 条#2 Hebei ONEAR north ONEAR university wn af 发表时间: 2013 年 检索结果: 76 条#3 Hebei NEAR /0 north NEAR /0 university wn af 发表时间: 2013 年 检索结果: 74 条#4 Hebei ONEAR /0 north ONEAR /0 university wn af 发表时间: 2013 年 检索结果: 74 条注释: #1 和#2 中没有指定相邻几个词时,默认是 4 个词。即 NEAR 等同于 NEAR/4.

  可以看出,检索结果变少,范围缩小。以上检索默认数据库打开 Autostemming 功能,自动进行词干检索,如 north 的变形 northern 也包含在检索结果内。这个功能也可以通过使用词干搜索符号 ( $ )实现。修改检索式为:#5 Hebei ONEAR /0 $ north ONEAR /0 $ university WNAF 发表时间: 2013 年 检索结果: 74 条但是,由于 NEAR 或 ONEAR 算符不能与* 、?、( ) 、{ } 、“”同时使用,尤其是截词符* ,这就使得检索结果不全面,如检索式#1 到#5 均无法检索到 uni-versity 的缩写 univ.

  以上仅是为了说明算符的重要性,在实际检索时要将上述几项合并使用。

  5 建议

  ( 1) 有关单位规范机构和地址名称及其英文翻译名称,科技工作者在撰写论文时也要采用正式的机构和地址的中英文名称,减少不规范因素,这样就不会漏查; 检索人员应多学习数据库的着录规则,了解不同数据库的着录格式,在构建检索策略时更加全面更加精确,提高查全查准率。

  ( 2) 相关工作人员在做机构检索时,可以按照下述方式进行: 与委托单位科研处沟通,获知该机构的正式名称与地址,以及是否有曾用名称、地址邮编的变化等信息,这样在检索之前全面了解被检索机构的各种信息; 充分利用数据库不同的着录规则去检索,获取到相关检索结果并反馈给科研处; 请科研处人员确认并发布,收集极个别的遗漏信息再单独补充。这样完成的机构检索就既全面又准确了。

  参 考 文 献

  [1] 张 冰。 科技期刊学术论文中作者单位名称着录存在问题及建议[J]. 内 蒙 古 大 学 学 报 ( 自 然 科 学 版) ,2009 ( 2) :225 - 228.

  [2] 谢 群。 在 WebofScience 中准确进行中文机构检索的方法研究[J]. 图书馆论坛,2011( 1) : 155.

  [3] 于澄洁。 EiCompendex 数据库作者机构检索技巧[J]. 图书馆杂志,2010( 12) : 29 -30.

  [4] [ EB/OL].webofknowledge. com/WOKRS5132R4. 2 / help.[2014 - 11 - 30].

  [5] [EB/OL].[2014 - 11 -30].

  [6] 孙 君,陈 陶。 提高文献查全率和查准率的有效途径_省略_算符_位置算符和通配符的灵活运用_孙君[J]. 现代情报,2006( 10) : 167 - 169.

  [7] 韩 欣,刘子忠。 ESI 计量分析数据库的功能与科学评价---以中国地学研究机构的科学评价为例[J]. 地质科技情报,2010( 1) : 138 - 142.

【不同数据库中机构检索的检索方法及技巧论文】相关文章:

信息检索中的检索词运用分析07-21

Internet信息检索中的数学10-03

网络信息检索服务与分析论文09-19

实例演示在MSSQL中启用全文检索数据库 -电脑资料01-01

如何从 MySQL 数据库表中检索数据数据库教程 -电脑资料01-01

检索实习目的02-08

实习检索报告09-28

实习检索报告12-08

信息检索作业06-14