学科监测中的新主题发现方法研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:flyingfish521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,越来越多的学术论文在期刊、会议上发表,或者直接在互联网上发表以供交流。同时,互联网技术的发展和数字图书馆的兴起为科研人员获取学术论文提供了极大的方便。然而如何在大量的资料中找到最有价值的信息,如何把握学科的最新发展动态成了研究者最关注的问题。 国内外的一些文献机构利用自身的文献资源进行了相关的理论和实践的研究,如汤姆森科技信息集团的ESI数据库,国内的CNKI、NSTL等。搜索引擎Google、百度也开发了相关的产品对互联网的搜索趋势进行了跟踪。归纳起来,对科学的监测对象主要有四个方面:科研成果的产出者、科研赞助者、科研成果本身以及学科。 在进行学科监测时,研究的问题可分为两类:结构化的和趋势化的。结构化的分析是指对以往的研究成果进行分析,而趋势化的分析是指对新主题或研究趋势进行发现。目前学科新主题发现的主要方法有文献计量法、同被引分析法、内容分析法、新关键词发现技术和用户使用数据分析法。笔者在这些方法的基础上,利用自然语言处理技术,借鉴信息检索中向量空间模型的思想,设计了一个新主题发现算法。 笔者设想利用信息检索中向量空间模型的相似度计算方法来判定新文献和已知文献的相似程度,从而判定新文献是否代表了一个新主题。但在实际操作中,这种方法是不可行的,因为文献数量十分庞大,因此要首先对文献进行聚类操作。因为很多文献探讨的是同一个主题,先将主题相同的文献进行聚类,然后再将新文献和类进行比较,可以大大降低比较的次数。判断一个文献是否属于某一个主题依然可以用相似度计算的方法。 首先用高被引论文做为领域分析的样本。任何一个领域的高被引文献都可以作为这个领域的代表。在提取了样本之后,对文献进行聚类操作。然后对每篇文献提取特征向量。特征向量包括关键词和共现词语两部分。采用逆文献频率加权法对关键词进行加权处理,并提取出关键词。对共现词语的识别采用判定模板的形式,并对其也赋予一定的权值。最终所有文献的关键词和共现词语的总和代表了一个子类的特征向量。最后用向量空间模型的相似度计算方法将新文章和已知主题类进行比较,从而发现代表新主题的文章。
其他文献
针对目前网页易访问性评估工具的不足,讨论基于XSLT的网页易访问性评估工具设计思路,阐述网页易访问性评估指标的设定,分析指标设计的规则和实现方法,最后进行试用。结果表明
癌症是当今世界一个重要的公共卫生问题,对全球经济发展、社会稳定和人民健康造成了严重危害。过去对癌症的研究,特别是大型规划型和政策型文献的研究比较分散,也没有专门的方法
从用户的个性化需求和信息服务的及时有效性出发,对信息服务平台进行研究,提出一种基于向量空间模型的支持用户定制的信息服务平台的构建方案。介绍平台的框架结构,对其关键
查询翻译歧义性问题是影响跨语言信息检索结果的关键,因此针对查询翻译的消歧研究已成为信息检索领域的研究热点.在对现有研究与应用调研的基础上,详细分析四类自动消歧方法,
合作式标签系统体现了一种新型的网络信息资源组织和利用思路,强调用户主动参与资源描述和组织的共建共享模式,允许用户自由选择简单的关键词对网络资源进行描述和组织。标记内
期刊
石刻拓片书目控制是石刻拓片数字化的重要环节,其目的在于深度揭示负载于石刻拓片之上的信息.传统金石目录学作为中国金石学的基本组成部分,以其近千年的深厚积累,为石刻拓片
论文研究了基于本体的医学网络信息资源组织模式的有关理论、技术和方法,旨在构建语义Web门户知识组织的系统框架,探索其中的关键过程——领域本体构建的方法和途径,在此基础上
指出构建政府信息服务绩效评估指标体系应坚持目标一致性、可测性、可比性和整体性原则,在此基础上从用户满意、投入产出、内在优化、持续发展4个方面设计政府信息服务绩效评
“科技三会”强调科技创新、科学普及是实现创新发展的两翼,要把科学普及放在与科技创新同等重要的位置,倡导在全社会推动形成讲科学、爱科学、学科学、用科学的良好氛围。开发