论文部分内容阅读
本文在对非相关文献知识发现中的关键技术进行界定的基础上,对11个国外主要的非相关文献知识发现研究中所涉及的关键技术,即初始文本集的构建、信息抽取及中间关联词的确定与排序等进行了比较研究,认为B集合质量低是非相关文献知识发现目前存在的主要问题。针对该问题,作者提出以提高B集合的质量为主要目标,从B集合形成的前过程,即初始文本集的质量以及B集合本身的质量,即B词的排序两个方面的改进策略。前者包括初始文本集的合理结构及综合过滤机制,后者包括双向词频法、基于MeSH加权和基于文献内聚力加权。并对部分改进策略进行了