论文部分内容阅读
科技电子文献是科研工作者发布研究成果、交流信息的重要载体。而科技的飞跃发展以及互联网的广泛普及,造成电子文献海量涌现,迫切需要一个能够辅助科技工作者快速有效获取相关文献,并对其进行分析和管理的文献检索系统。本文基于自然语言处理、信息检索、模式识别等相关领域理论和技术,构建了一个高效的科技文献分析与检索平台。重点关注于电子文献的获取、参考文献元数据的提取,引文的相关分析、主题发现以及可视化等几个方面。
针对科技文献的参考文献元数据提取工作,本文采用基于段层次特征的条件随机场方法,实现了引文元数据信息的准确提取。
在准确提取元数据信息的基础上,本文建立文献间的引用关联有向图结构,利用此引用关联进行引文定位,挖掘文献作者对参考文献的主观评价。采用主题模型,对已构建的领域文献数据库进行主题聚类,发现领域研究方向的发展变化;预测引文对当前文献贡献大小的客观评价。
利用Prefuse工具包,实现文献间引用关系的可视化,以及相关文献间的导航,为用户提供可交互的友好界面。