论文内容的多层过滤方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yu8937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据的时代背景下,人类知识总量急剧增加,学术科技文献正以每年10%~12%的速率增长,这使得论文推荐系统的研究越来越受到人们的关注。如何在海量的论文数据中加快推荐系统的检索识别是本文研究的主要问题。本文研究学术论文内容的多层过滤方法,其主要目的是在推荐系统进行论文推荐之前,根据论文文本的结构特性,尽可能多的、无重复的提取学术论文的重要语句,形成新的论文概要,从而降低论文文本的特征维度,加快推荐系统的检索识别。语句提取技术一般应用于自动文摘领域,但是在论文推荐系统中,学术科技论文多为几万字的长文本,现有的自动摘要技术并不适用于论文内容的过滤。针对论文文本的强结构性、高维度性,本文研究了以下问题。本文通过语句识别和语句信息统计,实现了对论文文本结构的层级划分;并基于支持向量机(SVM)设计重要语句提取模型,根据重要语句的物理特征规则训练语句提取模型的分类器,实现分类器能自动判别各个层级语句的重要性,最后通过实验证明了该方法提取的重要语句集合的召回率较高;较高的召回率表明论文概要能准确的、全面的反映论文内容,但是对于具有较高召回率的论文概要,我们还需要对其冗余度进行控制。为了有效控制论文概要的冗余度,本文设计了冗余度控制模型,通过综合考虑语句单元间的相似性,保证论文概要与论文文本集合间的相似性尽可能大,论文概要内的语句的相似性尽可能小。本文把该模型提取的语句集合和其他方法提取的语句集合进行对比,结果表明该模型提取的内容更具代表性。最后为了提高该冗余度控制模型的性能,本文把余弦相似度计算法和标准谷歌距离(NGD)相似度计算法线性组合,对该冗余度控制模型进行优化,并通过实验证明优化后的冗余度控制模型对论文概要的冗余度控制效果更好。
其他文献
在酸性土壤上铝毒害是影响农作物产量的限制因素之一。通常,解决铝毒害的方法是大量施用石灰来提高土壤的pH值,使游离铝沉淀。但是这种方法难以彻底解决土壤酸度和铝毒害问题
轮虫(Rotifer)属于动物界中一类无脊椎假体腔多细胞动物,个体微小却正适合幼鱼口径,营养丰富且易于人工培养。作为生物饵料,轮虫在控制水质、提高海洋生物幼体成活率等方面也
随着移动通信和互联网的快速发展,VANET已成为城市智能交通系统中一个不可或缺的部分,在交通调度、流量监控、危险预警、车载信息交互等领域拥有着广泛的应用场景。当前,大城市的交通拥堵问题日益严重,给社会造成了巨大的经济损失,且产生了严重的环境污染。因此,如何利用VANET车间通信的特点,设计有效的交通拥塞调度机制来缓解交通拥堵状况,是当前的研究热点之一。同时,由于车辆自身计算资源的受限,当车辆产生大
这条线路是北京经济技术开发区(以下简称经开区)发展壮丽实践的生动写照。这条线路是经开区党史学习教育精品课堂、优秀案例。这条线路是学史爱党强使命、勇当先锋开新局,在
国内体育用品市场竞争日趋激烈,在国际知名品牌耐克、阿迪达斯等冲击下,国内体育用品企业只能见缝插针,不断寻求生存发展之路。安踏从成立至今,逐渐成为国内最大的综合性体育用品品牌,在国内外市场取得了巨大成功。其推出的营销模式也受到了同行业内其他企业的追随和模仿。本文综合运用文献分析法、案例研究法、比较分析法和问卷调查法,以安踏公司为例,对其在营销方面实施的策略、采用的模式等进行详细剖析,结果发现安踏主要
学位
氮化镓(GaN)高电子迁移率(High Electron Mobility Transistor,HEMT)晶体管具有工作频率高、输出功率密度大、功率效率高等特点,已经广泛应用于雷达、卫星、5G等通信系统中。
城市化过程指将自然地表变成以不透水面为主要特征的城市用地的过程。城市化改变了土地覆盖和地表生物物理属性,地表反照率、粗糙度、植被覆盖度发生变化,导致地表水热平衡被
云服务能够为用户提供快捷部署服务和存储数据的便捷性。越来越多的企业、科研机构和个人将他们的数据存储在云端。由于多种原因,用户隐私时有泄漏。而加密技术是保证用户数
随着信息技术的发展,复杂网络已被广泛应用于描述各种人工和自然系统,如社交网络,互联网,神经网络,生物网络。复杂网络是21世纪重点研究课题之一,吸引了大量不同领域的研究人
耻垢分枝杆菌Ms6564是一个具有广泛调控功能的TetR家族转录因子。前期工作中已证实该转录因子主要作为转录激活子,正调控大量细胞周期和损伤修复相关基因的表达,负调控分枝杆