基于BP神经网络的XML文档分类

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:scotty_zhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,XML文档凭借自身的优势已经在各个领域广泛的应用,并成为数据交换和传输的标准。如何有效的管理海量存在的XML文档是当下重要的研究方向。分类技术能够从大量的数据中挖掘出有价值的信息,能够有效管理XML文档,因此对XML文档的分类研究是非常具有意义的。XML文档不同于普通的文档,其拥有内容信息和结构信息,所以如何同时表达XML文档的内容及结构信息是本文研究的重点。本文在传统的结构链接表达模型(SLVM)的基础上,提出了一种新的特征表达方法,即P-SLVM表达模型。P-SLVM表达模型首先在经典的tf*idf权重设置方式基础上,根据特征词在类中的分布情况,对特征词权重设置进行改进,使特征词权重更合理。同时,利用泊松分布理论、特征词所在位置对XML文档结构单元进行加权,以更为有效地表达结构信息和内容信息。其次,我们用优化的BP神经网络作为分类算法进行分类操作。优化的BP神经网络是在传统的BP神经网络上引入遗传算法求解初始值和阈值,遗传算法具有搜索全局最优的功能,可以解决BP容易陷入局部最优的问题。在学习算法的学习的过程中,我们采用自适应学习率的方法解决传统BP网络收敛速度慢及容易发生震荡的问题。从本文的实验结果看,P-SLVM表达模型可以更好的表达XML文档,提高分类的效果。经遗传算法优化后的采用自适应学习率的BP神经网络的性能也比传统BP神经网络的性能有了很大的提升。
其他文献
在地震数据解释中,断层被认为是地震反射的不连续性,断层组合则是指在一定范围内同时出现的多个断层组成的某种几何形式。基于地震图像的断层及断层组合解释是地质构造解释、储层表征和井位布置选取的关键步骤。目前,在断层组合的检测方面仍然停留在人工判断的阶段。存在耗时久、难度高、流程复杂、具有经验误差等问题。而随着机器学习、深度学习、计算机视觉等高新技术的发展,卷积神经网络已应用到了多个领域并取得了巨大的成功
学位
学位
地震勘探是当前全球油气勘探的主要技术,其通过人工激发并记录地震波,利用计算机对所采集的地震记录进行加工、改造,以获取地下介质的构造分布信息。勘探地区地质环境复杂多变、废炮、检波器故障等因素的存在,导致得到的地震数据是不完整的。进而对后期的数据处理和解释工作造成一定的困扰,因此完整地震数据的重建成为地震资料处理的重要环节。传统的地震数据插值通常需要假设地震数据是线性的或是稀疏的。深度学习作为近年来的
学位
随着当今技术的发展,视频分析有着越来越多的应用场景,例如视频目标检测、动作识别等。其中,视频行为识别是一个受到广泛关注的任务。视频行为识别是对给定视频中人的动作进行识别,给出目标的行为类别,例如打篮球等。相对于包含丰富的静态外观信息的图像识别,视频中包含更多的时序动作信息,如何有效的获取视频中的动作信息,是视频行为识别任务的一大难点。传统的视频行为识别模型包括3D卷积模型、双流模型以及其他RNN模
学位
萧红的作品《呼兰河传》中有着大量关于死亡的书写,通过对作品中死亡意象的描写、对死亡事件的陌生化处理、对死亡意识的深刻认识等方面分析,表现并渗透了作家深切的人生感受和文化反思,更突出表达了作家对死亡事件价值与人生价值的深邃思索。
期刊
随着人口老龄化问题不断加剧,独居老人的健康成为全社会关注的热点问题。如何对老人跌倒进行精准检测以减少意外的发生是目前急需解决的重要问题。目前跌倒检测大多数的研究主要集中在算法优化上,而没有充分考虑到因前倾、后仰等类跌倒动作的影响导致检测结果误报率过高等问题。针对目前人体跌倒检测中存在的问题,本文的研究内容主要包括以下几点:(1)本文提出了一种基于父子关联结构的人体行为模型和三维映射算法。在人体运动
学位
筛选适宜黑龙江省西部地区种植的苜蓿品种,探究苜蓿越冬率与根系性状及产量之间的相关性,为建立苜蓿人工草地提供优良品种。以国内外8个不同秋眠等级苜蓿品种为材料,采用随机区组设计,测定苜蓿产量、越冬率和根系性状(根颈直径、体积、入土深度、根长、主根直径、根尖数量、侧根直径、侧根位置、侧根数量、根系生物量)指标,通过主成分分析和隶属函数评价筛选出最佳品种。公农2号、草原3号和肇东苜蓿的越冬率均大于95%,
期刊
随着信息共享时代的发展,人们在享受网络资源带来极大便利的同时,也受到信息碎片化与信息超载的困扰,在海量信息中找到满足自己需求的内容成为了人们的迫切期望。虽然通过基于关键字的搜索引擎可以满足大众的简单需求,但无法满足个性化与定制化的用户需求,因此推荐系统应运而生。推荐系统目前已广泛应用在商品推荐、短视频推荐、社交推荐等领域,优秀的推荐系统会提高用户停留时间、提高商品销量、提高用户活跃度、更有效的帮助
学位
为筛选科尔沁沙地安全越冬的苜蓿种质材料,揭示苜蓿抗寒性评价的抗氧化生理特性,以黄花苜蓿(Medicago falcata L.)和8个紫花苜蓿品种(Medicago sativa L.)(公农1号、敖汉苜蓿、北极熊、骑士T、亮苜、巨能3015、东苜1号、草原3号)为材料,采用单因素随机区组试验设计,在科尔沁沙地种植不同苜蓿种质材料,于封冻期前,将苜蓿越冬器官进行人工模拟低温处理,测定苜蓿根颈的丙二
期刊
当前已有的电力物资采购数据特征提取方法存在提取精度低的问题,为此,提出了基于人工蚁群算法的电力物资采购数据特征提取方法。更新电力物资采购数据信息素,完成电力物资采购数据特征的识别。构建采购数据的频域模型,利用人工蚁群算法计算采购数据频域特征的隶属均值,对电力物资采购数据平滑处理。建立电力物资采购数据特征响应函数,实现了电力物资采购数据特征的提取。实验结果表明,该研究设计的方法可以通过提供数据特征主
期刊