基于信息粒化的高效Relief算法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:peggy721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,信息的多样化及产生速度有着质的飞跃,促使数据呈现爆发式的增长。大量的数据中势必蕴含着很多有价值的信息,数据挖掘就是在这些数据中“沙里淘金”的过程。在数据挖掘领域中,分类问题受到广泛关注。特征选择是数据挖掘中一个重要的预处理过程,通过剔除冗余或不相关的特征,从而达到提高模型精度、减少特征以及提高运行效率的目的,便于研究人员获取有用的信息。事实证明,Relief及其衍生算法是一类成功的特征选择器。与全局搜索和启发式搜索方法不同,Relief算法依据分类间隔来度量特征对样本的区分能力,是一种简单有效的特征加权方法,但当处理大规模数据时,仍存在计算成本较高的问题。本文以信息粒化为基础,从样本粒化和支持向量粒化的角度出发,结合Relief算法固有的特征加权机制,针对提高Relief算法的效率开展研究工作,主要内容如下:(1)从样本粒化的角度出发,结合Relief算法的特征加权机制与样本空间存在的潜在联系,提出了基于样本粒化的快速Relief算法。该算法克服了传统Relief算法依赖全部数据的局限,以知识粒度和Shannon熵共同作为评价指标,从信息粒化的角度对原始数据进行了合理的压缩,从而缩小抽样范围。实验表明,与已有Relief算法相比,所提的算法在保持后续分类算法性能的前提下,能够显著降低运行时间。(2)从支持向量粒化的角度出发,提出了基于支持向量粒化的快速Relief算法。该算法以确定随机抽取的样本为切入点,通过讨论支持向量与分类超平面的关系,获取全部支持向量作为抽样范围,对支持向量进行粒化并抽取少量样本进行后续的运算。实验表明该算法的时间效率明显优于已有的Relief算法。
其他文献
中等职业技术教育作为国家教育体系的重要构成部分,是推动社会经济蓬勃发展、促进就业、保障和改善民生的重要途径。从党十八大报告提出“推动实现更高质量的就业”到党的十
创新是事业发展不竭的动力,是“三个代表”重要思想的核心实质。博物馆工作要得以继续发展,关键是要做到与时俱进,改革创新。
2001年6月19至28日,以张柏副局长为团长的中国文物代表团,应加拿大保护中国文物基金会主席吴永光的邀请,访问了加拿大多伦多和渥太华市。代表团出席了在汉密尔顿市举办的“中国
为改善信息检索服务效果,提出一种多维匹配模型,在内容维度之外,将信息检索过程中的上下文作为独立维度进行匹配。隐性匹配将各类上下文归为两类:与用户相关的和与文档相关的,两者一一对应。实验表明该模型能大大提高返回结果相关度,亦验证了计算文档相关度时隐性维度有更大权重,即在特定信息需求下,上下文相对于内容具有更大决定性。
交通肇事罪在现代社会生活中是高发型犯罪。司法实践中,由于交通事故的发生原因复杂多变,涉及道路交通各方主体,导致交通肇事罪的因果关系认定出现较多问题,具体表现为:对引起交通事故的实行行为不加以限制使得处罚范围过大;因果关系缺乏规范判断;容易将行政法中认定的推定责任代替刑事责任的认定;刑事诉讼中不贯彻存疑时有利于被告原则等。基于这个发现,本文试图通过分析和整理近年来交通肇事罪的司法判决,着眼于现实状况
视频分类在视频检索、内容分析等应用领域具有十分重要的意义。多模态视频特征,如音频、静态图像及视频动作特征等都已经应用于视频分类中,因此如何对多种视频特征进行最佳组合来改善视频分类的性能成为了一个重要研究课题。提出一种基于L1正则化的距离学习方法,对利用多种特征组合提高视频语义标注性能的问题进行研究。由于引入一阶范数正则项,使得模型拥有选取多种视频特征进行最优组合的能力。该方法在通用的Columbi
提出一种建构在同伦方程基础上的交叉熵BP算法,在原有的交叉熵函数基础上,通过同伦方程的参数逐步调节权值,使收敛达到最佳效果。同时其激活函数采用广泛意义的函数,有利于拓展函数使用空间,并结合动量项使收敛效果更佳。实验结果表明,改进后的算法与原始的加动量项算法相比有较好的收敛速度,陷入极小点的几率也大为降低。
植物多糖是从天然植物中提取的具有较高的生理和药理活性的物质,它作为一种对机体副作用小,安全无毒的生物反应调节剂,无论是在抗病毒还是免疫增强方面都发挥着重要作用。然而,传统的植物多糖提取方法工艺繁琐,提取率较低。研究表明,纤维素酶可以高效分解天然植物的细胞壁,本研究采用基因工程技术构建一株高表达纤维素酶的枯草芽孢杆菌,将其与黄芪粉共同发酵分解,用以优化提取工艺,提高多糖提取率。为评估经过发酵的黄芪多
传统的自适应推荐技术无法准确把握用户的兴趣并推荐出适合用户兴趣的博客,为了提高掌握用户兴趣的准确度和及时性,提出一种启发式自适应推荐算法。通过对于用户反馈记录的分析,掌握用户的兴趣趋向,然后通过学习用户的阅读方式来对用户的兴趣进行跟踪,达到一定条件后使用贝叶斯修正法更新用户模型,同时调整推荐结果。通过真实数据集进行实验,结果表明算法能准确把握用户的兴趣趋向,能提高自适应推荐质量。
鸦胆子别名雅旦子、鸭蛋子、老鸭胆,是苦木科植物鸦胆子(Brucea Javanica L.Merr.)的干燥成熟果实,性味苦、寒、有小毒,归大肠、肝经,始载于《本草纲目拾遗》主产于广西、广东