结构化预测中N元特征选择算法的研究

来源 :华中科技大学 | 被引量 : 1次 | 上传用户：hdmlb2008

【摘要】

：

结构化预测也叫做结构化学习，目标是从数据中学习一个复杂的结构，它是自然语言处理、数据挖掘、机器学习领域的一个研究热点。N元特征在很大程度上反映了结构化预测中“结构”

【作者】

：

任宇林

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2018年01期

【关键词】

：

结构化预测 N元特征选择算法鲁棒性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

结构化预测也叫做结构化学习，目标是从数据中学习一个复杂的结构，它是自然语言处理、数据挖掘、机器学习领域的一个研究热点。N元特征在很大程度上反映了结构化预测中“结构”的信息，是结构化预测中一类特殊且极为重要的特征。然而，绝大多数关于N元特征选择的工作，仅仅将它当作一种普通的特征来处理，而没有考虑N元特征的性质，其实质仍然是普通特征选择。少数几个研究考虑了N元特征的性质，但很不充分，而且仅仅关注具体任务中的一种或几种特征，其方法不具普遍性。因此，对结构化预测中N元特征选择的研究非常少，可以说几乎是一片空白。　　本文将结构化预测中N元特征选择作为一个全新的研究课题，旨在提出一种适用于结构化预测的N元特征选择的通用框架。基于对该目标的分析，论文在绪论部分就确定了该框架的大致雏形，包括特征选择的方式（封装式）、特征选择的对象（N元特征模板而非特征函数）、特征搜索策略（启发式），以及特征搜索的顺序（自下而上），并对该雏形框架可能存在的问题，包括特征选择效率、鲁棒性和过拟合，逐一给出解决方案。本文的主要工作包括以下几个方面：　　1)论文定义了结构化预测中的N元特征模板，系统地研究了它的性质，给出了结构化预测中N元特征重要性的大致分布，并通过实验予以验证。　　2)论文提出一种高效的N元单特征选择算法（SNFS）。该算法包括三个子算法：阶数重要性排序算法、水平搜索算法、特征模板对组合算法。其中，最关键的是特征模板对组合算法，它的核心思想是：根据N元特征的重要性大致分布，能定位最有可能的两个候选者，通过比较这两个候选者和它们的并集，能进一步准确地判断N元特征重要性的具体走向，从而高效地裁剪搜索空间。　　3)论文提出一种N元多特征选择算法（MNFS）。SNFS算法每次只能处理一种N元特征，如果任务中需要同时选择多种类型的N元特征，那么该算法必须运行多次，每次处理一种特征，最后求并集。但这种做法没有考虑多种N元特征之间的相关性，所以得到的特征集可能存在冗余。MNFS算法有效地解决了特征冗余的问题。论文通过实验全面地分析了算法的特征选择性能、效率、鲁棒性以及抗过拟合的能力，并与经典的封装式特征选择方法进行了对比。实验表明，MNFS算法的特征选择性能与经典的封装式方法大致相当，但MNFS算法极其高效、鲁棒，抗过拟合能力也优于经典的封装式方法。　　4)论文提出一种通用的封装式特征选择的加速方法。该方法的基本思想是：“放松”模型中跟训练时间相关的变量以加速训练过程，同时定义了一个相似度度量值TopMatches用于平横模型的预测性能和特征选择性能，并利用坐标下降法搜索相关的变量值。　　5)论文提出一种路径约束的维特比算法来替代结构化预测中耗时严重的转移特征，进一步提高了特征选择效率。

其他文献

基于DSP的微型机器人运动控制系统的研究

机器人运动控制系统是实现机器人运动控制的核心,对机器人的平稳运行起着至关重要的作用。随着计算机技术、电力电子技术、控制理论和传感器技术等的不断成熟和发展,机器人的

学位

运动控制系统DSP无刷直流电机模糊-PID

国产体育品牌陷危机

春节期间，国产体育品牌中的龙头老大李宁公司对外宣布裁员，根据李宁公司发布的最新业绩预告，2011年集团收入预计较2010年下降6％至7％。安踏、特步等一批上市体育用品企业也表示2012

期刊

体育用品品牌国产李宁公司春节期间库存积压订货会

区域公交时刻表生成的模型与方法研究

随着世界各地城市现代化程度的提高,城市交通拥堵问题日益严重,发展公共交通是解决这一问题的重要途径之一。日益增长的城市居民公交出行需求同相对落后的公交基础设施及管理

学位

公共交通乘客期望换乘时间乘客换乘不满意度公交换乘方式多目标决策模型Pareto最优NSGA-II

非线性时滞系统的自适应控制研究

随着现代科学技术的不断发展以及人们对控制性能要求的日益提高，对不确定非线性系统的控制研究引起了控制领域广泛的关注，并取得了很多成果。其中，时滞是许多实际工程系统中常见

学位

非线性时滞系统自适应控制神经网络滑模控制非线性函数

香港被评为世界上最开放市场

据经济之声《天下财经》报道，香港在国际商会首次进行的“市场开放指数”排名中以5．4分的得分名列榜首，被评为世界上最开放的市场。

期刊

市场开放世界香港国际商会财经经济

让“快乐雷锋 ”成为社会流行色

近日，《中国青年报》刊发了一篇名为《读懂了雷锋的快乐，才读懂了雷锋》的文章，文中认为，今天，我们重提雷锋精神，很大程度上不是去救助和拯救别人，而是拯救我们自己，寻找我们丢失的心灵钥匙，找回那种让我们充实、让我们幸福、让我们快乐的高贵情感。“是追寻一种达致快乐的心灵钥匙”。文章举例说，某位退休老人，生活并不宽裕，“几十年如一日默默地给贫穷山区的好几个孩子寄钱”，“家人都不知道”，偶然被媒体知道了，将

期刊

流行色《中国青年报》社会钥匙心灵

欧洲示威要“下载自由”

据外报报道，数万名抗议者日前在欧洲多个城市发起抗议活动，抗议主要针对国际性反盗版协定。抗议者担心，该协定将妨碍免费下载电影和音乐的自由，同时导致互联网监管的加强。

期刊

免费下载自由欧洲反盗版国际性互联网

基于CT图像的周围型非小细胞肺癌分型诊断模型研究

肺癌是癌症中最常见的恶性肿瘤之一。数十年来,肺癌的发病率和死亡率都呈现明显的上升趋势。对肺癌病理类型的早期诊断可以有效提高肺癌患者治疗的效果。目前,CT扫描是诊断肺

学位

Logistic回归特征选择肺癌分型人工神经网络支持向量机

曲沃治超成效显著

曲沃县委、县政府高度重视治超一作，认为抓治超就是抓安全、抓治超就是抓发展、抓治超就是抓和谐，坚持把治超工作与全县中心工作同安排、同部署、同检查、同考核。几年来，他们强

期刊

中心工作县政府制度化

面对不能承受之重

观众普遍反映现在的情感类节目让人越看心情越沉重,里面有太多的是是非非,太多的恩恩怨怨。被遗弃儿童的无辜眼神、婆媳间的愤恨拳脚、恋人间的情仇悲泪……我们在感动、愤恨

期刊

情感类节目被遗弃儿童让人情仇头脑清醒一句话

结构化预测中N元特征选择算法的研究

与本文相关的学术论文