基于粗糙集的多标记文本分类方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:my_wenzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各种电子商务平台及社交媒体网站的广泛涌现,使得互联网上累积了广大用户关于产品性能及消费体验的海量评价文本数据,这些数据中不仅隐含着用户的消费行为模式,而且隐含着产品性能及商家服务的局限性信息。此类数据的分析与挖掘对于分析用户消费行为,服务电子商务决策,改善营销策略具有重要的现实意义。对文本挖掘而言,经典的单标记监督学习方法已经难以满足多样性文本信息的处理需求。因此,对多标记文本分类方法的研究,以及合理使用多标记学习方法处理各类文本数据,对文本数据挖掘而言,具有重要意义。粗糙集作为一种处理不确定信息的有效工具,该理论在分类规则学习和属性约简方面都取得了很多研究成果。本文以实际应用——网页文档分类和产品评论方面挖掘为背景,基于粗糙集理论对多标记文本的分类方法开展研究,主要内容和结论如下:(1)多标记文本语料的构建与分析本文选取大量网页文档和汽车产品评论数据作为实验语料,对面向主题的网页文档和面向观点挖掘的评论文本所涉及的多标记问题,结合多标记文本挖掘方法,构建中文多标记文本数据集。同时,针对产品评论中的多方面性能评价问题,提出一种基于多标记学习的识别框架。(2)基于稳健模糊粗糙集模型的多标记文本分类为应对多标记数据的不确定性及噪声,提出了一种新的多标记稳健模糊粗糙分类模型。该模型是处理单标记分类问题的k-mean稳健统计量模糊粗糙分类模型的扩展应用。对于每个待分类数据,首先根据文本相似性计算方法,得到其相对于各标记的隶属度;然后根据隶属度定义待分类数据与各标记的相关度;最后为每一组相关度赋予合适的阈值,得到相关的标记集合。在真实多标记文本数据集以及常用多标记评测指标上的实验结果表明,所提模型在多标记网页文本的主题分类问题上,取得了很好的效果。(3)基于粗糙集的链式专属特征多方面识别针对产品评论文本中的多方面性能评价问题,提出一种基于粗糙集的链式专属特征多方面识别方法。该方法以粗糙集理论为基础,通过为每个方面标记提取标记相关的专属特征,构建专属特征分类器链,以多标记分类方法解决多方面识别问题。在新浪汽车评论语料上的实验表明,与多种多标记文本分类方法相比,该方法的方面识别子集准确率可达95%,验证了多标记学习方法在评论文本的多方面性能识别问题中的可行性。
其他文献
随着互联网的高速发展,网络协议标准也不断地更新和完善。如何更有效地提高网络服务,已成为网络协议工程领域的关键问题之一。层次移动IPv6协议作为移动IPv6协议的扩展,在移
随着投影以及多投影技术在现实生活中各个领域内的广泛应用,传统的只针对于特定投影表面或投影幕的多媒体投影技术已经远远不能够满足现实应用中的特定要求。本文中提出了一种
随着计算机网络技术的发展,全球互联网用户快速增长,网络信息资源语种也日益多样化,跨语言信息检索已成为越来越重要的研究课题。   在汉英等语言的跨语言检索方面已经有
随着SOC(Service-Oriented Computing)的广泛应用,Internet环境下越来越多的资源以服务的方式进行封装。服务组合可以通过组合不同的资源来满足用户需求,而服务选择是服务组
编码领域中人们最关心的是码的结构以及解码的效率,而这个效率包括了误码率和编码容量等方面的研究内容。而在从事码的结构的研究过程中,码的网格表示也作为一个议题被人广泛研
本文详细分析了可信计算组织为解决匿名认证问题给出的三种方案,重点讨论了TPM v1.2规范中的DAA方案(文中称为BCC方案)。主要的工作如下:(1)针对在TPM v1.2规范中重点描述的
随着21世纪纳米时代发展步伐的加快,电子元件工艺特征尺寸不断地缩小,由初期让我们自豪的65nm发展到现如今预测的22nm,集成电路制造工艺的飞速发展推动着单芯片上晶体管集成
本体是语义网的重要组成部分。在语义网中,本体的分布存在着分散性。由于本体由语义网用户自主创建,所以同一领域中的本体所采用的术语和呈现的结构都可能存在差异,这些特征
学位
Ad hoc网络的自组织、无中心节点和网络拓扑结构动态变化等特性,使其所面临的安全问题更为复杂。基于属性加密是在基于身份加密技术基础上发展起来的一种新型公钥加密技术,与