集合多标签文本分类研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:hcyzhcyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法。文本分类能较好地解决大量文档信息归类的问题并可以应用到很多情况。文本分类按样本所属类别的个数分为单标签分类和多标签分类两种。单标签分类技术只是给当前文本赋予一个预定义的类别(单类别标注);反之,多标签分类技术可能给当前文本赋予多个预定义类别(多类别标注)。多标签分类的一般方法是采用分类排名或阈值方法为每个类学习独立的分类器。由于这些方法没有利用标签之间的依赖关系,所以它们只适合类别独立的情况。然而,在许多领域中标签是高度相互依存的。现在,对于文本分类来说,多标签分类的需求越来越多。本文主要探索多标签条件随机域(CRF)分类模型中的集合多标签分类(CML)模型和集合多标签特征分类(CMLF)模型。与传统的分类器不一样,两种模型学习与特征标签对相关的参数,它们能够参数化标签的共现事件,并以此为基础进行多标签文本分类。CML学习类、类之间的参数,CMLF学习特征、类、类三者之间的参数——捕捉一个个别的特征作用在一对共现标签上的概率的影响。在研究集合多标签的基础上,本文运用支持向量机(SVM)分类方法对文本进行分类能够明显提高分类效率,准确率较高。
其他文献
在厦门海沧,教育阅读节已成为教育人每年的一个重要节日。这一次,阅读节的主题聚焦于教育的哲学追问。“教育学是人学,既然是人学,就不能不追本溯源,思考教育是什么,教育为了什么,怎样才能实现教育的目的。追问是为了通往智慧,让教育更接近本质,让人因为好的教育而实现幸福且有意义的人生。”厦门市海沧区教育局副局长孙民云如此破题。  通过阅读更深刻地理解教育,通过阅读与世界发生更广泛的联结。华东师范大学出版社大
期刊
根据浮游植物在不同光照下的荧光诱导特性,研究了叶绿素荧光作为浮游植物光合作用探针的特点,提出了原位测量活体叶绿素荧光值Ft和Fm获取浮游植物光合作用活性的方法.以淡水
数据起源已广泛应用于数据库、工作流以及云计算等领域。数据起源在得到快速发展应用的同时,也带来了安全威胁方面的问题,因此,安全起源渐渐成为人们关注和研究的热点。基于
[摘 要] 高等教育资源是决定教育质量的重要因素,高等教育资源共享是新时期高等学校发展的必然选择。高等教育协同发展是区域可持续发展的战略要求,但高等教育资源相对短缺且分布极不平衡,高等教育资源共享受到各种因素的制约。通过分析新疆高等教育资源共享条件、基础及制约因素,探寻新疆高等教育资源共享的路径,提高教育资源使用效益,实现教育资源有效共享,促进新疆高等教育协同发展。  [关键词] 教育资源;高校;
1.中国矿业大学成立90周年,江泽民总书记、李鹏委员长为中国矿大题词。李岚清副总理发来贺信,并到校考察工作。2.煤炭系统采用卫星定位、航测遥感技术,完成了对北方地区煤田自燃环
[摘 要] 高校实现更高质量和更充分就业是当下反映高校办学水平的重要衡量标准,在网络经济时代,融合融通是一种创新思维的体现。高校应突破将就业研究只停留在教育链下端的研究方法,把高质量就业问题置于整个教育链之中,使高质量的人才培养活动与高质量充分就业紧密结合,在二者互动、融合中,寻求全新的解决问题方案。同时,高质量就业与创新就业相互融合也会产生新的工作模式,使高校就业工作的内生动力更好地激发出来,以
近十几年里,三维(3D)模型己被越来越多地应用在工业、医疗、艺术、娱乐和虚拟现实等领域。大量来自学术界和工业界的研究者们开始意识到保护这些数字产品的知识产权和版权的
曹鹏博士新著《媒介市场创意策划实务》日前由中国广播电视出版社出版,这是国内第一本新闻传播经营管理方面的创意策划专著,全书收录了近百份曹鹏博士为全国各地新闻传媒所做
随着网络技术的迅速发展,网络被广泛的使用。随之而来的,网络也成为了攻击者进行攻击的主要平台和目标,各种攻击事件的发生逐年增加,造成的损失也愈加严重。目前网络安全技术主要
最近整理书报资料,我发现一张40多年前《人民日报》编辑部给我的通知单。通知单是用人民日报社公用信笺打印的,其中我的姓名、诗歌题目、赠品,是用圆珠笔填写的。看着这份用