基于相关主题模型的文本分类方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:kingjongz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,大量以文本格式存储的信息出现在Internet、数字图书馆及公司的Intranet上,基于人工智能的文本分类是处理这些文本信息的重要支撑技术。特征提取及文本表示是影响文本分类结果的关键。目前,相关主题模型(Correlated Topic Model, CTM)已成为一种有效的文本表示方法,该模型可以在不丢失重要信息的基础上大幅度地降低文本数据的维度,并且可以加快分类速度,提高分类的精度。然而该模型在应用于文本表示的过程中还存在着如何选取恰当的主题数以及怎样选取最优特征等问题。本文对基于CTM模型的文本分类方法做了较为深入的研究,主要完成了以下工作:(1)分析并总结了CTM模型应用在文本分类中的优缺点;(2)提出一种基于密度聚类的CTM模型主题数目选取方法,以优化CTM模型;(3)提出一种遗传算法与改进的互信息相结合的CTM模型特征提取方法,从而减少冗余特征;(4)基于所提出的理论方法构建了基于CTM模型的文本分类实验系统,验证了以上方法的有效性,而且为进一步开发文本分类应用系统提供了基础。最后,作者对所做的工作进行了总结,并对以后将要研究的内容进行了展望。
其他文献
随着智能化、网络化等技术的日益成熟,具有潜在巨大应用价值的无线传感器网络(Wireless Sensor Networks)引起人们的重视与研究。无线通信技术、微电子技术以及计算机技术的
Java体系结构包括四个相互关联的技术:Java语言、Java API、class文件和Java虚拟机,其中Java虚拟机是整个体系的核心部分,它使Java程序在不同的计算机系统之间具备高度的可移
汉语零指代消解任务是自然语言处理领域一个重要的研究分支和研究热点,对于帮助计算机理解自然语言文本有着重要的作用。汉语零指代消解是找到汉语句子中的零指代位置所指向
基于加速度传感器和陀螺仪的人体行为识别研究是近年来的一个新兴研究方向,伴随着相关领域技术的发展,越来越多的研究人员投入到了该领域的研究之中,通过对传感器数据的解读
近年来,中国高等教育招生规模日益扩大,目前在我国各大高校,基于校园网的教师和学生管理信息系统已经相当普及,但对高职院校而言,由于起步较晚,信息化建设程度相对较低,再加上办学模
学位
随着计算机的发展以及人工智能的兴起,模式识别在近年迅速发展成为一门新的学科。图像处理技术以数字图像为主要处理对象,通过一定的算法将图像信息提取出来,为智能识别服务
近年来,工业机器人的研究和应用一直是科学研究和社会关注的热点之一,但由于种种原因,工业机器人的研究,尤其是应用前进的非常缓慢,其中既有社会因素也有技术因素,除了一些社会因素
移动机器人的研究和开发近些年来受到了人们的高度重视。机器人在运动的过程中具有根据周围环境的变化而自主采取相应措施的能力,人们对机器人的这种能力的要求越来越高。因
云计算是一种允许用户通过网络,随时随地、方便、按需地使用共享资源池中可以快速供给和释放的资源,且只需很少管理工作或与供应商联系的模式。弹性是云计算的一个非常重要的
人脸检测作为人脸信息处理中的一项关键技术,近年来在模式识别与计算机视觉领域中已经成为一个十分活跃的研究方向,具有极高的学术研究价值和商业应用价值。随着智能化信息处