基于机器学习的文本分类方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:yellowuncle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的来临,每一刻都会产生海量数据,其中文本数据以传输效率高、便捷性高、普及范围广的优势存在于各个领域中,而如何对文本数据进行快速、准确的分类是当下的热门问题。本文以新闻文本为研究对象,对相关分类算法进行研究并改进,最终验证所提出的算法能够提高文本分类准确度。1.针对传统朴素贝叶斯文本分类算法中文本特征缺乏特征权重的问题,引入更侧重特征类别间分布的互信息,并将TF-IDF与互信息相结合,利用互信息关注特征词类别间关系的特点,补充TF-IDF的权重缺陷,并将改进后的方法所得到的权重融入朴素贝叶斯方法中,以减少传统方法中特征独立假设对分类的影响,提升分类器性能;2.针对传统的卷积神经网络文本分类模型没有对于学习到的文本特征进行区分,对于对文本分类结果意义大小不同的特征没有区别对待,所以引入注意力机制,即在卷积神经网络的全连接层前加入注意力层,将卷积池化层得到的文本特征进行注意力权重分配,使改进后的分类器更关注对于分类更有意义的特征,排除对于分类任务不重要的特征,实现分类效果提升的目的;3.针对中文文本篇幅较长,语法词语比较复杂的特点,本部分将通过在卷积神经网络中引入嵌套LSTM对模型进行改进。本文在局部特征提取的基础上,尝试对文本全局特征、上下文依赖关系进行提取,利用嵌套LSTM可以保存更长时间的记忆信息这一特点,引入嵌套LSTM以提取长时间的历史信息,更好地把握文本上下文语义,实现合理的新闻文本特征提取,提高分类准确率。最后,使用THUCNEWS新闻数据集、复旦新闻语料库和搜狗实验室新闻语料库文本数据进行实验验证。实验将改进后的贝叶斯分类模型与朴素贝叶斯分类模型做对比,将引入注意力机制与引入嵌套LSTM后的卷积神经网络分别与传统神经网络对比,根据准确率、精确度、召回率、F1值四个指标进行量化比较,结果表明本文所提出的算法模型能有效提高分类器性能。
其他文献
在全球化进程中,电影已成为国家间文化交流和沟通的有效而又必不可少的工具。电影的灵感源于现实,包含了与人们日常生活最接近的口语表达,包括詈语等特殊语言现象。所谓詈语,指的是骂人的言语或脏话。脏话对于人物形象的构建和情节发展的推动至关重要。由于语言和文化的差异,詈语在电影传播过程中需要引起足够的重视。近几十年来,电影中的詈语受到了翻译学研究的关注。然而大多数詈语翻译的研究都集中在文本的语言视角,而影响
二十一世纪信息化已成为全球经济发展的时代特征,互联网时代下网民平均年龄日益年轻化,为了更好地适配不同年龄段的用户群体,未来会呈现越来越多面向低龄群体的互联网产品。作为网络原住民,儿童有很大的信息搜索需求,社会也对儿童信息素养教育提出了较高的要求。搜索引擎作为网民信息搜索中最常用和简单快捷的工具,使用率很高,但通用搜索引擎上信息纷繁复杂。儿童不方便操作,信息安全等系列问题受到家长们的普遍关注。本文通
刑法中的医疗过失行为根据不同的主体身份、执业场所、行为反复性等因素可能构成医疗事故罪、非法行医罪、过失致人死亡罪等不同罪名。众罪名中“医疗事故罪”最为典型,因为它既满足身份犯的标准,又完全属于过失犯罪,而且涵摄范围较规制特定医疗行为的罪名更宽泛。所以,研究我国刑法中医疗过失行为的刑事责任问题主要从“医疗事故罪”出发,由点及面进行归纳延伸。医疗过失行为涉及多项过失犯罪前沿理论的应用。新过失论便于保护
爱尔兰动画导演汤姆·摩尔凭借其独特的美术风格与作品中所呈现的爱尔兰民族文化为世界所熟知。2009年至今,他创作了《凯尔经的秘密》、《海洋之歌》、《狼行者》等与爱尔兰民间神话传说有关的经典动画作品。他创造的故事充满着童真童趣与幻想色彩,动画作品不仅呈现出独特的视觉盛宴,还为故事增添了与之契合的儿童角色视角。作品对儿童角色的塑造,构建了观者进入爱尔兰传说故事的“眼”,为不同的角色赋予独属爱尔兰文化的印
柯尔克孜族刺绣纹样是中国传统纹样的重要组成部分,它有着深厚的历史渊源,积淀了柯尔克孜族人民自古以来的文化内涵与审美取向,这些纹样以别致的构成、绚丽的色彩、多样的工艺向人们展现了一个古老游牧民族的民俗风情、文化观念和宗教信仰,它们生命力持久,延传至今,值得更多的人去了解发掘。但随着现代文明的发展,柯尔克孜族刺绣纹样的传承也面临着新的挑战,如何将这些纹样提炼并运用于多元的设计中是设计师及艺术文化研究者
在新零售背景下的互联网体验经济时代,契合消费者所需的高效、优质体验不仅能够刺激消费者消费欲望,而且能够促使企业由“产品为导向”逐渐向“以消费者为导向”予以转变。而在5G技术的助力下,新发展起来的增强现实技术的应用为包装设计创新提供了契机,为提升包装的用户体验提供了新的思路。AR技术从根本上改变用户与包装之间的互动关系,使包装设计为产品增色,促进消费体验升级。目前,国内外关于AR交互式包装设计的理论
作为一位深谙并秉承现实主义创作精神的当代作家,弋舟以独特的文学气质和鲜明的创作风格受到了文学界的广泛关注,荣获了鲁迅文学奖等诸多奖项,体现了一定的文坛影响力。日常生活作为生命生存的意义支撑,一直是弋舟文学创作的出发点。弋舟的小说聚焦日常生活场景,探索人性的深度与广度,体察日常生活包裹下的社会变革,呈现出现代人的生存样态和心灵面貌。论文以“日常生活”为研究切入点,对弋舟小说进行文本细读,挖掘弋舟对“
4G和5G网络的到来,促成手机成为智能化服务的终端,满足人们日常生活需要,人们通过手机更好地适应着信息化社会。但手机沉迷带来的心理、生理问题也不容忽视。根据媒介系统依赖理论和负强化情绪加工理论,某种行为或物质在满足人们需求、缓解负性情绪的同时,人们也容易加强此种行为或依赖这种物质。例如,当人们从事某项工作时,往往受手机相关线索的影响,产生强烈的使用渴求,习惯性地打开手机查看相关软件信息,以弥补错失
计算机视觉作为人工智能研究中的一个重要的分支领域,其重要性不言自明,基于人类对自身相关研究的重视,视觉任务中关于人的图像的研究无疑是举足轻重的。人脸识别作为视觉任务研究中最早的子课题之一,其研究成果已经达到了很高的水平,但是它在现实的应用中往往存在很大的局限,仅仅靠人脸来识别一个完整的人并不现实,其中存在着许多难点(如拍摄的人脸图像模糊,人脸存在大范围遮挡等)。在这样的情况下,行人重识别作为一项重
目标跟踪的主要任务在于从存在噪声的观测数据中过滤出真实目标的状态并输出,在基于分布式传感器网络的多目标跟踪任务中,存在诸如目标新生、目标数目变化、目标运动呈现出非线性/非高斯特征、不同传感器观测误差差异大,且未知以及传感器具有受限观测视野等问题,使得完成稳定的多目标跟踪任务十分具有挑战。基于随机有限集的多伯努利族滤波器,如势均衡多伯努利滤波器(CBMe MBer),广义标签多伯努利滤波器(GLMB