汉越在线新闻文本抽取方法与情感倾向性分类研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:majianfeipubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于中越两国关系日益升温,两国政府和企业对了解双方国内的社会、文化和经济发展等方面的需求愈发急切。众所周知,在线新闻是了解国内外时政经济的重要方式。在此形势下,汉越新闻倾向性分析研究就显得很有必要了。本文围绕中文和越南在线新闻文本抽取方法、汉越语情感词典构建和新闻情感倾向性分类方法进行研究,主要完成了以下三个方面的工作:(1)融合结构和内容特征提取在线新闻文本要素针对网页的设计结构与文本内容上的关联特点,提出了融合结构和内容特征提取在线新闻文本要素的方法。依据网页头部中的<title>元素与网页体中HTML标签和内容上的联系,借助标签特征和连续文本的重现度等抽取网页标题;获得训练语料中新闻正文部分的DOM树,提取此部分在结构与内容上的多个特征训练SVM分类器,利用SVM对测试语料DOM节点进行正文预标记,接着定义被标记为正文的DOM节点的扩展、整合规则获得正文候选块,最后,引入密度值和影响因子从各候选块中选出正文块;利用发布时间与标题、正文之间的位置关系锁定发布时间区域,结合正则表达式实现发布时间的提取。对中文和越南的新闻网站、博客等进行抽取试验,结果表明该方法具有较好的效果。(2)构建领域相关的汉越情感词典启发信息越多词语的情感传播越准确可靠。大部分的基于半监督的词语情感传播方法仅将种子词作为启发信息,而本文的方法不仅利用种子词而且还利用另一种语言作为启发信息。本文借助前面获取的大规模汉越新闻数据集,提出了一个基于互增强学习自动构建汉越情感词典的方法。首先对种子词的挑选方法进行改进,种子词应具有最大的覆盖面,而聚类中心满足这个特性,则可利用K-means选取汉、越语种子词;同时改进原始图模型,在弱连接的两个词语对信息传播无意义的原则指导下,重构图连接模型;区别于传统引入双语词典是为了翻译,本文利用汉越双语词典作为两种语言转移情感信息的桥梁,使得情感信息可以跨越语言障碍在这两种语言之间传播。(3)汉越新闻情感倾向性分类本文在已获得汉越基础情感资源——汉越情感词典的基础上,引入了结合先验知识融入词权重的无监督情感分类方法。本方法克服了传统的情感分类模型JST认为文档中每一个词都对主题和情感有着相同作用的问题,实际上,情感词和与其关联的词汇才对情感分类有着关键影响。所以本文增加了有情感倾向的词汇在采样过程中的权重并且利用先验知识辅助本模型的迭代过程,从而提高情感分类模型的准确率。最后的实验表明,本文提出的情感分类模型是有效的。
其他文献
本文分析了目前施工现场安全管理的具体问题及其产生的原因,着重对提高建筑工程安全管理水平和效果的具体对策作详细地解析与探讨,旨在为提高建筑工程的整体发展水平提供借鉴
本文针对在经营性国有资产统一监管过程中新组建的国有企业集团——山东DK集团有限公司,回顾总结了其发展历程,分析了其现状和面对的困难,立足2019年初山东DK集团重组启动时
“大航海时代”后的国际海洋秩序历经多次深刻变化,不仅传统海洋强国之间对海洋资源的争夺日益激烈,而且二战后新独立的国家也纷纷提出自身对海洋的战略构想,一时间原被传统海洋强国所主导的旧国际海洋秩序发生了颠覆性改变,新旧国际海洋秩序发生激烈碰撞,复杂难调的国际海洋争端此起彼伏。1982年《联合国海洋法公约》(以下简称“《公约》”)设计出一套争端解决机制,相应地针对不同的争端类型可适用不同的争端解决方式,
思考这一问题,是有缘起的。自打迈进新课程的门坎后,“蹲下”一词就成了挂在我们嘴边的“关键词”。毋庸置疑,“蹲下”意味着理解、表达着尊重、传递着宽容:孩子有自己独立的思想
目的:观察血清瘦素、胰岛素样生长因子-1(Insulin-like Growth Factor-1,IGF-1)、胰岛素样生长因子结合蛋白-3(Insulin-like Growth Factor-Binding Protein-3,IGFBP-3)在老
笔者先后到两所中学听课,甲校的张老师与乙校的李老师所讲的内容、教学课型不仅相同,而且有一道习题也完全相同。两位数学老师对这同一习题所采用的完全不同的处理方法,值得玩味
转换思想是基本的数学方法之一,有利于培养学生的创新意识.通过立体几何教学,在想象转化情景中培养学生思维的发散性与开放性;在问题转化情景中培养学生思维的深刻性与灵活性
我国农民朴素公平观包含生存第一、权责统一和多数人决等基本内涵。全国7县84村田野调查发现,农村土地承包法律与农民朴素公平观存有背离现象:“生不增,死不减”导致部分集体
初中数学课堂教学中,"创设情境"、"丰富想象"、"系统把握知识"、"渗透数学思想方法"等教学措施是实施创新教学的重要途径.
有效控制燃煤电厂气体污染物排放的基础是准确测量污染物的排放量,而目前的瞬时测量技术与浓度限值制定主要基于部分样本源而非全部源的数据,缺乏有效的污染物总量测量手段因此很难体现行业的排放控制技术水平。此外,燃煤电厂脱硫后通往烟囱的直管段都相对较短,其内部的流动难以充分发展且多有回流和二次流,所以能够代表截面平均流速的采样点位置很难确定。加之烟道拐角破坏了烟气流动的稳定性与对称性,导致烟道内部的烟气流速