论文部分内容阅读
近年来,由于中越两国关系日益升温,两国政府和企业对了解双方国内的社会、文化和经济发展等方面的需求愈发急切。众所周知,在线新闻是了解国内外时政经济的重要方式。在此形势下,汉越新闻倾向性分析研究就显得很有必要了。本文围绕中文和越南在线新闻文本抽取方法、汉越语情感词典构建和新闻情感倾向性分类方法进行研究,主要完成了以下三个方面的工作:(1)融合结构和内容特征提取在线新闻文本要素针对网页的设计结构与文本内容上的关联特点,提出了融合结构和内容特征提取在线新闻文本要素的方法。依据网页头部中的<title>元素与网页体中HTML标签和内容上的联系,借助标签特征和连续文本的重现度等抽取网页标题;获得训练语料中新闻正文部分的DOM树,提取此部分在结构与内容上的多个特征训练SVM分类器,利用SVM对测试语料DOM节点进行正文预标记,接着定义被标记为正文的DOM节点的扩展、整合规则获得正文候选块,最后,引入密度值和影响因子从各候选块中选出正文块;利用发布时间与标题、正文之间的位置关系锁定发布时间区域,结合正则表达式实现发布时间的提取。对中文和越南的新闻网站、博客等进行抽取试验,结果表明该方法具有较好的效果。(2)构建领域相关的汉越情感词典启发信息越多词语的情感传播越准确可靠。大部分的基于半监督的词语情感传播方法仅将种子词作为启发信息,而本文的方法不仅利用种子词而且还利用另一种语言作为启发信息。本文借助前面获取的大规模汉越新闻数据集,提出了一个基于互增强学习自动构建汉越情感词典的方法。首先对种子词的挑选方法进行改进,种子词应具有最大的覆盖面,而聚类中心满足这个特性,则可利用K-means选取汉、越语种子词;同时改进原始图模型,在弱连接的两个词语对信息传播无意义的原则指导下,重构图连接模型;区别于传统引入双语词典是为了翻译,本文利用汉越双语词典作为两种语言转移情感信息的桥梁,使得情感信息可以跨越语言障碍在这两种语言之间传播。(3)汉越新闻情感倾向性分类本文在已获得汉越基础情感资源——汉越情感词典的基础上,引入了结合先验知识融入词权重的无监督情感分类方法。本方法克服了传统的情感分类模型JST认为文档中每一个词都对主题和情感有着相同作用的问题,实际上,情感词和与其关联的词汇才对情感分类有着关键影响。所以本文增加了有情感倾向的词汇在采样过程中的权重并且利用先验知识辅助本模型的迭代过程,从而提高情感分类模型的准确率。最后的实验表明,本文提出的情感分类模型是有效的。