面向金融领域的文本情感分析技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuxinxinwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和金融产业的飞速发展,网络上金融信息日益丰富,同时,人们对金融信息的需求也日益增多。金融文本的倾向性可能对相关个股或者公司股票价格走势产生重要影响,为此,对金融文本进行进一步的情感分析,有助于投资者进行投资决策。人工判断新闻、评论等金融文本的倾向性的工作量巨大,迫切需要一种面向金融领域的自动文本情感分析技术和工具。金融文本的情感分析技术主要受制于高性能的文本情感分类算法和高质量的金融文本情感标注语料库。  为此,本文首先对金融文本的倾向性判定方法进行了研究,结合文本情感分类特点,本文对感知器算法进行改进,提出了基于优化感知器的文本倾向性分析方法。通过观察和分析金融文本的特点,本文提取了情感词、评价词等特征来表示金融文本。传统的感知器方法的优点是可以通过错误分类的样本来调节各个特征的权重,但却存在确定学习率的问题,而传统的基于情感词典统计的倾向性分析方法能够采用固定特征权值进行统计,所以本文结合感知器和词典统计方法提出了优化感知器的文本倾向性分析方法。实验结果表明,优化的感知器方法能够有效地判断金融文本的倾向性,在同一金融语料库上的倾向性分析效果优于其它方法。  其次,由于人工标记语料具有主观偏向性的缺点,从而影响语料库的一致性,并且导致基于监督学习分析方法的综合性能下降。借鉴PageRank算法的思想,本文提出了一种新的DocRank算法,算法采用文本图的结构来表示文档间相互关系,优选出具有代表性的情感样本作为训练语料集合。通过多组对比实验表明,DocRank算法能够对语料库进行优化选择,提高语料库的一致性。  最后,本文将上述算法应用到了专业的金融信息检索系统中。从而帮助用户更好的理解金融文本,提升用户体验,同时也验证了算法的有效性。
其他文献
RFID(Radio Frequency Identification)是一种采用射频电波的自动识别技术, RFID基本系统由标签、阅读器和主机构成,阅读器读到的标签经过网络传输到主机。当前 RFID技术广泛
内网攻击是企业面临的最严重的网络安全威胁之一。在过去的十年里,成功的内网攻击案例增加了数倍,而由此带来的经济损失也数以亿计。在所有的对内网安全构成威胁的行为中,数
当今互联网技术的发展非常快速,网上论坛的功能也越来越强大和完善。各大门户网站几乎都建立了自己的论坛,而从门户网站的论坛板块细分上可以看出,论坛资源正在逐步完善,以适
在互联网技术迅猛发展的信息时代,多媒体通信技术的研究越来越受到关注。通信提供商及其合作伙伴和用户越来越需要新一代基于 IP的服务,而 SIP(The Session Initiation Proto
伴随着网络技术及多媒体技术如数字图像、数字视频等的飞速发展,数字信息在传播过程被窃取、篡改、非法复制和传播的问题越来越严重,这些成为信息安全健康持续发展的一大障碍
随着分形理论的研究与发展,分形理论在自然景观模拟、艺术图案设计、图像数据压缩、分形自然生长与混沌动力体系的研究等各个领域获得了广泛的应用,其中用分形方法模拟自然景
随着用户需求和网络的不断发展,人类社会积累的知识、数据急剧增加。如何从海量的事务数据中发现用户感兴趣的规则、有用的知识一直是数据挖掘领域研究者面临的一大难题,而这
随着计算机和计算技术的飞速发展,其应用已经渗入现代生活的各个领域,由于其极高的计算速度已成为科学研究必不可少的手段。其中一个典型的应用就是计算化学,计算化学极大依赖计
近年来,Internet取得了迅猛地发展,网络规模都在极具扩张,网络结构日渐复杂,网络流量高速增长。为了了解网络的运行使用情况,及时发现网络中可能存在的异常流量,需要一种有效
目前,全球企业面临着业务模式创新、多元信息整合、人才管理和业务流程透明化等众多变革。这些变革对企业的敏捷性提出了很高要求。SOA作为一种松耦合的体系架构,能够最大程