论文部分内容阅读
随着网络和金融行业间的联系越来越密切,Web金融信息也在被广泛用于提供高市场预测质量,相对于财务报表信息便于分析与计算的数值型数据不同,Web金融信息大多是非结构化的文本信息。如何对其进行深入挖掘、量化,把这些表面看似一无是处的垃圾数据,变成用来预测上市企业财务危机的的法宝呢?这就是这几年研究很热的一个方向:Web金融信息情感探测。文本情感分类有基于机器学习和基于语义分析两类。机器学习的文本情感分类,只是简单地把文本粗糙地分成两类或多类,没有考虑到文本内部的语义关系,也没有考虑到细粒度的情感属性。语义情感分类的受青眯的程度越来越大。基于语义的文本情感探测大致都从词汇层、语句层和文档层等三个层次方面着手进行研究。从细粒度的研究角度看,文档级和句子级的情感分类最终还是要归类为基于词汇情感探测。但是由于在金融证券域还没有现成的情感语料库,所以至今还没有质的飞跃。本文主要基于金融证券域语料库的建立和Web金融信息的情感计算两方面展开研究。本文在Web金融信息的情感计算方面,改进了单纯基于语素的文本情感计算的方法。本文首先使用哈工大的自然语言处理平台技术对句子进行句法模式分析,分别对24种句法模式进行情感倾向分析和实验,选择出对情感有影响的6种句法模式;然后,根据句法模式对情感影响的分析,设计出6种句法模式的情感计算规则和每种规则的计算方法。最后,通过情感计算句法模式树来描述基于句法模式的情感计算模型,提出模型的构建原则、定义和构建算法。本文进行了两组实验,一组是基于单纯语素的方法计算Web金融信息情感值,另一组是语素与情感句法模型相结合的方法计算Web金融信息情感值。实验结果发现,与单纯的语素算法相比,基于句法模式方法的整体准确率、正向召回率和精确率、负向召回率和精确率等都有明显的提高。