论文部分内容阅读
近年来,互联网信息资源急剧膨胀,带有个人情感色彩的言论越来越多,分析这些文本有着很大的现实意义,因此如何有效地抽取与过滤互联网上的信息,如何对文本进行情感倾向分析成为当前互联网智能信息处理的研究热点。这涉及到自然语言处理、信息检索、信息抽取、机器学习等多个领域的研究内容。本文首先介绍了研究的背景以及相关的理论基础,而后,详细地研究了从互联网信息抽取到情感倾向分析的一个完整的流程,主要是三个方面:互联网信息抽取、信息过滤、文本倾向分析。在信息抽取中,主要分析了互联网信息的结构,应用了DOM树、HTML解析器处理网页数据,引入了模板技术以解决多样化的网页信息抽取。在信息过滤部分,在词语语义相似度计算基础上,近一步改进了句子的语义相似度计算算法;最后,研究了文档之间相似度计算的方法,并通过文档与主题之间的相似度值来实现文本信息的过滤。此后部分,深入研究了文本的倾向性计算算法,涉及短语的倾向性计算、句子及篇章的倾向性计算。在此基础上,阐述了一个互联网信息倾向性分析系统的设计与实现。最后,通过实验验证了信息抽取的可行性、改进的信息过滤算法的高效性以及倾向性分析算法的准确性,同时对互联网信息倾向性分析系统进行了功能测试,实验证明系统达到了设计要求。