论文部分内容阅读
互联网技术的发展使信息的传播和共享越来越便捷,人们现在既可以在商业网站上发布产品评价,也可以在论坛、博客、社交网络等媒体上对几乎任何事物发表自己的意见或者看法。在信息分享方便和快捷的同时,网络上提供的大量用户评论信息也导致了人们获取有用信息比较困难。所以,采用现有的技术对这些评论信息进行挖掘研究,获取有价值的信息有着重大的意义。论文针对这类问题进行了研究,主要完成了以下工作:对现有的网络产品评论挖掘的相关理论和技术进行了深入细致的研究,从研究分类到技术支持,从研究框架到相关算法,并进行了对比分析;在现有研究的基础上,分别采用传统文本分类方法和加入观点词汇库的方法进行了观点分类的研究,采用机器学习的方法进行实验并对结果进行了评估;从语义的角度出发,采用频繁模式抽取和PMI信息检索算法相结合的方法来提取产品特征,并进行了实证性的研究,给出了自己的结论和建议;构建了集成产品特征抽取技术的观点分类系统的分析和设计框架,将挖掘结果以可视化的形式展现给用户,帮助用户进行决策分析和判断。论文严格按照设计科学的研究方法,对于论文提出的方法都进行了实验验证,并对结果进行了分析。相对于其它中文产品评论挖掘的研究而言,论文主要有以下三个创新点:(1)提出了通过构建观点词汇库的方法来进行观点分类,以达到优化传统文本分类方法在观点性文本分类中的应用。论文以酒店评论为例,运用机器学习的方法,通过构建观点词汇库,构建了小型领域观点词库,对传统的文本分类结果进行了优化;(2)从观点挖掘的粒度出发,提出了产品特征级别的观点分类问题,通过关联分析技术挖掘频繁特征,结合语义的方法对挖掘结果进行修正;(3)将产品的特征抽取与观点分类结合,提出了集成的系统分析与设计框架,针对抽取出的产品特征进行观点分类,提高分类的准确度,并以可视化的结果展现给用户。