论文部分内容阅读
信息科技的飞速进步,让人类社会步入了智能化变革的大数据时代。各种信息途径产生的海量数据蕴含了巨大的财富,也成为了我们巨大的负担。近年来,电子商务出现井喷式的发展,移动终端的逐渐普及,用户参与互联网的激情越来越高,这些都成为大数据的重要推动力。商家在享受互联网带来的巨大利益的同时,也需要面对日益激烈的竞争。如何利用大数据寻找深入理解用户的途径,给用户提供更加个性化优质的产品和服务,成为赢得这场激烈竞争的关键。而网络上积累的海量评论文本正蕴含了用户最真实的情感与体验,体现了其深层次的偏好习惯,也更容易以口碑的形式对他人的购买决策产生影响。对于网络评论挖掘的研究起步于21世纪初,产品特征提取是其中一个重点,旨在发现用户在评论中关注产品或服务(服务也可以看成产品)的哪些细节。但是现有的研究仍然无法彻底解决机器理解语义困难、噪音大、方法可移植性差等诸多难点。而中文由于语言本身的复杂性更高,中文网络评论提取产品特征的研究面临着更艰巨的挑战。本文在前人的研究成果的基础上加以创新改进,针对中文网络评论的特点,实现产品特征的有效提取,并将算法在情感分析中加以推广。本文首先介绍了网络评论挖掘的背景,梳理了相关的研究与理论基础。在产品特征提取的模型中,将语言学的理论加以运用,在经过分词和词性标注之后,使用三项语言规则进行初步的筛选,得到更合适的候选特征集。针对原有PMI算法的缺陷加以改进,提出了一种PMI-Strapping算法:由一个简单的种子出发,逐步迭代优化,结合动态阈值设置,实现对候选特征集的进一步提取。同时,使用语料切割法和人工监督法,来对算法的阈值设置进行改进,以适应不同的挖掘目标。将整个产品特征提取模型应用于实际的网络评论数据集,展示出了优于传统PMI算法的表现。其次,本文总结了PMI-Strapping特征提取算法的重要思想,将其推广到情感分析中,并构建了相应的算法,以解决当前的感情分析研究中存在的两点不足,即情感分析脱离产品特征、情感分析模型简单线性化。最后,本文对全文内容进行了总结,对后续研究做了展望。