论文部分内容阅读
随着网络贸易的迅猛发展,为了增强顾客满意度,分享顾客的购物经历,网上商家让顾客对已购商品表达意见或建议已成为一件很普遍的事情了。因此,购物网站用户评论区域的评论数量迅速增加,一些畅销产品在一些大的购物站点能达到数百之多的用户评论。然而,大量的顾客评论让产品制造商或潜在购买者很难跟踪已购产品用户对产品的意见和建议,这就给他们的决策造成了额外的困难。一个新的研究领域――以产品特征词为基础的顾客评论信息抽取研究就在这种背景下产生了。目前,越来越多的研究者投身其中,M. Hu与B. Liu在2004年发表的顾客评论信息抽取是最早且最完整的文献之一。本文首先介绍了以产品特征词为基础的顾客评论信息抽取的研究背景及国内外研究现状,详细阐述了研究目的及意义,对目前网络贸易平台功能模块进行了详细介绍,指出它的不足,提出将用户评论信息抽取模块应用到网络贸易平台中。并对本文用到的相关知识进行了研究。然后研究了M. Hu,B. Liu的用户评论抽取算法,对基于支持度算法的产品特征词抽取技术和利用WordNet识别舆论词语义取向技术进行了详细研究,分析了Hu,Liu的用户评论抽取算法的局限性。在对已有算法的局限性进行分析之后,提出基于贝努利模型的算法对产品特征词进行抽取,详细阐述了利用概率统计知识对用户评论涉及到的产品特征词进行抽取的过程。并与基于支持度算法对产品特征词抽取进行比较,实验证明,该算法能够让终端用户在搜寻产品时,感到简短有效的特征词列表对寻找产品真正起到了导航作用。此外,本文还提出使用松弛标记法对用户评论的产品特征词的舆论短语进行语义标识,利用对潜在的舆论词的标记进行识别舆论短语。在实验中,使用召回率和精确率两种评价指标对本文算法与利用WordNet识别舆论词语义取向技术进行了评价,且进行了实验结果分析。在舆论短语语义标识实验中,由于本文的算法能够处理敏感内容舆论词,本文算法的精确度比利用WordNet识别舆论词语义取向的算法高了0.03。但是由于本文算法不能识别WordNet上没有出现的单词,或对WordNet没有足够的单词分类信息,本文算法的召回率比利用WordNet识别舆论词语义取向算法的召回率低了0.03,这在后面的工作中需要改进。