顾客评论信息抽取算法的研究

被引量 : 0次 | 上传用户:wwling_girl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络贸易的迅猛发展,为了增强顾客满意度,分享顾客的购物经历,网上商家让顾客对已购商品表达意见或建议已成为一件很普遍的事情了。因此,购物网站用户评论区域的评论数量迅速增加,一些畅销产品在一些大的购物站点能达到数百之多的用户评论。然而,大量的顾客评论让产品制造商或潜在购买者很难跟踪已购产品用户对产品的意见和建议,这就给他们的决策造成了额外的困难。一个新的研究领域――以产品特征词为基础的顾客评论信息抽取研究就在这种背景下产生了。目前,越来越多的研究者投身其中,M. Hu与B. Liu在2004年发表的顾客评论信息抽取是最早且最完整的文献之一。本文首先介绍了以产品特征词为基础的顾客评论信息抽取的研究背景及国内外研究现状,详细阐述了研究目的及意义,对目前网络贸易平台功能模块进行了详细介绍,指出它的不足,提出将用户评论信息抽取模块应用到网络贸易平台中。并对本文用到的相关知识进行了研究。然后研究了M. Hu,B. Liu的用户评论抽取算法,对基于支持度算法的产品特征词抽取技术和利用WordNet识别舆论词语义取向技术进行了详细研究,分析了Hu,Liu的用户评论抽取算法的局限性。在对已有算法的局限性进行分析之后,提出基于贝努利模型的算法对产品特征词进行抽取,详细阐述了利用概率统计知识对用户评论涉及到的产品特征词进行抽取的过程。并与基于支持度算法对产品特征词抽取进行比较,实验证明,该算法能够让终端用户在搜寻产品时,感到简短有效的特征词列表对寻找产品真正起到了导航作用。此外,本文还提出使用松弛标记法对用户评论的产品特征词的舆论短语进行语义标识,利用对潜在的舆论词的标记进行识别舆论短语。在实验中,使用召回率和精确率两种评价指标对本文算法与利用WordNet识别舆论词语义取向技术进行了评价,且进行了实验结果分析。在舆论短语语义标识实验中,由于本文的算法能够处理敏感内容舆论词,本文算法的精确度比利用WordNet识别舆论词语义取向的算法高了0.03。但是由于本文算法不能识别WordNet上没有出现的单词,或对WordNet没有足够的单词分类信息,本文算法的召回率比利用WordNet识别舆论词语义取向算法的召回率低了0.03,这在后面的工作中需要改进。
其他文献
时间序列分析在水文规律分析、水文模拟以及水文预报等许多方面都起着重要作用。水文现象的非线性和高度复杂性,要求从更高的层面和更广泛的角度应用新理论、发展新理论和提出
在经济全球化和全球经济信息化迅速发展的今天,电子商务以其不受地域时间限制、成本低、效率高、快速方便而受到越来越多企业和个人的欢迎,在世界范围内保持着快速、持续发展的
本文的研究课题是基于先进制造技术的复杂零件工艺系统研究及应用,是利用数控技术对复杂工艺零件设计开发的实际应用和探索论证。本文应用先进制造技术成功完成复杂零件开发,
强直性脊柱炎(ankylosing spondylitis,As)是以骶髂关节和脊柱慢性炎症为主的周身性疾病。其特征性病理变化为肌腱、韧带附着点炎症,以炎性腰痛、肌腱端炎、外周关节炎和关节外
本试验将云芝多糖以0g/kg、0.5g/kg、1.0g/kg、1.5g/kg、2.0g/kg、2.5g/kg的剂量添加到基础饲料中,对照组(0g/kg)饲喂基础料,以奥尼罗非鱼为试验对象,研究云芝多糖对奥尼罗非鱼生长及免
随着科学技术的发展,目标与背景对比度在目标的识别、跟踪、红外预警等方面用得越来越多,其重要性亦不断提高。现在,世界各国都在大力研究测量对比度的新方法,并且取得了非常
在建设社会主义新农村的大背景下,“三农”问题空前地为社会各界所关注,而关于农村发展所面临的一系列热点、难点问题也广泛地提上了国家的议事日程,农村集体所有权所面临的困境
在我国现代文学史上,沈从文是一位具有强烈生命意识的作家。其生命意识的强烈主要缘起于悠久深厚的楚文化熏陶,湘西艰难困苦的生存环境的滋养,丰富多彩的大自然陶冶,多次目睹无辜
随着Internet的普及和发展,图像数据飞速膨胀,如何高效、快速地检索到所需的图像成为当前图像应用领域的一个研究热点。由于图像数据自身所具有的非结构化特性和内容多义性等
湿地学是一新兴学科,而湿地保护与管理学更是年轻的交叉学科。湿地管理是根据湿地生态系统固有的生态规律与外部扰动的反应所进行的各种调控,从而达到系统总体最优的过程。由