论文部分内容阅读
在电子商务迅速发展的背景下,网络购物平台积累了海量的用户评论。挖掘网商用户评论中的隐含信息对于商家和消费者至关重要,而评论中的错别字是影响挖掘准确性的关键因素。因此,自动检测和纠正评论中的错别字具有重要意义。目前对网商用户评论中错别字的自动检测和纠正还没有完好解决,如何提高自动检测和纠正的准确率是一个重要课题。本文主要工作:(1)针对检测过程中词语间关联度弱导致的错别字误报问题,提出了基于词向量的错别字自动检测算法。利用词向量技术对评论中的疑似词进行同义词替换,得到基于词向量的关联度。综合词向量关联度和语境概率两个因素,筛选出包含错别字的评论,并更精准的确定错别字在评论中的位置。最终检测准确率比现有方法提高了5.03%。(2)针对错别字自动纠正准确率低的问题,提出了基于权重机制的错别字自动纠正算法。该算法通过合并评论中的疑似词,生成疑似合并词,为获取正确候选词奠定了基础。在对字音相似和字形相似的候选词排序时,引入了候选词与疑似词的相似权重,优化了候选词的排序问题。在确定最佳候选词时,考虑了候选词的概率分布,将区分度大的第一候选词作为最佳候选词,解决了正确词被错误纠正的问题。最终纠错准确率比现有方法提高了24.20%。(3)针对网商用户评论中的数据噪声问题,在传统的数据预处理的基础上,对水军评论进行了过滤,成功过滤了15.03%的评论数据,提高了训练语料数据的准确性。此外,通过对评论中的同类别属性词进行替换,降低了特征向量的空间维度,减少了系统存储开销。(4)本研究经过实验验证达到了实用要求,并已经成功应用于联想研究院“用户反馈分析系统”,系统运行稳定、可靠。