网商用户评论中错别字自动检测与纠正的研究及实现

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:socks2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务迅速发展的背景下,网络购物平台积累了海量的用户评论。挖掘网商用户评论中的隐含信息对于商家和消费者至关重要,而评论中的错别字是影响挖掘准确性的关键因素。因此,自动检测和纠正评论中的错别字具有重要意义。目前对网商用户评论中错别字的自动检测和纠正还没有完好解决,如何提高自动检测和纠正的准确率是一个重要课题。本文主要工作:(1)针对检测过程中词语间关联度弱导致的错别字误报问题,提出了基于词向量的错别字自动检测算法。利用词向量技术对评论中的疑似词进行同义词替换,得到基于词向量的关联度。综合词向量关联度和语境概率两个因素,筛选出包含错别字的评论,并更精准的确定错别字在评论中的位置。最终检测准确率比现有方法提高了5.03%。(2)针对错别字自动纠正准确率低的问题,提出了基于权重机制的错别字自动纠正算法。该算法通过合并评论中的疑似词,生成疑似合并词,为获取正确候选词奠定了基础。在对字音相似和字形相似的候选词排序时,引入了候选词与疑似词的相似权重,优化了候选词的排序问题。在确定最佳候选词时,考虑了候选词的概率分布,将区分度大的第一候选词作为最佳候选词,解决了正确词被错误纠正的问题。最终纠错准确率比现有方法提高了24.20%。(3)针对网商用户评论中的数据噪声问题,在传统的数据预处理的基础上,对水军评论进行了过滤,成功过滤了15.03%的评论数据,提高了训练语料数据的准确性。此外,通过对评论中的同类别属性词进行替换,降低了特征向量的空间维度,减少了系统存储开销。(4)本研究经过实验验证达到了实用要求,并已经成功应用于联想研究院“用户反馈分析系统”,系统运行稳定、可靠。
其他文献
给出一个利用模糊教学方法实现的独居老人行动分析及异常报警系统设计方案.该系统通过设置在住所中的传感器组获取老人的活动数据,引入模糊逻辑的概念,由单片机实现判别老人
办高品质高中适应了当下社会转型的时代需要,是满足人民群众"上好学"的必然要求,也蕴含了教育教学改革的应有之义。我校坚持"一切为了学生的精彩和可持续发展"的办学理念,秉
会议
能够制备shoreA30~shoreD380的聚氨酯(PU)灌封材料.这些航天产品用聚氨酯灌封材料(PUPM)对各种基材优良的粘接性能;固化温度低不损坏电子器件;有合适的固化时间可流到电子元件
1教具装置图(见图1)2仪器特点及用途(1)特点装置简单便携、操作方便、省时省药、可见度高、观赏性强、重复性好。K+离子焰色不用蓝色钴玻璃就可较清晰地观察。
分析了植物分布理论、生态演替理论、生物多样性理论、景观结构理论等城市森林建设的基础理论;基于野外调查资料建立了徐州低山丘陵森林植被分类系统,包括2个植被型组、3个植被
应信息化工业化不断发展的需求,中文信息处理在输入、输出、检索、存储、生成、理解等方面的处理效率均有较大提高。然而,中文文本自动校对研究从开始直至今日,一直是一个亟
在Linux系统上应用Apache、PHP和MySQL开发基于Web的邮件帐号注册管理程序的几个关键性技术问题,并给出了实现方法.