论文部分内容阅读
随着Internet的迅猛发展和电子商务的不断普及,网上信息大量涌现,越来越多的网民希望互联网能够提供更多人性化的服务:商家希望能够及时了解用户对产品的意见或建议,以便改进产品的性能和售后服务;消费者则可以利用网上的评论来指导消费行为,政府部门也希望通过民众的舆情反应来调整一些决策等等。这些迫切的应用需求使得观点挖掘应势而生,并迅速成为信息处理领域的一个热点。本文重点研究基于web的汽车评论的观点挖掘问题。分别从词汇,句子,文本三个层面入手,开展倾向判别与评价对象抽取的研究,探索观点挖掘的新思路与新技术。主要内容如下:本文利用概率潜在语义分析给出了两种不同的词汇情感倾向判别方法:方法1,利用概率潜在语义分析得到每个目标词和基准词之间的相似度矩阵之后,再利用投票法来决定每个目标词的情感倾向;方法2,利用概率潜在语义分析对目标词进行语义聚类和扩展,自动找到每个目标词的同义词,然后采用基于同义词的词汇情感倾向判别方法对目标词的情感倾向进行判别。这两种方法均不受外部资源所限,能在一定程度上解决数据稀疏问题。针对产品评价对象的识别问题,本文首先抽取候选评价对象。通过综合使用词形模板和词性模板以及在对候选评价对象评分之前进行预处理,用以提高候选评价对象抽取的召回率和精确率;其次,从模板种子集和评价对象种子集出发,利用自举学习方法对评价对象进行了抽取,并进一步采用K均值聚类方法对其聚类,希望实现产品名称和产品属性同时自动抽取。综合利用本文的研究成果以及相关技术,研发一个基于Web的汽车产品评论观点挖掘系统。通过网络爬虫技术对后台知识库定时更新,分别从文本级、句子级以及搭配级三个不同的语言粒度对汽车产品进行全方位的观点挖掘,系统最终依据用户的选择,给出某汽车品牌的整体综合评价以及特性评价。