论文部分内容阅读
近年来,互联网的快速发展,人们之间交流日益方便快捷,随着新的多媒体社交平台的不断涌出,围绕社交平台开展的交流日益增多,每天有成千上万的用户通过社交平台发表他们的言论和看法。这些文本信息中包含有大量的情感倾向(评论某个事物的“好”与“坏”)的词语,这些带有情感倾向的词语能反映出用户当时的情感状态。一方面,多媒体社交平台逐渐发展成意见挖掘和意见情感分析的评论文本资料库;另一方面,多媒体社交平台的发展也为意见的挖掘和情感分析提出了更高的需求。电影的评论文本是多媒体社交平台上比较常见评论信息,针对电影评论的研究已经很多很完善了,在传统的评论领域的情感分析不好在突破了,因此本文在基于传统的评论信息的基础上结合了一些其它因素来对评论文本进行情感分析,通过情感分析可以发现用户关注的电影特征,并根据电影的特征信息,推断出用户的偏好,本文提出了将电影的评论文本信息中的隐含语义内容和评分相结合构建一个新的电影推荐模型。因此本文是基于多媒体社交平台(电影的影评论坛)的评论文本信息来开展对电影推荐和评分预测的方法进行研究。并开展以下两个方面的研究工作:1.对电影评论的文本信息中的词语进行统计和分析,基于知网词典构建了一个电影领域的情感词典,用来对电影评论信息进行情感分类,根据情感分类中主题发散这个特点,提出一种基于情感句提取的电影评论的分类方法。并使用机器学习的方法对文本进行分类,从而得到它的情感倾向。在一级情感分类的基础上提出了结合统计学BSI的二级情感分类模型,通过实验对比证明了二级情感分类模型的准确度相比较一级情感分类提高了5%,且对未标示过的评论文本有更佳突出的情感分类能力。2.用户在浏览网页或者搜索内容的时候都有浏览记录的存在,这些日志数据随着用户的操作不断的增多,日志的数据能反映出用户的一些习惯或偏好,对这些日志数据进行统计分析,从而可以获取用户的搜索行为特征,可以把用户的行为特征进行关联,从而能得到用户搜索行为的历史轨迹,这些用户搜索行为的历史轨迹为用户评分预测精度的提高起到了一定的影响力。由于日志的数据比较大,本文是采用Hadoop框架来开展研究的。提出了一种新的推荐方法将评论中的隐含内容与用户的打分,用户的日志信息统计后的数据相结合,设计了一种新的电影的推荐模型,首先利用主题挖掘将文本中隐含的主题分布找出来,然后利用主题分布来刻画出用户的偏好和电影的画像,结合用户的历史足迹的统计和BSI情感预测来构建一个评分预测模型,然后基于逻辑斯蒂回归模型上训练主题与用户的打分之间的内在联系,该算法丰富了推荐数据的信息,可以有效的缓解当用户冷启动时,推荐系统中打分稀疏的问题。然后利用真实的数据来进行实验对比,从实验的数据来验证这个模型。