基于Web数据挖掘的推荐系统算法研究

来源 :河北工程大学 | 被引量 : 6次 | 上传用户:qhl7901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的飞速发展,互联网的信息愈来愈多,呈指数级别增长。如何在这些海量信息中发现有价值的知识信息,是每个电子商务商家面对的重要问题之一。Web数据挖掘作为一门涉及多个领域的综合技术,旨在从海量的、不规则的、含噪声的数据中,提取出隐含于数据中的、人们事先未知的而又潜在有用的知识信息。只有将Web数据挖掘的结果应用于实际中,才能最终使用户受益,这便涉及到Web数据挖掘的一个重要应用——推荐。推荐系统根据Web数据挖掘的结果,分析用户的行为喜好,然后将用户需要的物品推荐给用户。推荐系统的核心是算法,本文对推荐算法中的关联规则和聚类进行了详细的分析与研究,并对关联规则算法中的Apriori算法和聚类分析中的K-means算法提出了对应的改进方法。关联规则和聚类分析是推荐系统中应用较为广泛的两种方法。Apriori算法是关联规则分析的一个经典算法,本文针对关联规则生成的两个过程,提出了改进方法。在生成频繁项集过程引入数组的概念;在生成关联规则过程中引入树的概念。针对聚类算法中的K-means算法对初始聚类中心依赖较大的问题,本文提出两种新的初始聚类中心选择方法,并对改进后的算法同原有算法进行了对比。论文最后对关联规则和聚类算法在推荐系统中的应用进行了分析,两种算法相互结合能够提高推荐准确率,进而提高推荐系统的性能。通过对Apriori算法进行改进,有效降低了数据库的扫描次数、减少了冗余规则的产生;通过对K-means算法的改进,优化了初始聚类中心的选择方法,从而提高了聚类准确率。
其他文献
一.栽培生理的任务植物生理学的任务是研究植物的生命活动的规律性。一切有机体的生命活动受制于其遗传性与环境条件。环境条件的改变,必然会影响到有机体的生长发育、代谢
一九六三年的第十一期和第十二期《新闻业务》上,曾先后刊登了贺龙副总理在当年八月三十一日和十月二十八日对体育报工作的两次重要指示。最近半年多以来,贺龙副总理又对体
九月十八日,由全国农作物品审定委员会组织的全国棉花品种考察组一行16人,在棉花专业组组长余传斌、副组长俞敬忠和农牧渔业部种子总局良种推广处处长胡畏等同志率领下,到我
1.四年的试验研究和生产调查结果:肯定了甜菜垅作的适宜配置方式是60×20—30厘米,合理密植幅度为保苗3500—5500株/亩,单株营养面积为1200—1800平方厘米。2.缩小行距有利于
<正> 新闻研究资料第四辑《瞿秋白和中国革命报刊》一文中说:“1925年1月起,新青年又改为月刊重新出版。”应为1925年4月22日。胡文中说:新青年到1926年5月止共出了5期,应为1926年了月25日,而第四期则为1926年5月25日。以上我均和实物对照过,特此指出,以免误传。
采用基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS),对四硫富瓦烯化合物进行质谱表征.在所用的实验条件下,样品很容易解吸电离生成单电荷分子离子,得到单同位素分辨的质谱
从贵阳出发,驱车南行不到一个小时,便来到了久负盛名的青岩古镇。步入青岩镇,深厚的历史文化积淀扑面而来,古驿道上斑驳的方砖,两旁两重檐的民居,民居檐上朽损的木雕,路边残
我省素有“七山、一水、二分田”之称,且多为黄红壤及红壤发育的水稻田,由于森林覆盖率低,交通不便,这些地方存在“三缺”一有机肥、饲料、燃料,因而造成“三低”—土壤肥力
近几年来,人们发现以往栽培面积甚广的若干地方良种,发生不同程度的混杂、退化,有的几乎断种失传。这些良种一般都具有抗逆性较强、适应性较广、稳产保收的特点,在短时期内不
改革开放40年来,我国经济迅猛发展,综合国力大幅提升,人民生活水平显著提高。但是,由于我国目前的市场经济体制还很不完善,企业的慈善捐赠水平严重滞后于我国改革发展的速度。企业