协同过滤技术中的数据预处理研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:revire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,网络上信息的规模急剧扩大,伴随而来的“信息过载”问题也越来越严重。基于信息检索的信息推荐服务,无法满足用户不断提高的信息服务需求。这也催生了个性化推荐系统的产生。个性化推荐系统能够帮助用户从海量、无序的信息中抓取到用户需要的信息,一定程度上缓解了“信息过载”问题。其中协同过滤技术是个性化推荐领域最为成功的技术之一,在互联网各个领域大规模的应用。然而随着数据规模的剧增、用户需求的不断提高,协同过滤技术也暴露了很多问题,例如数据噪声、数据稀疏、冷启动、扩展性等问题,严重影响了信息推荐服务的质量。数据噪声是本文所要研究的第一个问题。用户在评分时可能会因为一些环境因素影响下意识给出不正当评分或者存在一些恶意刷评分的行为从而导致评分数据存在一些数据噪声。评分数据对协同过滤技术中核心过程之一的计算邻居群体有很大影响,所以如果不消除原始评分数据的评分噪声可能会影响后续信息推荐服务的质量。研究的第二个问题是数据稀疏性问题。由于在偏好数据中往往数据的稀疏程度非常高,偏好信息的缺乏会导致后续计算相似群体的准确度严重降低,而且极端情况下还会导致冷启动问题,进而影响后续信息推荐服务的质量。本文具体工作如下:针对数据噪声问题,本文将使用基于模糊聚类和Weighted Slope One算法的数据清洗算法,针对传统Slope One算法只考虑了项目流行度差异,而未考虑用户之间相似程度信息与项目评价数量信息。本文算法会先根据用户偏好信息对用户进行模糊聚类,然后结合用户对每个簇的从属度和每个簇内项目之间的流行度偏差值计算最终的项目之间流行度差异,最后通过Weighted Slope One算法计算最终调整后的评分数据。经过实验,基于模糊聚类和Weighted Slope One算法的数据清洗算法显著提高了噪声消除的效果。针对数据稀疏问题,本文将使用基于Winnow算法的数据填充算法。算法中先结合项目标签信息与评分数据来初始化用户特征矩阵,然后通过Winnow算法优化用户特征矩阵,再判断填充可信度,将满足条件的通过用户特征矩阵进行评分填充。经过实验,经过本文算法填充的评分矩阵在推荐上具有更高的准确度和覆盖率。
其他文献
商业综合体的空间环境随着消费模式的改变逐渐发生变化。早期的商业综合体发展时,缺乏对其外部空间的重视,导致城市空间问题频发。现如今,随着生活质量的逐渐升高,人们对城市公共空间的重视程度越来越高。商业综合体作为城市商业空间的代表,其外部空间在提供公共空间的同时,具有一定的商业服务性能,是建筑与城市空间联系的纽带,是同时具有城市性与商业性的空间环境。且近年来由于经济、社会等多方面的发展,商业综合体面临着
随着大数据、云计算等技术的发展,网络流量呈现出几何式的增长。现有的网络基础设施已经变得难以满足业务发展的需求,这就急需对网络流量进行高效、智能的管控。而传统的IP网
平直度是反映板(带)材形状质量的一项重要指标,钢铁企业在生产过程中常常需要对板材平直度进行检测与评判。然而由于生产批量等原因,造成平直度检测对象和地点不固定、基座式安装的平直度检测设备不再满足检测要求的现象大量存在。在此背景下,本文进行了便携式板材平直度检测系统的相关研究,旨在为便携式平直度检测系统的研发提供技术和方法支撑。首先,介绍了接触式和非接触式平直度检测方法,然后详细阐述了平直度检测技术的
近年来,随着我国铁路事业的快速发展,安全高效的铁路运输对百姓生活及社会发展的重要保障作用日益显现,铁路运营的安全性获得广泛关注。道岔是关键的铁路信号设备,也是铁路线路三大薄弱环节之一,其状态直接影响列车的运行安全。现行的道岔故障检测方法为人工将信号集中监测系统中采集的道岔动作电流曲线与专家标定的典型动作电流曲线对比。这一方法严重依赖人工经验且效率较低,难以应对现有铁路运行中行车速度快、发车密度高对
运动目标检测与跟踪作为计算机视觉的重要研究方向,由于其涉及图像处理、人工智能、自动控制、模式识别等多个计算机研究课题,且在军事制导与拦截,视频监控,智能交通,医疗诊
当配电网发生故障时,快速、准确的定位故障直接影响用户的用电质量。在众多的故障定位方法中,基于智能优化算法的区段定位方法由于其较好的容错能力而成为研究的热点。然而分布式电源(Distributed Generator,简写DG)接入配电网以后,原有辐射型配电网的区段定位方法失效,因此研究含DG配电网的区段定位方法至关重要。许多专家在该方面做出了相关研究,但是这些算法都是基于单层的定位模型,当配电网的
电力工业是国民经济的基础和支柱产业,随着电力工程技术的大力发展,供电服务的客户满意度也日益被供电企业们所重视,其中如何提高供电单位的客户满意度是保证电力建设稳步发展的重中之重。在电力体制改革的大背景下,进行供电服务客户满意度调查,了解不同地区不同客户对供电服务满意度结果及建议,以供电客户为中心,针对性的提高供电服务质量,提升客户满意度,对电力系统的优质稳定发展具有重要意义。本文首先明确了电力体制改
目的:以中医理论为指导,结合现代医学先进的研究,观察柴甘解忧汤联合重复经颅磁刺激(rTMS)对帕金森病抑郁的临床疗效,为临床治疗提供参考。方法:采用前瞻性随机对照研究的方法,纳入广东省中医院帕金森专科门诊2018年7月1日至2019年1月20日就诊的帕金森病患者中有抑郁障碍的患者共84例,随机将受试者分为4组:中药组、rTMS组、联合组、对照组,研究开展中共脱落4例,每组各20例,三个干预组分别为
为应对当前我国存在的人口年龄结构不均衡、人口老龄化问题日益加剧的状况,我国先后实施了“单独二孩”和“全面二孩”政策,但是计划生育政策的放开并未达到预期的效果。若要进一步推进“全面二孩”政策,应该对我国现阶段实行的社会保险有更深的分析研究。本文致力于研究社会保险中不同的险种对我国人口出生率产生的影响,主要从以下三方面开展研究工作:首先对国内外研究生育保险、医疗保险、养老保险与人口出生率之间关系的文献
潮流能在我国属于一种储量大、能量密度高并且可持续发展使用的绿色能源。潮流能主要的应用方式是发电,而水轮机对于整个发电系统至关重要,水轮机获能效率的大小直接决定了该款水轮机捕获能量能力的强弱。我国虽然存在较高流速的水域但大多数水域的水流流速偏低,因此开发一种获能效率高并且适用流速范围广的水轮机具有现实意义。本文设计并制造了双叶片半转叶轮水轮机样机和实验测试平台,通过实验研究了双叶片半转叶轮水轮机的水