基于不平衡分类的推荐算法及开发者推荐算法研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:yaozhongli00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展,能够为用户提供海量信息,满足用户在信息化时代对信息的需求。然而,互联网在为用户提供海量信息的同时,也带来了信息超载的问题,导致用户难以在海量的信息中找到自己真正所需要的信息。推荐系统现已成为解决信息超载问题的有效途径,用户无需手动搜索,系统会根据用户的历史行为信息,分析用户喜好,根据用户的喜好向用户推荐用户可能会感兴趣的信息。在推荐系统的发展过程中,协同过滤算法以其独特的优势被广泛应用于各个领域中,尤其是在电子商务领域获得极大的成功。传统的协同过滤算法依靠用户的评分信息来推断用户偏好,然而,在实际的推荐系统中,用户往往不喜欢对物品评分,尤其是那些用户不喜欢的物品。这就导致根据用户评分信息生成的评分矩阵不但稀疏而且出现评分偏置的现象,而之前的推荐算法无法有效的解决稀疏性和评分偏置问题。因此,本文提出了一种基于特征传递和不平衡分类(FTIC)的跨域推荐算法用来解决传统推荐系统中的数据稀疏和评分偏置问题。首先,将目标域中原始的推荐问题转换为不平衡分类问题,具体是将用户和项目在用户-项目评分矩阵中的位置作为特征向量,其对应的评分作为标签。利用Funk-SVD模型从辅助域抽取有用的用户特征信息,以及从维基百科中抽取项目特征信息用以缓解目标域的稀疏性问题。最后,采用不平衡分类模型(Ada Boost.NC)来解决所获得的不平衡分类问题。另外,本文还提出一种基于特征匹配的跨域推荐算法应用于开发者推荐任务,从而解决开发者推荐中的数据稀疏问题。首先,对爬取的数据集进行预处理,计算目标域开发任务与辅助域开发任务之间的相似度,找到辅助域开发任务中与目标域开发任务最相似的一批任务。之后,查找到这批辅助域开发任务相应的开发者,计算这些辅助域开发者与目标域开发者之间的相似度,最为相似的开发者将推荐给当前的目标域开发任务。为了验证本文提出的两种算法的有效性,本文进行实验并对比多种先进的单域和跨域推荐算法,利用不同的指标对模型进行评估。实验结果表明,两种算法各自在不同的评估指标方面相较于之前的算法都具有一定优势。
其他文献
随着云计算技术的日益普及,以云存储为代表的数据外包服务正凭借其价格低廉、管理简化等特点而愈加的受到人们的欢迎。然而,数据外包服务也同时产生了许多问题与矛盾。一方面
习主席在党史学习教育动员大会上强调,要进一步感悟思想伟力,增强用党的创新理论武装全党的政治自觉。从基层实际看,把理论武装当口号喊、装点门面做做样子、不真学真用的问题仍然突出,需要各级紧贴青年官兵的思想实际和认知特点改进学习、深化武装,着力破除与真学真用不相适应的突出问题,不断推进党的创新理论武装在基层走深走实。
自2011年至2016年,我国进出口贸易总额增速持续下滑,贸易形势严峻。而“一带一路”倡议、人民币入国际货币篮子、外商投资法等一系列政策出台释放“制度红利”;2017年和2018年进出口总额增速大幅回升,贸易出现复苏迹象。如何提升对外贸易质量、推动贸易发展方式转型升级,以谋求我国在国际分工体系中的新地位,成为各界关注的重点课题。因此,本文以“一带一路”沿线41个国家(地区)为样本,探究国际分工视域
随着大数据与人工智能技术的广泛应用,数据背后蕴藏的巨大价值得以挖掘,同时带来也带来了不容小觑的隐私泄漏问题。如何在保障数据安全的前提下,实现大数据开放共享、高效挖掘日益成为重要的研究领域。为了应对数据挖掘中存在的隐私泄露风险,本文通过对大数据隐私保护技术进行深入研究,设计并实现了两种针对非结构化数据的隐私保护数据挖掘模型,能够有效地实现数据安全性与可用性之间的平衡。论文的主要创新性工作如下:(1)
“居住需要”是指人们能够较长时间住在一个地方的倾向,也是人对居住生活的愿望和要求。居住是人之于“生活世界”的重要维度。“居”不仅关涉人对空间的占有,还展现人的本质力量,也是人在现实生活中的居住体验和居住面貌,更是理解和把握现实人居住实践和生存境遇的重要路径。居住本质上是人的对象化的活动。海德格尔曾指出“人与空间的关系就是居住”的命题。作为人类首要的日常生活行为方式之一,人在一定的非居住空间和居住空
由于工厂企业生产过程不规范、保障措施不够健全,粉尘爆炸事故时有发生。通过火花监控设备探测点火源并将其快速消灭,是非常高效的预防措施。完善监管流程,建立远程实时监控平台,将火花监控设备接入网络进行统一管理,可以进一步保障安全生产。然而目前市场上的监控设备都没有加入网络功能,难以满足要求。本文设计并实现了一个以分布式、嵌入式为基础的管道火花自动监测控制系统,实时监控生产管道中的火花和设备运行状态等信息
近年来,文化翻译受到众多学者和译者的关注。乡土文学中的地方特色,不仅使得文学作品凸显地方风味,更会使得作品的文化价值得到提升。翻译乡土文学,既能让人们牢记地方文化,
新闻流行度预测是对新闻在未来时刻的点击量、评论数或者转发量的预测,通过对流行度的预测能够进行新闻质量评估,新闻排名,新闻推荐以及新闻检索等。新闻流行度的预测还能够缓解当今网络及社交媒体飞速发展带来的信息爆炸和信息过载问题。但是由于新闻存在时效性且生命周期较短为发布后的预测带来局限性,而发布前预测由于影响因素的多样性和难定义性也面临巨大的挑战。已有工作中对新闻进行发布前的流行度预测存在无法处理多源粗
GPU具备强大的数据并行处理与浮点计算能力,因而被越来越广泛地应用于数值模拟和科学计算等领域。但面对GPU的复杂硬件结构和完全不同于CPU的多线程编程模型,提高GPU上程序开发效率以及程序的性能就显得尤为重要,线程放置策略是其中重要的一环。线程放置策略比较复杂,传统的线程放置策略包括参考指导建议、穷举参数等。本文在程序静态信息和运行时信息基础上,使用机器学习算法建立了CUDA程序线程放置优化模型。
恶性胃溃疡在普通消化道内窥镜下早期诊治以及与良性胃溃疡的准确判断,直接关系到患者的生命安危。然而,这两类胃溃疡病变在临床表现上以及在普通消化道内窥镜成像特点上极为相似,在医生的实际诊断过程中非常容易发生误诊、漏诊的现象。采用深度学习的方法,开展胃溃疡良恶性分类识别算法的研究具有非常重要的理论研究意义和临床应用价值。本研究主要针对普通消化道内窥镜图像进行分析,利用Sobel算子以及HSV色彩空间转换