论文部分内容阅读
现如今互联网上的学术论文、期刊文献、专利数据库、网络媒体、社交平台(微信、微博、博客、论坛)等载体上蕴藏着多个领域的潜藏知识,文中将这些载体涉及的专业领域称之为“专家领域”。“专家领域”中蕴藏着如:专家研究成果、学术观点、工作动态及最新言论等“专家数据”。如果合理的组织、运用这些“专家数据”,将得到远高于数据本身的更有价值的资源。“专家机器人”的研究就是对这些专家数据资源的分析、挖掘的过程。通过对专家机器人的研究来深入提取、解析海量数据中蕴藏的有用信息,并将其转换为可理解,可用的知识资源。本文是基于大数据的专家机器人研究,实际上是大数据研究在专家领域的一个缩影,本文是分别从数据处理速度、数据关联挖掘、数据应用质量三方面,对互联网中涌现的专家数据进行的研究。本文具体研究工作包括以下几个方面:第一,详细分析了Hadoop平台,并重点介绍了MapReduce分布式编程模型以及HDFS分布式文件系统。同时详细描述了全文搜索引擎的工作原理及索引构建流程,由于目前专家数据的激增,以及单机构建索引在效率和安全上的不足,提出了基于MapReduce的并行索引构建思想。第二,描述了基于网页的评分算法PageRank算法的工作原理,及其通过幂法迭代求解PR值的过程。为提高“专家领域”的学术索引结果质量,本文提出适用于“专家领域”的E-PeopleRank评分算法,目的是通过对专家打分排名,衡量各领域专家在检索结果中占的比重。E-PeopleRank算法改进了原算法主题无关性缺点,并更换了原算法模型的映射关系。考虑迭代中数据增长情况,本文将E-PeopleRank算法引入到MapReduce的编程架构中,并详细描述了各阶段的具体任务分配。第三,为了实现用户的个性化搜索,文中详细描述了协同过滤算法的具体原理及算法模型。为解决协同过滤算法中未考虑时间变化因素的问题,提出了适用于用户兴趣变化的协同过滤推荐算法,文中引入了兴趣偏移函数,对协同过滤算法的推荐模型进行了改进,随后详细描述了算法改进的具体过程。第四,通过搭建Hadoop集群,为文中提出的基于MapReduce机制的索引构建,算法改进等提供运行环境,验证文中提出的各种改进思想的可行性。最后,总结了本文的研究工作,并对今后要研究的内容进行了概述。