论文部分内容阅读
专家资源是各类组织中最有价值的资源之一,重要的知识保存在专家的头脑中。因此,寻找合适的专家就成为解决重要问题的关键所在。基于专家的研究论文等非结构化数据的挖掘与分析,对专家的研究领域进行评价和检索就成为解决疑难问题的重要工具。专家检索(Expert finding)的目的是要查找某一领域的专家帮助各类组织解决问题,专家不仅需要具备相应的领域专业知识,而且还应具有一定的影响力。为此本文在研究基于非结构化文档内容的专家建模方法基础上,还考虑能够表征专家权威性的专家引用关系。通过融合专家文档内容和引用关系,从而更准确、更全面地对专家进行综合评价。本文在分析相应需求和技术的基础上,建立三层体系结构,分别是信息采集、特征构建和专家检索三大部分,并重点研究了特征构建和专家检索两部分。信息采集主要是根据采集策略从专家信息库、学术数据库、专利信息库等数据源中自动地采集专家信息及相关技术知识资源,并进行清洗、规整、存储。特征构建主要在信息采集部分获取到专家的非结构化数据后,使用基于统计的中文分词技术对文档进行分词,统计分析每个词项在文档中出现的频率,在此基础上基于专家语言模型计算词项与专家的相关度,对词项建立特征构建内容特征库。同时抽取分析文献引用信息,计算关系权重构建专家引用关系网络。然后基于专家引用关系网络使用相关性传播模型对内容特征更新提升,达到平稳状态或经过有限次迭代后,融合专家文档内容和引用关系对专家研究领域建立特征构建专家特征库。用户检索,用户输入查询后,使用中文分词技术切分查询成多个查询词,对于每个查询词从专家特征库中搜索匹配特征,读取特征值作为对专家关于该查询词的评价得分。假设每个查询词相互独立,根据乘法原理合并所有查询词得分,得到对专家在整个查询中的综合评价,然后按序返回专家列表。为了提高用户的检索速度,其中将信息采集、特征构建作脱机处理,在用户发送查询请求时,直接可以得到系统对专家的综合评估。本文最后实现了一个专家信息检索系统,并应用在某大型医药企业中,该系统能够为企业寻找出相关领域的专家,帮助企业解决难题,提高了企业的工作效率,具有较强的应用价值。