论文部分内容阅读
随着信息技术的发展,涌现出了大批的社交软件,如Facebook、微博等,越来越多的人通过软件来交友、互动,出现了很多的虚拟好友关系,针对社交网络的好友推荐、社团发现等成为研究热点。但是除了这些虚拟的好友关系,生活中真实的社会关系的挖掘和发现具有更大的意义和价值。科技评审系统作为一种网络评审方式,与传统的电话评审和会议评审不同,科技奖励项目的立项、遴选和管理都是通过系统在线完成,因此涉及到评审专家与项目申报者关系密切需要回避的过程。本文针对科技奖励评审系统中专家回避的特殊性,研究人物社会关系在科技评审中的应用。本文在了解现有的人物社会关系抽取和应用的基础上,主要研究的内容包括一下几个方面:(1)针对人物社会关系标注语料库缺乏的问题,通过收集Web网页,进行分词、词性标注等文本预处理,使用一种简单的方式进行人物社会关系标注从而构建语料库,共标注八类主要人物社会关系。通过引入文本分类中CHI特征选择方法,只选择文本中的动词和名词作为特征项,有效的降低了特征向量的维数。使用SVM进行分类,实验表明,该特征选择方法可以在一定程度上提高人物社会关系抽取的准确率和召回率。(2)大部分Web网页中都涉及人名或人物信息,但是人物信息多是离散、非结构化的。根据中文表达的特点,通过基于规则的方法,构建触发词表,并引入语义信息,对人物的出生地、毕业院校、工作单位及成果等属性进行抽取。实验表明,基于触发词和语义信息的方法在人物属性抽取上是有效的。本文通过抽取的人物属性信息,发现人物之间潜在的人物社会关系。(3)人物社会关系应用广泛,不仅可以通过人物社会关系进行社团发现、广告推送或产品推荐,也可以通过人物社会关系挖掘将关注的明星或其他公众人物信息展示给用户。本文提出一种人物信息模型,将人物信息有效进行的组织,并将人物社会关系分为主要关系和次要关系两类。根据科技奖励评审中专家回避的特点,提出一种基于人物社会关系的专家回避模型,研究人物社会关系在科技奖励评审项目中的应用。该模型能根据人物关系和信息来源的不同尽可能的回避与项目申报者认识或可能认识的人,根据对理论和技术方法的分析,该模型具有很强的可行性。