学术网络重名排岐算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yue09898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学家合作网络中,有许多科学家的名字是相同的。目前知名的学术平台如Arnetminer,Springer,ACM,DBLP,CiteSeer等在对科学家进行学术能力统计的时候,以科学家的名字来区分科学家,造成了大量的统计误差,也给科学家合作网络研究带来较大偏差,因此重名排岐问题具有很大的研究意义。已有的重名排岐算法在特征的选取上主要集中在共同作者,引用关系,作者单位等,在模型的选择上主要是图模型,存在着精度和召回率都不高的问题。通过分析归纳人在处理重名排岐问题时所用到的方法,将重名排岐这个聚类问题转化为判断两篇学术论文是否为一作者的分类问题。在吸收和改进前人处理重名排岐问题时抽取的特征的基础上,提出了一些新的特征:共同作者(Co-Author),主页(Homepage),引用关系(Citation),作者单位(Co-Org),标题相似度(Titile-Similariy),搜索引擎(Digital-Lib),文献原文(PDF File)。采用感知机来作为分类器,使用个人主页作为约束对感知机的分类结果进行修正。为了进一步提高重名排岐算法的准确性,引入户反馈信息。根据反馈用户的可信程度,将反馈进行分类,从低可信用户反馈中提取特征加入到感知机的输入中,选择了高可信用户反馈作为额外约束来修正感知机的输出,将用户反馈作为训练集对感知机进行持续训练,不断地修正感知机。实验结果表明,引入用户反馈以后,重名排岐算法的准确性能得到大幅的提升,取得了比较好的效果,目前此算法已经运用在Arnetminer系统中。
其他文献
基于对象的存储是一种新的网络存储模式,它融合了SAN的高性能和NAS的跨平台两个优点,发展前景广阔。它将90%左右的数据管理下移动智能存储设备,缓解了元数据服务器和文件系统
基于参考图像的乳腺肿块计算机辅助诊断(Computer-aided diagnosis, CAD),不仅提供待诊乳腺图像可疑肿块的决策值,指示其为肿块的可能性,而且提供一系列与待诊图像相似的确诊
拥塞控制技术(Congestion Control Technology)是针对网络拥塞问题而提出的有效解决方案。在计算机科学、控制理论、运筹学等学科的交叉领域,拥塞控制成为增强系统整体性能的
随着计算机网络和多媒体信息的迅猛发展,用户的检索需求在不断变化,用户不再满足于文本检索,多媒体信息的检索备受关注。当前已有的多媒体个性化模型大多是基于用户检索词建
随着无线传感器网络技术的发展,其应用领域也日益广泛。然而,由于应用需求的多样性和无线传感器网络平台的异质性(不同的硬件结构、通信协议和操作系统),传感器网络应用的开
在普适多媒体计算环境下,由于不同接收终端有着不同的屏幕尺寸,无线视频网络在传输前需要对视频分辨率进行转换。空间分辨率转码是解决此问题的一种有效途径。为了减少计算量
随着人机交互技术向着“以人为中心”的多媒体、多模式交互的方向发展,传统的基于键盘、鼠标的交互方式越来越显示出自身的局限性;将基于计算机视觉的手势识别方法融入到新一
随着支持网络连接的嵌入式系统广泛应用于消费电子和通信领域,一个界面友好、运行高效的嵌入式系统浏览器已成为这些领域的迫切需求。ClearBrowser是基于ClearX平台实现的浏
随着互联网技术的迅猛发展,尤其是分布式网络的发展,有力地推动了数字商品产业的销售与传播,这些数字产品可以在无任何品质损伤的情况下很容易的被拷贝和再分发,又使得互联网
Rootkit 技术是各种攻击中通常采用的技术,它为恶意软件提供了隐藏行迹的功能。因此,为保护用户计算机安全,对Windows 操作系统环境下的Rootkit 技术展开研究,不仅在犯罪嫌疑人的