基于多阶段的中文人名消歧聚类技术的研究

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:liongliong493
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统性能的影响做了比较分析。本文主要介绍三阶段聚类体系。在第一阶段,系统首先使用启发式规则对文档进行初步聚类;在第二阶段,系统使用局部上下文特征对文档进行再次聚类;在第三阶段,使用全局上下文特征对文档进行最后一次聚类。实验结果表明,本文提出的聚类策略的系统性能(B-cubed F值)比仅凝聚型层次聚类的系统的性能(B-cubedF值)高出2.41%。
其他文献
信息抽取是搜索引擎中的核心组成部分,发挥着举足轻重的作用。伴随着互联网信息的爆炸式发展,传统的搜索引擎已经不能满足人们的需要。大量有针对性作用的搜索引擎应运而生。Ht
做一个顶尖人物的24小事是什么样子的?在飞机上处理公务?早餐时间连线世界各地开电话会议?在度假海滩上接受盈利报告?在spa的时候苦想渠道建设?这些商务形象早已经out,不是成
2005年,福建省保险改革发展的新闻大事不断涌现,很大程度上让当地百姓受益匪浅。福建保监局、福建省保险行业协会、福建省保险学会因此共同评选出了2005年福建保险十大新闻。
悖向重排序是一种面向个性化信息检索的新型排序策略,其借助相悖于查询意图的描述结构,实现倔强非相关反馈的识别和降解。目前,悖向重排序研究中的关键问题之一是如何建立极大区
会议
物流信息技术是技术性很强的专业,为了培养学生具有较高的信息技术技能和树立为人民服务的思想,物流信息技术国家级职业教育专业教学资源库项目团队依据专业特性和训练技能要
期刊
财务管理是经济主体运行管理的核心,因为其掌握着企业的经济命脉.随着时代发展,财务管理也必须要随之改变,否则就会成为企业发展的制约.本论文讨论了大数据时代对电力企业财
随着供电企业的崛起,电力营销业绩也是逐日攀升,但附带产生的增值税问题也成为国内的焦点话题.就当前电力企业快速拓展的过程汇总,电力企业在国内有关税收规定的框架下,科学
Web 访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话中的主题(topic)是指会话中具有相同用户意图的部分。将session 进一步划分成能体现用户
会议
本文提出了一种基于文法的无监督方法,挖掘中文里的能愿词,这些能愿词可以成为识别人们意图和愿望的重要特征。例如“能够”,“必须”,“宁愿”等等。另外,本文还介绍了在大规模中
宏观少数城市房价上涨仍过快最近,建设部等十部委对11个省(区、市)落实房地产调控政策情况进行了检查。10月17日,国务院专门召开会议,听取房地产市场调控措施落实情况检查的