基于排序学习的文本概念标注方法研究

来源 :北京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:yuanshangsen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于排序学习的方法CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。
其他文献
宪法具有维护国家安全的重要价值和功能。《香港特区维护国家安全法》作为“一国两制”实践、中央对香港特别行政区行使全面管治权的重要制度性成果,是尊崇宪法、维护宪法、
随着北斗三号全球组网卫星的稳步推进,截至2019年11月底,已完成22颗MEO、3颗IGSO以及1颗GEO卫星的发射任务,目前北斗三号系统在轨稳定提供服务的MEO卫星有18颗,已初步满足全
小颗粒淀粉是指颗粒粒径〈10um的一类淀粉。由于粒径较小,小颗粒淀粉的直链淀粉和支链淀粉含量和结构、糊化性质、膨润力、水解性质与大颗粒淀粉有所差异。由于小颗粒淀粉具有
为制定营养强化小麦粉国家标准,以几种典型的矿物质类营养强化剂(钙盐、铁和锌盐)为例,进行了营养强化小麦粉灰分指标的理论计算和实验验证,以此确定强化营养素对小麦粉灰分和含砂
针对伊犁盆地郎卡地区中侏罗统西山窑组铀矿地质勘查中对沉积相研究存在的问题,以钻孔岩芯精细研究为基础,结合区域地质背景及测井、地震、粒度等分析资料进行沉积相标志、沉
中国礼会科学院2008—07—11发布的《中国改革开放30年》蓝皮书认为,我国在今后较长时期内面临食品、能源和资产价格趋势性上涨的压力。稳定物价既要盯住CPI,又要关注食品、能
360羽1日龄的AA肉鸡随机分成3组,即分别饲喂基础日粮的对照组及在基础日粮中添加5%凹凸棒石黏土和5%改性凹凸棒石黏土的试验组,研究凹凸棒石黏土对肉鸡生产性能、免疫指标和血液
对不同掺量的SBS和SEAM改性剂进行复掺并制备了复合改性沥青,同时对复合改性沥青的流变性能进行试验研究,然后利用高低温、水稳定性和抗疲劳性能试验验证了SBS/SEAM复合改性
为探索完美主义与工作倦怠之间的关系,选取北京某设计院在职建筑设计师203名,用Frost多维完美主义量表、简版应对方式问卷以及工作倦怠量表MBI-GS进行调查,并利用结构方程模型进
近日,日本著名荞麦专家稻泽敏行来到陕西榆林定边,考察红花荞麦的生产,希望扩大榆林红花荞麦在日本的市场。稻泽敏行先生说,在全世界荞麦产量减少的形势下,日本对荞麦的需求量不