【摘 要】
:
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法。现有的关键词
【机 构】
:
同方知网(北京)技术有限公司,南京理工大学经济管理学院信息管理系,中国科学院研究生院
【基金项目】
:
“十一五”国家科技支撑计划重点项目(编号:2006BAN03B04),南京理工大学科研启动基金项目(编号:AB41123)
论文部分内容阅读
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法。现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理。实验表明,
其他文献
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种
基因治疗研究的快速进展大大丰富了现有的基因工程理论,也使得基因治疗技术在运动生理学和运动医学领域中的实践应用成为可能。在理论上合理地使用基因治疗技术对提高运动水平
进入21世纪,创新日渐成为国家战略的核心,强化面向创新的科技政策研究成为世界各国的共同选择。事实型数据对于连接创新和科技政策研究、保障科技决策的定量化、科学化具有重
本体分子是在本体的基础之上,结合描述逻辑、图论等相关理论,用于解决动态知识组织管理和控制的理论。本文提出将本体分子应用于数字图书馆领域,建立一个以本体、本体分子为
目的:探讨对接受骨科腰椎疾病脊柱融合术治疗的患者实施护理干预的临床效果。方法:对2016年9月~2018年9月内接受腰椎疾病脊柱融合术治疗的230例患者展开研究,按护理措施的差
对第17届全国速度轮滑锦标赛女子300m运动员的直道技术进行分析.通过躯干角、髋、膝、踝角度变化值,以及重心垂直高度、水平速度变化说明速度轮滑的技术特点和我国轮滑运动员