基于词表和N-gram算法的新词识别实验

来源 :情报科学 | 被引量 : 0次 | 上传用户:liond1803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频闽值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
其他文献
在21世纪教育政策中,中华优秀传统文化核心概念经历了概念零散、内涵糅杂,表述稳定、边界确立,内涵深化、指向实践三个阶段。教育政策反映了党和国家对中华优秀传统文化教育
<正> 冠以“当代草圣”之誉的林散之先生,自幼痴迷于诗书画,终成“三绝”。著有《江上诗存》三十六卷及编外集十卷。自一九二八年至一九八○年,收诗二千三百余首。或纪游,或
2002年8月,日本国立国语研究所成立了"外来语委员会",该委员会于今年4月25日发布了"第一次外来语替代用语提案",旨在用通俗易懂的替代用语解释难以理解的外来语.此次发表的外