面向信息检索的自适应中文分词系统

来源 :软件学报 | 被引量 : 0次 | 上传用户:a155327050
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解,在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比
其他文献
菲尔兹奖是国际数学界颁发给中青年数学家的最高奖.凡获此奖的数学家都是在自己的领域中作出突出贡献的人,都是当代数学精英.这些精英之所以成才时间短和快,与他们接受过的高
加蓬布巴哈水电站大坝帷幕灌浆采用"小口径、孔口封闭、自上而下、孔内循环不待凝、高压灌浆"的施工方法进行施工,在施工过程中采取一系列措施保证钻孔的方位角、倾角的偏斜
本文分析了学习资源尤其是数字化学习资源对传统教学的影响,并从教学改革的视角对数字化学习资源的建设和发展问题进行了论述.