中文新词自动检测与识别方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:now3th
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是汉语自然语言处理领域一项重要的基础性研究工作,而随着新词的不断出现,中文分词结果中出现过多的“散串”,影响了分词的准确率。因此,新词发现已经成为中文自动分词的一个难点和瓶颈问题。另外,新词发现也是信息检索和机器翻译等领域的关注之点。 本文将新词发现问题分成新词检测和识别两个子问题。新词检测模块采用了两种新词检测方法,一种是基于条件随机场(Conditional Random Fields,CRF)将新词检测与自动分词相结合,另一种是基于PAT(Patrical Algorithm to RetrieveInformation Coded in Alphanumeric,PATRICIA)数组提取重复字串,本文利用这两种方法提取候选新词;新词识别则被定义为一个二元分类问题,特征采用了新词检测过程中得到的局部特征即分词置信度以及词频、词语连接测度(SymmetricConditional Probability and Context Dependency,SCPCD)等全局特征,采用支持向量机(Support Vector Machine,SVM)作为分类器,对候选新词进行分类;最后将两个结果加以融合。实验证明该方法适用于从大规模语料库中自动高效地发现新词。
其他文献
高强度聚焦超声(HIFU)技术作为一种无侵害的、安全、有效的肿瘤治疗手段,近年来取得了快速的发展,当前HIFU设备对多种恶性肿瘤的治疗以达到临床应用阶段。在HIFU设备中,通常利用
木素是自然界中含量最丰富的可再生性有机资源之一,其生物降解构成自然界碳素循环的限速步骤。真菌中的白腐菌类具有完整的木素降解体系,能将木素彻底氧化性降解为CO和HO。黄孢
为服务中国—东盟自由贸易区建设和中国—东盟博览会在南宁举办,满足社会各界及海内外人士了解中国和东盟各国有关资讯的需要,由广西社会科学院、广西社会科学界联合会主办,
发光LED是当前新型的发光源,比传统光源(白炽灯和荧光灯)节能50%~80%。城市景观照明及室内外装饰照明灯具必将逐步被节能、环保、寿命长、可靠性高及可实现全彩变化的LED灯具所取
方位分辨率与测绘带宽是合成孔径雷达(SyntheticApertureRadar,SAR)最重要的性能指标。常规SAR特别是常规星载SAR,其方位分辨率与测绘带宽指标不能同时改善。为了从体制上解决
现代图像通信的要求是将图像信息清晰、正确的传送到目的端,而图像信息是高维信息,内容复杂,数据量大,如果直接将图像信号进行传输,由于带宽有限,可能造成图像失真,并且传输速度低。
本文对锁阳多糖成分及其药理活性进行了研究。文章采用腹腔两次注射STZ(150+40)mg/kg体重的方法制备糖尿病小鼠模型,然后用浓度为高(200mg/(kg·bw))、中(150mg/(kg·bw))、低
数年以前,基于HTTP的网络业务由若干服务提供商以中央集中的方式提供,鲜有分布式服务器的存在。通常的情况是,单一服务器提供独有的网络服务,并且固定在某个IP地址上。现如今
当无线网络的解决方案在企业和公共场合接入的市场上取得一定进展时,家庭网络市场仍没有找到一种合适的无线解决方案。家庭网络市场具有一定的特殊性,它需要同时满足高数据传输
本文针对华北高产粮区农业水、氮过度投入换取食物高产和农业经济增长的不可持续发展问题,建立了农业水、氮利用的生态学调控途径与管理政策的分析方法。以我国北方第一个吨粮