面向领域文献的无监督中文分词自动优化方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:xrong19730911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,且无需领域词表及人工标注语料,具有良好的领域适用性。
其他文献
近年来,建筑行业的发展不再局限于传统的思想体系,民办高校建筑学专业人才培养为了适应社会的需要,结合自身办学特色,提出了更高的人才培养标准.本文以吉林建筑大学城建学院
<正>针对食品安全各项法律法规和国家相关行业标准要求,近年来牡丹江恒丰纸业对生产的食品包装类产品重金属含量进行了严格要求和控制,为此,针对所使用的原辅料助剂、生产流
提出利用工作在内核态的文件系统过滤驱动,捕获用户应用程序发往目标文件系统驱动的磁盘操作请求,直接对文件内容与特征码库中的病毒特征码进行匹配,检查是否含有病毒,有效地
对既有桥梁进行病害分析和加固是当前桥梁工作的重要任务。本文以广发大桥为工程背景,对桥梁在建设以及后期检测过程当中的检测结果进行综合分析,针对桥梁的的具体病害问题,
分析工商管理类本科专业《管理信息系统》课程教学中存在的问题,针对存在的问题,提出对工商管理类本科专业《管理信息系统》课程教学的目标定位和教学改革建议,提出并强调进
文化创意产业已经成为上海市"十二五"发展的战略性支柱产业,上海高校要为该产业的发展提供更多的知识服务。目前上海高校的文化创意产业在发展中还存在一些问题,需要建设一个
成本核算, 是建筑施工企业工程的重要工作内容, 具有难度大、 涉及广、 影响深远等特点.在这一基础上, 建筑施工企业就需要结合工程的实际,制定具体的成本核算步骤, 从不同的
由于当前我们国家的国情及其党情不断发展,为满足其实际需求需要不断对共青团经济形势进行改革。共青团的思想政治工作一直是党组织长久发展过程中的重要工作方法。随着当前共
2008年8月,采用典型取样法,设置20m×30m(或15m×30m)的方形样地13个,对广东省天井山林场杉木(Cunninghamia lanceolata)人工林冰雪灾害进行调查。结果表明:1)粤北地区杉木人
曾在奥斯卡、戛纳、威尼斯等国际电影节上多次获奖的迈克·李无疑是世界电影的杰出的人物之一。从最初在剧院受训,迈克·李就设计了自己的戏剧和电影的制作方法:经过几个月的