一种基于统计的地质专业词语识别方法

来源 :软件导刊 | 被引量 : 0次 | 上传用户:yining0209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实
其他文献
2004年,我国为解决粮食供应不足、农民种粮积极性不高的问题,出台了一系列强农惠农的政策,使得农民收入、粮食价格和产量不断提高。但是我国粮食价格在经历十年的持续增长后,
目的总结冠状动脉支架内慢性完全闭塞(in-stent chronic total occlusion,ISCTO)病变应用经皮冠状动脉介入治疗(percutaneous coronary intervention,PCI)的技术及长期疗效。
<正>国家档案局曾重点强调"加快档案信息化建设"、"加快现有档案的数字化进程"。数字化档案必将成为档案的主要存在形式,数字化档案馆必将成为档案馆发展的新方向,最终实现档
通过研究肉的僵直前后和僵直时间对肉丸质构的影响得出:肉越新鲜,肉丸的质构越好;肉僵直前,肉丸质构变化快,当肉进入僵直阶段后,肉丸质构变化速度大大减慢。通过对肉的品种研
以深市1998-2006年的349家A股上市公司为样本,实证检验了广义有效市场假说(GEMH)的财务管理理论。广义有效市场假说用价格的分形引子来表示风险资产的收益;并把风险的定义从
近几年随着建筑市场的蓬勃发展,建筑市场竞争日益激烈,各类新型建筑层出不穷。随着现代信息技术的迅猛发展,智能建筑应运而生,其集合了自动化控制技术、计算机网络技术、传感
小城镇给排水工程建设是其基础设施建设的重要组成部分,对小城镇的发展及环境保护都起着重要作用。该文就小城镇给水排水工程建设的现状、存在问题作以阐述,并作出了分析及合
随着城市现代化建设进程不断推进,我国建筑事业获得了迅猛发展,促进了相关技术与工程的革新。现阶段土木工程施工过程中,混凝土在相关建筑材料中占据着最大的比重,混凝土施工
<正>农业产业化经营既是建设现代农业、增强农业竞争力的客观要求,又是促进农业增效、农民增收的有效载体和重要途径。在当前和今后一个时期内,通过农业产业化龙头企业带动农
近年来,随着高校研究生党员人数的增长,研究生党员的教育管理也出现了一些新情况、新问题。研究生的教育管理工作是我国培养高素质创新型人才的关键,是高校党建工作的长期任