特定领域的中文新词发现方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:wangyuange
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网技术蓬勃发展,各个领域中新技术与新方法层出不穷,致使大量的新词汇出现,不同领域的专业词典库急需完善,因此对特定领域新词的准确识别成为了需要重点研究的问题。新词发现是中文分词中最基础的研究,但中文与英文不同,没有较明显的符号区分词语边界,具有较高的识别难度,并且新词产生速度快、产生形式灵活多变,对自然语言处理提出了更高的要求。  本文主要对传统新词发现中低频新词识别率低的问题进行了重点改进,在单一的特定领域即IT领域中与计算机相关的新词语进行了实验验证。但研究不限于该领域,使用不同领域的数据集通过对人工规则等具体细节的修改即可适用于“医学”、“金融”等其他特定领域的新词发现。  首先针对数据的稀疏性使低频词语无法被识别的问题,提出一种信息量和深度学习模型相结合的新词发现方法。该方法通过计算词语内部粘合度和分离度确定新词边界,并且加入人工规则过滤的方式找出需要的候选新词。BiLstm-CRF模型是双向长短时记忆网络和条件随机场融合的深度学习模型。把候选新词进行序列标注作为BiLstm-CRF模型的输入数据进行训练,输出最佳的标签序列。最后将用信息量与规则过滤找到的候选新词和用模型找到的新词相结合得到最终的新词词表。实验证明传统的方法和模型的融合既解决了大量人工序列标注问题又提高了低频新词的识别率,通过模型的学习实现了无监督的、实时的新词发现。  Aprioir算法是寻找频繁项集常用的方法,但该算法存在产生过多的频繁项集冗余项使运行效率过低和应用于新词发现时低频新词无法识别的问题。针对上述问题本文提出一种改进的Aprioir算法,该算法通过规定字符的顺序减少了频繁项集寻找过程中存在的冗余项,并且在找到的K-频繁项集中选出低频项集重新过滤,增加了对低频词的识别。最后根据噪声词典过滤得到新词词表。实验证明该算法提高了运行效率,频繁项集挖掘中冗余项有所减少,同时与原Aprioir算法新词发现的结果相比在准确率上有了较大提高。
其他文献
学位
随着Internet的发展,电子邮件以其经济快捷的特点,成为网络时代人们最基本最常用的信息交换手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量
Agent技术是近年来飞速发展和广泛应用的一项技术,Agent是具有自主决策能力、相互协作能力和一定的智能性的自治实体,利用Agent可以解决Web服务等技术存在的功能单一,无法主
无线局域网(WLAN)的普及以及流媒体日益广泛的应用,特别是实时业务的迅猛发展,使得在WLAN上实现服务质量(QoS)有着迫切的需求。然而,由于信道接入机制的缺陷,WLAN一直难以提
本文从空天信息网的特点进行分析,分析论证了网络管理对空天信息网建设的重要性,从而在现有网络管理技术的基础上得出了空天信息网网络管理的功能需求,根据这些功能需求对网络管
随着硬件技术和计算机图形学技术的迅猛发展,越来越多的专家学者都致力于虚拟现实领域的研究。目前对于陆地场景中的植物仿真建模已经有了比较深入的研究,而虚拟水底环境中的动
本文选题来自江苏科技大学“船舶工业集团军贸基金”重点科研项目---舰船综合后勤保障系统研究。综合后勤保障(Integrated Logistics Support,ILS)在美、英等西方发达国家的军队
研究表明,互联网中大约有30%的网页是冗余信息,即这些网页和其余70%的网页文档互为近似重复或完全重复。由于数字文档易拷贝,使得各种信息资源以飞快的速度在增长。信息检索的目的
基于二部图的低密度校验(LDPC)码由于其低译码复杂度和可任意逼近香农限的良好性能而成为目前最佳的编码技术之一,越来越受到众多编码研究学者的关注。二部图的构造是LDPC码
软件项目需求的日益复杂和频繁变更,要求在系统开发时能通过合理的层次划分和先进的开发技术保证开发质量、提高开发效率以及为程序的升级和移植提供便利。 能够充分利用己