现代汉语连词用法的自动识别及应用研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:sharufeifen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连词是虚词的一种,在现代汉语中,它承担着极为繁重的语法表现任务,对于汉语的语法分析和语义理解有着至关重要的作用。相同的连词在不同的上下文语境中可能表示不同的含义,具有不同的用法。因此,必须对文本中连词的用法进行全面细致的考察研究,人工总结或者机器学习其中的规律并进行形式化描述,从而实现连词用法的一定程度的自动识别,这将有助于中文文本的机器辨析和自动理解。现代汉语连词用法自动识别是面向自然语言处理的现代汉语虚词知识库研究的重要内容之一。本文根据俞士汶等提出的构建“三位一体”的现代汉语虚词知识库的思想,完善了包括现代汉语连词用法词典、连词用法规则库和连词用法语料库在内的现代汉语连词用法知识库。在连词用法知识库的基础上,分别研究了基于规则和基于统计的现代汉语连词用法自动识别。基于规则的方法简单易懂,但是不能通过机器学习的方法自动地获得知识。基于统计的方法可以从训练数据中自动地或半自动地获取语言知识,但是对于单用法或用法分布稀疏的连词的用法识别效果不好。根据规则方法和统计方法的优缺点,本文结合用法分布率、规则准确率和统计准确率初步尝试了五种规则与统计相结合的方法进行连词用法自动识别。实验结果表明,这些规则与统计相结合的方法的识别效果要高于单一方法的识别效果。在连词用法自动识别的基础上,本文研究了连词用法的一个应用:连词结构短语识别,期望能为机器翻译提供更好的预处理知识,从而提高机器翻译的质量。首先人工标注出已标注过用法的语料中的连词结构短语,并总结出规律,构建连词结构短语识别规则,实现基于规则的连词结构短语自动识别。然后分析规则方法的不足,将连词用法作为统计模型的一个特征实现了基于统计的连词结构短语自动识别。实验结果显示,统计的识别效果要比规则的效果好,并且加入用法特征的统计识别结果比没有加入用法特征的结果高。当统计方法加入用法特征后,识别的F值比没有用法特征的提高1.26%,比规则提高33.3%。
其他文献
目的比较多系统萎缩P型(MSA-P型)与帕金森病患者的临床特征及认知功能。方法选取2012年7月—2014年8月中国石油天然气总公司中心医院收治的MSA-P型患者31例作为A组,帕金森病
阅读作为高中英语教学中的重要组成部分,阅读本身就是一项重要的英语技能,在高中英语教学中,强化学生阅读能力培养至关重要。但是很显然现在高中英语阅读教学还存在诸多的问
随着经济的发展,人口的不断增长,土地的使用问题越来越多,耕种土地被大量占用,引起了农业耕种面积的减少,并且同时起来的对生态环境的破坏和环境的污染情况。对土地的利用是
简·奥斯汀和夏洛蒂·勃朗特同为英国以描写女性文学而著称的女作家,通过对二者作品的分析,以及对作品中女主人公的分析,透视了在十八、九世纪的英国,女性地位的低下
采用单因素实验研究了超声处理对脱脂豆粕蛋白质浸提率的影响,结果表明,容器式超声仪(300w)浸提蛋白的最佳工艺为:频率30kHz、料液比(质量体积比)为5%、在pH值8.5下处理20min,此时上清
分析了金融中介在经济增长中的作用 ,以此给出评价金融中介效率的指标体系 ,并根据市场主导型和政府主导型两种融资制度的差异 ,对金融中介效率进行对比分析 ,认为政府主导型
创业创新是十七大精神在北仑实践的具体化,也是有效破解当前突出矛盾和问题,全面提升区域竞争力的发展之路。从北仑的实际出发,提出了政协要发挥政治优势,努力为创业创新营造
2016年12月5日至8日,黑河学院经济管理学院教师一行6人赴俄罗斯布拉戈维申斯克参加由黑河边境经济合作区与阿穆尔国立大学共同举办的第三届国际青年经济论坛。
聊斋电视系列剧(旧版)是聊斋影视剧中的代表作品,它集中地反映了《聊斋志异》的整体风貌,体现了原作精神,因而影响最大。其成功的改编技法主要有“从写意到具象”、“净化人物形象
党的十九大强调,我国经济已由高速增长阶段转向高质量发展阶段。作为满足人民日益增长的美好生活需要的发展,高质量发展有很多衡量维度,其中绿色发展是重要维度之一。2019年3