中文功能组块分析及应用研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:hackrx123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,中文自然语言处理技术在分词、词性标注等方面获得了很大进步。然而,自然语言处理应用系统(如信息抽取、问答系统等)则需要对文本信息进行深层解释。功能组块分析任务为句子成分自动标注主语、宾语、时间状语、地点状语等功能标记,作为语法分析及语义理解的一种实现方式,具有定义清晰、便于评价等优点,近年来受到越来越多学者的关注。本文提出基于序列判别模型的中文功能组块自动分析技术,将传统的支持向量机分类模型扩展到序列学习任务中,灵活地使用了输入输出序列之间的多重相依特征。研究表明,本文提出的方法获得目前中文功能组块分析的最好性能,系统整体F1值达到93.76,并且可以较好地扩展到不同的特征集合,适合于众多自然语言处理问题。论文的第一部分说明了功能组块分析的几个问题:课题的提出与研究及意义,相关研究现状,以及本论文的研究重点。然后简要介绍了本课题采用的语料库资源——宾夕法尼亚大学中文树库,讨论了中文功能组块的划分标准。接着,以自然语言理解的全信息方法论为基础,分析了功能组块标记在语法、语义、语用理解中的位置及作用。最后说明了几个常用的考察组块标记性能的指标。论文的第二部分详细介绍了本研究的理论基础,具体说明了序列判别模型在中文功能组块识别中的应用。在对算法模型进行分析的基础上,构建了中文功能组块自动标注器,并通过大量实验,从多方面分析了系统的性能,检验了不同特征对于系统性能的影响及其语言学解释。接着,比较了两个不同的构建功能组块标注器的方法:采用简单词法信息(词、词性等)的标注器和采用完全句法树信息(短语类型、句法树路径等)的标注器,并通过实验说明了基于词法信息的功能组块标注器具有性能稳定、领域适应能力强等优点,适用于缺少句法资源或句法分析本身存在困难的语言,是进行汉语功能组块分析的有效方法。论文的第三部分介绍了功能组块标记在自然语言处理系统中的应用。我们选取文本观点挖掘中的观点要素识别为应用领域,以句子成分的功能类别为依据,构建了观点主题自动识别系统,并通过实验验证了该方法的可行性。最后,给出了本研究的结论以及未来的研究方向。以上工作不仅实现了汉语功能组块自动分析系统,并且从计算语言学的角度,对汉语功能组块进行了明确界定,对其它相关的应用研究具有参考价值。目前的实验结果也显示了功能组块分析技术具有非常好的应用前景。
其他文献
近年来,我国大力支持国际化人才培养,对本科及以上层次的海外留学不断进行政策倾斜,加大了国家公费留学资助和自费留学奖学金的发放。从大学毕业生留学现状来看,国家留学政策的支
在中小型液压挖掘机中,反铲工作装置为主要作业设备。它包括三组油缸,即动臂油缸、斗杆油缸和铲斗油缸,如图1所示。在挖掘过程中,往往斗杆油缸活塞杆与缸盖外沿处渗漏油的现象时
我局在北京亮马河大厦施工中,使用了两台普茨迈斯特公司的大象牌混凝土泵。在一年零四个月的施工中,泵逑混凝土50000m^3。泵送最大高度为104.018m,此时的泵送压力为24MPa,为允许的
目的探讨血脂水平与冠心病、脑卒中的相关性。方法选择301例重症医学科住院患者,分为非冠心病+非脑卒中组(n=158)、单纯冠心病组(n=62)、单纯脑卒中组(n=57)、冠心病+脑卒中
企业要发展,品牌是灵魂。在当前激烈的市场竞争环境中,品牌建设的重要性不言而喻。作为农业产业化国家重点龙头企业,江苏省农垦米业集团有限公司(以下简称"苏垦米业")自成立至今,
以长沙某五星级酒店为设计实例,详细介绍了冷却塔供冷系统设计。结合长沙地区的气候特性,通过TRNSYS模拟软件对冷却塔供冷进行了动态模拟,重点分析了该系统适宜的切换温度、
采用《青少年心理健康素质调查表·人际素质分量表》对全国23个省、市、自治区的44063名青少年人际心理健康素质发展状况进行调查。结果表明:(1)我国青少年人际素质处于较好
图像由于各种原因被损坏或变得残缺不全。本文研究用Inpainting技术进行图像修复。图像修复是模仿古代画家对绘画的手工修复,用计算机及专门算法对图像进行润饰,达到修复效果
当今,世界各国之间日趋激烈的竞争归根结底是人才的竞争,强大的人才竞争力无疑是提升国家综合竞争力的基础和保障。人才是实现民族振兴、赢得国际竞争主动的战略资源。要坚持
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield