基于历史信息的中文多层次句法分析研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zhangshun102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机综合能力的日益强大和互联网的迅猛发展,社会的信息化程度越来越高,自然语言作为信息的重要载体,对它的计算机处理就显得格外重要。句法分析是自然语言处理的一个基本问题。基于历史信息的句法分析模型将句法分析树的构建转换为一系列的分类问题,由于其采用机器学习的方法,且与具体的语言和文法关联较少,因此具有较强的灵活性和可扩展性。本文基于统计的方法,提出了一种基于历史信息的中文多层次句法分析方法,在正确分词的基础上,实现了一个包括词性标注、基本短语识别、深层句法分析的基于词的句法分析系统。系统采用最大熵模型进行参数学习,在每层处理过程中,优先识别出容易识别的组块,在此基础上根据更丰富的上下文信息循环进行复杂组块的识别,直至识别出根结点。实验证明本系统取得了较好的性能。本文还实现了基于词的句法分析树到基于字的句法分析树的转换,最终实现了一种基于自动分词的句法分析系统,系统的分词准确率在96%左右,在宾州中文树库测试集Section271-300上,实验分析了系统的性能,并进一步分析了不同分词结果对句法分析的影响。
其他文献
复杂性科学被誉为是"21世纪的科学",主要研究复杂系统与复杂性,涉及领域广泛。其中生物领域的系统最为复杂,与其它领域的系统不同,它们具有一个明显的特点:拥有“活”的元素。这些
随着Internet的飞速发展,网络中的信息急剧增多,网络已成为人们获得信息的必要途径和重要手段。网络中的海量信息既给人们带来方便,也带来了许多问题。面对信息的海洋,如何从中找
目前基于内容的图像检索(CBIR)系统在图像的低层特征与图像的高级语义特征之间还存在着较大的鸿沟,本文针对此问题,提出了一种基于迭代logistic回归和贝叶斯(Iteration Logis
随着芯片技术、通信技术和传感技术的飞速发展,目前传感技术正迈入无线传感器网络新时代。这种网络由大量集成有传感器、数据处理单元和无线通信模块的微小节点组成,通过自组
随着信息技术的飞速发展,计算机网络已经渗透到人们生活和工作的各个方面,移动互联设备也正在逐步成为人们获取信息的主要工具。在此背景下,利用移动设备澡的通信能力进行动
随着高通量生物技术的长足发展,基因芯片和质谱技术逐渐取代传统方法成为对各种疾病和生理特征进行准确比较和量化的重要手段。尽管其前景可观,这类高通量技术给数据分析却带
随着计算机多核、众核平台的发展以及结构化网格的广泛应用,把大量的网格应用遗产代码迁移到多核、众核平台上并高效的利用处理器的性能是一个重要的挑战。  中科院计算所编
本文针对目前基于内容的图像检索(CBIR)系统在图像内容表示方法方面存在的局限性,探讨了基于内容的图像检索技术中若干个重要问题,提出了一种基于注意力驱动模型的图像检索方
随着互联网技术和多媒体技术的发展,人脸相关的应用越来越来引起人们的关注。人脸特征点定位和跟踪在人脸识别、人脸动画、人脸表情识别、人脸三维建模以及卡通人脸合成等方面
现代处理器中层次化的Cache设计已成为缓和CPU和主存之间的速度差距的重要手段。随着芯片集成制造工艺的日益发展,拥有多级Cache结构的CMP处理器已成为桌面应用和高端计算的主