一个中文语义语料库的研究与建设

来源 :苏州大学 | 被引量 : 0次 | 上传用户:buugly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过几十年的蓬勃发展之后,自然语言处理面临着语义知识资源匮乏和处理技术欠缺的瓶颈,语义资源建设对自然语言处理的未来具有重要意义。本文选择中文语义语料库建设作为研究课题,选择人民日报语料为标注对象,从知网进行知识获取,研究了以知网标记集进行汉语语料库语义标注的方法,并进一步开发了语义标注的汉语语料库L2bank。 以语义语料库的建设为目标,以语义标注技术为手段,本文做了以下几个方面的工作: 首先,通过对国内外语义语料库建设的发展与现状、语料库建设的语义知识源的调研,确定了知网作为语义知识源,人民日报作为基础生语料库,Oracle9 iFS作为构建平台的总体设计,在此基础上确定了L2bank语义语料库的总体设计和基本构架,为后续工作奠定了基础。 然后,探讨了语义标注的基本技术,提出了基于知网的语义相关度计算模型。该模型所使用的语义关系挖掘思想可以解决语义语料库建设的难点:多义词的消歧问题,成为本文特色之一。实验结果表明该方法消歧正确率可达80%,能够大幅度减少语料库建设的人工工作。 最后,详细阐述了L2bank语料库的构建过程,继而根据加工处理后的语料特点提供了42种访问控制接口,并通过大规模调查对语料库做了评测和分析。 语义语料库的建设对自然语言处理技术的进步有重要意义,本文初步完成了一个语料库建设的整体架构,并提出了自动标注的基本算法。但在提高自动标注精度和更多语义知识挖掘等方面还要进一步的研究。
其他文献
作业车间调度问题是最难的组合优化问题之一,已被证明是NP-Hard问题,它的求解对于NP-hard问题的求解将有很大的启发和推动作用。由于求解作业车间调度问题有着巨大的理论和现实
近年来随着 Internet 技术的飞速发展,Internet 上的应用从传统的应用逐渐扩展到多媒体的音频视频应用,在 Internet 上人们用电话进行交流变得越来越普及。现今研究IP phone
流量测量在经济建设、社会生活各个方面有着广泛的应用。计量仪表精确度的高低,也直接影响着企业的经济效益。但由于流量测量仪表的种类繁多、结构复杂,应用范围也各不相同,
在矿山生产经营与决策过程中,工程技术人员希望得到科学的决策支持和优选生产方案提高生产效率和降低生产成本。虽然某些矿区已经开始了数字化的工作,然而大都以AutoCAD为平
并行计算被认为是科学家和工程师用来解决各种领域的问题的标准方法,在工程设计、科学计算和商业应用中扮演着重要角色。随着并行计算技术和高速网络技术的不断进步,网络并行
随着嵌入式系统的广泛应用以及网络技术的飞速发展,安全性也显得越来越重要。嵌入式操作系统在嵌入式系统中占有很重要的地位,特别是对增强嵌入式系统的安全性方面,操作系统具有
人脸表情识别有着广泛的应用前景,逐渐成为当前人机交互领域的研究热点之一。表情识别是智能化和自然的人机交互的本质。实现自然和谐的人机交互,必须使计算机能够有效地理解人
虚拟实验室是我国未来实验教学发展的趋势,它在提高学生实际应用水平,节约教育成本等方面发挥了巨大的作用。针对目前专业基础虚拟实验室还比较少的现状,本文提出构建微机接
随着组件技术在软件开发中日益广泛的应用,对软件系统质量的要求也不断提高。因此,保证软件系统可靠性的软件测试技术,也面临着不断革新的需要。由于软件组件自身的一些特点,
虚拟机作为云“环境”的基础设施,随着云“计算”的发展得到了广泛的部署,其安全性也越来越受到业内研究人员和应用开发商的关注。在众多的虚拟机安全问题中,内核rootkit的攻击