基于混合策略的英语介词搭配抽取方法研究

来源 :北京工商大学 | 被引量 : 0次 | 上传用户:papyevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化进程日益提速,人们越来越强烈地希望用自然语言和计算机进行交流。要做到这点,就必须让计算机“读懂”并“理解”由人类自然语言所描述的信息。在任何语言中,词语搭配都是言语组装链条上的重要环节之一。大量收集真实语料中的词语搭配无论对于语言教学还是自然语言处理都是十分重要的。词语搭配抽取是自然语言处理领域的一项基础性课题,也是智能信息处理的重要方向。目前,国内外对词语搭配抽取的研究多集中于主谓搭配、动宾搭配、形宾搭配等。已有的抽取方法分为三类:基于统计的方法、基于规则的方法以及统计与规则相结合的方法。 本文围绕英语介词搭配的抽取方法开展研究,提出了从文本语料库中抽取出“动词+介词”和“形容词+介词”2种类型的搭配方法。本文完成的研究工作主要包括: (1)对现有词语搭配抽取方法和常用统计指标进行了深入研究,在此基础上提出了自己的研究思路:首先采用已有词语搭配抽取方法完成介词搭配抽取任务;对于抽取效果不理想的情况,再针对性地加入其他方法来抽取英语介词搭配。 (2)借鉴已有词语搭配抽取方法,提出了一种用于英语介词搭配抽取的方法,并通过实验研究了4种常用统计指标在英语介词搭配抽取中的应用。最终本文采用加权互信息作为统计指标来抽取英语介词搭配。 (3)针对实验中出现的典型错误问题,深入分析了错误搭配产生的原因,引入了“搭配窗口”和自定义规则来改进之前提出的英语介词抽取方法。 (4)研究了在英语介词搭配抽取中采用“逐步逼近”法选取最佳阈值的问题。 (5)提出基于混合策略的英语介词搭配抽取方法,并从BNC语料库中选取测试语料对其进行测试。“动词+介词”类型搭配抽取的测试结果为:准确率83.33%、召回率57.56%、F值68.10%;“形容词+介词”类型的搭配抽耿的测试结果为:准确率77.83%、召回率53.34%、F值63.29%。 本文研究工作为英语介词搭配抽取研究探索了一条新路径,对自然语言处理领域的其他相关应用研究也具有参考价值。
其他文献
省档案局根据省委关于“学习贯彻十八大、争创发展新业绩”和省直机关开展“三抓一促”活动动员会精神,举办了为期半个月的机关春季集训活动。通过这次集训,坚定了中国特色社
分布式输出同步的研究多集中在连续系统,而实际中多采用通讯的手段获取其他节点的信息,且多采用数字控制器实现先进控制策略。针对此理论与应用的间隙,本文围绕采样控制下的
随着经济的发展和城市化进程的加快,道路通行能力与使用者需求之间的矛盾日益突出。在现有道路条件下,采用先进的交通信号控制技术,是缓解交通拥堵、提高交通效益的有效途径。本
在国防及其它方面的科学研究中,我们需要利用直线感应加速器产生的强流脉冲电子束与靶作用,产生的强X射线。X光焦斑大小是X光装置的重要指标之一。数kA的电子束在聚焦磁场的作
随着世界经济的发展,市场竞争日趋激烈,物流已经逐步取代劳动对象和劳动者成为第三利润源泉,物流在企业中的地位越来越高。目前,欧美日企业已经认识到了物流成本对企业的重要性,并
十堰市张湾区是东风车的“故乡”,也是“中国第一、全球前三”的商用车生产基地、国际卡车之都,还是十堰市着力打造现代西部汽车城的核心区,南水北调中线工程重要的水源地.近
档案编研是开发利用档案信息资源的最高表现形式,是活化档案信息的有效手段,档案编研质量的好坏直接影响着档案信息资源的开发利用效果。为此,我们要进一步深入了解档案编研
心律失常一直是威胁人类健康的大敌,心房颤动(房颤)则是其中最常见的一种。心电信号是诊断心律失常的最佳手段,目前心律失常的诊断仍是有经验的医生观察心电图进行判断,因此心电信
虚拟现实技术自从它诞生以来,一直受到了人们广泛的关注。近年来,随着计算机技术、计算机图形学的不断发展,虚拟现实技术逐渐从单纯面向军事领域扩展到面向游戏制作、课件教学、
间歇过程作为现代工业中的一种重要生产方式,被广泛应用于高附加值,高精细产品的生产和加工中,其安全可靠运行日益成为人们关注的焦点,随着间歇过程故障检测准确性的不断提高