基于互联网的定义抽取研究

被引量 : 0次 | 上传用户:runzhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,技术的进步,各种新生事物层出不穷。新事物的涌现,也使得大量新词伴随而来。这些新生的词汇往往不会收入到各种工具书和词典中,人们不得不求助互联网搜索引擎来搜索词语的定义、解释和介绍。虽然主流搜索引擎能够获取和关键词有关的大量网址,但是其中大多数内容并非人们所关心的词语定义,人们还需要逐一打开网页进行繁琐的查找。在这样的背景下,本文对基于搜索引擎的互联网定义抽取进行了研究,主要有以下几个方面:(1)定义抽取语料库的构建研究主要采用在线中文维基百科全书和搜狗全网新闻数据作为互联网语料,开发了基于XML的语料库生成模块。该模块能够生成定义抽取实验专用的互联网语料库。(2)基于统计的互联网定义抽取方法研究使用了N-Gram模型来获取统计特征,并提出将关键词权重和语法依赖关系也作为句子特征来源。在考察定义语料和新闻语料的用词特征后,在词语“定义隶属度”和句子“定义隶属度”的基础上提出了“子句”和句子“最大定义隶属度”的概念。提出了一种定义抽取方法,即综合词汇特征、词性特征、关键词权重特征、语法特征、语言学特征和用词特征,将定义句子和非定义句子转换为特征向量,然后比较使用几种经典或流行的分类器进行学习和识别的定义抽取方法。(3)网页批量获取研究和网页信息抽取研究采用多线程技术调用GoogleAJAXAPI完成网页批量获取模块的设计和开发。提出基于信息量的段落权重计算方法,设计并开发了网页信息抽取模块。应用平衡随机森林分类算法进行互联网定义抽取实验。(4)互联网定义抽取系统模型研究提出了一种可行的互联网定义抽取模型。该模型可以用于E-Learning系统、定义类问答系统、知识发现等自然语言处理的应用领域。本文对互联网定义抽取的一些关键技术进行了研究,提出了基于统计的定义抽取方法,设计并开发了互联网定义抽取系统模型的部分模块。希望本文有助于定义抽取的进一步研究。
其他文献
<正>创新是人类共同的追求,没有创新就没有科技进步。前不久,上海交通大学安泰经济与管理学院(以下简称"交大安泰经管学院")在体制内院校首次推出的高级管理人员工商管理硕士
目的研究系统性红斑狼疮(SLE)患者与正常人外周血单一核细胞Toll样受体4(TLR4)mRNA、TLR2mRNA的表达情况。方法运用Taqman实时定量PCR方法检测活动期SLE患者28例、稳定期SLE
第一次世界大战后,美国政府在非殖民化问题上放弃了威尔逊时代的“理想主义”理念和实践,转而采用现实主义的态度处理与非殖民化和欧洲国家殖民扩张有关的问题。从哈丁政府到
随着ERP的广泛应用,企业信息化程度得到了飞速发展,在企业竞争全球化的压力下,石材行业企业如何成功应用ERP已经成为企业能否持续发展的重要课题。如果ERP应用失败将可能给企业
随着社交网市场规模的不断扩大,在游戏中植入广告成为SNS社交网站重要的盈利模式。社交网中各种游戏应用为植入式广告提供了肥沃的土壤,广告与游戏内容相结合,广告商可以把广告
以智能高频开关电源系统中的整流模块为研究对象,采用无源PFC和DC/DC变换器的原理,对模块的整流原理进行设计和改善,经过对整流模块的硬件、电路的设计与调试表明:该整流模块
随着柴油机强化程度的不断提高,其关键零部件的热负荷也随之不断增加。排气歧管是柴油机的主要受热件,与高速高温废气直接接触,工作环境恶劣,工作热负荷大,传统的排气歧管设计方法
实际输电线路不可避免地会遭遇冻雨、冰雪及大风等恶劣环境,引发低频、大振幅导线舞动,进而对电力系统及人们的生活造成难以估计的危害,因此各国研究人员从未停止对防舞装置的研
我的论文主要分成两个部分:第一个部分介绍结构化产品,设计原理和流程,以及通常的定价方法。第二个部分我采用上述原理和设计方法,我得到了一个以伊利股份(SSE:600887),贵州茅台(SS
采用溶液接枝改性法制备了马来酸接枝异戊橡胶(IR-g-MA)。通过红外光谱(FTIR)和核磁共振氢谱(1H-NMR)表征接枝产物结构,采用化学滴定法测试产物的接枝率。通过不同引发剂活性