【摘 要】
:
为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性
论文部分内容阅读
为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性能的提高具有重要作用。本文作者在深入分析前人工作的基础上,综合运用语义Web、本体构建、自然语言处理、机器学习和Web挖掘等多个领域的知识和方法,开展了“面向领域网页的语义标注”研究工作,主要研究内容包括:1.对语义标注研究及相关技术进行了全面的分析和总结。2.在综合现有本体构建方法的基础上,提出了一个以研究需求为驱动,支持研究组在分布式环境中开展工作的四阶段本体构建方法。3.针对知网2000免费版(简称为HowNet)编程开发接口缺失的现状和项目开发的需求,利用逆向工程技术,给出了一个获取HowNet编程开发接口的技术解决方案,并将获得的接口应用到实验中。4.提出了一个在领域本体指导下,综合运用统计学方法和自然语言处理(NLP)技术对中文自然语言Web文档进行语义标注的方法框架。框架分为数据准备阶段、识别阶段和组合阶段。在数据准备阶段利用特征抽取方法构建领域词汇表,并形成类型标注表;在识别阶段提出显式类型标注算法,识别文本中的实例和属性;在组合阶段提出基于依存树的关系抽取算法和基于依存森林的关系抽取算法,完成关系抽取。此外,还给出了一个基于影响度函数的主动学习方法以交互提问方式来提高标注性能。5.提出了基于句子频繁特征模式挖掘的语义标注方法框架,包括数据预处理、模式挖掘和规则处理三个阶段。在数据预处理阶段提出特征句提取算法和特征序列生成算法;在模式挖掘阶段提出基于后缀数组的句子频繁特征模式挖掘算法;在规则处理阶段利用挖掘得到的特征模式来编写标注规则,并将规则应用到语义标注过程中。本文研究依托国家自然科学基金重大项目“非规范知识的基本理论和核心技术”之开放课题“第二代浏览器原型研究”(60496321),目前研究成果已应用到原型系统CRAB中。
其他文献
目的:观察肘前内侧入路手术在单纯尺骨冠状突骨折中的临床治疗效果。方法:选择尺骨冠状突骨折患者40例,对骨折患者实施前内侧入路手术治疗,并进行6个月的随访,对治疗效果、并
本文报道了黄渤海产江豚的外形和骨骼特征,并指出黄渤海产江豚与东海、长江产江豚在外形和骨髂上有较大差异。由于Pilleri和Gihr把中国的江豚曾另定名为一个独立种,因此作者
<正>一、病历摘要男,42岁。既往有过敏性鼻炎病史。此次因喘息伴间断发热4月余入院。患者2012-1月无诱因出现喘息,活动后加重,严重时语不成句,同时伴有明显咳嗽、咳痰,痰为黄
摘要:考虑到秦岭地形对温度场的影响因素,以主分水岭为界分为南北两部分,在普通插值的基础上,采用一种基于DEM的辅助插值方法,同时考虑秦岭南北坡坡向的差异,对秦岭的温度场进行了
蓝莓是一种富含多类型营养的水果,除花青素含量极高外,其他营养成分有常规维生素类、多糖类、必需氨基酸类、蛋白质类和食用纤维类等,部分矿物营养素类含量较高。新鲜蓝莓储藏温度需在2~6℃,运输过程不可超过12℃,一般只能储存15d左右,时间太长其风味会发生变化,因此蓝莓原料在工业中的保藏方法以冰冻为主。蓝莓果醋的生产是转化这种季节性水果价值并延长消费的一种方法。蓝莓果醋产品的生产与开发,不仅符合国家的农
随着我国经济体制变迁和市场取向改革,许多企业都在转型的过程中演变成多元化或综合性企业集团。有些企业表面上看还是专业化的企业,但实质上也在走向多元化发展之路。万达集
跨太平洋伙伴关系协定(TPP)12个谈判国在美国亚特兰大举行的部长会议上达成协议,意味着美国主导的亚太区域经济合作协定基本成型。这是2008年金融危机爆发以来世界经济领域发
使用N&K多功能薄膜分析仪对OLED的结构进行分析,对比了不同时间室温老化实验样品的反射率波谱。对反射率进行计算拟合,得到OLED的多层膜结构信息。对相同室温老化实验条件下
<正>永辉超市(601933):公司生鲜业务收入占比常年稳定处于45%以上,且远高于同行。优势主要在于成熟的供应链体系,大幅压缩了流通环节。公司生鲜采购价格比农贸市场低5%,直采
目的建立饮用水中30种硫醚类致嗅物的吹扫捕集-气相色谱(GC)-质谱(MS)测定方法。方法向25 ml水样中加入氟苯和溴苯内标物,室温吹扫捕集11 min,经HP-VOC色谱柱(60 m×0.32 mm,