基于本体和DOM树的Web信息抽取技术研究

来源 :情报科学 | 被引量 : 0次 | 上传用户:jinying5322446
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取是一个很大、很复杂的课题,涉及人工智能、机器学习等多个领域,本文研究的主要内容是如何将网页中的非结构化信息转化成结构化信息。首先介绍了本体的基本知识,然后重点讨论了基于本体和网页DOM树的网页信息抽取技术的实现过程。 Web information extraction is a very large and complex subject, which involves many fields such as artificial intelligence and machine learning. The main content of this paper is how to transform the unstructured information in web pages into structured information. Firstly, the basic knowledge of ontology is introduced, and then the realization process of Web page information extraction based on ontology and DOM tree is discussed.
其他文献
蒋氏故里景区奉化溪口风景名胜区由蒋氏故里、雪窦山两大景区组成,为宁波唯一的国家级重点风景区和国家AAAAA级旅游景区。蒋氏故里景区拥有蒋介石父子故居“丰镐房”、蒋介石
目的探讨比较无痛人流术与药物流产术的临床疗效。方法选择2010年1月~2011年6月收治于我院的320例要求终止妊娠的早孕患者为观察组研究对象,均采用无痛人流术进行流产;另选取3
近几年脂肪肝患病率在欧美和中国迅速上升,成为仅次于病毒性肝炎的第二大肝病。据统计,目前我国每10个人中就有一个患有脂肪肝,而在一些特定人群中患病率就更高,脂肪肝逐渐成
本文首先分析了网路准入控制原理以及网路准入控制技术的实现方式进行了探讨,运用802.1x协议的网路准入方式的工作和应用进行探讨,并对网路准入控制技术结合安全管理系统对网
所谓青年干部竞争心理,就是指青年干部从事某一项工作时或完成某项活动时表现出的一种好胜图强、超越对方或为了自己方面的利益而跟人争胜的心理。每一位青年干部在各种环境
9月20日晚,华文媒体代表抵达武隆,对武隆县的旅游开发和仙女山新区建设进行了参观考察,采风自然景观。当晚,武隆县举办欢迎宴会,宴请华文传媒论坛媒体各位代表,武隆县委常委
目的分析2000-2010年扬州市江都区0139霍乱的流行特征,为防病工作提供依据。方法采用描述流行病学方法,对2000-2010年江都区霍乱疫情资料进行分析。结果2000-2010年江都区共
糖尿病性视网膜病变是糖尿病患者最常见且最严重的并发症,而糖尿病性黄斑水肿则是糖尿病视网膜病变的主要组成部分,是引起患者视力损害和丧失的主要原因。我们通过对治疗组的
“向管理要效益”应是社会主义企业孜孜不倦的追求,但是真正琢磨透了,确是一门大学问.因为管理科学已从与经济学的单纯联系中攀越出来,结缘于领导科学、心理学、文化学等等,
游览车溪是在去年国庆长假的第二天。初秋的夷陵,天高云淡,满城飘散着淡淡的桂花香,正是外出游玩的好时节。车溪距离宜昌城区不到20公里。清早,朋友驾着车,跨过夷陵长江大桥,