论文部分内容阅读
搜索引擎技术可以提供信息检索服务,使得用户在互联网中可以快速,准确地获取感兴趣的数据。随着时间的发展,传统的全文搜索引擎和垂直搜索引擎已经不能满足用户的所有需求,一种新的搜索模式必将产生。特定领域的人立方关系搜索引擎是基于对象级别的垂直搜索引擎,它致力于将Web信息抽取、社会网络分析等技术和传统的检索技术相结合,为用户提供强大的检索和社会网络分析可视化能力。本文以台海领域的新闻网页作为研究数据,针对搜索引擎、信息抽取的研究热点及其相关技术进行了深入的分析和研究,取得了如下研究成果:·关系搜索引擎的网络爬虫。本文研究了网络爬虫的爬行算法、主题采集策略和遍历优先策略,提出了基于配置文件的定制爬行方法,实现了台海领域主题的新闻网页爬虫。·关系搜索引擎的网页解析和主题过滤。在网页解析方面,本文提出了一种结合HtmlParser技术,基于特征的网页解析方法;在主题过滤方面,本文采取了传统的文本分类方法。·关系搜索引擎信息抽取。本文实现了命名实体识别和实体关系提取。命名实体识别采取了基于最大熵模型的面向特定领域的实体识别方法,实体关系抽取则采用的是基于向量空间的实体关系提取方法。·关系搜索引擎社会网络的分析和展示。人立方关系搜索引擎力图在互联网的台海领域中记录人的社会活动信息,并揭示人与人之间关系的动态结构图景。本文提供了几种社会网络的分析方法,并支持可视化功能。最后,在对上述问题的研究和应用的基础上,本文构建了一个台海领域的人立方关系搜索引擎系统,并对系统进行了功能可用性验证。