主题搜索系统关键技术研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:huxianding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是当前互联网的基础应用,它帮助用户在海量数据中进行查询。但是传统的全网搜索模式存在索引更新困难和查询准确度低等局限性,主题搜索的出现和发展可以有效弥补上述不足,其关键技术成为了当前互联网研究的热点。   本课题深入探讨了主题搜索引擎的现状,从业务、框架、工程和算法几方面归纳了系统的功能需求,在此基础上开展研究。研究内容主要包括:容纳多业务点的主题搜索系统架构,Web页面主体语义块的提取算法,Deep Web接口页面的自动查询方案,目录式页面的主题爬行策略和“正文式”数据密集型页面的数据抽取算法。课题针对上述内容提出相应的解决或改进方案,主要贡献如下:   1.提出了一种改进的基于数据抽取器的搜索系统架构。该架构提前训练数据抽取模式,以分类标注的策略支持多个主题业务,改善了以往系统只能提供单一主题搜索服务的情况;架构中针对分布式爬虫系统,实现了加权最小连接调度的任务分割算法,改进了之前基于哈希的平均分配策略,提高了资源的利用率和分布式爬虫的扩展性。   2.提出了一种使用SVM分类模型区别Web页面主体语义块的方法,经过对正结果集进行后续的校验,最终定位最佳的主体块节点的准确率达到92.3%。本方案成功地把文本分类模型引入页面信息提取领域;相对于其它页面分块方法,实现了领域和平台无关,准确率也比有最佳记录的Data-Rover系统提高了大概两个百分点。   3.提出了基于领域实例库自动查询Deep Web接口的方案。方案中实现了DeepWeb领域实例库的建模方法,首次完备地描述了领域实例的要素、属性和相互之间的约束关系。测试结果显示,在积累一定样本数量的基础上,算法可以达到91%以上的模式匹配准确率,从而保证了Deep Web接口页面正确的自动查询。   4.提出了一种针对目录式页面的主题爬行策略。不同于一般主题爬行算法对于页面内容或链接的分析,本算法从页面结构特征出发,归纳一系列先验性规则指导中心链接和翻页信息的提取算法。实验显示:本算法有效链接提取的F1指标能够达到85.6%,相比具有代表性的Fish-Search算法提高60%以上。   5.提出两种对“正文式”数据密集型页面的知识发现算法。1)综合统计学和信号处理的理论,实现了提取“正文式”网页正文文本的算法,首次把FFT应用到信息提取领域,并取得了91.9%的提取准确度;2)基于元搜索技术,结合一定DOM结构的先验知识,实现了从新闻页面自动提取结构化信息的算法。无人工干预情况下Precision指标达到很优异的88.2%。
其他文献
在阵列信号处理中,大多数波达方向(Direction of Arrival,简写为DOA)估计算法在阵列流型精确已知的前提下具有很高的分辨性能。但是在实际的工程应用中,由于阵列误差的存在,会使
学位
在波分复用(Wavelength Division Multiplexing, WDM)光网络中,每个波长上传输的速率非常高。而在实际中,每个业务连接请求的速率远低于一个波长的传输速率。如果为每个低速
更高的传输速率和更可靠的传输方式是未来无线通信系统的基本特征。MIMO)技术可明显提高系统容量、改善通信质量以满足高速无线业务需求。预编码本质是一种信号预处理技术,在
本文通过对荣华二采区10
期刊
近年来,伴随数据业务的需求膨胀,现有网络已越来越不适应业务的要求,为此提出了下一代网络NGN(Next Generation Network)的概念。下一代网络是集话音、数据、传真和视频业务于一
摘要:鉴于当前初中道德与法治生活化教学存在误区,导致该项教学效果不佳,不利于学生道德与法治素养初步形成,本文将着重分析初中道德与法治生活化教学的误区,进而探究如何规避误区,并提出可行的意见,希望对于提高初中道德与法治生活化教学水平能够起到抛砖引玉的作用。  关键词:道德与法治教学;生活化;有效措施  初中时期正是学生道德与法治素养初步形成的关键时期,良好的开道德与法治生活化教学是非常重要的,不仅能
荷电粒子加速器技术的不断发展,使得逐束团电荷量测量、非截断束团截面测量技术被提上日程,对束测系统的设计提出了新挑战,基于以上原因,本论文提了出利用BPM探头信号设计算法求
时反方法在最近几十年内已经得到了迅速发展,并且被广泛应用于医学上的超声成像和治疗、水下声学、非破坏性检测、房间声学、无线电通信等领域中。由于有限的阵列孔径,常规时反
学位
胰蛋白酶是一种动物来源的蛋白水解酶,具有高度的专一性,只水解L-型精氨酸和L-型赖氨酸的羧基组成的肽键。胰蛋白酶是所有胰脏蛋白酶原的共同激活剂(包括其自身的前体胰蛋白酶原)。作为一种重要的消化酶,胰蛋白酶在医药、食品、工业及有机合成中都有着广泛的应用,人们也对其进行了深入的研究。现在的热点主要集中于天然胰蛋白酶抑制剂。 生物碱是一类含氮杂环的碱性天然有机物,广泛存在于植物体内,大多数具有重要
以视频信息为主的多媒体技术是21世纪最具有时代特征和最富有活力的研究和应用领域之一。人们对获取视频图像信息的执着和对视频图像信息的需求是越来越强烈;同时,通信、计算机