基于频繁模式和语义处理的Deep Web数据源分类研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ylwang8866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络规模的日益扩大,网络已经成为巨大的信息资源库。其中很大部分信息被“深藏”于各类在线数据库中,用户只能通过查询接口提交查询来获取里面的信息,这类网络信息被称为Deep Web。由于Deep Web资源的异构性、大规模性和动态性使得寻找合适的数据源成为巨大的挑战。亟需一种Deep Web信息集成系统,Deep Web数据源分类是集成系统中的关键步骤。本文主要研究的是Deep Web数据源分类,主要工作包括:(1)对Deep Web相关背景和国内外研究现状进行了介绍,并提出了本文的框架、重点研究内容以及研究意义。(2)分析了基于可视化的查询接口特征信息提取技术,在此基础上提出查询接口的表单内容特征和文本内容特征提取方法。(3)对于查询接口资源丰富情况下的Deep Web数据源分类,本文引入数据挖掘的思想。利用Apriori算法,挖掘出接口特征资源中的频繁模式。利用频繁模式更好的领域信息贡献能力,改进了朴素贝叶斯分类模型中的独立特征,发挥特征之间的联系,放松条件独立性限制,更好的实现了Deep Web数据源分类。(4)对于查询接口资源稀疏情况下的Deep Web数据源分类,本文对特征进行语义扩展。通过外部知识库WordNet,建立包含同义词集的特征向量,有效的增加了查询接口特征的领域划分性。利用改进的KNN分类算法,建立数据源分类模型。本文选取了UIUC Web数据集中六类领域的Deep Web数据源查询接口集合作为实验数据,然后利用10折交叉验证法分别对本文提出的两个分类模型进行了验证,证明本文所提出的两个分类模型具有较好的分类精度和应用价值。
其他文献
目前,对P2P流媒体直播系统的研究已趋于成熟,但点播系统研究中还有不少关键问题尚待解决。本文对几种典型P2P流媒体模型进行详细分析,针对其不足,结合网状结构系统的协议简单
伴随着绘画教育软件的普及,对用户作品进行智能评价,有助于引导和督促用户自我学习,增强产品的用户黏性。对手绘图像作品进行质量评价的关键问题是特征的抽取和评分模型的构
蓬勃发展的位置服务业务已成为电信运营商的一个新的业务增长点,在电信领域具有巨大的发展空间。位置服务业务可以分别对个人用户及行业用户提供位置信息服务,如:我的位置、兴趣
移动代理是一种可以在网络中进行自主异步传输的程序,具有良好的应用前景。然而,由于网络的开放性和不确定性以及移动代理的移动特性,使得移动代理面临严峻的安全威胁,这也阻
目前被设计出来的增值业务其复杂性都超过短信,而且其制作和营销成本也远远高于短信。虽然用户对很多业务感兴趣,但业务实际推向市场时却受到冷遇。很多业务宣传成本很高,用
近年来,流媒体系统受到越来越多的关注,成为计算机网络研究的热点课题。目前,对P2P流媒体直播系统的研究已趋于成熟,而对于点播系统的研究尚处于起步阶段。对现有的P2P流媒体
随着网络的迅速发展,类似网络流媒体的应用日益成为网络上流行的应用,越来越多的这种应用对组播通信提出了需求。如何在网络上提供高效媒体信息成为研究的热点。IP组播由于存在
MANEMO是将MANET与NEMO相结合的一种技术,是嵌套NEMO中路由优化问题的一种有效解决方法,正受到越来越多的关注,特别在车辆间的通信中得到广泛应用。然而,随着无线接入和宽带
P2P应用带来了大量冗余信息、安全性问题、合法性问题、以及严重占用带宽问题,由此对P2P流量进行识别控制显得尤为重要。针对目前P2P流量识别问题,在研究了已有的识别技术的基
跨文档指代消解是自然语言处理的重点和难点之一,是信息检索,信息抽取,多文档摘要等应用系统的重要组成部分。在数十年中,指代消解的研究只是局限于单篇文档内的研究。随着研