基于Web的实体信息搜索与挖掘研究

来源 :上海交通大学 | 被引量 : 16次 | 上传用户：jinher123

【摘要】

：

随着网络技术的迅猛发展,当今的万维网出现了多代共存、共同发展的新局面。传统万维网(Web 1.0)构成了当今万维网的主体。社会化万维网(Web 2.0)近年来飞速发展,成为了当今万

【作者】

：

包胜华

【出处】

：

上海交通大学

【发表日期】

：

2008年01期

【关键词】

：

传统万维网社会化万维网语义万维网实体信息挖掘专家搜索竞争者搜索时间关联事件搜索社会化搜索社会化语言模型社会化浏览语义浮出语义Web服务组合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的迅猛发展,当今的万维网出现了多代共存、共同发展的新局面。传统万维网(Web 1.0)构成了当今万维网的主体。社会化万维网(Web 2.0)近年来飞速发展,成为了当今万维网的新兴力量。同时,为了能够让机器和人一样地理解并处理各种网络数据,人们正积极推进语义万维网技术的发展,并预期其将成为下一代网络的主流载体(Web 3.0)。所有这些网络的应用均层出不穷,各类实体描述信息散布其间。这给用户带来便利的同时也带来了一个关键的问题,即信息过载。如何从这一巨大而复杂的信息空间中,有效地找到用户所需要的各类实体信息也成为近年来的一个研究热点。根据这一需求,本文分析了各代网络的特点,提出了在Web 1.0、2.0和3.0中进行实体信息检索与挖掘的概念,针对每代网络进行了体系化的理论研究工作,并提出了一系列的挖掘算法。在传统网络(Web 1.0)中,大部分研究工作都以提供用户最为相关的网页为目标,而现实中,越来越多的用户开始关心网页内部所蕴含的信息,而非网页本身。针对这一需求,本文第一部分提出了以下算法对网页中的实体信息进行挖掘:1)专家搜索:本文提出了基于概率的细粒度专家搜索模型。2)专家-技术隐式关联挖掘:本文提出了多类型的可分混合模型用于高效地挖掘专家和技术之间的隐式关联。3)竞争者挖掘:本文提出了一个创新的算法(CoMiner)用于从网上自动地挖掘领域无关的竞争对手信息。4)时间关联的事件挖掘:本文提出了一个新的算法(TESer)用于挖掘网络中的事件信息并按照时间进行整合。Web2.0的快速发展带来了大量对网页、图片、论文、专家等实体进行的大众标注,比如Del.icio.us书签网、Flickr图片共享网等。本文第二部分分析Web 2.0的特性,挖掘其中的各种实体关系,并用挖掘到的信息改善各种现有的应用:1)社会化搜索:本文提出了两个新算法分别用于改进网页搜索的动态排序和静态排序。2)社会化语言模型:本文提出了一个语言标注模型用来进一步改进语言模型的检索效果。3)社会化浏览:本文提出了一个改进的网页浏览算法,该算法能够充分地利用网页标注之间的语义关联和隐含的层次信息。为了让机器也能理解网络信息,人们提出了语义万维网。目前语义万维网正处于早期发展阶段。作为现有万维网的下一个自然扩展,本文将其称为Web 3.0。本文第三部分对Web 3.0的构建及其应用进行了探讨性的研究:1)语义浮出:通常语义万维网通过专家定义本体信息来构建,本文提出了基于社会化标注自动浮出层次化语义的算法。2)语义应用:本文进一步将语义信息应用到Web服务组合中,并提出了一个新的语义服务的查找与组合算法。研究结果表明,通过对Web 1.0、2.0和3.0环境下的实体挖掘研究,能够极大地减少用户获取目标信息所需的时间,并能更好地帮助用户理解搜索目标。

其他文献

与中国同行

1978年，贝聿铭先生受邀回中国，在北京设计香山饭店，如同当时中国人千篇一律的灰，蓝，绿着装，他回忆到：当时的中国建筑都是借鉴前苏联的模式，诸如北京的人民大会堂。香山饭店实践如同在

期刊

香山饭店

关系重构与技巧训练——人际认知问题解决视野下的心理治疗

人际认知问题解决是基于认知—行为心理治疗体系的一个重要范式,它建立在"人们所面临的问题都是人际关系问题"这一认识基础之上,因此它重视人际问题产生的关系因素,强调问题

期刊

人际认知问题解决人际关系问题解决技巧可选择性思维方式

基于带势概率假设密度粒子滤波的MIMO雷达检测前跟踪算法

带势概率假设密度是解决多目标跟踪的有效方法,只在线性高斯环境下有闭式解。提出基于带势概率假设密度粒子滤波的MIMO雷达检测前跟踪算法,该算法利用粒子和权值代替目标状态

期刊

MIMO雷达带势概率假设密度检测前跟踪先验克拉美罗界

中国茎线虫属(Ditylenchus)线虫种类的鉴定

于1995～1998年作者对来自中国10省区826份线虫标样进行了分离和鉴定，在其中115份采自24科62种植物的标样中鉴定出茎线虫属线虫17个种，其中中国新记录种14个：阿达士茎线虫（Dtylensh

期刊

茎线虫属分类学新记录种表式检索表

模糊形态学技术及其在图像处理中的应用

在进行图像处理时，图像的结构特征非常明显，如果抓住了这一特征，那么在进行图像处理时将会减少大量的处理时间。由于形态学技术在进行图像处理时，充分考虑到了图像的结构特征，因此

学位

模式识别特征抽取神经网络函数逼近模糊形态学

基于核的非线性特征抽取与图象识别研究

特征抽取是模式识别研究的最基本问题之一。对于图象识别而言，抽取有效的图象特征是完成图象识别的首要任务。基于核的特征抽取方法是最近刚刚提出的一种非常有效的非线性特征

学位

模式识别特征抽取核方法核主分量分析核Fisher鉴别分析K-均值聚类小波变换特征抽取模型特征空间人脸识别手写体字符识别

“互联网+”背景下民俗博物院深度发展分析——以陕西省关中民俗博物院为例

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

“互联网+”民俗博物院旅游资源

元代建宁北苑喊山造茶诗赏析

期刊

喊山北苑御茶元代

GLP-1受体激动剂利拉鲁肽对糖皮质激素性骨质疏松大鼠的疗效和作用机制研究

目的讨论GLP-1受体激动剂利拉鲁肽对糖皮质激素性骨质疏松(GIOP)大鼠模型骨代谢指标的影响,包括对骨量、骨组织微结构、骨生物力学、骨转换标志物的作用。方法选取30只8周龄

期刊

利拉鲁肽糖皮质激素性骨质疏松微计算机断层扫描技术骨生物力学

情境教学法在中学语文教学中的应用

一、情境教学法的定义情境教学法以教育学和心理学为理论基础,结合学生的认知能力和认知特点,通过创设特定的背景环境,使学生融入环境中,带着饱满的情感投入学习的过程。情境

期刊

情境教学法情境设置教学中的应用

基于Web的实体信息搜索与挖掘研究

其他学术论文