Web信息智能获取若干关键问题研究

被引量 : 28次 | 上传用户：c1s2d3n456

【摘要】

：

因特网(Internet)为人们开辟了一个共同的、全新的天地。人们在这个虚拟的世界里，以一种全新的方式进行交流。任何人在任何时间、任何地点都可以通过网络发布任何信息，这使得网

【作者】

：

贾自艳

【发表日期】

：

2004年01期

【关键词】

：

信息获取信息抽取知识发现数据挖掘文本挖掘 Web挖掘信息采集主题采集噪音去除信息检索文本分类聚类自动摘要多篇摘要事件探测事件追踪事

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网(Internet)为人们开辟了一个共同的、全新的天地。人们在这个虚拟的世界里，以一种全新的方式进行交流。任何人在任何时间、任何地点都可以通过网络发布任何信息，这使得网络成为最重要的信息来源。但是面对潮水般涌来的电子文献，人们变得无所适从。所以研究Web信息智能获取技术以帮助用户快速、准确地定位到自己需要的信息，具有广泛的应用背景和实用价值，已经成为近年来的研究热点。基于这样一个前提，本文对Web信息获取若干关键问题，包括信息采集、信息抽取、事件探测和追踪、以及事件来龙去脉等方面，从模型、算法和应用三个层次上进行了深入细致的研究，主要贡献和创新点包括如下几个方面： (1)通过对Web信息采集过程及其实例系统分析，基于主体的基本理论与技术，提出了一种网络信息采集的多主体模型，并在实验室研制的多主体环境MAGE下完成了建模和实现。同时针对用户的个性化信息需求，通过分析研究Web主题页面的特点，提出三种主题相关性计算模型：基于链接关系的URL主题相关性计算模型、基于URL描述信息的主题相关性计算模型、基于网页内容语义的相关性计算模型，并且基于三种主题相关性计算模型实现了专题跟踪采集模式。实验结果验证了基于多主体的信息采集模型的灵活性、开放性、高效性、易于实现性以及三种主题相关性计算模型的有效性。 (2)通过分析Web噪音数据存在的特点，提出了三种噪音数据判别模型：基于URL标记信息的噪音判别模型、基于噪音数据冗余特点的判别模型、基于URL标记文本信息熵的噪音数据判别模型，并且基于这三种判别模型实现了Web噪音数据去除算法。实验结果验证了三种噪音去除模型的可行性和有效性。Web噪音去除算法可以有效解决数据质量问题，从而可以提高后续文本分类、聚类、事件探测和追踪、事件来龙去脉的生成等文本挖掘算法的性能。 (3)提出了一种基于概率统计和规则相结合的新词／短语发现算法。该算法首先对语料库进行分词和词性标注，然后基于“二元语法”统计模型对分词和标注后的语料库进行共现分析得到原始的二元统计结果，并且基于统计公式进行选词，但是结果不是很理想。为此，通过大量分析汉语组词规律，提出了多种选词规则：词性、词长、禁用词等规则，然后利用这些规则对统计选词后的结果进行层层过滤，最后只需很少的人工干预就可得到质量很高的新词／短语。实验结果验证了基于概率统计和规则方法相结合的新词发现算法的有效性，它有效地结合了统计方法速度快和规则方法质量高的特点。 (4)通过分析网络新闻的特点，借鉴Single-Pass聚类思想提出了一种基于动态模型的新闻事件探测和追踪算法。动态模型可有效地改善新闻事件探测和追踪算法的效率，它包括：基于时间距离的相似度计算模型、动态阈值设置和事件模板进化思想。为了提高算法执行的速度，我们还提出了“类间距离”的思想及其两种计算“类间距离”的方法。实验结果验证了基于时间距离的相似度计算模型的有效性以及引入“类间距离”后算法执行的高效性。 (5)提出了一种事件来龙去脉生成算法。该算法是基于时间要素和新颖性计算模型，将报导

其他文献

球罐结构应力与抗震分析研究

球罐与相同容积的其他储存容器相比,具有表面积小、重量轻等优点,已广泛应用于石油化工、城建交通、航天航空、船舶和核工业等领域。我国球罐的建造起步晚,虽然发展很快,但目

学位

球罐应力分析有限元网格抗震ANSYS二次开发

科斯定理、合成谬误与囚犯难题

科斯的工作决不仅仅是对于社会成本问题的一个解答,更为重要的,是他为我们提供了一种透视经济现象的新方法、新视角。这集中地表现在两个方面:其一,用一般均衡的观点看世界;

期刊

科斯定理合成谬误囚犯难题

我国油气管道运输发展探析

管道运输是国际货物运输方式之一,是随着石油生产的发展而产生的一种特殊运输方式。具有运量大、不受气候和地面其他因素限制、以及成本低等优点。随着石油、天然气生产和消

期刊

管道运输发展现状发展趋势

指纹图像的二值化与细化研究

指纹识别是指通过计算机，利用人体固有的指纹生理特征来进行个人身份鉴别的技术。传统的高性能自动指纹识别系统一般是基于PC平台的，而目前得到广泛使用的指纹门禁系统则大多基

学位

指纹识别门禁系统预处理方向图二值化细化

浅析电子商业汇票的功能及改进建议

电子商业汇票开创了国内票据电子化进程,具有深远的发展意义。电子商业汇票系统以其具备出票、承兑、背书转让、提示付款、报价、票据融资交易等一体化功能的交易和托管平台,

期刊

电子商业汇票shibor票据法附息商业汇票电子货币

固体氧化物燃料电池阳极制备、优化和氢氧化动力学研究

掺杂的LaGaO3系列钙钛矿氧化物具有高的氧离子电导率与较好稳定性,是一种优异的潜在中温固体氧化物燃料电池(ITSOFC)电解质材料。由于以镓酸镧为电解质ITSOFC的研究时间较短,

学位

镍-镓酸镧阳极动力学氢氧化

薪点制在企业薪酬设计中的应用

本文在回顾与总结既往学者对薪点制相关研究的基础上，着重探讨了两种薪点制的比较以及理论上较为恰当的薪点制表示方法。经济学和管理学两个视角的分析，为薪点制的研究提供了理

学位

薪酬薪点制“土法”薪点制“洋法”薪点制

论构建社会和谐的家庭幸福观

在市场经济社会中,离异、单亲、空巢、留守家庭这些家庭问题已逐渐趋向于社会化,如何解决这些社会化的家庭问题,使人人都能享受到社会进步带来的幸福,这是构建和谐社会的一个

期刊

社会家庭和谐幸福

“借荆州”浅议

<正> 建安十三年(公元208年)十月,孙权与刘备联军大败曹军于赤壁,从此曹操放弃江陵,退守襄樊,占据荆州北部,孙权和刘备则占据了荆州中、南部地区。不久,孙权与刘备就因争夺荆

期刊

借荆州鲁肃传

试论流动人口犯罪

当前我国流动人口规模日益扩大,频率愈来愈快,范围愈来愈广。伴随着大规模的人口流动,流动人口犯罪频繁发生,严重危害着社会治安,使人民群众丧失安全感,从而成为社会普遍关注

学位

流动人口犯罪特征成因对策

Web信息智能获取若干关键问题研究

其他学术论文