论文部分内容阅读
因特网(Internet)为人们开辟了一个共同的、全新的天地。人们在这个虚拟的世界里,以一种全新的方式进行交流。任何人在任何时间、任何地点都可以通过网络发布任何信息,这使得网络成为最重要的信息来源。但是面对潮水般涌来的电子文献,人们变得无所适从。所以研究Web信息智能获取技术以帮助用户快速、准确地定位到自己需要的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。基于这样一个前提,本文对Web信息获取若干关键问题,包括信息采集、信息抽取、事件探测和追踪、以及事件来龙去脉等方面,从模型、算法和应用三个层次上进行了深入细致的研究,主要贡献和创新点包括如下几个方面: (1)通过对Web信息采集过程及其实例系统分析,基于主体的基本理论与技术,提出了一种网络信息采集的多主体模型,并在实验室研制的多主体环境MAGE下完成了建模和实现。同时针对用户的个性化信息需求,通过分析研究Web主题页面的特点,提出三种主题相关性计算模型:基于链接关系的URL主题相关性计算模型、基于URL描述信息的主题相关性计算模型、基于网页内容语义的相关性计算模型,并且基于三种主题相关性计算模型实现了专题跟踪采集模式。实验结果验证了基于多主体的信息采集模型的灵活性、开放性、高效性、易于实现性以及三种主题相关性计算模型的有效性。 (2)通过分析Web噪音数据存在的特点,提出了三种噪音数据判别模型:基于URL标记信息的噪音判别模型、基于噪音数据冗余特点的判别模型、基于URL标记文本信息熵的噪音数据判别模型,并且基于这三种判别模型实现了Web噪音数据去除算法。实验结果验证了三种噪音去除模型的可行性和有效性。Web噪音去除算法可以有效解决数据质量问题,从而可以提高后续文本分类、聚类、事件探测和追踪、事件来龙去脉的生成等文本挖掘算法的性能。 (3)提出了一种基于概率统计和规则相结合的新词/短语发现算法。该算法首先对语料库进行分词和词性标注,然后基于“二元语法”统计模型对分词和标注后的语料库进行共现分析得到原始的二元统计结果,并且基于统计公式进行选词,但是结果不是很理想。为此,通过大量分析汉语组词规律,提出了多种选词规则:词性、词长、禁用词等规则,然后利用这些规则对统计选词后的结果进行层层过滤,最后只需很少的人工干预就可得到质量很高的新词/短语。实验结果验证了基于概率统计和规则方法相结合的新词发现算法的有效性,它有效地结合了统计方法速度快和规则方法质量高的特点。 (4)通过分析网络新闻的特点,借鉴Single-Pass聚类思想提出了一种基于动态模型的新闻事件探测和追踪算法。动态模型可有效地改善新闻事件探测和追踪算法的效率,它包括:基于时间距离的相似度计算模型、动态阈值设置和事件模板进化思想。为了提高算法执行的速度,我们还提出了“类间距离”的思想及其两种计算“类间距离”的方法。实验结果验证了基于时间距离的相似度计算模型的有效性以及引入“类间距离”后算法执行的高效性。 (5)提出了一种事件来龙去脉生成算法。该算法是基于时间要素和新颖性计算模型,将报导