论文部分内容阅读
随着互联网的高速发展,Web已经成为世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,对网页文本的特殊性考虑不足。另外,信息抽取也很少涉及语义的理解。针对这些问题,本文以当前招聘网站上海量的招聘信息为试验数据,来进行定题Web信息挖掘和信息抽取的研究。
本文围绕Web对象抽取中的关键技术展开研究。通过对Web页面特点的分析,实现Web页面的自动分割,从而获得主题文本。将主题信息抽象成Web对象,从而根据Web对象的特征来进行Web对象的命名实体以及实体关系的识别,并且通过实验说明改进的模型对于信息抽取有很好的效果,最后提出了系统的不足和未来的研究方向。具体的研究内容包括:
首先,针对网页是二维的特点,根据网页的结构和文本内容特征,提出了基于网页的多重特征表示方法,实现了对于网页语义层面的特征表示。为了体现网页各个区域差异,采用二维模型对其建模,将传统的HMM推广到伪二维隐马尔可夫模型,由此本文提出了基于伪二维隐马尔可夫模型的网页自动分割技术。
其次,根据Web抽取信息的特点,引入Web对象的概念。将结构特点和文本特点这两种一维特征相结合,并且进一步将这种一维特征抽象为语义纹理的二维特征,从而实现了从对象本身进行抽取方法的改进,并为后文利用一维特征对Web对象实体的识别,以及二维特征对Web对象实体和属性关系的识别做准备。
再次,针对Web对象的一维特征,从Web文本的结构特点和内容特点进行了分析,采用统计模型和实体特征相结合的方法,提出了一种DSTCRFs模型,利用该模型不同的层次来进行Web对象的实体以及属性的识别,尤其是针对一些复杂的嵌套实体的识别,从而将职位名、机构名、地名、时间等命名实体的识别放在统一的框架下完成。
最后,传统模型多利用Web文本的结构和内容特点进行实体的特征描述,并且需要依赖于VIPS树进行建模。本文在传统模型的基础上,将结构和内容特征抽象为语义纹理,用二维特征来进行对象实体及其属性的特征描述,提出一种针对Web对象的HT-CRFs信息抽取模型。该模型采用一种逆向过程,通过语义来发现结构,而不像传统方法是通过结构来发现语义,解决模型对网页结构过度依赖的问题,使得模型对Web对象识别的准确性更高。