论文部分内容阅读
网络信息检索面临大量半结构化XML及非结构化自由文本的混合大数据,如何快速、准确、统一地处理这些数据是信息处理领域研究的热点。与普通文本文档相比,XML带有一定的结构和语义信息,因此基于XML的数据集成和深度利用比起普通文本具有描述精确、表现形式丰富等特点,但同时也使得传统的自然语言处理和数据挖掘等技术不能直接应用。本文工作围绕基于XML的文本结构抽取和聚类技术涉及到的一系列关键问题展开,主要包括以下内容:(1)给出了对自由文本进行层次结构抽取的统计模型。针对传统的信息抽取方法大多忽略文本内在语义以及标注结果单层、缺少语境等问题,分别从通用的基于隐马尔科夫模型和面向领域的基于条件随机场模型对自由文本的层次结构信息抽取进行了研究,通过对文本基于语义的结构抽取并借助XML的再现,使得数据具有丰富的表达形式和精确的语义描述。(2)提出了一种基于频率和路径的XML结构相似度计算方法。针对XML的结构特征以及传统相似度计算方法不能直接应用于XML文档的问题,在路径匹配上采用了一种最长公共子序列的匹配方法,提高了对路径节点语义和语境信息的捕获能力;在相似度计算中引入了频率和位置权重,改善了对语境识别的敏感度,从而提高了XML结构相似度计算的性能。(3)提出了一种基于张量的XML特征降维及综合相似度计算方法。由于XML内容和结构并非独立,内容影响结构,结构作用内容,给出了针对XML文档的张量表示并采用基于最大互信息的方法对其进行降维,从非线性的角度设计了一种将XML结构和内容相融合的综合相似度度量方法,确定了结构和内容的内在联系和共同作用的方式,提高了XML综合相似度计算的性能。(4)给出了一种简单快速的增量XML聚类算法。针对传统的增量聚类方法不能直接利用XML文档的特征以及存在的问题,从XML文档的构成作为出发点,给出了一种有效的邻域中心聚类的方法,直接使用XML文档的结构或综合相似度度量,其聚类结果具有对随机初始中心的选择不敏感、不规则聚簇形状以及过滤噪声等优点。本文工作内容适合于具有一定的半结构特征及内容特征的混合数据分析,尤其对于Web挖掘、社会网络分析、物联网挖掘等大数据领域有着良好的应用前景。