基于XML的文本结构信息抽取与聚类研究

被引量 : 7次 | 上传用户:try111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息检索面临大量半结构化XML及非结构化自由文本的混合大数据,如何快速、准确、统一地处理这些数据是信息处理领域研究的热点。与普通文本文档相比,XML带有一定的结构和语义信息,因此基于XML的数据集成和深度利用比起普通文本具有描述精确、表现形式丰富等特点,但同时也使得传统的自然语言处理和数据挖掘等技术不能直接应用。本文工作围绕基于XML的文本结构抽取和聚类技术涉及到的一系列关键问题展开,主要包括以下内容:(1)给出了对自由文本进行层次结构抽取的统计模型。针对传统的信息抽取方法大多忽略文本内在语义以及标注结果单层、缺少语境等问题,分别从通用的基于隐马尔科夫模型和面向领域的基于条件随机场模型对自由文本的层次结构信息抽取进行了研究,通过对文本基于语义的结构抽取并借助XML的再现,使得数据具有丰富的表达形式和精确的语义描述。(2)提出了一种基于频率和路径的XML结构相似度计算方法。针对XML的结构特征以及传统相似度计算方法不能直接应用于XML文档的问题,在路径匹配上采用了一种最长公共子序列的匹配方法,提高了对路径节点语义和语境信息的捕获能力;在相似度计算中引入了频率和位置权重,改善了对语境识别的敏感度,从而提高了XML结构相似度计算的性能。(3)提出了一种基于张量的XML特征降维及综合相似度计算方法。由于XML内容和结构并非独立,内容影响结构,结构作用内容,给出了针对XML文档的张量表示并采用基于最大互信息的方法对其进行降维,从非线性的角度设计了一种将XML结构和内容相融合的综合相似度度量方法,确定了结构和内容的内在联系和共同作用的方式,提高了XML综合相似度计算的性能。(4)给出了一种简单快速的增量XML聚类算法。针对传统的增量聚类方法不能直接利用XML文档的特征以及存在的问题,从XML文档的构成作为出发点,给出了一种有效的邻域中心聚类的方法,直接使用XML文档的结构或综合相似度度量,其聚类结果具有对随机初始中心的选择不敏感、不规则聚簇形状以及过滤噪声等优点。本文工作内容适合于具有一定的半结构特征及内容特征的混合数据分析,尤其对于Web挖掘、社会网络分析、物联网挖掘等大数据领域有着良好的应用前景。
其他文献
近年来在国际医药保健品终端市场,“回归自然”、“绿色”消费成为一种趋势,与此同时传统中医日益被世界各国广泛地接受,从传统中药及植物原料中提取活性成分,并开发的各种功
生物活性肽是对生物有机体的生命活动具有生理作用的肽类化合物,随着对肽的结构与功能研究的不断深入,科学家已经发现和分离出一百多种存在于人体的肽,更多的功能特性被人们所认
半导体材料光催化技术是通过光催化剂将太阳能用于污染物降解、CO2还原、太阳能电池、有机物合成等领域,被认为是解决当前所面临的能源危机和环境问题的理想途径。在众多半导体光催化剂材料中,二氧化钛(TiO2)因其稳定性好,催化活性较高、绿色无污染、制备简单且制备成本低等优点,被认为是最理想的光催化材料。然而,其宽的带隙、光响应范围窄、光量子效率低等缺点,限制了TiO2的实际应用。因此,对TiO2进行改性
<正>江苏省沭阳县汤涧镇双窑村紧靠新沂河,因河水清洁,河淌牧草丰富,村民历来有养鹅习惯,并积累了丰富的养鹅经验。2001年,汤涧镇党委政府将发展生态鹅产业作为发展汤涧新沂
《申报》作为中国近代上出版时间最长的中文商业报纸,《申报》在中国新闻史上占有重要地位。而且在新闻业务、报纸经营方面积累了宝贵的经验,许多方面开中国报业之先河。对中国
随着科学技术的飞速发展,变电站电气安装工程的施工办法以及科学技术也在日新月异的更新,电气安装行业也面临着一系列的挑战与困难.运用最合理的方法,以最先进的技术手段来进
在雕塑主题公园中,雕塑与景观环境是以一种互动的和谐关系存在的。雕塑与环境在雕塑公园中可以互为主客体。雕塑家在设计一款雕塑的时候,是从整体的环境入手来考虑的,而设计
纤维素是地球上最为丰富的天然高分子资源,是可再生的有机资源,它具有独特的反应活性和分子特性,如生物可降解性、无毒无害、安全、生物相容性、亲水性。纤维素接枝改性的研
社会保障作为一项维护国家稳定、保障人民生活的基本制度安排,人民的需求是社会保障制度建设的原动力。作为一项综合性的公共服务,社会保障直接面向大众,又与人民的切身利益
吉林省中小企业对经济发展的作用日益凸显,但是其自身发展却面临着严重的融资困境。金融政策支持不足、融资渠道不畅、信息不对称、贷款审批手续繁琐等是造成吉林省中小企业