文本OLAP维度获取与度量计算技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:punk123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息数据在现代生产和生活中越来越重要。数据仓库被大型企业及政府广泛用于存储和处理大规模数据。OLAP联机分析处理成为数据仓库处理数据的一种有力工具。OLAP技术能够对数据在不同维度上进行观察分析,为企业及政府等提供分析历史数据和预测未来趋势的功能。信息数据可大体分为结构化数据和非结构化数据。对于结构化数据,传统的数据处理方法比如关系型数据库已能够相当有效地分析处理。非结构化文本数据爆炸性地增长,常见的来源于Web页面,企业和政府业务积累的客户反馈等,其潜在的信息价值不亚于结构化数据,却没有相应有效的分析处理方法。如果能够将OLAP技术应用于分析非结构化文本数据,那么这种文本OLAP对非结构化文本数据的处理将变得直观有效。当前一些研究成果比如TextCube、Topic Cube等已在这个方向上做出贡献。它们也具有不同的原理和特性,有的归类为信息检索,有的是文本挖掘,有的是信息抽取。本文在研究现有文本OLAP成果基础上,在维度获取和度量计算两方面对文本OLAP进行了改进。本文利用工具将文本转换为语义网络这种中间形式,提出了用语义网络表示的语义维,用带权值语义网络表示的度量,以及语义维度成员搜集和维度树建立的辅助方法。本文还提出了一种语义网络相似度计算方法,以及使用带权值语义网络计算度量的方法。前者用来将原始文本映射到语义维成员,并为度量的典型应用提供支持;后者用来解决基础单元格度量生成及单元格度量合并的计算问题。本文提高了文本OLAP分析文本的准确度,减少了人工搜集文本维度值和建立维度树的工作量,使度量的表示及应用更加准确高效。
其他文献
数据压缩的研究一直是科学技术中的热点,其在数据存储和传输方面有着广泛的应用。虽然随着现代科学技术的突飞猛进,网络传输速率不断地提高和数据存储设备的容量呈指数级增长,但
P2P网络即为对等网络,是近年来日益流行的一种网络结构。随着P2P技术的飞速发展,它在给我们带来巨大机遇的同时也带来不少的挑战。P2P网络中各个节点的地位平等,没有服务提供
无线传感网络是由大量集成有传感器,数据处理单元,通信单元的微型传感器节点构成,这些节点通常造价低,计算能力和存储能力有限,能量有限。用于物理环境中进行事件检测是传感器网络
随着经济的快速发展,我国汽车数量急剧上升,给城市道路交通管理带来了巨大的压力,而传统的人工管理方式费时费力效率较低而且出现误判的概率较大,使得智能交通(ITS)得到迅速发展
Mashup服务是一种崭新的Web应用,以其易于开发、易于组合、高质量、个性化等优点成为了服务组合的发展方向,是实现SOA(Service-Oriented Architecture)和SOC(Service-Oriente
蛋白质交互(Protein-Protein Interaction,PPI)网络是生物体内蛋白质之间相互作用形成的网络,在拓扑结构上呈现小世界特性和无尺度特性,属于复杂网络的一种。近年来,随着高通
在进行动态物体融合时常常面临跟踪问题,传统增强现实中的摄像机定标、三维重建等技术在解决这一问题时往往计算成本过高,且计算所需的真世界信息也很难满足。视觉领域的目标
大家的学习和工作因为互联网的飞快发展给带来了极大的方便,同时也带来诸如盗版、信息篡改等一系列潜在的信息安全问题。为了解决该问题,传统的方法采用加密和数字签名等技术
移动健康监测作为新生事物,能够在医疗资源相对有限的社会环境里及时而有效地向用户提供价格低廉的医疗保健服务。生命信息处理已经成为一个崭新的尖端综合性研究领域。开发和
随着3G时代的到来,3G无线通信网络及相关技术的日臻成熟,一方面各类面向富客户端的应用异军突起,炫酷新颖的移动增值服务不断推出,极大提升了用户的体验。另一方面,这些应用服务对