形式概念分析和本体在文本挖掘中的应用

来源 :兰州理工大学 | 被引量 : 11次 | 上传用户:caizilovenvfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识,目前已成为信息技术领域研究的热点问题之一。数据挖掘就是为解决这一问题而产生的研究领域。由于现实生活中绝大部分信息资源是以非结构数据的形式存在,而数据挖掘则普遍以结构化数据为对象,因此对非结构化信息进行挖掘成为数据挖掘之后出现的又一重要课题。在常见的非结构化数据中,文本数据是应用最为广泛的一种形式。常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因此具有更高的商业价值。形式概念分析是德国学者Wille于1982年首先提出的一种数学理论,概念格结构模型是它的核心数据结构。概念格本质上描述了对象和属性之间的联系,表明了概念之间的泛化和例化关系。目前形式概念分析已被广泛地研究,并应用于机器学习、信息检索和软件工程等领域。本体是共享概念模型的形式化规范说明。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。本文以文本数据为研究对象,以形式概念分析和本体为工具,研究了文本挖掘中的文本特征提取、文本聚类、文本分类等问题。本文的研究工作和创新包括以下两个方面:(1)文本聚类是文本挖掘中的一种重要方法。基于形式概念分析和概念相似度,给出了一种新的多背景文本模糊聚类方法和模型。该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求得到相应的聚类结果,具有较好的灵活性。最后通过示例说明了所给算法的可行性。(2)文本分类在文本挖掘和文本管理中扮演着重要角色,在文本预处理阶段引入核本体Wordnet丰富文本的表示形式,提高了文本表示的泛化能力。然后采用KNN算法对文本进行分类。最后在标准文集Reuters-21578上的实验表明,在文本分类中与没有使用本体相比,使用本体的某些策略能取得更好的效果。
其他文献
随着信息化的发展,社会网络在人们的日常生活中扮演着越来越重要的角色,社会网络分析不仅仅受到了社会学家的重视,也受到了其他领域学者们的热捧。社会网络由参与者以及参与
RFID技术是新型无线感知技术,其利用无线电波对目标进行自动识别,具有识别速度快、环境适应性好、可复用等优点,主要应用在识别和认证领域,如智慧交通、身份识别、物流管理等
随着无线网络技术的普及和多媒体技术的快速发展,基于位置的服务逐渐走进大众的视线,成为当下研究的热点。基于位置的服务发展模式是多元化的,逐渐丰富了人们的数字生活。例
随着虚拟现实技术应用的深入,人们对虚拟场景的复杂度和真实感要求越来越高,远远超过了计算机图形硬件实时处理能力。因此如何在PC机上进行三维地形场景的真实感绘制是一个挑
随着互联网和电子商务的发展,电子商务推荐系统逐渐成为一个重要研究内容,得到了研究者越来越多的关注。其中,协同过滤推荐技术是目前推荐系统中应用最早和最为成功的技术之一,是
点对点(Peer to Peer,P2P)网络具有自组织、非集中和节点交互直接等特点,是计算机网络技术研究领域的一个热点。P2P网络通信算法研究则是影响P2P网络发展的一个重要方面。一般
学位
随着信息技术的发展,数据库技术得到了广泛的应用,促使业界人士对该项技术进行更为深入的研究。在数据库技术中有很多研究领域,数据库加密就是其中一个重要的研究方向,对它进行深
随着互联网技术、多媒体技术等信息技术的飞速发展,人类信息资源实现了高度共享,为高校信息化建设提供了机遇和条件,各高校正步入数字校园全面建设阶段。近年来Web服务技术在
随着计算机技术和网络通信技术的飞速发展,基于Internet的各种信息化平台在社会的各个领域都得到了越来越广泛的应用。特别是近年来,基于B/S模式的自测系统已经成为教育领域