数据空间内基于内容的文本文件管理策略研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:haha123456hehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展和计算机不断普及,个人数据信息急剧膨胀,Web也日益成为一个巨大的信息共享平台,各种数据随之呈现出一些新的特性:一是增长的快速性;二是数据共享性;三是数据结构多样性;四是数据分布的异构性。在这样的背景下,数据空间作为一种新的信息管理技术被提出以适应异构复杂数据的管理需求。作为最常使用的信息存储工具之一,文本内部包含了大量半结构或者无结构的信息。如果在数据空间中,将文本内部的信息作为一项数据源,利用文本内容之间存在的各种关联为用户的查询和浏览提供导航,那么将使数据空间管理系统的功能得到很大的完善。然而,当前的数据空间系统大多忽略了文本丰富的内部信息。本文主要针对数据空间系统在文本内容处理方面存在的不足,提出了两种基于文本内容的聚类方式,从而有效组织和管理文本。本文以数据空间中的文本作为数据源,首先从文本中抽取出大量内容信息,然后将内容信息划分成模式信息和特征信息。利用这些内容信息对文本实现两种方式的聚类:基于文本模式信息和特征信息的聚类。在基于模式信息的文本聚类中,提出了一种词频矩阵的模式词选择算法。该算法采用文档频次的思想选择文本集中的模式词,并用这些模式词构建向量空间表示文本,然后使用SOM聚类算法对文本进行聚类。聚类过程中对SOM进行了优化,减少了训练次数,提高了聚类效率和准确度。在基于特征信息的文本聚类中提出了一种基于频繁词的树聚类算法FTTC。基于FP-growth算法的思想,按照文本中频繁词的重要度构建一棵聚类树,然后根据树中节点包含的文本数量是否满足最小支持度来对节点进行合并和上移操作。通过合并和上移使得所有满足最小支持度的节点为一个聚类簇,使用从根节点到该节点的频繁词作为簇标引,并且每个文本被划归到唯一的簇中。在聚类的基础上,数据空间用户能够根据聚类簇内部文本之间的相似关系和文本聚类的层次结构方便地查询文本内容,快速地浏览文本信息。实验主要从算法的聚类结果的准确率和召回率、参数对聚类结果的影响以及算法效率等方面进行了验证。
其他文献
在信息化高速发展的时代,信息安全的重要性与日俱增,是世界各国都在面临的一项挑战。口令、IC卡等传统的安全认证方式已经无法满足人们的需求,应需而生的生物特征识别技术已
Web服务具有高度的互操作性、跨平台性和松耦合的特点,使得Web服务在互联网上得到广泛应用。然而用户对Web服务应用要求不断提高,单个Web服务已经不能满足用户的需要。随着Web
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁。在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广
H.264/AVC是当前最新的视频编码标准,由ITU-T视频编码专家组和ISO/IEC运动图像专家组共同制定。该标准因具有很高的压缩性能和网络亲和性而得到广泛应用,然而这些优点都是以
随着网络的飞速发展和人们需求的快速增长,许多网络商店如卓越、当当网等应运而生。网上购物不但提供了各种各样便宜的商品,并且没有营业时间和空间的限制。用户可以购买任何
随着计算机和互联网等新兴媒体的迅猛发展,如何从海量的网页文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,传统搜索引擎在性能和用户体验上受到了较大的挑战,
随着互联网技术的发展,博客作为Web2.0的典型代表,已经成为传递资讯、表达意见,将个人空间和社会空间良好结合在一起的传播平台,在人们的政治、经济、文化生活中,扮演着重要
无线传感器网络一般具有大规模、自组织、随机部署、环境复杂、传感器节点资源有限、网络拓扑经常发生变化的特点。这些特点使拓扑分割成为挑战性研究课题。本文从网络拓扑分
互联网的飞速发展改变着人们的生活和工作方式,随之而来的是层出不穷各种各样的新的需求。为了应对这种变化并解决IP地址资源匮乏的问题,下一代互联网(Next Generation Inter
随着Web技术及其应用的快速发展,XML作为Web上信息表示和数据交换的一种数据格式,在电子数据交换、科学数据表示、电子商务和搜索引擎等许多重要领域得到广泛的应用,Web上已经积