【摘 要】
:
随着计算机的普及和互联网的飞速发展,互联网上的信息资源数量正呈爆炸性的增长,用户从互联网上获取信息资源也日渐成为主要的信息交流渠道。但互联网上的信息资源良莠不齐,
论文部分内容阅读
随着计算机的普及和互联网的飞速发展,互联网上的信息资源数量正呈爆炸性的增长,用户从互联网上获取信息资源也日渐成为主要的信息交流渠道。但互联网上的信息资源良莠不齐,且只定位资源的地址不定位资源的内容,用户通过搜索引擎获得的通常是大量的、无序的、无关的信息。为了提高信息资源查询的效率,对信息资源内容进行多维度标引,实现统一内容定位的需求越来越强烈。本文的研究工作就是围绕信息资源的多维度标引方法而展开的,从最简单的文本入手研究自动标引的方法,主要研究以下三个问题:一是研究具有较高效率的自动分词方法;二是研究较准确权重加权统计分词方法:三是研究提高潜在语义标引模型检索效果的改进方法。针对第一个问题,本文对现有的基于机械匹配分词的经典算法进行分析,结合中的最大正向匹配法、逐字遍历法和首字索引法,定义了逐字逐词遍历分词方法,并通过实验验证逐字逐词遍历分法在词的切分速度较优。针对第二个问题,本文将词频与词所在的位置作为加权因素,定义了词频词位非线性统计加权方法,通过该方法赋予词在文本中相应的权重值,并通过实验验证词频词位非线性统计方法能够取得较好的标引结果准确率。针对第三个问题,本文对潜在语义标引模型的建立进行研究后,在加权处理过程中采用词频词位非线性加权函数作为局部加权函数,并通过实验证实改进后的潜在语义标引模型能够得到更准确的检索结果。
其他文献
近些年,移动云计算变得越来越流行。移动云平台作为移动云计算中的核心角色,也正扮演着越来越重要的作用。当构建一个可行的移动云平台时,一件重要的事情是为移动应用程序提供一
无线传感器网络集传感、数据处理和无线通信于一身,通常被部署在各种恶劣环境中进行信息获取和收集任务,具有十分广阔的应用前景。在监控诸如士兵、珍稀资源和野生动物等敏感
近些年,我国在工业化、城镇化取得巨大进步的同时,工业文明和城市发展也对生态环境产生了巨大的影响。随着各个地区“雾霾”的频繁爆发,空气质量问题引起了人们的高度关注。以可吸入颗粒物、二氧化硫、氮氧化合物等为主要污染物的空气质量问题日趋严重,这些暴露在大气中的污染物在对公众健康产生影响的同时对我国经济的可持续发展也产生了制约。在此现状下,本文以北京区域内的空气质量为研究对象,通过对空气质量监测站点监测的
XML以其结构化、互操作性强、易于交换和可扩展性等特点在很多行业得到了广泛的应用。伴随XML的广泛应用,XML数据的安全性问题也日益变得重要,如XML数据的机密性、完整性、真
图像分割处于图像处理技术的基础环节,同时也是图像处理研究领域中最困难的研究项目之一。图像分割的质量决定了图像理解中的目标检测、特征提取和目标识别等的效果,这就意味着
Internet的迅速发展和广泛应用极大地改变了分布式系统规模,使得传统的点对点和同步通信已不能满足动态应用环境。发布/订阅反映了应用实体间异步、多对多通信、动态的本质,
计算机科学与技术发展到今日,出现了很多的优秀软件,在这些软件产品中积累着开发者的很多好的设计思想和经验,要了解和学习一个软件所包含的思想和原则,必须对软件的源程序进
为了更好地解决视频的网络传输问题,特别是对各种不同带宽的传输通道的适应性,视频编码技术发展出了可扩展编码,特别是精细粒度可扩展编码。但是,针对不同的视频应用需求和网络传
近年来Web服务技术得到快速发展和应用,越来越多的稳定易用的Web服务共享在网络上。随着功能相似Web服务数量的快速增长、服务组合技术的发展,具有相同或相近服务功能的服务
人脸表情模拟动画是计算机图形学中最富有挑战性的课题之一,可以广泛应用于计算机动画行业、游戏行业、远程会议、代理和化身等许多领域,是近几年来国际上的研究热点。本文在