基于隐含语义索引和粗糙集的文本检索

来源 :第六届中国Rough集与软计算学术研讨会(CRSSC2006) | 被引量 : 0次 | 上传用户:nini8919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对文本集的词-文档矩阵进行奇异值分解(SinguIar Value Decomposition,SVD),提取K-秩近似矩阵近似表征原词-文档矩阵,左右奇异向量分别为词向量和文档向量,在此基础上进行文本分类和其它各档处理,这就是隐含语义索引技术.本文对此问题进行了研究.该文利用查询向量和各文本向量之间的夹角余弦表示相似程度,寻找和用户查询最相似的文档集合,并按相似度的高低排列,将相似度大于用户预先设定的阈值的文档返回给用户。
其他文献
方程求解问题是一个古老而重要的问题,解决科学技术和工程实践中遇到的数学问题,常常需要先解决高次代数方程或方程组的求解问题,有时还需要解超越方程或方程组.长久以来,人们就已经找出了许多求解方程的方法,常用的方法有:简单迭代法、牛顿法、割线法、延拓法、搜索法、梯度法、共轭方向法、变尺度法等等.这些传统的方程求解方法一般对方程都有较强的限制要求(如连续、可导),而且算法的收敛性和最终结果与初值的选取有较
针对不同的目标及应用领域,数据挖掘有多种不同的称谓,如:知识发现、信息检索、智能数据处理等.数据挖掘的一般步骤包括:问题域的界定、数据汇总、预处理、执行特定的挖掘算法、结果展示与知识评估.其中核心的工作是挖掘算法的执行.本文强调的是数据的聚类分析,即:寻找相似的数据项并对其进行类别划分.业已证明,人工神经网络是进行数据挖掘的行之有效的工具之一,特别是与数据分类和聚类有关的问题.神经网络的本质是其内
设计是一个复杂的过程,不管是建筑设计还是工程设计,所涉及到的参数都很多.在这其中,最复杂的是人的因素.在确定任务之后,通过抽象化,拟定功能结构,寻求适当的作用原理及其组合等,确定出基本求解途径,得出求解方案,这一部分设计工作叫做概念设计.概念设计是设计过程中一个非常重要的阶段.不但产品的创新设计主要在概念设计阶段,而且根据有关的统计资料表明,产品工本费的70%是在产品设计阶段决定的.同时,一旦概念
计算决策表的属性约简是粗糙集理论的一个重要部分.在实际应用中,人们往往期望得到属性数最少的一个属性约简,即最小属性约简.Wong S.K.M及Ziarko.W已经证明了找出一个决策表的最小属性约简是NP-hard问题,因此,要设计出求最小属性约简的有效方法是比较困难的.目前提出的一些属性约简算法大都属于启发式的搜索算法,它们的优点是易于实现,且计算速度快,但求出的不一定是最小的属性约简.粒子群优化
自动调制识别是通信信号处理及相关领域中一个前沿专题,尤其在空中交通管制、电子对抗等方面得到广泛应用.数字通信的快速发展形成了多种通信体制并存的局面,而且这些通信体制的调制方式和接入技术各不相同,给多体制间的通信互联带来了很大的障碍.自动调制识别技术是构成基于软件无线电的通用接收机和智能调制解调器的重要技术基础,在多体制通信互联和软件无线电方面有着十分重要的应用.近年来,在模式识别、信号处理、时间序
在数据挖掘的研究中,预测模型的研究是一个很重要的问题.而分类是预测的手段之一,因此分类方法的研究又是至关重要的.目前,国内外常用的分类方法有统计方法、机器学习方法、粗糙集方法、神经网络方法和遗传算法等.然而,这些方法却存在许多不足之处.例如,用神经网络方法分类的可解释性差;统计方法需要大量的先验知识而且得出的不是规则形式,不易让用户理解;用遗传算法进行分类,运行花费的时间长.因此,人们希望分类器得
入侵检测是一种重要的网络安全技术.Denning在1987年提出了通用入侵检测模型,为入侵检测奠定了理论基础.随后发展出误用检测和异常检测两种检测技术.异常检测建立正常行为模型,以是否显著偏离正常模型为依据进行检测,能够发现未知攻击,是目前的研究热点.传统的检测系统采用有监督的学习算法,需要带标记或完全正常的数据来训练获得正常行为模型.若标记错误,算法将失效.况且,要为训练数据收集到完全正常的数据
本文给出了一种基于进化规划的K-均值聚类算法.从实验中我们可以看出,该算法与基于遗传算法的K-均值算法相比,在性能和效率上有很大改进.这种性能的提高主要得益于进化规划算法强大的全局寻优能力。
数据挖掘是数据库研究、开发和应用最活跃的分支之一.分类(Classification)是一类重要的数据挖掘问题,它是一个从现有的带有类别的数据集中寻找同一类别数据的共同特性,并以此将它们进行区分的过程,它可以用于提取描述重要数据类的模型和预测未来的数据趋势.分类的方法主要有决策树,神经网络,粗糙集,遗传算法,贝叶斯分类等.本文研究BBP模型和基于感知器的数据挖掘分类方法。
在大量的AI应用中,最常遇到的问题之一便是寻找从起点到目标点之间的最短路径.一般来说,路径的寻找是基于状态空间的,在AI中的最短路径的寻找中,常以启发式搜索算法为主.启发式搜索就是在状态空间中的搜索过程中,对每一个搜索位置进行评估,以便得到最好的位置,再从这个位置进行搜索直到目标.这样可以节省大量无谓的搜索路径,提高效率.在启发式搜索中,对位置的估价是十分重要的,采用不同的估价会产生不同的效果.