向量空间模型相关论文
在软件开发过程中,用户或测试人员在发现被测软件异常情况后,会提交描述相关问题的缺陷报告,开发人员需要仔细分析缺陷报告并查看......
文章从问题意识视角出发,以石油术语为基础,引入词向量空间模型的方法展开三个相关实验对机器译文和人工译文进行对比研究,探索机......
个人特征是用来衡量行为,思想和情感的习惯性模式。它因人而异,并且随着时间的推移在不同的情景下保持相对稳定。个人特征具有重要......
文本相似度计算是文本挖掘过程中的一项关键技术,被广泛应用于文本分类、机器翻译、搜索引擎、抄袭检测、自动问答等领域。目前应......
伴随着互联网技术的高速发展,服务计算成为了一个研究热点。而服务计算的基础与支撑技术即为面向服务架构。面向服务架构将一个应......
引入词向量空间模型的方法,以Wellsite Support from afar为语言分析基础,从主题词提取、依存性文本分析、相似度对比等不同维度来......
在信息检索中,被广泛采用的向量空间模型的核心问题就是如何进行特征提取.本文着重讨论了特征提取的方法,并针对基于关键词的传统......
相比于传统检索,探索式检索能够引导用户不断发现其感兴趣的新的信息,而以关联数据作为底层知识库,能够提升检索体验,并降低系统实......
基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空......
现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻......
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方......
本文介绍了一个机械式自动文本摘要系统.对系统中的特征词抽取模块、句子加权模块和文摘输出模块进行了详细的分析.其中提出了领域......
本文提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它借助于潜在语义分析理论,对大量问答句子对语料统计分析,......
传统的信息检索模型假设查询中的关键词之间是并列关系,但用户的需求往往应该被抽象为一系列的关键词组,组内的关键词间具有更为紧......
本文分析了桌面文本搜索应用的指令级特征,发现该应用具有内存带宽利用率低、CPI值相对比较高、分支预测失效率高的特点,并设计了......
主题段划分是自动文摘系统中进行文章结构分析的重要环节.分析了当前主题段划分研究中存在的问题.提出了段落的主题相似度概念及其......
基于特定领域的网站主题识别与分类是领域资源共享的重要研究内容.与网页分类相比,网站的特征描述和分类更加困难.同一主题的网站,......
信息过滤是解决网络内容安全的重要方法,其研究涉及源信息采集、信息内容处理和信息匹配算法等内容.本文通过对信息过滤一般过程的......
随着网络技术的迅猛发展,中文网页分类作为信息处理的一个重要研究方向已经变得越来越重要.本文主要对网页分类器的关键技术,包括......
信息社会中在线百科已成为人们获取知识的重要途径,而在线百科的标签系统作为其重要组成部分,不仅可以帮助人们在浏览某张页面时获取......
信息安全审计系统智能性研究是目前信息安全领域的研究热点,其中模式识别及数据挖掘等技术在信息安全审计上的应用得到了广泛的关注......
本文针对个性化搜索的三个关键问题:用户信息搜集,用户信息库的动态更新与个性化检索算法,探索性地提出了基于Ajax用户行为跟踪方......
当前的用户兴趣模型大多采用基于向量空间模型的加权关键字的方法,当一个关键字在不同的领域中有不同的含义时,会导致模型失效。本......
查询扩展是指对用户提供的有关实体属性查询的描述进行语义上同义或近义方面的扩展.针对信息检索中文档与查询之间的词不匹配问题,......
软件缺陷与漏洞是造成软件安全问题的根源,对缺陷和漏洞进行预测是软件测试领域的重要组成部分,有助于合理分配测试资源,是提高软件质......
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Fr......
语义网使计算机能理解网络上资源的含义,实现语义层次上的检索.本文提出了基于语义网的智能检索系统框架,探讨了武器装备领域本体......
本文设计并实现了一个基于常问问题库的中文问答系统.对用户以自然语言输入的问题,该系统能够自动地在FAQ(Frequently-Asked Quest......
中文叙词表本体(Onto Thesaurus)融合了叙词表与本体,是一种同时具备二者特征的知识组织系统。“中文叙词表本体共建共享系统”......
Internet的开放性和日益增长的规模,为人们提供了自由交换信息的便捷手段。同时巨大的开放信息源也使一些恶意的和不良的(反动、色......
根据非相关文献知识发现的原理和思想,尝试将离散数学中传递闭包的知识运用到知识发现中,以寻找药物靶点之间的潜在关联为例,证明......
Web信息抽取是一个很大、很复杂的课题,涉及人工智能、机器学习等多个领域,本文研究的主要内容是如何将网页中的非结构化信息转化......
鉴于目前通用搜索引擎对藏文网页主题信息判断不够理想的现状,设计了一种基于改进向量空间模型的藏文主题网页采集算法。相比传统......
提出一种新的基于本体和文档重构的语义检索方法,该方法通过构造本体知识库,依据本体知识进行文档重构,将本体的语义描述和语义关联能......
本文分为五章进行论述。第一章论述了全文检索系统的国内外概况、出现的原因、定义与分类和研制方法。第二章论述全文系统的前处理......
随着Internet和光盘等大容量存储技术的迅速发展,如何迅速、有效地从大量信息中找到所需的信息已成为一个迫切需要解决的问题。文档自动分类......
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出......
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,采用改进后的两种算法从......
为了更好地挖掘和利用微博中的信息,设计了基于信号分析方法的微博信息分析系统,并探讨了具体的实现方法。该系统具有微博信息收集......
在对个人和科研机构的评价研究中,针对难以准确、可靠地界定与识别科研团队的问题,将向量空间模型应用到作者合著关系网络的科研团......
基于我国经济与技术发展的需求,文章阐述了专利预警应用的背景和专利文献相似度研究的意义。在系统地调查与计量国内外相关文献研......
叙述了基于LDA的PMM模型和基于LDA的TBS模型,并在CCL数据集上进行了实验研究。实验结果表示主题模型LDA改善了信息检索系统的查准......
随着社会不断发展,我国信息技术水平逐渐提高,越来越多的人通过网络手段来获取图书资源,这些图书资源的种类、数量较多,可以满足现......