【摘 要】
:
短语作为搜索引擎输入的主要信息,其主题抽取对于搜索引擎判断搜索者的搜索意图,提高搜索服务质量具有重要的意义。短语逐渐成为网络信息的重要组成部分,针对短语语义分类可以很
论文部分内容阅读
短语作为搜索引擎输入的主要信息,其主题抽取对于搜索引擎判断搜索者的搜索意图,提高搜索服务质量具有重要的意义。短语逐渐成为网络信息的重要组成部分,针对短语语义分类可以很好地将短语信息分门别类,使人们可以更准确有效地获取到自己所需的信息。 目前文本主题抽取的研究主要是利用词、句、段等所具有的不同贡献信息,对中文文章进行主题抽取。文本分类主要利用特征提取技术将文本转化成高维空间的向量表示。短语的结构远比传统文本简单,短语所含有的词语数量远少于传统文本,将短语映射到高维空间中也会存在巨大的稀疏性。因此无法直接将针对传统文本的主题抽取算法和文本分类算法直接作用于短语。故本文借鉴文本处理的思想,全新地研究短语主题抽取和短语语义分类。 针对短语主题抽取问题,首先提出了利用主题词存在与否的基于主题词的短语主题抽取算法。其次在其基础上利用社会知识词簇集合作为分类信息,词的相似度作为距离权重,利用改进KNN的分类思想提出基于《知网》词相似度的短语主题抽取算法。最后在前者的基础上利用位置加权算法,提出基于加权主题词的短语主题抽取算法。实验结果表明,后两种算法对短语主题抽取效果良好。平均查全率分别达到78.88%和83.39%,平均查准率达99.06%和99.70%。 针对短语语义分类问题,提出基于KNN算法的短语语义分类算法。首先提出短语相似度的计算方法,其次利用短语相似度衡量短语间的语义距离,最后利用KNN分类器对短语进行语义分类,从而形成基于KNN的短语语义分类算法。实验结果表明,该算法的平均查全率和查准率分别达到90.94%和88.22%。
其他文献
布料仿真是一种用计算机来模拟布料动态形态的技术,具有广阔的应用前景。弹簧—质点模型简单易用,计算效率高,应用较广,但反映布料物理特性较困难,若要在对材料特性要求较高
数据挖掘技术从一开始就是面向应用的,使用数据挖掘工具进行数据分析可以方便地获得重要的数据模式并应用于决策。关联规则挖掘作为数据挖掘的重要技术广泛应用于各大领域,特
无线传感器网络是一种新兴的数据收集和处理技术。其主要组成部分是部署在被观测区域中的大量微小的无线传感器节点所构成的分布式网络,具有大规模性、自组织性、动态性等特点
互联网技术研究近年来发展迅猛,目前是非常活跃的研究领域,应用市场前景十分广阔。新技术、新思想、新应用层出不穷,推动着整个行业向纵深化方向发展。Java的出现是互联网技术发
配准问题是计算机视觉以及摄影测量领域主要的研究课题之一。配准研究主要是将多个不同坐标系下的数据转化到同一坐标系下,并对齐它们相互之间共同的部分。用于配准的数据一般
电力企业数字化是一个十分复杂而迫切的过程,如何实施一个既能满足当前企业需求又具有可持续发展能力,功能强大又具有良好柔性的信息系统,就成为今后一个时期内电力企业信息化的重要内容。近年来,电力事业进入高速发展阶段,已由计划经济向市场经济迅速过渡,电力营销由以生产为中心阶段进入以消费者为中心阶段,建立完善的现代电力客户服务体系是电力企业数字化的一个重要组成部分。因此,近几年各地电力集团公司开始引进发达国
分类是机器学习的一个核心研究内容。在多种现存的分类器中,最为简单有效的一种就是决策树。但是,传统的决策树算法由于实现的年代较早,运行效率为了适应当时有限的内存而有
软件测试是保证软件质量和可靠性的主要手段,软件测试的工作量一般占软件总开发量的40%至60%,而测试工作中有很大部分适于采用自动化测试方法。自动化测试可以提高测试过程的
随着计算机通信技术的高速发展,通用串行总线(USB)以其高速、支持多种传输类型、即插即用、易扩充等优点已经成为计算机上的标准配置接口,是实现外部设备与计算机通信采用的
近些年来图像配准融合技术已成为自动目标识别、医学图像处理、智能机器人、智能制造业、军事应用等领域研究的热点问题,并取得了大量的研究成果。掌纹作为重要的生物特征在