短文本的分类及语义分析方法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:xxyxwxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和手机的广泛普及使人们越来越依赖于这些媒介提供的信息,而这类信息大部分是以短文本形式存放的,因此人们对短文本过滤技术要求越来越高。传统的过滤技术仅仅实现关键字的判断,不能根据文本的上下文较好地理解文本的语义特征,因而过滤的效果难以满足人们的要求。基于这样的背景,本文对短文本建模、分类和过滤技术进行了研究和探索。本文的主要工作和贡献在于:   1.在研究短文本真实语料特征的基础上,提出了一种基于语义分析方法的短文本描述模型。该方法首先以“序列算法”处理原有向量空间,保留语法和语义特征,利用文本两个层次相关性(句子之间的相关性和句子内代表特定含义的关键字之间的相关性)实现对关键字的动态加权,另外使用马尔可夫模型来对局部权重与全局权重之间进行估计,最终生成了待分类的特征序列;在此基础上,该模型利用“概率潜在语义分析”将特征序列映射到潜在语义空间。   2.针对短文本语义信息缺乏的问题,提出了基于潜在语义分析的短文本分类体系。通过对统计语言模型和自然语言特别是汉语语言特性等理论的研究,论文提出了一种基于语法和语义相结合的短文本分类方法,该方法能够充分考虑短文本的特征,全面描述短文本的语法和语义特性,更加准确地对短文本进行分类。实验结果表明该方法可以提高短文本分类准确性。   3.建立了短文本语义分类原型系统。首先对大规模短文本集采用序列方法进行维数处理,然后将短文本序列映射到语义空间,在此基础上实现短文本分类系统。实验数据初步验证了本文工作的可行性和有效性。
其他文献
随着半导体制造工艺的不断改进,处理器的功耗迅速上升。功耗以热能的形式向外散发,使处理器的温度不断上升。处理器的工作温度超过阈值温度时,就会使处理器的工作变得不稳定,
随着网络通讯技术和仿真技术的发展,集散控制系统的全范围仿真正在向所谓“虚拟”技术方向发展。这给电厂仿真培训系统带来了新的发展机遇和开发思想。本文在对虚拟DPU技术、
随着大型复杂计算需求的扩大,人们把高性能计算更多的应用于数据挖掘、图像处理业务、基因测序对比处理等数据处理领域。科学计算规模的迅速膨胀,传统的串行计算已不能满足需
随着互联网时代的到来,网络信息资源成爆炸式增长。然而伴随着互联网信息的越来越巨大,网络用户想要找到自己所需的信息就如大海捞针一样,为了更加方便、快捷并有效的利用网络上
随着整个社会信息化程度的提高,手机正日益成为人们生活中不可缺少的一部分。最初的手机和家里的有线电话一样,只有打电话的功能。随着手机技术的发展,手机的功能越来越多,手
随着企业信息系统的广泛使用,系统安全问题受到越来越多的关注,而访问控制技术是解决安全问题的关键。目前我国大部分企业均采用传统的访问控制技术,自主访问控制技术(DAC)和
随着计算机技术和通信技术的迅猛发展,人与人之间的时空距离骤然缩短,尤其是我国加入世界贸易组织(WTO)以来,中国人民与世界人民的距离进一步拉近,全球化进程已使整个世界紧缩为
为了弥补SNMP在网络配置管理方面存在的数据模型表示能力差、配置管理操作效率低、复杂配置配置操作不易实现的缺陷,基于XML的网络配置管理技术应运而生。IETF组织针对基于XM
人脸作为计算机视觉领域重要研究对象,近年来一直是研究的热点。随着多媒体技术的日益发展,人们对人脸图像的质量提出了更高的要求。更换传感器势必增加成本,而且在硬件上受
样条与可加细函数被广泛地应用于微分方程数值解、计算机辅助几何设计(CAGD)及小波分析等领域。20世纪80—90年代以来,随着小波分析理论的日趋成熟和广泛应用,构造小波过程中