汉语文本按语体分类的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ktyl2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有导文本分类是指在给定分类体系下,通过对训练语料的学习,抽取出某些特征,对每个类别建立特征向量以表示该类,对每一个新的文本,如果它的特征和某个类别文本的特征量大程度地匹配,计算机就自动确定它属于这个类别.特征基贩抽取和特征之间的距离的定义,是文本自动分类研究的重点.目前很多文本分类系统均是按领域对文本进行分类,该文的分类系统是按语体对文本进行分类.这种分类研究对于统计语言模型的训练具有重要意义.文本按语体分类采用的基本方法仍然是在按领域分类方面采用的基本方法--向量空间模型方法,但文本按语体分类与按领域分类是有区别的,对文本按领域分类实持由是在内容上的分类,而按语体分类实质上是在形式上的分类,该文讨论了它们在解决方法上的区别.在该研究中以字、词、词的二元接续关系、人名及地名用字特征作为文本的表示特征,经过特征项的粗选取和细选取两上过程确定特征项集,实现了特征项目的自动筛选.以夹角余弦距离方法和绝对值距离方法作为向量距离的表示方法,并比较了文本自动分类的实验情况.该文实现了以字作为特征的两层分类方法.两层分类方法是将一个多类别分类问题转化为两个简单的分类问题来解决.它不是试图用一种算法,一个决策规划去把多个类别一次分开,而是采用分级的形式,使分类问题逐步得到解决.
其他文献
数字家电网络控制平台SOPCA是由信息产业部产业基金支持的国家重点项目,其目的是为国内非PC用户提供功能强大、经济实用的上网、娱乐、教育和智能家电联网功能于一体的支撑平
多播协议的开发和应用是目前网络技术的一个热点问题.该文主要比较了两种可靠多播协议:SRM/Adaptive和TORM协议.采用软件仿真的方法比较这两种协议在两种典型的网络拓扑下和
随着移动通信技术的迅速发展,各种便携式移动设备的广泛应用,人们希望在移动的过程中仍能保持互联网接入和连续通信。为此,IETF制定了移动IP协议,在全球互联网范围内提供移动数据
该文着重于对分形的计算机真实感绘制方法的研究,主要从以下两个方面进行了探索:1.首先利用分形的生成方法结合计算机图形绘制技术,对于2-3维之间的分形进行了绘制,其中突破
智能环境调控系统结合了计算机技术、通信技术及诸多控制技术,依照用户要求而智能地控制环境内的众要素,是物联网领域的一个重要研究方面。但是由于智能调控系统接收到的用户
该文系统地介绍了数据仓库技术的概念和原理,通过对国内外研究概况、水平的分析,在现有的公安管理信息系统中人口系统的基础上,设计和构建了人口数据仓库.设计开发了动态报表
该论文首先介绍了提出程序挖掘的背景. 然后该文提出了程序挖掘的支撑环境.讲述了我们为什么要构造程序挖掘的支撑环境以及支撑环境所具有的功能.在程序挖掘过程中,该文引入
该文首先概述了CORBA(通用对象请求代理体系结构)的产生背景和体系结构.该文的主要工作在于:清晰地阐释了交易对象服务的原理;深入透彻地研究了OMG组织提出的交易对象服务规范;
本文以8电极电容层析成像系统为对象,研究了油水两相流的检测问题。介绍了电容层析成像系统的结构和工作原理,建立了系统的有限元模型,并以此为基础对场域进行剖分,采用了三角形
增强现实(Angmented Raality)是虚拟现实技术(Virtual Realiiy)的一个重要分支.该文首先讨论了基于视觉配准的增强现实系统中,特征检测与匹配的问题.文中实现了若干种不同的