一个中文文本自动分类数学模型

来源 :情报学报 | 被引量 : 0次 | 上传用户:playlogic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。 This paper presents an automatic classification model of Chinese texts based on statistical characteristics of Chinese characters and instance-based mapping. The model uses the Chinese word frequency vector as the text representation. Its distinctive feature is the introduction of linear least square fitting (Linear Least SquareFit, LLSF) technology to build a text classifier model. Through the manual classification and classification of the training set corpus and the correlation between the text and the classification of learning to achieve Based on the global minimum error rate of Chinese characters --- Category two vector space mapping function, and use the function of the test text classification.
其他文献
信息技术支持下,在线学习打破了传统教学模式,使学习者、教师和计算机学习资源系统之间跨越时空的多元、智能和深度交互成为现实。本研究尝试从"交互"切入,探究中文在线学习
关于中央纪委三次全会重申和提出的党政机关县(处)级以上领导干部廉洁自律“五条规定”的实施意见经中共中央批准,中央纪律检查委员会第三次全体会议重申和提出的党政机关县(处)级
我国高等教育毛入学率很快将超过50%,进入普及化发展阶段。民众自身发展的诉求、社会经济发展的需要以及国家竞争力提升的需要是推动我国高等教育向普及化发展的主要力量。我
本文对在华跨国公司人力资源管理模式与运作进行了探讨,从纵向和横向两个角度论述了在华跨国公司人力资源管理的模式。纵向研究根据在华跨国公司的经营阶段,总结出了在华跨国公
本文对产品市场竞争与资本结构选择的相互关系进行研究,主要分两个角度,首先是资本结构选择对产品市场竞争的影响,在现代公司有限责任制度下,债务融资在企业产品市场竞争中可以发
08年北京奥运会后,国内尤其是福建的运动品牌纷纷陷入巨大的危机,飞速扩张发展之后,随之带来的高启的库存让这些品牌几乎“身陷桎梏”。资料显示就2012年整个福建运动品牌的门店
改革开放以来,随着外部世界经济大环境和内部成本因素压力不断增大,中国外贸采购企业发展遇到了越来越多的挑战,采购利润相对较以往任何时候都更加透明,传统粗放模式的外贸采购企
职工的积极性从哪里来?我们又如何调动和激发职工的积极性?这不大不小的问题,对于我们这些从事基层工作的干部来说,却是实实在在的具体问题.我们认为调动职工积极性,就是要
党的十四大报告、十六大报告明确提出了建立和完善社会主义市场经济的任务,注册会计师审计制度作为一种中介制度是市场经济体制的重要基础设施之一,是市场经济内生出来的经济监
从2004年起,作为经济风向标的汽车行业随着我国国内生产总值的增长而不断攀升,尤其在2008~2011年期间,尽管全球爆发了金融危机,我国国内生产总值增长开始放缓甚至回落,但整个汽车行