基于N元汉字串模型的文本表示和实时分类的研究与实现

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:shingang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征
其他文献
解码是统计学自然语言翻译系统的重要一步,解码器的任务是用从训练文本中学习到的语言/翻译模型的信息来确定源句子最可能的翻译句子,解码器的输入是翻译模型和语言模型,以及源语
在小学语文学习中,语言文字运用是学习语文的重点。教师要在课堂上强化语言文字运用,提高学生的语言感悟及运用能力,提升学生的语文综合素养。
从GIS和ERP各自功能特点讨论了将GIS集成到ERP中的可行性,GIS能够弥补ERP在描述空间位置及基于空间位置上进行统计分析的不足。最后以某公司的GIS-ERP为例,介绍了如何将GIS与ERP进行有效集成,并重点论述了如何实现空间数据和统计数据的集成。
在实现专有应用协议(含表示层,应用层)时,应用协议的编码规则遵从于ASN.1或与之类似.而应用报文的编解码传统实现方案众多但效率却各有优劣.这里提出了一种通用的面向对象化