基于形式概念分析的文本分类模型研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:woaizhmx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络中每天将产生海量的文本数据,如何从这些海量文本数据中挖掘有用的信息成为当今研究的热点。文本分类是数据挖掘技术的重要组成部分,为海量文本信息高效存储和挖掘提供了便利,因此研究具有重要的价值和意义。首先,在研究一般的文本分类模型基础之上,针对当前文本分类器在训练文本集较少的情况下容易出现过拟合现象,给出了一种基于形式概念分析的文本分类模型。该模型通过离散化文本的属性特征,构成形式背景,构建概念格,并把概念格中每个概念提取的分类规则作为文本分类的规则。其次,针对概念格分类规则提取的算法,该文给出了一种改进的提取分类规则的算法。该算法将每一条分类规则中的属性进行权重的计算,将提取的分类规则转换为属性权重之和的比较。该算法可以提取更多的分类规则,可以更好的避免因提取的分类规则太少而出现无法判别的情况。此外,在预测时,通过属性权重之和的判定比之前分类规则的判定更方便,能有效的降低判定时的空间和时间复杂度。最后,该文以卡方验证作为文本预处理时特征选择的算法,结合本文给出的文本分类模型,开发了基于形式概念分析的文本分类软件。在展示模型构建过程的同时,将其作为实验平台,利用公开的数据集:计算查准率、查全率和F值三个指标,进行了多次的实验对比。实验的结果表明,在文本训练集相对比较少的情况下,该文提出模型的也能得到较好的分类效果,相对于传统文本分类器因过拟合而导致分类能力差的情况有明显改善。
其他文献
高昌地面佛寺呈现出以佛殿为中心、以塔庙为中心和前殿后塔式布局三条基本的演变谱系,其形制布局、壁画题材、装饰纹样、墨书榜题可与当地及龟兹、焉耆、河西等地石窟寺院、
采用椿、楸、花椒植苗造林,滇柏容器苗造林,马尾松、车桑子直播造林,分别对北盘江晴隆盘江桥石漠化严重地区进行治理,经过试验研究对比,结果表明:车桑子直播造林成效显著。
随着我国市场经济的不断发展,乡镇卫生体制也发生了很大的变革,对乡镇卫生院的会计核算也提出了新的要求。目前,我国乡镇卫生院会计核算中还存在一定的问题,本文从乡镇卫生院
针对现有采用电流互感器(CT)供电的光电式电流互感器(OECT)的供电电源,受本身热耗始终随母线电流增大而增大的限制,适应母线电流动态范围较窄的问题,提出了一种基于CT次级电
随着技术的进步、互联网的普及、用户习惯的养成,网络教育市场和用户规模从2010年开始便高速增长,2015年网络教育市场突破千亿元大关,达1171亿元,预计2019年可突破2000亿元大
<正>秋天是多思的季节。在这种很深邃的时间里,思绪最容易让人想起历史。在峡江,盐是那种充满了生命和血汗的咸味的文化。一部盐史,就是一部苦难史,也是一部斗争史。而且,这
期刊
在全球集成制造的背景下,越来越多的制造企业专注于自己的核心能力和核心产品(或零部件),而将非核心能力的任务和零部件扩散出去。未来的制造业将具有高度专业化分工和高度协
随着全球经济一体化兴起,世界各经济体之间的联系更加密切的同时,经济体中各企业之间的竞争环境也变得更加激烈。伴随着企业管理方法的不断发展和进步,业绩评价方法也从单一
文化研究将文学视为书写与阅读能力,重视对文学与社会政治的关系的研究并将文学理论看作文化理论,企图对传媒时代文学的形态变异怍出理论上的回答。但由于其本身包含了无法克
将含麦芽糖结合蛋白-内蛋白子-几丁质结合区(简称MYB)基因的重组质粒pMYB129转入E.coli2426,在LB培养基中发酵,IPTG低温诱导表达,菌体超声破碎,离心,上清液经直链淀粉糖亲和层析,获得SDS-PAGE电泳纯的前体蛋白MYB.MYB中内蛋白子的