一个面向文本分类的中文特征词自动抽取方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:yhqtongxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点.设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。
其他文献
【正】 国务院发展研究中心吴敬琏教授,在最近举行的“中国经济体制下一步改革国际研讨会”上,对1995年中国经济改革的重点发表了意见,吴敬琏教授认为,1995年经济改革工作应
在所有多重序列比对算法中,渐进比对方法由于简单的算法和高效的计算在生物信息学中得到了广泛的应用.但是渐进方法最大的缺点是在早期阶段形成的错误不能在后期的计算中纠正
讨论了决策表属性约简和条件信息量之间的关系,证明了对于一致决策表,其属性约简在代数表示下和信息论中条件信息量表示下是等价的。并举例说明,对于不一致决策表,其属性约简的代
PlanetLab的出现,为科研机构提供了用于开发下一代互联网技术的开;放式全球性实验平台。为了评价PlanetLab实验平台本身的计算能力及网络性能,论文采用LLCBench集群测试工具,在CE
元数据及其管理是数据仓库和业务分析领域中的核心部分,也是成功建立信息供应链的关键。元数据管理依赖于软件体系结构来抽取、集成、存储和发布元数据。这样的体系结构通常以
文章引入了Agent的方法学构建异构的自主存储系统,并且提出了基于Agent的有效协商的数据定位机制。为了在写数据时更有效地利用整合的多个存储资源,采用了基于可用性数据分配算
句类分析系统是HNC语言理解技术的重要支柱。为了减轻句类分析系统的计算强度,利用语言学研究的丰富成果,我们在专家系统及HNC小专家系统基础上,提出微型专家系统的概念及相关的
“第四届全国辞书理论与辞书史学术研讨会”拟于2012年4月25日—29日在安徽省芜湖市举行。会议主议题:中国现代(尤其是改革开放三十多年来)辞书的理论建设、理论创新与理论总结;
有限域GF(2m)在椭圆曲线密码体制中有着非常重要的应用,密码体制的整体效率大部分取决于GF(2m)上的运算效率.该文给出了有限域GF(2m)上使用正规基表示时的一种快速求逆方案,该方案