一个面向文本分类的中文特征词自动抽取方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：yhqtongxue

【摘要】

：

文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点．设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法，并通过实验与传统的词典分词法进行了

【作者】

：

付德宇代成琴

【机构】

：

哈尔滨工业大学信息与网络中心

【出处】

：

计算机工程与应用

【发表日期】

：

2006年15期

【关键词】

：

中文特征词自动抽取文本分类汉字结合模式 Chinese lexical items＇ extraction text categorization comb

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点．设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法，并通过实验与传统的词典分词法进行了比较，结果表明，这种方法对于中高频词条的识别率接近于词典分词法，而分词速度则远远高于词典分词法，能够满足对大规模开放域文本进行快速特征词自动抽取的需求。

其他文献

吴敬琏谈’95经济改革重点

【正】国务院发展研究中心吴敬琏教授,在最近举行的“中国经济体制下一步改革国际研讨会”上,对1995年中国经济改革的重点发表了意见,吴敬琏教授认为,1995年经济改革工作应

期刊

吴敬琏中国经济改革中国经济体制财税改革社会保障体制发展研究中心教授国际研讨会国有企业改革税收征管体系

未尽的思考

期刊

抄袭剽窃职业道德辞书事业负效应文明建设自我做起行业新风参考借鉴社会精神道德要求

渐进方法结合蚁群算法求解多序列比对问题

在所有多重序列比对算法中,渐进比对方法由于简单的算法和高效的计算在生物信息学中得到了广泛的应用.但是渐进方法最大的缺点是在早期阶段形成的错误不能在后期的计算中纠正

期刊

多序列比对蚁群算法渐进比对方法后验概率概率一致性multiple sequence alignmentant colony algorithmpr

决策表属性约简及其条件信息量表示

讨论了决策表属性约简和条件信息量之间的关系，证明了对于一致决策表，其属性约简在代数表示下和信息论中条件信息量表示下是等价的。并举例说明，对于不一致决策表，其属性约简的代

期刊

粗糙集决策表条件信息量属性约简rough setdecision tablesconditional information quantityat

基于LLCBench的PlanetLab计算平台测试

PlanetLab的出现，为科研机构提供了用于开发下一代互联网技术的开；放式全球性实验平台。为了评价PlanetLab实验平台本身的计算能力及网络性能，论文采用LLCBench集群测试工具，在CE

期刊

PLANETLABLLCBench性能测试PlanetLab LLCBench performance test

基于模型驱动元数据集成体系结构研究与设计

元数据及其管理是数据仓库和业务分析领域中的核心部分，也是成功建立信息供应链的关键。元数据管理依赖于软件体系结构来抽取、集成、存储和发布元数据。这样的体系结构通常以

期刊

元数据元数据仓库公共仓库元模型软件体系结构metadata metadata warehouse Common Warehouse Metamode

基于Agent自主存储系统的数据定位机制

文章引入了Agent的方法学构建异构的自主存储系统，并且提出了基于Agent的有效协商的数据定位机制。为了在写数据时更有效地利用整合的多个存储资源，采用了基于可用性数据分配算

期刊

自主存储数据定位AGENTBLOOMFILTERautonomic storage data location Agent Bloom filt

服务于句类分析系统的微型语言专家系统建设

句类分析系统是HNC语言理解技术的重要支柱。为了减轻句类分析系统的计算强度，利用语言学研究的丰富成果，我们在专家系统及HNC小专家系统基础上，提出微型专家系统的概念及相关的

期刊

计算机应用自然语言理解HNC理论句类分析微型专家系统computer application NLP HNC theory sentence c

“第四届全国辞书理论与辞书史学术研讨会”征集论文

“第四届全国辞书理论与辞书史学术研讨会”拟于2012年4月25日—29日在安徽省芜湖市举行。会议主议题：中国现代（尤其是改革开放三十多年来）辞书的理论建设、理论创新与理论总结；

期刊

学术研讨会辞书理论辞书史论文征集改革开放中国现代理论创新

有限域GF（2m）上基于基转换的正规基快速求逆方案

有限域GF（2m）在椭圆曲线密码体制中有着非常重要的应用,密码体制的整体效率大部分取决于GF（2m）上的运算效率.该文给出了有限域GF（2m）上使用正规基表示时的一种快速求逆方案,该方案

期刊

GF(2m)求逆正规基多项式基基转换GF（2m） inversion normal basis polynomial basis basis

一个面向文本分类的中文特征词自动抽取方法

与本文相关的学术论文