【摘 要】
:
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散
【基金项目】
:
国家高技术研究发展计划(863计划);
论文部分内容阅读
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度.
其他文献
基于模糊可靠性问题向随机可靠性问题的数学转换,提出了应力和强度均为模糊变量时机械结构模糊可靠性分析的数字计算模型,在该模型中与截集水平对应的模糊应力和模糊强度首先
从固体模型理论的结果出发,计算了生长于Si(100)衬底上x值小于0.85的Si1-xGex合金材料(能带结构为类Si结构)的间接带隙与应变的关系,结果表明,应变的SiGe材料的带隙和完全弛
阐述了模板的动力学控制作用对大尺度有序结构特别是亚稳相的生长,对自由能相差很小的异构体的选择生长所具有的重要作用.汲取现有金刚石生长理论的合理思想,以模板概念为基
纳米碳管是性能优异的具有准一维特征的纳米材料,CVD法是制备纳米碳管的典型工艺之一.本文以乙炔气体为原料气体、循环失效后的贮氢电极合金材料作为反应催化剂,研究了在相同
由超短激光脉冲产生的THz脉冲是具有较宽频带的电磁辐射,属于远红外波段,该波段电磁波与物质的相互作用是个崭新的研究领域.文章应用THz光谱技术研究了5种植物油和两种动物脂
采用Tokuda改变的线性组合算符法和改进的LLP变分法,研究了晶格热振动对无限势垒量子阱中电子与界面光学声子强耦合、与体纵光学声子弱耦合系统的影响,推导出作为阱宽和温度
采用直流磁控溅射法制备SmCo薄膜,研究了退火温度对薄膜微结构及磁性能的影响.XRD分析结果表明,当退火温度为600℃时,SmCo5相析出,而Sm2Co17相在700℃析出.SEM照片可看出,退
从理论上分析了重铬酸盐明胶经过全息曝光制作而成的体积相位全息光栅产生表面起伏时光栅介质层介电常数的变化,严格分析了体积相位全息光栅有表面起伏时所形成的既有折射率
利用支持向量机良好的非线性函数逼近和泛化能力,提出基于最小二乘支持向量机非线性补偿的混沌控制新方法.应用最小二乘支持向量机离线辨识混沌系统的非线性部分,并用辨识模
用射频磁控溅射法在80℃的衬底温度下制备出MgxZn1-xO(0≤x≤0.30)薄膜.x射线衍射(XRD)结果表明,MgxZn1-xO薄膜为单相六角纤锌矿结构,没有形成任何显著的MgO分离相,MgxZn1-xO