【摘 要】
:
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核.首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用
论文部分内容阅读
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核.首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类.理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间.在reuters21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用.
其他文献
勿庸置疑,2009年将成为中国PC市场最艰难的一年.IDC预计2009年中国PC市场销售量为4,061万台左右,增长率仅为3%.其中台式机下滑尤为明显,IDC预计2009年台式机销售量为2,480万台
文章提出了一种并行视频服务的连接接入控制CAC(Connections Admission Control)算法.用网络分解的方法分析了系统存储和传输节点上视频数据传输延时,并通过对RTP连接进行接
这是篇迟到的测评。几个月前,就有朋友提醒我关注一下松下DMP-BD60。可惜,商借样机是个繁琐的过程,尤其是大品牌旗下作为"陪衬"出现的"小产品"。
面向对象软件测试已成为软件工程领域的一个重要研究课题.目前已提出的回归测试策略大都是针对结构化程序的,对面向对象软件的回归测试策略研究得很少.文章在分析面向对象程
本文介绍了机械振动分析中常用的时域波形和频谱的基本特点,以轴承损伤和机械松动导致的振动故障为例,详细阐述了时域波形和频谱在不同故障形态中表现出的基本特征,并结合故
文章基于SIP协议,提出了一个PSTN小型语音网关的设计与实现方案,使IP网络上的SIP UA可以与PSTN的电话进行语音互通.同时,对网关的安全性进行了探讨与实现.
本文介绍了蒸压釜的主要结构、使用特点,从其特殊的结构形式出发浅析了蒸压釜主要的损伤模式,结合实际情况指出不同损伤模式主要的发生部位和产生原因,并据此有针对性地探讨
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点