一种结合语义和TF-IDF模型的文本相似度量方法

来源 :2010年中国计算机大会 | 被引量 : 0次 | 上传用户:lipengru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类大多采用TF-IDF方法把文本建模为词频向量,利用余弦等相似度量方法计算文本之间的相似度,以此进行文本聚类.这些方法忽略了文本中词的语义信息,改进的基于语义的文本聚类方法则缺少文本之间相似度的定义,无法反映两篇文本之间的相似程度,聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项. 借助外部词典分析词项之间的语义相似度,结合文中提出的词项相似度加权树计算两篇文本之间的相似度,最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度,实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.
其他文献
P2P系统通过层叠网的方式将地域上分散的用户组织起来,实现了用户闱资源的有效共享.对于P2P这类自组织系统而言,用户的共享成为它们健康运行的关键因素.但同时,P2P系统中用户的“搭便车”行为也导致系统很难成为可信计算平台,因此,作为促进系统用户共享的有效手段,激励机制得到了广泛关注。但激励机制中部分恶意节点的假设使激励机制在真实系统中收效甚徽:另一方面,许多研究分析搭便车现象对于P2P系统的影响后
随着社会信息化和行业信息化的普及、提高,信息正呈现出爆炸式增长趋势,公众对计算、通信和网络的服务的要求越来越高.当今,以电信网基础设施为主干网络,利用因特网协议提供广泛的网络互联,已成为通信网发展的必由之路.而方兴未艾的云计算技术也为人们提供了一种新的服务模式.通信技术正逐步趋向于计算技术与应用发展,计算技术与应用正朝向网络与服务提供方向发展,通信技术和计算技术正在真正走向融合.电信运营商纷纷提出
文章给出一个通用的针对复杂功能部件的形式化验证方法.该方法基于寄存器传输级设计,利用设计中的结构信息将电路划分为控制部分和运算部分分别验证.文章给出了标识数据的时间标记法,针对控制部分中数据抽象的通用抽象规则,以及对运算部分进行分割处理的技术.本文的方法成功应用于龙芯3号处理器浮点乘加部件的验证,实践表明该方法能够发现传统模拟仿真方法难以发现的隐藏很深的错误,能够有效支持工业级功能部件的验证.
随着处理器上集成的核的数量的增多,在开展体系结构研究时软件模拟的速度会大大降低。如果利用纯硬件进行仿真,虽然可以提高速度,但不易修改和调试。本文设计了一个基于FTGA的软硬件混合的多核处理器模拟器,其在FPGA上使用硬件对指令集中的常用指令进行模拟。通过FPGA片上软核以及PC主机对复杂指令以及存储和外设进行模拟以保证模拟器的灵活性。在具体实现中。以16段流水多周期时分复用的方式对MIPS Ⅱ指令
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.本文针对片上众核体系结构,提出了两种硬件粗粒度同步机制,集中式同步机制和分布式同步机制,分别通过片上的集中式锁管理器和分布式锁管理器来实现;以片上同构众核处理器Godson-T模拟器为平台,通过量化评估程序,评估比较了提出的两种硬件支持的同步机制与基于原语的软件同步机制的性能.结果表明,硬件支持可以使得片上众核处
由于硅技术在处理器工业发展对处理器工业的影响,为了满足当前对高性能和高吞吐率的需求,众核处理器成为主流计算机体系结构,然而,因为速度限制和精确度的不足,使用传统的方法对众核处理器进行模拟和仿真远远不能满足需求.使用FPGA原型验证能显著提高模拟的速度,但是设计的复杂度和验证难度也相应增加.本文提出一种Godson-T众核验证平台(Godson-Tverification Engine,GVE),目
在分析了多核集群性能和应用需求关系的基础上,提出了一个基于性能预测,计算连接权重的并行调度算法“信息素动态加权法”,该算法通过对任务按其对资源请求不同进行分类,在处理任务前后对各个节点的信息素进行调整来准确的反映集群系统内各个节点的资源状态,帮助各种类型的请求找到集群内较为合适的执行节点,算法测试与实际业务系统运行表明,该算法可以有效均衡系统负载,提高系统运行效率与吞吐率.
高效的数据过滤是减少距离函数计算次数的捷径。提出了一种高效处理高维数据的索引算法一在主成分分析的基础上,利用第一主成份的组合方差最大的特点,选取第一主成分为主维,结合三角不等式完成数据过滤。实现分级索引,构成一种基于主维过滤的索引结构-PK-Tree。用方差覆盖权对第一主成分的信息保持量做了定量分析,并与已有算法进行了实验比较,得出了M+-Tree的距离比较次数近于PK-Tree的二倍等结论,验证
时态数据管理基本对象是数据实体的时间标签(时间期间)。时态查询模式依赖于时间期间相互关系,而这些关系中大多数不是等价(相等)关系。现有数据索引技术通常基于“相等”查询,在非等价关系框架内研究时态数据索引或将常规索引进行扩展具有研究和应用意义,同时也具挑战性。本文讨论一种基于拟序矩阵的时态数据索引框架。首先,通过引入拟序矩阵TPOM,将Allen 13种时态基本关系确定转换为对偶空间中特定区域的选取
对时间序列数据的研究与分析已经受到了越来越多的关注,然而由于时间序列数据其连续产生的特点,其数据量通常是非常大的,直接存储原始数据是困难的,因而时间序列数据的压缩变的非常重要.本文提出了一种新型的面向时间序列的阚值近似压缩方法,利用树结构和滑动窗口在时间序列中找到相似的子序列,然后通过这些相似子序列对整个时间序列进行压缩.本文既在理论上证明该压缩方法的正确性,又通过实验验证了这种压缩方法可以在较高