TCBLSA:一种中文文本聚类新方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:THE_BOSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法.该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度.
其他文献
(研究了分时电表表盘数字的自动识别,它是电表误差分析系统的关键所在。识别工作包括平段和谷段整数和小数数字的识别,难点在于刻度轴歪斜、半个字符的识别,以及刻度对应的小数值的推算。该文构建了一个完整的分时电表表盘数字自动识别系统。该系统以二值化、投影算法、开闭运算、边缘提取、Hough变换等一系列算法作为预处理,提出了整字和非整字两种识别算法。针对300帧现场采集的电表图像,该系统获得了单字正确识别率
2005年9月,由深圳市关山月美术馆主办了“石破天惊———敦煌的发现与20世纪中国美术史观的变化和美术语言的发展专题展”及同主题的学术研讨会。借此机缘,深圳特区报社记者
肾综合征出血热(Hemorrhagic Fever with Renal Syndrome,HFRS)是由汉坦病毒(Hantavirus, HV)引起的一种自然疫源性传染病。在世界上分布广泛、发病数较多,且病情重、病死率
为提高水培生菜产量及品质,以散叶生菜绿散为试验材料,采用深液流水培栽培方式,设计3种营养液配方,分析不同配方下生菜长势、产量及品质。结果表明:配方1生产的生菜产量最高,
对消息的优先级进行了划分,分析了丢弃冗余连接的必要性和可行性,给出了丢弃冗余连接的算法(DCMA),最后改进了广泛应用于Internet上的、基于数据流控的Zig-Zag算法,能够达到
以上海市地理信息系统的设计与实现为例,讨论了如何运用GIS组件MapObjects与面向对象的可视化编程语言Visual C++相结合这一开发模式,进行应用型城市地理信息系统的二次开发。对系统开发方式的选择、系统总体框架、系统开发结构和系统数据库设计等作了详细叙述,并简要介绍了系统实现的主要功能,同时给出了部分功能具体的实现方法。
十一届全国人大五次会议通过修改后的刑事诉讼法,把尊重和保障人权写进了总则,这不仅是我国刑事法治发展的重大成就,也是我国人权保障事业的重要里程碑。尊重和保障人权是贯穿这
期刊
现阶段装配式建筑生产的全过程各环节中仍存在一些亟待解决的质量问题和隐患。经大量项目实际的调研,对混凝土结构装配式建筑目前在建造过程的管理、设计、制作、检测、现场