基于自适应聚类的文本潜在主题的自动发现

来源 :郑州大学学报:理学版 | 被引量 : 0次 | 上传用户:tangzai521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种自适应于不同题材文本自动确定其包含的潜在主题数K的方法.考虑到大多数文本的潜在主题分布符合段落密度特性,提出以段落为中心的研究策略,通过采用基于K均值的聚类算法联同自定义判别函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题的自动发现.实验结果表明,该方法在一定程度上能有效处理普遍存在的文风自由且主题表达灵活多样的各式文本.
其他文献
设计和调试了一套静电加速器真空度检测和控制装置.该装置能够在计算机上显示当前真空度,可以设置合适的安全气压.当真空腔体内气压大于安全气压时,它可以自动关闭加速器电源,从而
为进行文档碎片取证调查,提出了一个文档碎片取证分析模型.该模型扩展了现有的文档碎片取证过程,并将不同抽象层次的文档碎片数据引入该模型.同时将扩展的可信计算技术应用于
基于在碱性介质中,司帕沙星对Luminol—H2O2化学发光体系有较强的增敏作用,建立了司帕沙星的流动注射化学发光分析法.结果表明:司帕沙星浓度在9.0×10^-12~7.6×10^-8mol/L范
讨论一类双线性离散系统的镇定问题.从所研究矩阵的特征根出发,在特征根均具有负实部和至少一个特征根具有正实部这两种情况下分别讨论了系统的镇定问题,给出了相当一般的结论.最
提出一种基于二级组合分类器的汉字手写体识别方法,首先提取汉字的整字特征和笔划特征;进行单字识别的过程中,GA-BP笔划分类器起着对汉字识别的主导作用,当写入汉字出现连笔、字形变化导致系统产生拒识情况时,采用隐马尔可夫整字分类器作为辅助去提高整体的识别率.
从液体的压强公式出发,通过曲面积分,分2种情况,即静止液体密度均匀、物体密度分布任意时的情况和静止液体密度不均匀时的情况,求出浮力的作用点位置.同时也给出了一个通过空间曲
采用3种方法合成介孔分子筛MCM-41,并利用XRD、N2吸附—脱附、FT-IR等手段对其进行结构表征.结果表明,合成方法对样品的结构有序性、孔径、壁厚等有显著影响,其中碱性水热法
移动IPv6快速切换协议保证了最小的切换时延和尽可能小的切换开销,但对快速移动的主机,切换代价仍然很大.这是因为在新旧接入路由器间的隧道建立之前到达旧路由器的数据包将