【摘 要】
:
针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法。该方法主要包含三个步骤:一对文本使用
【基金项目】
:
国家社会科学基金项目(18BTQ042),延安大学继续教育教学改革研究专项(YDJZ2016-03),陕西省创新创业训练计划项目(S202010719082)
论文部分内容阅读
针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法。该方法主要包含三个步骤:一对文本使用Doc2vec方法进行矢量化;二使用基于密度的聚类算法CFDP对矢量化后的文本数据进行聚类;三采用t-分布领域嵌入算法(t-SNE)将数据压缩到二维空间并进行可视化。并对聚类算法中关键参数进行了交叉测试,采用S_Dbw评价聚类的效果,得到CFDP算法最优的参数组合,最后对聚类效果进行了可视化,聚类结果与文本原始类别进行比较,F值达到89.24,
其他文献
钪是优化铝合金性能最为有效的合金元素,含钪铝合金强度高,塑性好,焊接性能,耐腐蚀性能等优良,是舰船、航空航天、核能等国防军工尖端领域用新一代铝合金结构材料.通过对Al-M
以承德市国际健康产业园规划项目为例,通过规划方案设计的实践,尝试将医疗服务、养老产业与传统地产项目有机结合,从而为我国新时期房地产企业转型发展提出新的思路。
山地城镇复杂、起伏多变的地形地貌条件,决定了其设计与建设不能照搬平原地区城镇建设的理论及思想,而应探索一种契合地形条件的山地城镇适应性设计方法。概述了国内外现代山
结合多年施工经验,介绍了在SMA混合料中采用橡胶沥青代替SBS改性沥青,并将其在高速路面施工中的拌和、铺摊、碾压及原材料质量等方面的控制措施进行总结,成型后的路面具有良
针对目前国内智能变电站500 kV断路器保护双套配置存在的缺陷,分析了500 kV断路器保护单套配置的优势与局限性,并提出了单套断路器保护跨接双重化网络完成与其他二次设备配合
介绍了世界特殊钢的供需状况和发达国家特殊钢发展的特点和经验,叙述了国外特钢企业近半个世纪以来结构调整的成效,以及世界特殊钢竞争的趋势;同时介绍了国内特钢的发展概况,
桥梁工程研究长久以来存在重建设、轻管养的弊端,尤其对量大面广的城市高架老化问题和交通流加剧带来的结构负荷增加问题一直没有给予足够的重视,这使得老化结构由于缺少有效
介绍宝钢钢管分公司精整1号光亮退火炉控制系统的改造,采用双交叉比例限幅燃烧控制来进行六段炉温控制,替代空气先行的炉温-燃烧控制系统.