【摘 要】
:
为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似
【基金项目】
:
国家自然科学基金项目(编号:61772244),江苏省研究生科研与实践创新计划项目(编号:SJCX18_0771)资助
论文部分内容阅读
为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似度和相关性挖掘两种方式构建文本语义图,满足算法对文本词义相似性和相关性两方面的考察要求,引入PageRank算法计算词语词义权重值。然后对词频做统计,充分考虑词语在类内文本空间和整个文本空间的分布,对IDF算法进行改进,得到词频权重值。结合两种方式得到最终特征向量,进行网页分类。
其他文献
1970-01-01对于开发者来说都是不陌生的,有些系统对于时间的处理如果不够好的话,就可能把时间显示成1970-01-01,所以经常有用户看到1970-01-01这个时间。这种情况其实是很简
用于医疗物联网(Internet of Medical Things,Io MT)的互联心脏监测系统需要高度复杂的模拟前端、高性能MCU和低功耗的无线连接,以及复杂的算法与AI引擎。根据美国疾病控制中心的数据,美国每年约有61万人死于心脏病——即每4例死亡中就有1例与心脏病相关。心脏的健康与否是一个人整体健康水平最重要的指标之一。Io MT推动了新一代可穿戴、多参数和连续性心脏监测系统的产生,以提
针对k-means在聚类微博用户感兴趣话题时存在的问题,结合粒子群算法,提出一种学习因子、时间因子随惯性权重调整的MPSO-kmeans算法。该算法通过引入随惯性权重调整的学习因子
目的:建立同时测定传统中药山银花中绿原酸、灰毡毛忍冬皂苷乙和川续断皂苷乙含量的HPLC分析方法。方法:采用Phenomenex Luna C18(250 mm×4.6 mm,5μm)色谱柱,流动相0.4%醋
在这个必须宅在家里办公、学习、玩耍的特殊时期,很多“它就在那里但你并没在意”的技术、设备重新唤起了我们的注意,某些陈年话题也被重新提起。近日,一项安全研究发现并报
1引言随着时代的发展和科技的进步,如今互联网已渗入到人们生活的方方面面,特别是在疫情期间,对中国社会经济的发展具有重大的意义。另一方面,随着"互联网+"行动计划,宽带已
随着工业化和城镇化的不断发展,污染问题也变的越来越严重,农产品中由于土壤重金属污染所引发的食品安全问题也越来越成为人们关注的焦点。重金属镉具有毒性强,转移性快,非常
糖尿病是三大慢性病之一,及早发现有利于对该病进行控制。为了提高早期诊断率,提出基于支持向量机(SVM)建立合适的糖尿病预测模型。在分析糖尿病数据特点基础上,提出对核函数