用半监督聚类算法实现WEB文本挖掘

来源 :漳州师范学院学报:自然科学版 | 被引量 : 0次 | 上传用户:fxily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较
其他文献
本文针对基于视觉导航的无人驾驶汽车导航系统,提出一种基于OpenCV的传统摄像机标定方法实现摄像机标定算法.最后,通过测量标定板的顶点坐标来验证导航系统标定算法的精确度.实验结果表明,采用该标定算法测量系统的定位精度高,而且具有实用、简便、快速等优点.
文(4)构造了q-类似Virasoro-like代数上一些Z-阶化中间序列模,本文将进一步研究它们的不可约性和同构关系.
本刊讯:2008年8月28日,由贵州省轻工科研所主办的“贵州白酒优势及发展前景暨原生态酱香白酒有益健康研讨会”在贵阳召开,出席研讨会的有中国著名白酒专家、中国酿酒工业协会白
以Pb2+为离子微扰剂时,酚藏花红(PF)与异硫氰酸荧光素(FITC)均能在滤纸上分别发射强而稳定的室温磷光(RTP)信号;当两者混合时,发现PF和FITC的RTP信号均显著增强;而1.12 ag DNA spot-
由于三维模型的顶点坐标是不成比例的,这导致了三维模型的分块比二维图像难的多.然而水印分块是很容易的.因此本文提出一种新的三维网格模型分块算法,通过插入特殊的字符来将
以2007年福建省投入产出表和福建省体育产业专项调查资料为基础,调整编制福建省体育产业投入产出表.采用投入产出分析法就福建省体育产业消耗系数、中间需求率和中间投入率、感
本文利用丙酸或DMF作溶剂,用邻羟基苯甲醛、苯甲醛与吡咯反应合成了5-邻羟基苯基-10,15,20-三苯基卟啉.探讨了反应温度、溶剂等条件对反应的影响,再用所合成的卟啉分别与Co2+,
利用Nowak和Bargham提出的考虑CTL免疫反应HIV病毒的动力学模型,给出具有生物意义的三个平衡态,并用routh-Hnrwitz定理,Maple软件,对复杂的模型进行稳定性分析,发现CTL反应对疾病
根据Hom-结合代数的概念来新定义子Hom-余模、Hom-模同态、Hom-余模同态的概念,并进一步讨论它们的基本性质.
介绍平行板开路型介质谐振器样品相对介电常数与介质损耗的测试技术,结合所用仪器的实验测量误差,分析在相关参量不确定度下介电参数的误差理论,通过实验可知:开路型方式对品