一种基于文本先分类再聚类的互联网热点信息发现方法

来源 :兰州工业高等专科学校学报 | 被引量 : 0次 | 上传用户:woshishaoqiaolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对互联网热点信息发现的需求,提出一种基于先分类再聚类的互联网信息热点发现及分析系统构建方法.通过对互联网样本信息文本的特征提取,构建文本向量空间模型,使用Maxent最大熵分类模型对文本进行分类,对分类结果使用OPTICS聚类算法获取文本热点簇,最终获取有效热点信息.实验证明,通过先分类再聚类的方法可以有效避免语义类别不同但字面意义混淆的文章对聚类算法的影响,有效提高聚类结果的精度和运算效率.
其他文献
目的 探讨加强医院感染管理的有效方法,预防和控制肿瘤病人医院感染的发生。方法 建立健全医院感染管理制度和监测系统,强化医院感染管理意识和自我防护意识,严格要求医院消毒隔
党中央提出把“立德树人”作为教育的根本任务,习近平总书记在全国教育大会上强调“要培养德智体美劳全面发展的社会主义建设者和接班人”;梁启超先生1922年在苏州学界的演讲中
报纸
河南煤化焦煤集团赵固二矿在倾斜轨道巷运输中推广使用了无极绳连续牵引车,无极绳牵引运输系统具有运输效率高、不转载、运行成本低、安全性能好等特点。
目的 探讨高敏C-反应蛋白(hs-CRP)在急性冠脉综合征(ACS)患者血清中的变化及不同水平对ACS预后的预测价值。方法 采用乳胶凝集反应法测定118例ACS患者和40例正常对照组血清hs-CRP
对不同比例的掺土煤矸石试样在室内进行了一系列的力学性能研究,为煤矸石在高速公路工程中的应用提供科学依据.研究结果表明,在煤矸石中掺加适当比例的粘土,可以提高煤矸石的
目的观察肝素膀胱灌注治疗非细菌性膀胱炎的疗效。方法该组10例非细菌性膀胱炎患者。以间质性膀胱炎症状评分(ICSI)、每日排尿次数作为疗效评判标准。治疗前ICSI为8-18分,平均(11
目的检测胆管癌组织中BaxmRNA表达及细胞凋亡,探讨BaxmRNA表达与细胞凋亡的关系及其在胆管癌发生、发展中的作用。方法用原住分子杂交法检测32例胆管癌组织及10例癌旁组织Baxm
为了获取对政府文档及时、平等、完整的接触权,美国历史学界在20世纪50-80年代展开了锲而不舍的斗争,主要在突破文档安全加密体系的束缚、获取总统文献和解密外交档案等领域