一种启发式网络信息采集系统设计与实现

来源 :北京石油化工学院学报 | 被引量 : 0次 | 上传用户:liongliong542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统。用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合。对这个集合利用后缀树算法进行聚类,人工对聚类的结果进行有效与垃圾状态标注并生成训练集构造分类器。当用户提交该主题更多的关键词时,系统可以从各成员搜索返回的结果中自动识别并采集有效数据而过滤垃圾信息。实验结果显示,系统对定主题数据的平均有效信息识别率达到92%以上。
其他文献
分析了我国大学包装教育的现状,指出包装教育的研究方向与对人才培养的要求,在此基础上,阐述了与可持续发展中国包装教育相适应的人才培养思路。
本文分析了国内几所著名艺术院校绘画专业建设,探索设计新的针对独立院校绘画专业的教学改革方案。