基于Web的内容挖掘技术研究

被引量 : 0次 | 上传用户:berg123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web文档数量的剧增,搜索引擎也暴露了许多问题。对于一般的查询返回的结果很多,其中很多是无用或无关的结果,为了找到想要的结果,用户不得不在搜索引擎返回的大量文档摘要列表中查找。本文将Web内容挖掘技术应用于搜索引擎领域,它依赖于搜索引擎结果所提供的信息来归纳出聚类,使得在搜索引擎返回的非常大的文档列表中的过滤操作变得十分方便。PAT-tree是广泛用于中文关键字抽取和句子分割等领域的一种数据结构。本文将PAT-tree应用于搜索引擎结果聚类领域,并在修改的PAT-tree基础上提出了一个新的中文搜索引擎结果聚类算法。实验结果证明我们的算法是可行的,并且能够满足我们给出的搜索引擎结果聚类技术的几个重要指标。
其他文献
<正> 今后一个时期是上海市郊区城镇建设大发展时期,适应上海和郊区未来的发展,美化市郊城镇建筑风格的总的要求是: 1.农民住房要向城镇相对集中。在一个镇的范围内,农民建房
以南京汤山温泉为个案,在深度访谈和问卷调查的基础上,运用SPSS16.0软件对调查结果进行处理,结合IPA分析方法,对温泉旅游者感知的重要性和实际表现进行对比分析,据此构建了方
难民问题是当今国际社会热点问题之一。自16世纪末难民现象出现,难民问题已经持续了几个世纪,愈演愈烈。全世界的难民数量逐年大规模上升。难民问题给我国的政治、经济、社会
向以大胆破格之设计,并采用创新独特的素材而闻名遐迩的世界级瑞士珠宝设计师Suzanne Syz莅临香江,于5月12至18日假香港Ben Brown Fine Arts画廊举行其首次亚洲区个人展览,展
本文简要介绍了840D在大型数控滚齿机上的应用。
<正>滇池水体的严重富营养化已引起学术界和社会的广泛关注,围绕滇池富营养化成因和防治措施已有较多研究成果。滇池沿岸具有其特殊的地理特点,滇池周边是山地、台地与湖滨地
负载均衡问题是云计算研究的热点问题之一。运用离散粒子群算法对云计算环境下的负载均衡问题进行研究,根据云计算环境下资源需求动态变化,并且对资源节点服务器的要求较低的
针对新疆石油公路运输现状,分析新疆石油公路运输的特点和存在的问题,并从优化石油运输企业运营管理、加强石油运输的监管力度、完善车辆及人员管理制度、制定切实可行的运输
近年来出现的压缩感知理论为信号处理的发展开辟了一条新的道路,它指出可压缩或者稀疏信号的少量线性投影含有足够的信息来进行信号重建和信号处理,在压缩感知理论的基础上,
加拿大作为世界上经济最发达的国家之一,在许多方面值得我们学习和借鉴。虽然中加两国社会政治文化背景不同,两国的警察体制和警务方式有别,但加拿大社会治安状况及管理仍能