网络社区信息搜索技术

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zww100200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的发展,越来越多的信息被放在了互联网上,由于网络快速和便捷的特性,传统媒体和和交流社区还有企业都开始电子化,网络化,网络上的信息也越来越多的在动态页面内出现,如论坛,新闻组,博客等等,在亿万网民的共同贡献下,互联网上的信息量以极快的速度增长起来。网络上海量的信息是人类的知识宝库,人们从中可以学习知识,找到问题的解答,因此搜索网络社区如论坛,新闻组和博客等中有用的信息成为了一项越来越重要的任务。另一方面,由于互联网结构的多样性,内容的海量性,并且包含大量的无用的错误的噪音信息,如何在如此庞大的信息库中快速准确的搜索信息成为了热点研究。互联网上的搜索问题指的是用户给出一个查询,对于互联网内的信息单元,返回给用户和查询相关的内容,和查询越相关并且越符合用户查询意图的结果在结果排序列表的越前面。由于访问网络上的内容需要相对不小的时间代价,并且网络上的具有海量的分散的数据,我们不可能在每次搜索的时候去遍历所有的网页,网络搜索是面向用户的研究,必须在结果的质量和搜索响应时间上都有较好的效果,因此网络搜索解决方案一般都分三个阶段,即内容抓取,建立索引,基于索引的搜索。每个阶段都需要很多的研究,本文把主要注意力放在最后阶段,即如何返回高质量的搜索结果,通过挖掘出网络信息的发布人的知识领域档案来调整该信息的排名以达到更好的搜索效果。大部分在文档集或网页搜索中效果很好的信息检索系统并不是特别适合用来在电子社区中寻找有用的信息,无法利用到网络社区的一些重要的信息比如是谁发布的这个信息以及他在这个话题上的专家程度有多少等,领域专家对他们专长的领域发表的言论即使短小也是可信并且信息丰富的。在这篇文章中,我们提出了一个新的方法通过分析出用户在各个领域的专家程度来帮助我们计算符合查询的文本中包含的对查询者有用的信息量。本文的研究成果主要有:(1)提出了在网络动态社区环境下计算用户知识领域专家度档案的方法。本文基于文本信息检索的方法,在分析了网络社区内容的特点后,给出了适合该环境的挖掘用户专家档案的方法。实验表明,同相关工作比较,本文的方法更适合用来在噪音大,文本短小的网络社区环境挖掘专家档案。同时,该方法计算得到的专家库也将用来辅助提高搜索质量。(2)发现了利用信息发布人的专家档案可以帮助我们提高搜索质量,使其更符合用户搜索的目标。给出了基于作者专家档案的网络社区信息搜索框架,并给出了基于改进后的信息检索方法的算法。实验结果表明,该方法能明显的提高搜索质量,并对实验结果进行了分析证明本文方法的有效性。(3)提出了一种新的网络社区搜索方法框架并实现了原型。
其他文献
无线传感器网络(WSN)的MAC协议处于网络协议的底层部分,它决定无线信道的使用方式,对无线传感器网络的性能有极大影响,是保证无线传感器网络高效通信的关键网络协议之一。传
三维地形场景视景仿真技术是近年来在虚拟现实领域中一项重要的技术,它以三维地形网格为主,结合多媒体、立体视觉、传感技术创造出一个身临其境的虚拟世界。三维地形技术是视
目前移动商务发展迅速,但是图形化应用是移动商务面临的一个的问题。虽然移动终端市场对J2ME的支持较为普遍,但是网络传输能力较弱,即使3G网络会提高网络传输速度,移动终端更
随着无线网络与可移动设备的发展,移动计算正逐步成为分布式计算的主流,移动计算使得人们在保持网络连接的同时能够自由移动,这促进了许多新的分布式应用的出现。但是移动计
随着我国信息化进程的深入和电子政务的建设,大量的社会和经济信息已经电子化。而由于国际政治经济的交流和发展,如何向世界范围内发布这些相关的信息成为一个现实需求。近年
自然界中生物体优胜劣汰,不断由低级向高级进化。人们通过观察这些适者生存的法则构成了一些优化算法。优化算法的本质是在众多解中寻找到一个最优的解,使得系统在满足一定约
由于Web上海量的信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请
随着用户对数据安全和数据有效利用的要求不断提高,备份系统对数据的处理已经不再是简单的数据拷贝,而是存在大量种类繁多、功能各异的数据处理。目前现有的备份系统虽然功能强
随着网络的普及,信息处理技术有了一些新的应用领域,例如,传感器网络,网上在线交易系统,股票行情实时监控。在这些应用中,数据不再是静态的,而是一种实时的、不稳定的流式数
随着信息技术的发展,彩色图像以及视频的应用更加广泛,由于图像的最终观察者是人,因此研究人眼的视觉特性,寻找一种模拟人眼视觉特性的显著区域提取无疑是一条重要的途径,如