基于主题划分的微博检索研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yilvQINGFENG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前流行的在线社交网络服务特别是微博客正在改变信息的传播和共享模式。微博服务允许用户轻松的发布和接收消息。推特(Twitter)每天有超过1亿用户发布2.3亿条微博。与其将查询提交给传统的搜索引擎,Twitter用户更愿意登录微博来检索新闻、URL、和好友发布的评论。而微博搜索也已经成为用户获取热点事件信息的重要渠道。针对用户在微博上搜索时主要关注的是热点事件和热点主题,提出了一个新的微博搜索解决方案,该方案能较好的完成主题搜索的任务。首先将微博按其所属主题进行分类,然后在分类后的结果上进行主题-微博两级的索引构建。  基于微博中的标签(Tag)提出了一个新的微博分类方法。首先统计微博中Tag的共现关系,在此基础上利用互信息算出Tag的相似度矩阵。使用聚类算法对Tag进行聚类分析得到若干Tag类别。然后将数据集中带有Tag的微博分配到相应的类中得到微博的类别。使用上述基于Tag构造的微博类别作为训练数据,构造一个微博的分类器,对其余不带Tag的微博进行分类处理,得到最终的微博主题划分(每个类别代表一个主题)。  基于上述的微博主题划分结果构建主题-微博两级索引结构。首先对每一个主题的质心向量构建索引形成主题级别索引,然后对每个主题下的微博进行索引构建。进行结构检索时,先根据用户查询在主题索引中检索相关主题,并对主题进行相关性评分,然后在每个相关主题下检索相关微博,一条微博的最终得分等于该微博所属主题得分乘以该微博在主题内的得分。根据该得分进行排序,并将最终排序结果返回用户。通过在Twitter数据集上的实验与测试,验证了方案的可行性及有效性。根据检索系统的一般评估方法,提出的方法与其它常用的检索方法相比效果有较明显的改善。
其他文献
不断发展的互联网需要有良好的内容分布技术,来应对互联网上大容量数据内容的广泛传输。集中控制式CDN技术和自由共享式的P2P内容分布技术,在应用中不断暴露出种种缺陷,已不能满
本文研究了面向互操作的企业建模方法以及基于XMI的模型转换。首先,在总结大量企业建模实践和前人经验的基础上提出了一种面向ERP全生命周期的企业建模方法——ICEM(Interope
由于短信业务的迅速发展,短信中心产生的话单数量也急剧增加。同时,短信系统运行的稳定性直接关系到用户的切身利益。为了提高对短信系统的监视和管理能力,新疆移动决定利用现有
在图像获取和处理中,常常有高速运动物体的图像获取需求。这在工程实践中和科学研究中有很大价值,如研究快速转动的发电机的运动状态,子弹发射的运动状态。而快速获取图像常常还
自因特网兴起以来,其迅猛增长的势头就从未停止,通信链路以吉比特乃至更高的速度进行数据传输己不成问题,而承担网络通讯任务的传统路由器,通常对数据包未加区分尽力而为地转发,这
本文在分析中小型医院基本需求的基础上,以Powerbuilder和Oracle9i作为开发平台,采用快速原型开发方法,研究和开发了中小型医院信息管理系统的检查检验子系统和院长管理子系统。
数据受损检测作为入侵容忍技术的重要组成部分,有助于保护数据库应用系统的可生存性。但是已有的数据受损检测技术不满足数据库应用系统受损分析的要求,数据受损检测结果存在过
基于策略的网络管理以整个网络为管理对象,能解决传统网络管理不能解决的一些问题,正逐渐成为一种新的网络管理方案。因此将策略管理和传统的SNMP管理结合起来,提出了基于策略的
基于构件的软件工程能够有效地提高软件开发的质量和效率,而构件组装技术是实现基于构件的软件工程的关键。快速发展的Internet计算平台与软件工程的结合更使软件工程具有了更
随着半导体技术和发热量的限制,处理器频率的发展已经不再适用于摩尔定律,处理器频率的提高越来越缓慢,因此通过增加处理器上面的核心数量来提高处理器性能是一个有效的方法。多