【摘 要】
:
随着互联网的进一步的发展和普及,微博作为一种强大有力的网络平台和社交传播媒体日益流行起来。目前风靡全世界的Twitter和国内的一些热门微博如新浪微博、腾讯微博等有着庞
论文部分内容阅读
随着互联网的进一步的发展和普及,微博作为一种强大有力的网络平台和社交传播媒体日益流行起来。目前风靡全世界的Twitter和国内的一些热门微博如新浪微博、腾讯微博等有着庞大的用户群体,同时每天产生数以亿计的字节内容。由于微博消息不超过140字符的长度限制,以及书写随意和夹杂很多网络用语和表情符号。随着微博数据的快速增长,如何从杂乱无章的微博短文本信息中检索到用户需要的有价值的实时信息变得尤为重要。传统的信息检索技术在解决这些问题的方面还存在许多的不足。为了解决上述问题,本文在前人研究的基础之上,以微博为研究对象,对微博短文本检索的相关技术进行了深入的研究。本文结合了微博的显著特点,主要工作如下:(1)提出一种基于BTM和图论的微博检索模型为解决微博文本字符数少、特征稀疏,数据量大等特征带来的困难,本文提出一个基于微博标签的特征相似度计算、普通文本生成的BTM(bi-term topic model)模型主题相似度计算以及文本后面隐含结构的实体相似度计算的综合微博检索模型;模型从三个角度出发,首先利用微博特有话题标签hashtag的强特征性,有效检索出相关博文;其次从普通文本中生成BTM模型,解决短文本稀疏度、缺乏上下文问题;最后挖掘博文之间的实体关系图,求出微博之间的相似度关系。实验结果表明,该模型在MAP、准确率和召回率上明显优于原始模型,具有较优的检索性能。(2)改进频繁词集的微博查询扩展针对微博中长博文、文章、新闻等,本文构建了一种改进频繁词集的微博查询扩展模型。新模型从查询扩展的广度出发,使得查询词的扩展词选取范围可以覆盖更广,在频繁词集的基础上提出外联关系的概念,进一步加强词语间的关联,挖掘出更多的语义信息,考虑词语在不同类别的分布信息,融合信息增益以改变词语加权方式,使得词语在文档集中的类别信息能有效地保留下来,由频繁词集构造词语相似性矩阵,并利用非负矩阵分解技术将其扩展至短文本空间,较好地解决了微博文本维稀疏的问题。实验结果表明,该模型在Purity及F值两项指标上明显优于原始模型,证明了该方法的有效性。
其他文献
锂离子电池由于其能量密度的限制,无法满足长续航动力电池的要求。而非水体系锂-氧气电池凭借其近10倍于锂离子电池理论容量密度的出色特性,成为研究热点。然而倍率性能、循环效率和稳定性差延缓了其商业化的进程。在锂-氧气电池的研究中,阴极催化剂的性能极为关键。本论文从催化剂结构调控出发,设计和制备高性能的阴极,以提升锂-氧气电池的整体性能。取得的主要研究结果如下:1.通过两步水热反应,先合成出纳米花结构的
在现实世界中,人类通过视觉系统迅速的搜索和感知具有吸引力的区域,从而提取出关键信息。身处于大数据时代,电子设备带来了海量图像类数据,利用计算机技术模拟人眼视觉注意力机制,也就是显著目标检测的研究内容。在计算机视觉中,显著目标检测是关键的预处理步骤,通过关注显著目标以减少计算的工作量,这被广泛应用在图像检索,图像分割,目标检测和识别等技术领域。在显著目标检测领域,目前分为两个研究方向:单幅图像显著目
果蝇优化算法(Fruit Fly Optimization Algorithm,FOA)是新型寻求全局优化的算法,它是根据果蝇寻食行为产生的。该算法需要调整的参变量少,而且能快速理解实现。果蝇在嗅觉和视觉等感官知觉方面比别的生物敏锐,所以果蝇能够快速探寻到食物独特的味道,即使目标源远。然而传统果蝇算法还不够成熟,如:整体搜索时间长,收敛精密度低下,容易陷入局部最优值等等。传统果蝇算法的步长固定不变
随着分布式智能计算的发展和云计算技术的成熟,云服务模式得到迅速的普及。然而与传统的服务模式相比,云服务环境下具有高度的动态性和复杂性,用户的主导权将被弱化,用户将会面临更多的安全和隐私问题。此外,近年来各大云服务厂商所发生的安全事故也使得用户与云服务提供商之间产生了严重的信任危机。本文围绕如何建立用户和公有云之间的信任这一主题进行研究,调研了国内外研究现状,对现有的公有云信任评估方案进行分析,针对
随着半导体和电容器行业的快速发展,液晶盒的电容特性引起了人们的广泛关注。本文将考虑液晶材料的挠曲电效应,对液晶盒的微观结构进行了数学建模,并采用相场法分析液晶盒内液晶分子的取向分布,最后讨论不同电学边界条件下的液晶盒电容特性。液晶盒内的液晶分子在不同的外加电场作用下极化指向发生改变,液晶分子重新排布,从而影响液晶盒整体的电学特性。本文考虑了液晶材料的挠曲电效应,分析液晶盒的整体自由能表达式,包含弹
25μm中红外光频梳在空间大气通信、中红外天文光谱学、高速分子传感等领域以及遥感,测距等方面都有着重要应用。在光纤中,光频梳的产生是通过将具有固定频率间隔的两束或两束以上的连续光注入到光纤中,在级联四波混频效应的作用下产生频率间隔为GHz到THz可调谐的光频梳。目前,绝大多数的光纤光频梳是由色散近零平坦的石英基高非线性光纤产生,然而,石英玻璃材料受到其本身透过窗口的限制,导致其难以用于研制中红外波
近年来,面对石油危机和环境污染问题日趋严重,人们开始开发新型高效、无污染、可持续发展的清洁能源及储能设备。锂离子电池作为优秀的储能设备具有体积小、能量密度高、循环寿命长及无记忆效应的优点而受到研究者们的广泛关注。目前,锂离子电池已广泛应用于便携式电子产品及新能源汽车上,石墨作为传统的负极材料,具备结构稳定、导电性优良和电压平台低等优点得到大量应用。但是,石墨也存在嵌锂容量低和倍率性能差的缺点难以满
随着互联网信息技术的蓬勃发展,信息过载问题变得越来越严重,用户无法快速从海量数据中找到对自己价值度与满意度高的信息,于是辅助技术推荐系统应运而生。现在许多电子商务
我国北方地区夏玉米-冬小麦复种下农田土壤存在的质地结构不良、养分失衡、盐化、酸化、板结等问题日益突出。本论文基于天津武清区农田,设置不同调理剂施用处理的田间定位试
股权激励作为一种长期激励机制,将公司管理者个人利益与公司整体利益联系起来,以避免经理人的短视行为,降低代理成本,提高经营管理效率,进而最大化公司价值。股权激励机制在