【摘 要】
:
即时通讯软件(如短信、微信、QQ、微博等)会产生海量的交互信息数据,它们与以往的数据有很大的不同,其以会话形式存在,主要特点在于数据中包含两个或以上的用户的消息。这些
论文部分内容阅读
即时通讯软件(如短信、微信、QQ、微博等)会产生海量的交互信息数据,它们与以往的数据有很大的不同,其以会话形式存在,主要特点在于数据中包含两个或以上的用户的消息。这些会话消息中隐含很多有价值信息,比如可用于调查疑犯的犯罪证据以及犯罪动机,了解社会舆情,为个性化推荐提供数据依据等。但在海量的交互信息中挖掘有价值的信息需要花费大量的人力物力,因此通过人工智能的某些算法从海量交互信息中自动挖掘出有价值的信息成为近些年来研究的热点。本文详细分析了交互型文本的特点以及当前的研究现状,针对已有研究成果的不足,提出了基于对话内容的交互型文本会话主题挖掘模型(Session Topic-Latent Dirichlet Allocation,ST-LDA)。首先,通过分析交互型文本的特征,基于主题树的概念,定义了一个五层结构的对话生成树(文本-会话主题-对话主题-文档主题-词语);以此为基础,再基于LDA模型构建会话主题生成模型(ST-LDA);而后,采用吉布斯抽样法对ST-LDA进行推导,得到会话主题及其分布概率。采用某电信运营商的真实短信数据,实证结果表明,该模型达到了较好的综合性能。最后,在电信客户行为分析系统中的短信内容分析子系统中,基于Hadoop和Storm的云平台,实现了ST-LDA模型,提高了模型的即时性和并发性。
其他文献
随着网络和计算机技术的发展,云计算已经成为现实。在信息技术的发展中,在不投资新基础设施、培训新员工或授权新软件的情况下,增加容量或增强能力一直是一个重要的问题。云计算
在无线传感器网络技术中,路由策略一直是研究的热点,其中基于代价函数的路由策略由于具有较好的性能更是得到广泛研究。然而,目前的大多数研究都只是提出一种基于代价函数的
身份基(IBC)即基于身份的公钥密码体制,包含:基于身份的加密(IBE)和基于身份的签名(IBS)。公钥加密能够为电子通信提供强有力的保护,它的保密性主要来自于它使用的对称密钥,对称密钥是
对于动物病菌的分析和研究,目前主要采用人工分类和统计的方法,动物病菌的图像识别一直是畜牧业的一个难题,以往用电子显微镜对动物病菌进行测试后,还需要测试人员的凭经验来
统一建模语言(UML, Unified Modeling Language)是一种非专利的可视化建模和规约语言。UML提供了开放的方法,用于系统说明、文档化、可视化构建面向对象的软件密集系统。然而
确定主机的地理位置是一项重要的网络应用服务,目前主要是通过查询IP到实际地理位置的映射数据库来获得主机的地理位置,IP地址库不易构建与维护,由于更新不及时、覆盖度低、粒度
摘要:有效均衡网络负载,避免能量空洞问题是无线传感器网络研究中一个基础且关键的问题,它直接影响着整个网络的生存寿命、通信性能和能量使用效率。结合无线传感器网络的通信
由于微电子微处理器微计算机系统先进的计算机技术和无线通信等技术的进步,促进了无线传感器网络的产生和迅速发展无线传感器网络能够将分布在监测区域内的具有信息采集功能,并
图像拼接是图像处理与计算机视觉领域一个日益流行的研究区域,其目的是将具有重叠部分的同一场景的两幅或者多幅图像拼接成一幅具有较高分辨率的全景图像。图像拼接技术能够解
随着无线通信技术的不断发展,作为无线通信载体的频谱资源短缺的问题也越来越严重。经过研究发现,造成频谱短缺的根本原因是传统的固定频谱分配方式造成的,所以动态频谱分配