短文本分类算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ashlilani3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本数据在移动互联网时代出现井喷式爆发,但由于其存在的特征稀疏、多歧义等特点,目前针对短文本的分类算法存在着准确率低、易产生过拟合等一些问题。特别是现有对短文本建模的方法难以对复杂的外部语义信息进行有效的表示和利用,导致无法提取出深层次的语义信息。因此,本文从语义表示与语义拓展两个角度出发,引入对词向量的流形重嵌入算法,并提出基于流形学习的主题建模,然后在此基础上设计了语义拓展的短文本建模方法,以提高准确率并且防止过拟合,最后实现了短文本分类系统一套。本文的具体工作以及获得的成果包括:(1)对三代文本建模技术进行研究,并提出一种基于流形的主题建模算法——M-LDA模型。首先,针对目前词向量在欧式空间中对语义表达能力不足的问题,提出了基于流形学习重嵌入的方法,并且在此基础上,通过在LDA模型的初始化过程将其作为先验知识来对模型进行优化,构建基于流形学习先验的潜在狄利克雷模型。实验结果表明,M-LDA较LDA以及DMM等主题模型的性能平均提升了 6.5%和8.7%。(2)根据对语义拓展思路的研究,提出一种基于语义拓展的短文本建模方法——Set-CNN模型。该方法的主要思路是通过快速聚类算法对短文本中的关键词进行语义拓展,然后使用包括空洞卷积、残差门限机制等不同的卷积核对拓展后的文本进行处理,保证在语义拓展的基础上最小化噪声引入,最后使用文本卷积神经网络进行短文本建模。实验结果表明,该算法在六种基准模型中取得了最好性能,证实了该模型的合理性与有效性。(3)设计与实现了一套短文本分类系统,并基于数据获取模块爬取搜狗新闻标题作为数据集进行了系统测试。该系统基于M-LDA与Set-CNN两种算法,包含文本获取、文本预处理、词向量预训练、语义拓展以及短文本分类等模块。系统测试结果表明,本文提出的基于语义拓展的短文本分类算法在准确率相对于LSTM提升了约5%。本文也对算法进行了横向比较,结果表明,拓展后的文本比拓展前的文本在分类准确率提高了 22.6%。进一步证明了本文所设计的系统在实际应用中具有较高的使用价值。
其他文献
虽然现代广播节目信号传输稳定性相对较高,但仍然可能会因为解码复用设备或物理链路等方面因素影响,而出现信号中断的状况.为保证节目输出质量,广播领域加大了对节目信号传输相关内容的研究力度,并对中波发射台维护管理工作予以高度重视,希望通过有效管理保证最终节目播出效果,鉴于此,本文在此将着重对广播节目信号传输和中波发射台维护管理两部分内容展开探讨.
卫星广播电视的传播面较广,可以覆盖全国范围,在现代化发展背景下,其在信息传播方面起到不可替代的重要作用.本文以广播电视通信卫星的抗干扰技术为探讨主题,分析阻塞式干扰、插播式干扰、自然环境干扰以及转发器干扰等通信卫星的常见干扰类型,阐述卫星抗干扰技术、地球站抗干扰技术、监控系统抗干扰技术以及转发器的抗干扰方式等多样化抗干扰技术的具体应用.
随着科学技术的发展,信息化时代到来,广播电视成为了人们接收时讯、掌握知识、消遣娱乐的重要媒介,在生活中占据着重要地位,因此,要保障广播电视播放的效率,需要加强对广播电视传输系统的管理与维护.工作人员要熟练掌握广播电视信号传输方式和流程,做好定期检查工作,及时发现问题并运用科学合理的方案解决,以保障电视节目传输的稳定和质量,给观众带来更好的观看体验.
基于我国经济和信息技术的快速发展,基于互联网平台的新媒体取得了快速发展,并逐渐形成了新媒体格局.在信息技术的支持下,人们可以通过不同的渠道获取信息,这直接影响到作为传统主流媒体的广播电视的发展.有鉴于此,广播电视单位应积极运用现代网络技术,改革广播电视节目制作和传播方式,不断加快网络和数字广播电视产业的发展.
边缘计算是物联网演进和云计算技术发展的产物,它在用户侧为用户提供计算、存储、网络等网络基础设施。与传统基于云计算的中心化物联网架构相比,边缘计算解决了云计算在服务过程中通信时延延长、传输流量大的问题,同时为低时延、高带宽的网络应用提供了更好的支持。随着物联网中用户和设备产生的数据量越来越多,边缘计算环境中的安全和隐私问题逐渐成为人们关注的焦点。区块链作为近年来发展迅速的安全技术,已在金融、保险等多
中波广播发射天线在发射系统中有着至关重要的地位,发射天线性能会直接的影响发射系统运行水平,必须掌握中波广播发射天线技术要点,根据实际情况合理运用传播原理,为后期的有效保护提供依据.中波广播发射天线作为一种重要的传播技术,其中波广播是核心,能够推动我国广播事业更好的发展,必须对其分析,全面的维护.本文对中波广播发射台站的抗电磁干扰的分析应用进行分析,以供参考.
纵观近些年我国广播电视行业发展现状,不难发现数字技术作为数据电视技术的重要构成部分,伴随时代发展过程已经成为信息传播领域中的主流技术类型,该项技术应用过程中能更好地满足当代人们对信息传播过程中的主观需求.近些年,人们对广播电视的节目传播效果有更全面的认识,提出的要求也表现出多元化特征,这在很大程度上提升了数字技术在广播电视领域中的地位,该项技术逐渐成为电视行业运作发展的重要支点,故而有必要对其进行深入探究,为广播电视行业发展进步提供更可靠的技术支撑.
随着新时代的发展,广播电视的无线数字化覆盖技术已经得到了很大的提升.为了能够更好地促进无线数字化覆盖工程建设质量的提升,那么就需要更好地针对其中的重点技术进行研究,从而为工程建设提供参考.本文首先针对广播电视台的无线数字化覆盖工程特点进行阐述,然后分析工程建设的基本原则,最后进行工程的实施,包括数字化建设、地面工程建设、自动化监控系统建设、机房配电系统建设以及天馈线系统建设.旨在能够更好地为工作人员提供一些意见,促使数字化覆盖工程建设的质量提升.
应急通信是灾难救援场景中的重要部分。在自然灾害发生时,如果能够快速搭建应急通信网络,恢复受灾地区与外界的通信,便能有效地降低灾难带来的损失,对防灾减灾具有重要意义。而无人机具有低成本、可快速部署、广覆盖等特征,能够有效解决传统通信中地面基站部署成本高,部署速度慢,受地面因素限制大等问题,在应急通信领域有着不可替代的作用。通过对无人机基站的合理部署,可以充分发挥无人机的优势,为地面用户提供高质量稳定
随着科学技术的不断发展以及许多新媒体的出现,虽然在一定程度上冲击了传统媒体,但是广播基于其优势,在新时代依然体现着自身的价值.广播的存在不仅使我们能及时获得信息,还能给人们带来一定的娱乐功能.广播要想实现正常的播放,为人们提供持续平稳的服务,其中作用最大的就是广播发射机.基于此,广播部门要重视广播发射机的维护工作,避免由于发射机出现故障影响广播的正常进行.在广播发射机的使用过程中经常会出现一些故障,维护人员要仔细分析常见故障发生的原因以及故障处理办法,并加强日常的维护,延长广播发射机的使用寿命.本文主要分