面向论坛的文本特征提取及分类技术研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:bldhdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的时代,各种网络论坛已经成为人们最常浏览的“报纸”,最活跃的社区,各种爆料、头条等成为这个时代信息传播蔓延的的种子,加上网络空间的自由性,对这部分信息进行有效管控是社会舆情监控的重要内容,也是引导社会健康发展的必要手段。本文以河北舆情监测项目为支撑,针对石家庄人民关注较高的“石话石说”板块内容进行数据采集、数据处理、特征提取、分类研究,得到人们最关注的话题,采取的具体步骤如下:首先,作者针对论坛板块复杂、无序的特性以及网站本身的结构特点,利用网络爬虫技术设计数据下载器,通过采取中文常见的垃圾去除、分词、去高、低频词等技术得到原始的数据集。然后,为了有效的对文本数据集进行表示,本文采取经典LDA主题模型。在特征提取过程中,作者针对在文本特征选择词语维数较高、主题特征词意思重复、以及在分类应用中准确率随着数据集数量的变化波动较大等问题进行研究,设计了一种基于词义降维的主题特征选择算法,实验证明该算法运用语言学和统计学知识,将词语的概率相关性和语义相关性融合到一起,使文档的主题表示更具有代表性。最后,作者针对所提取文本特征的向量特性,通过设定相似度阈值的方式采用k近邻对数据进行分类,并统计出人们关注的热点方向。
其他文献
由于无线数据和多媒体业务的需求,Beyond3G以及4G移动通信系统的目标是实现无所不至、高质量、高速率的移动多媒体传输。它要求在高载频和宽带上支持2Mbit/s至数十兆比特/秒的高
溶液浓度变化的检测和测量是化学,生物学,材料学等领域十分关注的研究课题。在生物领域,可以利用测量细胞体内的浓度分布及其变化来分析活体细胞;在晶体生长过程中,晶体表面浓度分
Ad Hoc网络是一种可独立存在的新型的无线网络,它具有很高的灵活性和可靠性,从而具有广泛的应用远景。但在实际应用中,存在着诸如移动终端需要访问Internet资源、不同Ad Hoc
目标提取是图象处理、模式识别和人工智能等多个领域中一个重要但困难的问题,是计算机视觉技术中重要的关键步骤。图像特征的提取和识别,依赖于对图像分割的结果,而近年来人
2013年国务院正式发布“宽带中国”战略实施方案,首次将宽带网络明确为国家战略性公共基础设施,标志着宽带战略从部门行动上升为国家意志。在此背景下,各大通信运营商均加大
目前,城市的迅速发展使得大量外地人口涌入城市,给社会治安带来很大压力。工厂、机关和居家失盗、抢劫事件时有发生,个别地方尤为严重,损失惊人。由此引起公安部门的高度重视和社
小波变换由于其自身的诸多优点,已经被应用到诸多领域,其中的一个应用是图像数据压缩。JPEG2000标准就采用小波变换为主的多解析编码方式,具有高压缩比,支持渐进传输和“感兴
MIMO-OFDM技术将OFDM与空时编码技术有机的结合在一起,能够大幅度地提高无线通信系统的信道容量和传输速率,并能有效地抵抗多径衰落、抑制干扰和噪声,而这些只需要小的额外的功
协作通信技术利用无线网络的广播特性,使得到达目标接收端的信号能被协作伙伴“旁听”到,协作伙伴对这些旁听到的信息处理后并传送到目标接收端,目标接收端合并处理来自这些移动