【摘 要】
:
当今互联网时代,海量信息包含于海量网页中,潜藏着巨大的商业价值,这使得网页分类日益成为一个受人关注的研究领域。随着互联网在我国的普及和发展,中文网页分类已成为一个重要的研究课题。多标签分类是指数据集的分类体系中有多个类别标签,但一个样本可同时归属于多个标签。以往的网页分类方法大多基于文本分类技术,但网页文本又有其构成上的特殊性,我们认为可以利用外部链接网页的相关信息来提高网页多标签分类的准确性。本
论文部分内容阅读
当今互联网时代,海量信息包含于海量网页中,潜藏着巨大的商业价值,这使得网页分类日益成为一个受人关注的研究领域。随着互联网在我国的普及和发展,中文网页分类已成为一个重要的研究课题。多标签分类是指数据集的分类体系中有多个类别标签,但一个样本可同时归属于多个标签。以往的网页分类方法大多基于文本分类技术,但网页文本又有其构成上的特殊性,我们认为可以利用外部链接网页的相关信息来提高网页多标签分类的准确性。本论文工作包括多标签中文网页数据集的构建、基于当前网页内容进行分类的模型设计、以及结合外部链接网页信息对当前网页进行分类的模型研究。本论文的核心创新点在于提出多信息融合的卷积神经网络模型,有效地融合了当前网页和多个外部链接网页的信息,提高了对当前网页进行多标签分类的准确性。在本论文的工作中,首先使用分布式爬虫爬取中文网页,自行搭建一个简易的标签标注WEB系统,对中文网页进行多标签标注,构建多标签中文网页数据集。本文改进了基于权重排序构造算法的WOCA-SVM模型,同时提出了WOCA-NB模型,以及修改了用于单标签多分类的TextCNN原模型使其可以用于多标签中文网页分类;这些模型都是基于当前网页内容进行分类。更重要的是,本文提出了结合外部链接网页信息的网页分类卷积神经网络模型(PageCNN)及两种拓展模型(PageCNN-CLL和PageCNN-WLL),有效地融合从多个外部链接网页中提取的文本和标签信息。在实验部分,我们将本文所提出的PageCNN模型及其拓展模型与WOCA-SVM、WOCA-NB、改进的TextCNN模型、当前主流的多标签文本分类深度学习模型进行了比较。实验结果表明,PageCNN系列模型在子集准确率、汉明损失、宏F1和微F1等方面均优于比较模型,验证了本文提出的多信息融合方法可以有效地处理来自当前网页和多个外链网页的输入信息,提高了多标签中文网页分类的性能。
其他文献
夜经济作为推动新一轮消费升级的重要力量,是体现城市活力的重要指标,提高居民生活水平的必要途径,更是助力城市经济发展的强心剂。在当前夜间经济比重不断加大的背景下,重庆加紧了夜间经济建设的步伐。本文通过对重庆夜间经济发展的分析,提出当前重庆夜经济发展的问题和对策。对发展夜间经济和寻找发展突破点,促进重庆总体经济的良性发展具有一定的指导意义。
节约能源,降低碳排放,早日实现“碳达峰、碳中和”,是当前的重要任务。电子工业是重点发展产业,但也是耗能巨大的产业,因此电子工业节能意义重大。近年来陆续出台电子工程节能设计、施工及验收规范,对实际工作具很强指导作用;但迄今未有电子工程节能评价规范出台,而评价是工程建设前及建设后必不可少的环节。为了更好地评估电子工程的节能效果,本研究建立了一套适用的电子工程的节能评价体系,并结合实际案例进行了验证,以
吸附强化乙醇水蒸气重整制氢技术(SE-SRE)因产氢纯度高、温室气体排放少和原料可再生等特点而受到广泛关注。硅酸锂(Li4Si O4)凭借捕集性能良好和循环稳定性优异等优势而成为极具发展潜力的重整制氢吸附剂,但是制备成本较高。本文制备了一种新型的廉价硅酸锂吸附剂,并用一步石墨成型法对其进行造粒成型,最后将吸附剂球粒应用于吸附强化蒸气重整制氢工艺中并对实验参数和循环稳定性进行探索。本文首先通过高温固
蛋白质酪氨酸硝化是一种重要的蛋白质翻译后修饰。在蛋白质的酪氨酸残基酚羟基的邻位上引入了一个大体积的吸电子基团硝基,生成3-硝基酪氨酸(3-Nitrotyrosine,3-NT),从而改变蛋白质的结构,并可能影响蛋白质功能。在一些疾病(如神经退行性疾病、心血管疾病和糖尿病等)中发现3-NT的含量异常升高,并认为3-NT的形成与这些疾病的发生发展有关,但具体的影响机制却不明确。血管活性肠肽(vasoa
近年来随着数据密集型应用的不断涌现,系统对高密度、低功耗内存的需求越来越迫切。多级单元自旋扭矩存储器(Multi-Level Cell Spin Transfer Torque RAM,MLC STT-RAM)由于存储密度大、静态功耗极低等优点,有望取代动态随机存储器(Dynamic Random Access Memory,DRAM)成为各种新型物联网设备的下一代内存。但是,传统的缓存替换策略未
基于固态盘(Solid State Drive,SSD)和日志结构合并树(Log Structured Merge Tree,LSM-tree)的键值存储(Key-Value Store)由于其高性能和高可扩展性已经得到了广泛的应用。LSM-tree键值存储执行compaction操作(一种包括对数据进行读取、合并排序和写回以剔除失效键值对和保证键值对顺序性的操作)与SSD进行垃圾回收(Garba