面向大宗商品资讯的信息抽取技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ken112233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是一种能够从文本中抽取指定的实体信息、关系信息、事件信息等信息的文本处理技术,目标是获取机器可读的信息。据我们所知,目前的信息抽取多集中在医疗、金融、商品评论等特定领域,面向大宗商品资讯的信息抽取研究较少。因此本文针对大宗商品资讯的信息抽取进行了研究,抽取信息包括主题信息、实体及实体属性信息、以及关键词信息。研究内容如下:(1)通过句子分类实现句子主题信息的抽取,提出了基于卷积神经网络和注意力的主题信息抽取模型SACNN。实验结果表明,基准数据集上SACNN模型比其他CNN模型的准确率高出0.4%-1.4%,SACNN模型对大宗商品资讯主题信息抽取的准确率达到和基准数据集SST-1相当的效果,该模型具有一定的理论性和可行性。(2)提出了基于依存句法分析和规则的实体信息抽取方法,抽取的信息包括实体信息及实体属性信息。首先,根据依存句法分析获取的句法关系和抽取规则做匹配,获取实体信息。其次,根据词典和固定语法模式做匹配,获取实体属性信息。实验结果表明,实体及实体属性抽取的准确率、召回率、F1值分别为86%、79%、82。该方法能够获得较好的实体抽取效果,具有一定的可行性。(3)提出了一种基于词向量聚类的关键词信息抽取方法,实现了大宗商品资讯的文章层级的关键信息抽取。实验结果表明,在螺纹钢数据集大小为7000篇和700篇时,实验的F1值分别为78.75,81.43。该方法在自动化提取关键词的同时,也能够获得较好的提取效果。
其他文献
在诸多天然气脱硫工艺技术中,吸附脱硫法因其具有简单、便捷、经济等特点而被广泛应用.为了考察吸附脱硫法对天然气中多组分有机硫的脱除效果,针对高含硫天然气中的甲硫醇、乙硫醇、丙硫醇、羰基硫、二硫化碳、甲硫醚和噻吩等7种有机硫组分,采用13 X分子筛为固体吸附剂进行同时脱除实验,利用动态吸附法考察了吸附温度、吸附压力、气空速以及再生次数对有机硫在吸附剂上穿透硫容的影响.分析对比实验结果可知:7种有机硫组分在13 X分子筛吸附脱除过程中存在吸附竞争现象;13 X分子筛对硫醇、甲硫醚和噻吩的脱除性能均较好,可用于工
随着移动互联网的飞速发展,移动通信网络的数据流量激增。但是6GHz以下的授权频谱资源十分稀缺,难以持续满足移动数据流量的需求。第四代移动信息系统(The Fourth Generation mobile communication system,4G)引入非授权辅助接入(Licensed Assisted Access,LAA)技术将授权频段的数据流量卸载到非授权频段提高网络容量。第五代移动通信系
原油储罐自动脱水器是在储罐生产运行中用于切水的重要设备,其选型是否恰当直接影响到原油脱水指标能否达标.在分析原油储罐自动脱水器脱水原理及结构的基础上,对其选型进行研究.研究结果表明:1)原油储罐脱水应选择自动脱水方式;2)对于密度和黏度变化大的油品以及重质油品,建议选用不受限于稳定油水界面、安装简单、维护方便的液柱谐振式管道式自动脱水器;3)对于油水分层明显的清洁轻质油品,建议选用不易受乳化层影响、油中水含量易于检测的机械浮球式缓冲罐式自动脱水器.研究成果可为原油储罐自动脱水器的选型方案提供借鉴.
随着时代的进步和互联网技术的发展,网络应用被广泛的应用在各个领域,与日常生活的联系越来越紧密,网络应用带来的网络安全问题也变得更加广泛和严重。现今,网络攻击的模式已经由传统的分散性的攻击模式逐渐转变为有针对性的持续性攻击模式。这种模式的网络攻击不易被检测,危害性大,并且通常会留下后门程序便于进行后续网络攻击。WebShell是一种基于网络应用的后门程序,是网络攻击中重要的组成部分,网络攻击者成功的
随着无线智能设备数量的高速增长和新的互联网应用的不断涌现,频谱资源匮乏成为了新一代无线通信系统所面临的挑战。引入全双工技术和D2D(Device-to-Device,设备到设备)技术可以有效提升蜂窝通信系统的频谱效率,与此同时系统内干扰情况变得更加复杂。因此,研究高效的干扰控制算法能够降低系统干扰并提高频谱效率,进而提升系统性能。论文围绕全双工蜂窝D2D通信系统中的干扰场景,深入开展干扰控制算法研