面向科技资讯领域的数据采集系统的设计与实现

来源 :中国科学院大学(中国科学院沈阳计算技术研究所 | 被引量 : 0次 | 上传用户:abby412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代来临之际,知识互联成为人们普遍关心的问题。面向科技资讯领域的数据采集系统可以为用户查询科技资讯类数据并提供专业且分类明确的领域信息,同时提高科技类知识图谱的构建效率。构建科技资讯领域的数据采集系统以资讯类文本作为基础数据,同时为了提升科技资讯领域数据的检索能力以及存储速率,将获取到的异构数据源数据,根据数据类型的不同进行融合存储管理,同时对获取到的数据加以文本分类,进而为知识图谱的构建提供精准的数据支撑,缩短数据处理时间,提高图谱构建速率。本文主要工作内容如下:为了解决网页异步加载问题,本文基于Scrapy框架,设计面向科技资讯领域的数据采集子系统,通过对所需数据采集的网页进行预处理,制定网页动态智能采集策略,解决传统页面分析方式下网页数据利用率低以及采集效率不高的问题。为了解决异构数据的存储问题,本文设计了一种融合存储管理方案。根据所需存储的数据结构特性,将获取到的异构数据源划分为网站政策通知类文本数据、工业产品信息类结构化数据以及知识信息类半结构化数据,并分别存储于HDFS、Hive、Mongo DB中,对数据进一步加以分类,缩短图谱构建时的查询时间。为了提高科技资讯类文本分类的准确性,本文设计了一种基于BERT模型,加入科技相关专业领域语料特征,进行科技资讯类文本的自动分类研究。并与TF-IDF算法相结合,增强单独词汇对文档的影响,使词向量赋有权重信息,改善了文本词向量化的精准度,从而降低数据检索时的查找时间。综上,面向科技资讯领域的数据采集系统,具备数据自动获取、文本分类以及数据结构化存储的功能,能够解决科技资讯领域信息采集、存储以及查询效率较低的问题,并在性能以及准确性上进行了相关验证。
其他文献
当下,医院的经营模式正经受着多重挑战,药品"零加成"、医疗服务价格调整等新政策新形势都要求医院经营模式进行转型。在这样的形式下,医院业界纷纷将目光转向了耗材精细化管理以期降低医院运营成本。但是仅关注于医院内部单个环节的成本管理,往往顾此失彼使得医院耗材总成本失衡,无法减少医用耗材带来的成本压力。借鉴SPD的管理模式,将有效平衡医院耗材管理各环节成本压力。因此,基于SPD管理模式对公立医院成本管理进
目的 观察左乙拉西坦联合奥卡西平治疗癫痫的临床效果。方法 回顾性分析2020年1—12月福建医科大学附一闽南医院收治的92例癫痫患者临床资料,根据是否联用药物治疗分为联合组和奥卡西平组,各46例。2组患者均予对症治疗,在此基础上,奥卡西平组予奥卡西平治疗,联合组在奥卡西平组基础上加用左乙拉西坦治疗,2组均以6个月为1个疗程。比较2组治疗效果、治疗前后癫痫发作情况(每年发作次数与单次发作持续时间)、
期刊
<正>主题学习是一种高质量的语文教学形式,在主题学习中应用读写结合教学模式可以将阅读对象视为基础,据此展开一系列的朗读、写作训练活动,有助于提高小学生的语文学习能力水平。现阶段小学语文主题教学中存在不同的问题,影响学生的学习积极性和教学质量,教师应当细致分析问题成因,在学生的主题学习过程中应用好读写结合教学模式,让学生在接触不同类型文本时都能掌握高效的学习方法,不断在“读写”过程中积累学习经验、开
期刊
目的 本文旨在探讨精益化SPD管理模式在高值医用耗材管理中的应用效果。方法 基于对现有医用耗材管理系统的分析,利用技术手段和软件功能设计,推进以精益化SPD系统为支撑、UDI-DI信息为核心的高值医用耗材精细化、科学化管理,通过扫码实现高值医用耗材从生产、采购、验收、入库、出库、配送到使用的全生命周期可追溯管理。结果 与传统管理模式和精益化SPD管理模式的应用效果进行对照,实施后护理人员每周用于耗
安岳县中医医院坚持“以人民健康为中心”理念,为全县160万群众提供覆盖全生命周期的中医药服务。医院坚持中医办院方向,创新“一院多区协同”发展模式,多方发力提升中医药服务能力及服务质量,实现中医院快速发展,成为三级甲等中医医院,在全省县级中医医院中处于领先地位。
<正> 一、前言激光功率是激光的最基本的测量参数,日本电子技术综合研究所,以建立国家标准为目标,从1973年就开展了精密测量技术的研究,表1表示其发展与现状。以激光为对象,
期刊
聚合物因其优异的电绝缘性能、力学性能、加工流变性能等被广泛应用于电力设备如电线电缆、绝缘子等的电气绝缘。随着输变电系统电压等级的升高及电线电缆的大负荷传输,因电线电缆绝缘问题引发的火灾日趋严重,由此导致的生命及环境危害引起高度重视,因而对聚合物绝缘材料的阻燃性能提出更高要求。综述了针对电线电缆绝缘的无卤阻燃聚合物绝缘材料研究进展,讨论了材料组成、结构、性能及其阻燃机理,阐明了其性能优势及不足,以期
以枸骨花多酚提取量为考察指标,在单因素试验的基础上,用Box-Behnken响应面法优化超声辅助提取枸骨花多酚的工艺条件,并以·O-2、 DPPH·和·OH清除能力考察枸骨花多酚的抗氧化能力。结果表明:枸骨花多酚的最佳提取工艺为料液比1∶21 (g/mL)、超声功率276 W、乙醇体积分数58%、提取时间51 min,在该条件下枸骨花多酚提取量为(23.24±0.13)mg/g。枸骨花多酚对·O-