【摘 要】
:
文献中包含的数据大多以非结构化的形式存在,多用于展示文献的核心实验条件、过程及结果,拥有非常重要的意义。而如何快速理解非结构化数据的内容在今天仍然是一个巨大的挑战。尽管有一些优秀的学术搜索引擎可以检索图片信息,但它们反馈的结果只有图片或是图片标题,没有侧重于图片具体内容描述,研究者无法通过简单的搜索理解详细内容,若引入自动生成图片摘要功能可以帮助研究者更好地理解复杂多样的图片内容。非结构化元素的形
论文部分内容阅读
文献中包含的数据大多以非结构化的形式存在,多用于展示文献的核心实验条件、过程及结果,拥有非常重要的意义。而如何快速理解非结构化数据的内容在今天仍然是一个巨大的挑战。尽管有一些优秀的学术搜索引擎可以检索图片信息,但它们反馈的结果只有图片或是图片标题,没有侧重于图片具体内容描述,研究者无法通过简单的搜索理解详细内容,若引入自动生成图片摘要功能可以帮助研究者更好地理解复杂多样的图片内容。非结构化元素的形式多种多样,如文本、图片、表格等,需要不同的方法进行解析与解读。因此,如何从生物文献图片中自动解析关键词数据并生成高标准的文本描述是研究的重难点。图文本生成主要分为图片解析和文本生成两个方面,在图片解析步骤中要注意图片的多变性和冗乱变形,然而,以往的图片解析方法大多忽视了这些问题或是直接人工排除干扰数据,导致这些方法的应用效果不佳。在文本生成过程中需重视文本的准确性、逻辑性与丰富性,现有的文本生成方法在生成长文本和凝练重要信息方面还有很大的改进空间。针对上述问题,本文构建了一套从生物文献图片的视觉特征映射到高层次的文本语义生成模型的流程。主要研究内容如下:(1)为了解决图片的不规则性和减少实体干扰项的影响,本文提出了基于全局上下文的科学图片解析优化模型(Multi-Fig PRO)。在端到端的生物文献图片到数据的提取流程中,需要进行图片定位、子图切割、图片分类和图片解析步骤。本文采用PDF格式的生物文献作为原始数据,利用连通像素定位轴、图例进行分析,然后锁定绘图区域,使用回归路径模拟图例对应的曲线。通过引入全局上下文特征对图片进行标准化输出,相比于其他的基线模型如Figure Seer和Parsing Pro,可以获得更好的解析效果。(2)提出并实现了基于句子掩码机制的联合式文本生成模型(Uni GM),对图片进行语义理解。利用全文知识库对本文在图片解析部分获取的关键词数据进行语义标注,然后基于内容规划、句子规划和句子实现三个步骤进行数据到文本的生成。随后从全文提取与图片相关性高的候选语句,将上述文本融合并导入联合式生成模型中。模型中抽取器部分是基于缺失句子生成(Gap Sentences Generation,GSG)和掩码语言模块(Masked Language Model,MLM)的分层Transformer模型,用于得到重要语义文本内容,生成器部分是基于复制机制的Transformer模型,用于重要内容改写。与基线模型相比,Uni GM模型优化了文本的生动性、丰富性及流畅性,生成的最终文本可以获得更高的ROUGE值。(3)实现了生物文献图搜索引擎。本文共获取约20万篇生物文献,基于图片解析流程从文献中获取约42.6万张图片,其中包含7万多张折线图,然后应用图文本生成流程得到关于图片的详细内容描述,最后基于图片中的关键词,将相似度高的图片进行多文本生成。因此,当研究者使用搜索引擎查询图片时,反馈的不仅仅局限于该张图片的内容,而是更为全面的描述。本文在图搜索引擎中的应用让图文本生成的信息有了实际应用价值,更为后续研究者的入门、学习及研究提供便利。
其他文献
绘本一词源自日语“えほん”,意思为图画书,是指画出来的书。以图画为基本形式的绘本书,相较于以文字为主要载体的其他书籍而言,具有直观性。绘本创作以绘画主导叙事,具有独特的形式美感。而与传统绘本相比,在绘本中添加书籍的立体形态可以进一步增强叙事内容的直观性,还会增加读者与绘本的互动性,同时提升绘本的趣味性。图画与立体形态结合产生的独特视觉效果会激发读者的想象力和探索欲,并吸引读者阅读和购买。该课题研究
英语作为外国语言,多数学生是不熟悉英语的,更别说用英语交流学习。再者,由于国家政策,许多学生是独生子女,性格内敛,不善与人交流。所以,学生的口语交际能力有限,教师需要运用合适的方法,指导学生进行口语交流。口语教学是英语的学科重点,也是学生提高英语听力的首要任务。教师要为学生提供良好的交流环境,鼓励学生深入表达和深度交流,养成英语表达的习惯。本文从口语教学的现状出发,探究提升口语教学和学生口语能力的
房地产行业作为民生行业,一直在我国的国民经济中占据重要位置。随着国家宏观政策的调控和市场形势的变化,房地产企业一直沿用的是重资产模式在现阶段已经难以继续生存,土地储备的增值收入对企业利润的贡献率逐渐下降,而其资产周转缓慢、资金成本高昂的弊病也逐渐凸显。在此背景下,企业开始转变发展思路,寻求转型,轻资产运营模式成了许多企业的首选。轻资产运营模式旨在通过小额的资金、较轻的资产投入来获取高额的利润回报,
<正>菏泽经济开发区税务局深入落实国家减税降费工作安排,聚焦主责主业,坚定服务"六稳""六保"大局,通过"五个一"进行全面推进,持续做好组织收入与减税降费两者之间的"加减法",切实减轻企业负担、激发市场活力。"一棋统筹",始终以一把手工程带动,通过建立专班、全局统筹、整体布局,上下拧成一股绳,共同推进减税降费工作。"一表推进",汇总全年重点工作任务清单表,挂图作战,对标对表,到点验收,保障8大类1
为深入贯彻落实“双减”政策要求,促进小学英语课堂教学的有效开展,提升学生的学习效率。本文就“双减”政策下如何构建小学英语高效课堂进行了探索实践,即帮助学生明确学习目标、创设有效的教学情境、利用信息技术优化教学模式以及科学设计分层教学练习。
科技成果评价作为成果顺利转化和有效运用的关键环节,在激励科研人员积极性、提升企业自主创新能力和竞争力等方面具有重要意义。文章基于前期发达国家科技成果评价典型经验做法和国内部分省份先行先试做法梳理,通过调研江苏省政、产、学、研、金等多元主体在科技成果管理、成果转化、产学研合作等方面的实践成效,厘清科技成果评价工作中存在的瓶颈难题,提出进一步推动江苏省科技成果评价机制改革工作的对策建议。
“双减”政策背景下,如何突破英语教学的旧有模式,在人本理念的指导下切实减轻学生的学习负担,化解学生的畏难心理,提升学生的学习质量,是教师应该思考的问题。本文以提质增效为目标,对当前的小学英语教学中存在的一些问题进行分析,在此基础上从多个方面对英语高效教学的方法展开探究,以期提高小学英语教学质量。
《义务教育语文课程标准(2022年版)》(下文简称为《课标》)强调语文课程的多重功能和奠基作用,这决定了语文在学生九年义务教育中的重要地位。课程内容是决定教学效益的重要因素,探讨《课标》背景下小学语文课程内容的实施与编排,有助于推进课程改革,促进小学生的语文学习能力提升。从《课标》背景下的小学语文课程编排情况出发,研究课程内容的主题指向与形式,从不同视角探讨甄别有价值的教学内容,在丰厚的教材内容中