面向数字化出版的数据资源智能处理关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xsl_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻出版行业作为一个“内容为王”的行业,它源源不断地为公众提供以书刊、报纸、杂志等为载体的优质内容,推动社会文化水平稳步前进。近年来,伴随着计算机和互联网技术的快速发展,尤其是人工智能技术的崛起,各行各业都开始利用人工智能技术提升生产效率,提供更加智能和人性化的服务或产品。在人工智能引领的信息“快消”时代,新闻出版业引以为傲的内容已经稍微显得“不合时宜”,比起“阅读全文,总结中心思想”,用户更青睐从知识资源库中智能、高效地获取知识。此外,新闻出版行业的内容生产环节智能化程度偏低,大多数出版人还沿用着老旧的“线下写稿、邮箱传稿、人工校稿”的模式,这就直接导致了内容创作与编审效率较低、内容质量过分依赖个人水平、稿件版本管理混乱、难以回溯等诸多问题。同时,新闻出版行业产出的内容本身也缺少美观、高效的智能化承载终端,用户的阅读习惯和偏好无法直接对内容生产环节形成反馈,进而可能导致内容和市场需求相偏离。本文主要围绕新闻出版行业面临的上述问题开展研究,基于自然语言处理及其它智能处理方法设计解决方案。在内容资源数据组织方面,本文设计了一种能够优质高效构建知识体系的方案,同时提出了适用于新闻出版业的基于标签权重的新词发现算法用于词库的构建;在内容创作方面,本文提出了一套完善的线上撰稿方案,并针对创作环节设计了基于自然语言处理的智能文字润色算法;在稿件编审方面,本文在线上审稿系统的基础上,设计了能够提升编审效率和质量的智能错别字校对算法和修改痕迹比对算法;在内容发布方面,本文设计了一套智能化的阅读平台,提供了包括用户阅读行为采集与分析方案、跨平台加解密方案、基于双语语料库的双语对照方案在内的多种智能阅读解决方案。本文的研究成果能够很好地解决新闻出版行业所面临的问题,提升新闻出版行业的核心竞争力。本文的具体研究内容和主要创新点包括以下几个方面:(1)基于新词发现算法的知识体系构建系统:本文所探讨的基于新词发现算法的知识体系构建系统的设计目的是为了实现新闻出版业从内容服务向知识服务的转型,核心研究点是基于标签权重的新词发现算法。该算法能够实现基础词库的新词智能发现与自动清洗扩展,同时建立知识点元素词间关系,实现靶向知识点的关联提取,将输出内容从知识点丰富为关联知识体系。为了提升系统的可扩展性与普适性,设计时考虑了词库、算法、计算能力、标签、例外词库的扩展架构体系,同时采用“机器自动+人工辅助”的实现方式,在提升系统可用性的基础上提供了优化算法的实验基础。(2)基于自然语言处理的智能创作算法和媒体融合方案:设计了一个智能创作与采编发一体的融媒体平台,其目的是将新闻出版行业的优秀内容资源碎片化之后进行语意分析与处理,最终输出语料库。本方案的核心思路是将优质内容通过资源预处理、中文分词、元数据补全以及语义处理等流程处理成为润色语料库。然后通过本文搭建的内容评价模型评价用户输入的文本内容和润色语料库中内容的匹配度,最终输出语料库中与用户表达意思相近的内容,从而为内容创作者提供内容润色建议。基于本方案实现的系统目前已经在合作新闻出版传媒机构进行试点运行,运行结果和用户反馈表明,该平台能够很好地为新闻媒体工作者提供内容创作的智能辅助服务,在工作效率和内容产出质量上都能带来提升。这一研究将为新闻出版行业提供一套智能化的工作平台,对于推进媒体全面融合有重要的价值。(3)稿件编审中智能校对和修改痕迹比对算法的设计:主要研究基于混淆集和N-Gram的错别字校验算法和基于最长公共子序列算法(LCS问题)的修改痕迹比对算法。错别字校验算法能够实现稿件内容中的音近、形似等字词错误的校验,并最终给出用户修改建议。算法的主要思路为:先将输入的文本序列进行分词,然后利用混淆集替换分词后的词组,最后通过算法打分确认输入文本序列的正确用法。修改痕迹比对算法则可以进行中文文本差异比对,旨在智能记录内容的全流程修订记录,从而方便编辑进行内容回溯与问题追踪。算法的主要思路为:用动态路径规划算法求解修改前后文本序列的差异,并使用二维数组进行存储,需要使用的修改信息从数组中顺序提取即可。本研究点的输出成果能够实现编审流程的数字化与智能化,最大程度地避免数据丢失以及修改责任归属不清等问题的产生。(4)基于大数据和人工智能技术的数字阅读平台:对出版业输出内容承载物——阅读器进行设计及实现。设计阅读器的内容解析和呈现方式,以便使阅读体验能够优美而便捷;研究如何智能地采集用户的阅读行为,并分析用户的阅读时间、频率、内容喜好,进而为如何提升出版业内容的吸引力和产品的销量提供建议。本研究选择了Android应用作为切入点,设计了一个内容分层解析、数据多端加密以及用户行为智能采集与云端分析的阅读器系统。另外,由于本系统将会为高校双语教学提供服务,因此,其中的阅读行为分析算法基于大数据技术,智能统计读者(学生)的阅读数据,输出能够为教学质量评估提供服务的阅读习惯报表,从而指导教学环节的进行。
其他文献
视频与图像是机器人获取信息的主要渠道,自然语言是人与机器人沟通最自然的方式。服务机器人以家庭为主要工作环境,以人类为主要服务对象,为方便与人类沟通,服务机器人应当具
随着电力电子技术、传感器技术、电机控制技术的不断发展,以及高性能数字信号处理器技术的不断进步,雷达方位信号处理系统逐渐由模拟控制系统向数字控制系统发展,先进的控制
近年来,随着互联网技术和多媒体技术的飞速发展,用户使用互联网在线观看各种视频已成为一种普遍现象。如何满足人们日益增长的对视频资源的需求,使广大用户获得更好的视频观
软弱破碎围岩超长隧道建设面临强岩溶、高地应力及高瓦斯等极端恶劣地质条件的挑战。桐梓隧道建设过程中,多次穿越软岩及破碎围岩等不良地质环境,且建设里程长,传统施工工法进度缓慢。本文以桐梓隧道为研究背景,结合室内模型试验及数值模拟方法,研究了不同工法下的施工力学特性,并进行了工法比选,得出了研究段高效安全施工工法。主要研究内容如下:1.在桐梓隧道研究段掌子面处钻芯取样,加工成标准试件,在RMT-301岩
随着近些年互联网的普及和发展,数字图像的数量急剧增长,图像的检索方法也由基于文本转变为基于内容。随着大量触摸屏设备的出现,一种新的基于草图的图像检索方法引起了研究
社会责任信息披露一直是学者们研究的热点问题,我国政府也积极鼓励企业对社会责任履行情况进行披露,这使得企业社会责任信息披露的情况在数量和质量层面近年来都朝着良好的态势发展。虽如此,我国上市公司在社会责任信息披露仍然存在着不足,一是披露的企业占比不高,二是披露质量偏低。另一方面,金融业已经成为影响经济增长不可忽视的因素,对我国的市场经济有着重大的影响,推动我国金融业的健康发展是一个急需解决且不容忽视的
学位
脑图像的分割对于脑组织病变检测和诊断有重要的医学意义。临床对脑疾病的检测与分析多采用核磁共振成像(MRI)技术,由于其具有对软组织对比度高,能够多方向切层、多参数成像
项目制在社会领域的拓展为政府职能转移、加强公共物品供给提供了重要的技术手段,同时其也培育和推动了社会组织的发展。它们以承接政府项目为主要内容,获取项目资金、开展业务,逐渐加深与政府合作并扩大社会影响力。然而,在项目制运作下,这些社会组织严重依赖政府资源,行政化倾向突出,呈现出较强的工具属性,在促进社区自治、培育社区公益方面能力有限,偏离了促进社区发展的“价值性”功能。而且,在项目制服务购买中,其服
无线传感器网络以其自身功耗小、成本低、分布式和自组织等特点,广泛应用于智能交通、医疗保健、智能家居、工业控制等领域。密码技术是无线传感器网络中保障数据机密性和可
林业生态工程是指依据生态工程学和森林生态学的基本原理,设计、建造的以木本植物为主体、协调人与自然关系的一种生产工艺系统。林业生态工程对于涵养水源、保持水土、防风