论文部分内容阅读
新闻出版行业作为一个“内容为王”的行业,它源源不断地为公众提供以书刊、报纸、杂志等为载体的优质内容,推动社会文化水平稳步前进。近年来,伴随着计算机和互联网技术的快速发展,尤其是人工智能技术的崛起,各行各业都开始利用人工智能技术提升生产效率,提供更加智能和人性化的服务或产品。在人工智能引领的信息“快消”时代,新闻出版业引以为傲的内容已经稍微显得“不合时宜”,比起“阅读全文,总结中心思想”,用户更青睐从知识资源库中智能、高效地获取知识。此外,新闻出版行业的内容生产环节智能化程度偏低,大多数出版人还沿用着老旧的“线下写稿、邮箱传稿、人工校稿”的模式,这就直接导致了内容创作与编审效率较低、内容质量过分依赖个人水平、稿件版本管理混乱、难以回溯等诸多问题。同时,新闻出版行业产出的内容本身也缺少美观、高效的智能化承载终端,用户的阅读习惯和偏好无法直接对内容生产环节形成反馈,进而可能导致内容和市场需求相偏离。本文主要围绕新闻出版行业面临的上述问题开展研究,基于自然语言处理及其它智能处理方法设计解决方案。在内容资源数据组织方面,本文设计了一种能够优质高效构建知识体系的方案,同时提出了适用于新闻出版业的基于标签权重的新词发现算法用于词库的构建;在内容创作方面,本文提出了一套完善的线上撰稿方案,并针对创作环节设计了基于自然语言处理的智能文字润色算法;在稿件编审方面,本文在线上审稿系统的基础上,设计了能够提升编审效率和质量的智能错别字校对算法和修改痕迹比对算法;在内容发布方面,本文设计了一套智能化的阅读平台,提供了包括用户阅读行为采集与分析方案、跨平台加解密方案、基于双语语料库的双语对照方案在内的多种智能阅读解决方案。本文的研究成果能够很好地解决新闻出版行业所面临的问题,提升新闻出版行业的核心竞争力。本文的具体研究内容和主要创新点包括以下几个方面:(1)基于新词发现算法的知识体系构建系统:本文所探讨的基于新词发现算法的知识体系构建系统的设计目的是为了实现新闻出版业从内容服务向知识服务的转型,核心研究点是基于标签权重的新词发现算法。该算法能够实现基础词库的新词智能发现与自动清洗扩展,同时建立知识点元素词间关系,实现靶向知识点的关联提取,将输出内容从知识点丰富为关联知识体系。为了提升系统的可扩展性与普适性,设计时考虑了词库、算法、计算能力、标签、例外词库的扩展架构体系,同时采用“机器自动+人工辅助”的实现方式,在提升系统可用性的基础上提供了优化算法的实验基础。(2)基于自然语言处理的智能创作算法和媒体融合方案:设计了一个智能创作与采编发一体的融媒体平台,其目的是将新闻出版行业的优秀内容资源碎片化之后进行语意分析与处理,最终输出语料库。本方案的核心思路是将优质内容通过资源预处理、中文分词、元数据补全以及语义处理等流程处理成为润色语料库。然后通过本文搭建的内容评价模型评价用户输入的文本内容和润色语料库中内容的匹配度,最终输出语料库中与用户表达意思相近的内容,从而为内容创作者提供内容润色建议。基于本方案实现的系统目前已经在合作新闻出版传媒机构进行试点运行,运行结果和用户反馈表明,该平台能够很好地为新闻媒体工作者提供内容创作的智能辅助服务,在工作效率和内容产出质量上都能带来提升。这一研究将为新闻出版行业提供一套智能化的工作平台,对于推进媒体全面融合有重要的价值。(3)稿件编审中智能校对和修改痕迹比对算法的设计:主要研究基于混淆集和N-Gram的错别字校验算法和基于最长公共子序列算法(LCS问题)的修改痕迹比对算法。错别字校验算法能够实现稿件内容中的音近、形似等字词错误的校验,并最终给出用户修改建议。算法的主要思路为:先将输入的文本序列进行分词,然后利用混淆集替换分词后的词组,最后通过算法打分确认输入文本序列的正确用法。修改痕迹比对算法则可以进行中文文本差异比对,旨在智能记录内容的全流程修订记录,从而方便编辑进行内容回溯与问题追踪。算法的主要思路为:用动态路径规划算法求解修改前后文本序列的差异,并使用二维数组进行存储,需要使用的修改信息从数组中顺序提取即可。本研究点的输出成果能够实现编审流程的数字化与智能化,最大程度地避免数据丢失以及修改责任归属不清等问题的产生。(4)基于大数据和人工智能技术的数字阅读平台:对出版业输出内容承载物——阅读器进行设计及实现。设计阅读器的内容解析和呈现方式,以便使阅读体验能够优美而便捷;研究如何智能地采集用户的阅读行为,并分析用户的阅读时间、频率、内容喜好,进而为如何提升出版业内容的吸引力和产品的销量提供建议。本研究选择了Android应用作为切入点,设计了一个内容分层解析、数据多端加密以及用户行为智能采集与云端分析的阅读器系统。另外,由于本系统将会为高校双语教学提供服务,因此,其中的阅读行为分析算法基于大数据技术,智能统计读者(学生)的阅读数据,输出能够为教学质量评估提供服务的阅读习惯报表,从而指导教学环节的进行。