中文短文本相似度算法研究及其在电视节目管理中的应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yp7611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、智能终端的普及和发展,信息化交流越来越便捷,每时每刻都在产生大量的信息,电子文本信息是其中一种重要的传播形式。目前人类已进入了大数据时代,各行各业都在研究如何从海量信息中怎样挖掘出有价值的数据,文本相似度算法研究便是其中一项基础性工作,目前已在信息检索、主题分析、人工智能等多个领域进行了大量研究和应用。短文本泛指文本长度较小,规模巨大、内容稀少、精炼内聚、高时效性、非规范化等特点。本文主要研究短文本相似度的度量指标和相似度算法,其主要目的在于提供一套从内外部数据获取、数值化、计算质量好、完整的相似度计算方法,短文本研究内容在相关领域有着很高的理论价值和应用价值。进入二十一世纪以来,短文本相似度算法研究取得了很大的进展,集中了该领域大部分研究成果。已有的短文本相似度算法的思路主要集中在利用短文本内、外部信息的层面,很少考虑数据之间的联系,因此,它们在处理内容简短、非标准化、非大众化的短文本时的语言时,很难取得好的效果。为了解决这一问题,本文在查阅大量文献和进行大量数据分析的基础上,提出了一种引入分词赋权和段位匹配的短文本相似度算法框架,并且使用电视台的节目短文本语料作为实验数据,提出了一种基于文本拓展的节目短文本相似度算法,同时,以此为基础开发出一套完整的电视台节目管理软件。具体来说,本文的贡献主要体现在以下四个方面:(一)引入聚集爬虫技术和现有专业领域网络资源,定时从网络上爬取新的节目名词,并更新专业语料库,使得本算法在应用过程中能够不断自我完善,匹配率也会维持在较高水平;(二)提出并设计出一套可行的短文本相似度算法,对分词按照节目词语和内容描述词语赋予不同的权重,用各个分词加权平均相似度来表示短文本相似度,使得算法更加贴近专业领域短文本应用场景;(三)结合电视台的实际需求,在短文本相似度算法框架上,提出了一种节目短文本相似度算法,并拓展到同段位节目的匹配,为在同一天多次播出的节目匹配,提供了更优的匹配方法;(四)成功开发出一套能够满足广电部门使用的智能电视节目管理系统,解决了用户进行节目匹配和播出节目查询的应用难题。
其他文献
由澳大利亚著名导演巴兹·鲁尔曼执导的2013版3D大片《了不起的盖茨比》调用了华丽的色彩,渲染了一场美国梦破碎的悲剧,票房成绩打破纪录,可谓名利双收。这种成就的取得与导
<正>&#39;以前总害怕,接上了天然气,不知道咋用,还怕着火爆炸;自从咱村里刷了文化墙,天天能看到墙上这顺口溜,还有这画,一看就知道咋用气了,现在也不害怕了。不错,真不错.&#3
期刊
<正>上海辰山植物园位于上海市松江区佘山山系中的辰山,总规划面积约207公顷,由上海市人民政府、中国科学院和国家林业局三方共建,是亚洲最大的科研科普和观赏游览于一体的综
在国家宏观经济和深化改革政策的持续推动下,工程勘测设计行业的市场一体化和开放格局逐渐形成,原来形成的区域和行业保护逐渐消失,市场竞争日趋激烈,人才作为勘测设计企业参与市场竞争的基础资源,愈发得到勘测设计企业的重视,人力资源管理在企业管理中的地位也越来越高。中小型勘测设计面临着越发严重的人才吸引和稳定的问题,为了维持人才资源的稳定,保住企业发展的根本力量,谋取进一步的壮大和发展,中小型勘测设计企业寄
甲酸具有较高的功率密度,储存安全,无毒不易燃等特点。因此,直接甲酸燃料电池在混合动力汽车以及便携式电源领域受到越来越多的关注。阳极催化剂是甲酸燃料电池的核心,由于Pd
农牧民专业合作社是新形势下农村牧区经济发展的重要的合作经济形式。合作社运行是以社员及农户之间共同管理为基础,社员之间通过相互联合创办合作社,结合从事相同经营生产活动或提供生产性经营服务者,创建品牌、兴办基地、促进销售,这样既可以挖掘农户合作经营的潜能,又可以跟上经济发展的脚步,让社员及农户得到实际性的好处。农民合作社的建立,对农户个体承包经营提高农业组织化的问题得到有效解决,对单独农户的经济市场地
针织厂漂染废水的治理厦门针织厂属国有小型企业,漂染废水的排放量为500~700m3/d。废水采用混凝气浮法处理,出水排入城市污水处理厂进行二级处理。该厂漂染废水处理设施于1989年12月建成。废水处
传统的玉石加工过程分为五部分,包括选料,切割,琢磨,抛光,上蜡五个步骤,费时费力,并且无法获得结构复杂精美的玉器,原材料无法得到充分的利用。而SLS成型技术具有能够打印复
采用高效液相色谱法测定进口葡萄酒中的白藜芦醇及其甙。葡萄酒样品经过C18固相萃取柱净化后,采用Agilent Eclipse XDB-C18色谱柱进行分离,以乙腈溶液为流动相进行梯度洗脱,
本文以霸县凹陷潜山油气成藏模拟为核心内容,在前人勘探开发研究成果的基础上,结合区域构造演化、地震、地球化学和钻井资料分析,对典型油气藏进行解剖,发现埋深对潜山储层储