国际资讯中的中国元素提取系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:tltim2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,各类信息巨增,在互联网上每天都有海量信息在生成、传播和存储,人类面临前所未有的信息膨胀。越来越多的人喜欢看一些英文国际资讯,但是读者往往希望看一些关于中国的报道。面对如此庞大的信息网络,人们往往无法在英文资讯中快速定位到有关中国元素的信息。如何设计一个系统,能够科学有效的提取出国际资讯中的中国元素信息,以节省用户的阅读时间,是当下研究者比较关注的问题。本论文首先根据实际需求明确中国元素提取的需求,对系统架构和功能模块进行了详细设计。其次深入研究了中国元素提取的技术方案,提出了中国元素提取回溯策略,采用基于中国元素词典库的匹配方法对条件随机场模型的提取结果进行二次提取操作。最后实现了一个中国元素提取系统。本系统使用了网页信息采集、命名实体识别、文本检索等相关技术。根据用户输入的网址,系统自动采集网页信息,通过训练好的模型对原始文本进行中国元素提取,最终以web形式展示给用户。用户可以使用本系统方便快捷的查看英文国际资讯中的中国人名、地名、美食、文化、机构等信息。另外为了方便一些信息咨询公司的人员进行批量提取操作,本系统还提供了提取本地英文文本的中国元素的服务。基于上述需求与系统的实现目标,本文的主要研究内容和工作主要包括以下几个方面:(1)数据采集:采用Python的Beautiful soup框架从英文国际资讯网采集信息并构建中国元素特征库。(2)模型构建:对比分析隐马尔可夫模型、最大熵模型和条件随机场模型在中国元素提取应用中的效果。设计了基于条件随机场与中国元素特征库相结合的模型。对条件随机场模型提取的结果使用中国元素特征库进行二次提取,以达到更好的提取效果。(3)系统实现:采用基于LNMP架构设计并实现系统,系统前端采用Bootstrap框架,后端采用Django框架,数据库采用Mysql与ElasticSearch相结合的方式。(4)系统测试:对系统的各个模块进行测试与评估。系统的功能和性能均满足设计方案的要求。实验结果表明本文设计的中国元素提取系统能够获得满意的提取效果。对环球时报标记语料库进行开放测试,得到准确率、召回率和F值分别为0.952、0.887、0.913。
其他文献
锅炉设计指锅炉设备设计,设计过程中存在各式各样的安全问题。本篇文章结合我国当前的锅炉设计实况,对锅炉设计中存在的各种问题进行分析,并对问题产生原因加以探讨,最后给出
目前, 在中小学数学的课堂教学中,采用的是传统的以师为本的教育模式,有时不能够对学生加以正确的认识。教学设计是传统的把老师当作课堂的中心,教学还没有落实到以学生的全
我国现行的"绿色税收"主要是有关环境保护的税收政策与措施,虽然也有助于环境保护,但其效果却有限。这主要是因为我国的"绿色税收"没有形成完善的制度,各税种自成体系,相对独
为了解决土地征收带来的社会矛盾,促进社会和谐发展,针对如火如荼的征地制度改革,从我国征地制度状况、农地产权制度现状、农地价格构成和土地被征收后增值空间来源等方面对征收
政治、经济、科学技术等的不断发展,新事件、新观念的出现,激发了语言中新词的涌现。这些新词及时、客观地反映了新的社会现象。同时,新词的出现也反映了当代人们追求简洁、
17p-雌二醇(E2)作为一种常见的环境激素,广泛存在于各种水体环境中,被认为是雌激素活性最强的环境激素。因此开发一种有效降解水中E2的处理技术具有重要意义。采用介质阻挡放
随着新课改的推进,多种新史观开始渗透于教材编写和高考试题命制。社会史观也作为一种新史观逐渐被得到关注。社会史观主要是指从社会的角度观察历史,注重社会问题。它认为,
篮球进攻的技术和战术逐渐进步,导致高校篮球比赛中队员移动更加快速且投篮越来越精准,这些都提高了对防守的要求。而一定区域限制了比赛中队员的分布,造成每个部分皆包含防
目的:慢性胃炎是临床的常见病和多发病,在各种胃病中居于首位,约占接受胃镜检查患者的90%以上。幽门螺杆菌(Helicobacter pylori, Hp)感染是慢性胃炎的主要致病因素,长期感染后,部分
经历了两次石油风波和资源民族主义的扩张,能源资源已经成为能够动摇世界经济的重要因素,现在世界各国为了获得更多的能源资源展开了看不见的外交战争。从全世界来看,由于能源资