【摘 要】
:
互联网的快速发展,加快了新闻的发布速度,也使得互联网成为聚集新闻信息最多、最全的地方,每日剧增的新闻信息更凸显出快速查找感兴趣内容的重要性,为了满足人们方便浏览新闻
论文部分内容阅读
互联网的快速发展,加快了新闻的发布速度,也使得互联网成为聚集新闻信息最多、最全的地方,每日剧增的新闻信息更凸显出快速查找感兴趣内容的重要性,为了满足人们方便浏览新闻的需求,各大搜索引擎都推出了专门的新闻版块,但仅依赖这些传统的浏览器,仍很难满足用户对某个特定领域的新闻需求。论文针对此需求提出了用于文化信息领域的新闻抽取系统。论文在对大量新闻网页结构进行分析的基础上,提出了基于规则和统计相结合的信息抽取方法,实现了将新闻网页中的信息以统一的格式存储到关系数据库中。论文以文化领域的几个网站为对象,从网站中爬取网页集,针对网页集进行抽取工作。首先,通过网页聚类将网页集中结构相似的网页归类成簇并标记出来。其次,对每簇中的代表网页进行规则构造,重点是新闻正文和新闻标题的规则生成过程。在通过句号密度确定正文段落的基础上结合网页结构特点更准确的确定数据区域,并在此基础上,借助中文分词器对网页标题进行抽取。最后,将规则和对应的簇号存储到关系数据库中,利用生成的规则批量抽取网页中符合要求的信息,并将它们以相同的格式存储到关系数据库中。同时利用正则表达式实现用户可以自定义内容的抽取功能,用户可以自己选择抽取的内容,系统自动生成这些内容的抽取规则。论文应用上述方法设计了新闻信息抽取系统,针对文化信息领域的几个网站进行测试,实验证明取得了比较满意的效果。
其他文献
移动数据库中数据广播技术及移动通信带宽的有限性引起较大的数据访问延迟,移动客户机与固定网络频繁(主动或被动)断接使得用户事务得不到所需要的数据,移动设备的电能限制及
近年来,随着计算机技术、传感器技术、无线通讯技术的迅猛发展与广泛应用,农业大棚技术也在向自动化、信息化方向发展。山东寿光作为中国的农圣之乡,冬暖式大棚的规模和数量
数字水印是信息隐藏技术的一个分支,是随着互联网以及多媒体技术的不断发展而产生的一种对数字作品进行版权保护的热点研究领域。数字水印的鲁棒性与不可见性一直以来是难以
高等学校智能排课系统具有其固有的复杂性,其本质是一个多资源约束分配问题,需要周密的思考和研究以及不断的实践过程。高校排课是教学运行管理中非常重要的环节之一,排课系
以“面向以太网的物理帧时槽交换技术(Ethernet-oriented Physical Frame Timeslot Switching, EPFTS)"为核心的“单物理层用户数据交换平台的体系结构(Single-layer User-da
Web页面上用户的商品评论信息已成为影响电子商务消费者进行购买决策时的关键因素之一。近年来随着电子商务的发展,关于商品的评论信息呈指数级增长,从而导致潜在用户难以在
当特征的概念被引入到软件产品线开发过程之后,基于特征的领域分析与建模技术成为软件产品线开发中较为主流的需求建模方法,它为描述产品线共性和可变性及其之间的关系提供了
目前,SOA(Service Oriented Architecture,面向服务的构架)和Web服务技术已经被广泛应用于企业级商业开发中。而服务间通信的安全性问题已经成为制约SOA技术及Web服务继续发
近年来,随着计算机以及多媒体技术地快速发展,多媒体信息已经慢慢地走进了人们的日常生活当中。多媒体信息一般是以数字图像、音频、视频、动态图形以及文本等多种形式存在。
互联网和多媒体信息处理能力的不断发展,使得图像这一传统的多媒体信息载体被广泛应用和传播;与此同时,可以用来改善图像质量的处理软件也随之飞速进步,复杂的图像处理功能也