半结构化文本信息抽取系统

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:guangminghuayuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作者的论文的题目是"半结构化文本信息抽取系统",该项目得到了国家自然科学基金、北京市自然科学基金的资助.该文是对研究和实现信息抽取系统所做的工作总结.Internet的发展使越来越多的信息以网上文本的形式存在,这使得人们能够便捷地获取信息,但也使得网上文本信息不断激增.从网上海量文本数据中获取所需信息非常困难.信息抽取系统就是能够自动从文本中抽取出人们所需信息的文本处理工具.它能够从文本中抽取出有固定格式且意义明确的信息.随着互联网的发展,将网上文本信息转化为数据库数据就成为网上信息处理的一个重要的发展方向.信息抽取系统能够提高人们从文本中获取信息的效率,它可以作为许多其它文本处理工具的基础或辅助工具.作为信息检索的下一步操作,信息抽取可以在查询粒度上使用户更加满意.为了对信息进行更清晰地描述,网站发布的很多信息属于半结构化文本.该文介绍了我们研制的半结构化信息抽取系统bwiExtraction系统.其中,抽取规则的生成和算法的选择是信息抽取系统的关键技术,所以我们详细介绍了bwiExtraction系统的规则体系及一个基于Boosting的有监督的学习算法的实现.该文还给出了这个系统分别在中英文数据集上的测试结果,并讨论了它与其它国际同类系统相比的优点.
其他文献
无线传感器网络作为一个智能信息系统,在很多领域都有着重大的应用前景。但是由于传感器节点本身的资源限制,诸如能量、带宽、处理能力,使得其应用设计面临着很多挑战。降低网络
随着计算机技术得不断发展,特别是网络技术的发展,企业信息系统和以往相比,也有了巨大的进步.企业级的应用不再满足于单机系统和简单的客户/服务器系统,而是向着三层或多层体
多小波理论是小波理论的新发展,多小波能同时拥有正交性、对称性、紧支撑性和高阶消失矩等特性,理论上优于传统的单小波;与L~2[R]上的多小波相比,定义在L~2[0,1]上的区间多小波能
随着Internet技术的发展,以B/S结构为基础的新型管理信息系统,以其零客户端、易维护性、分布性等优点成为了企业应用系统的主流.在信息化发展过程中,企业积累了大量数据,并为
随着信息技术的发展,"信息化带动工业化,工业化促进信息化"[1]己成为我国的战略任务.工作流技术是实现企业业务过程建模、业务过程优化、业务过程管理与集成,从而最终实现业
数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。造成数据质量问题的因素有很多,数据不一致性是其中的一个重要方面。在现实世界中,由于网络的普及,应用可
随着网络游戏的飞速发展,网络游戏拥有越来越多的用户,同时在线的规模也越来越大,以棋牌类游戏为代表的在线游戏在高峰时期有几十万人的在线规模。现今的多人在线游戏(Multiplay
随着Internet技术的高速发展,企业内部及企业之间的相互联系日趋加强,使得企业数据交换如同企业信息系统的动脉,高效而可靠的数据交换方式是企业提高商务效率、降低运作成本
网络缓存技术是一种把访问过的网络对象(网页、嵌入对象、流媒体等)暂存起来用于将来再次访问的网络技术。目前研究的重点已进入网络缓存协作的新阶段。网络缓存协作使更多的
本文针对入侵检测系统展开了相关的研究。首先分析了入侵检测领域的当前发展状况、存在的问题。当前入侵检测系统的误报率高的主要原因是:仅仅由单一的检测手段得到的不完善的