基于模式发现的在线就业信息抽取

来源 :内蒙古工业大学 | 被引量 : 2次 | 上传用户:xiaoxiao_666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,Web已经成为就业信息的重要来源。抽取并合理地保存这些信息,对于进一步分析就业信息,了解就业状况和特点,制定就业方案具有十分重要的意义。由于Web上的就业信息大多以HTML文档的形式存在,其特点决定了应用程序无法直接通过HTML文档来使用这些就业信息。因此,首先必须使用Web信息抽取和存储技术,获取这些就业信息。本文针对Web就业信息的显示特点,提出一种基于模式发现的在线就业信息抽取器的设计框架。该抽取器基于PAT-array来发现特定网址就业信息的显示模式,进而生成抽取规则,实现对Web就业信息的抽取。抽取所得的就业信息,先是以XML文档的形式保存,然后利用对象-关系映射原理,建立起XML文档到关系数据库的映射规则,实现就业信息的集成和存储。最后,采用XML技术和Delphi开发工具,完成了原型系统。对于在线就业信息的抽取,测试中取得了较好的效果。
其他文献
随着互联网的快速发展,在面临“信息过载”情况下推荐系统扮演着越来越重要的角色。协同过滤是应用最广泛的一种推荐算法。实际情况下,用户进行评分可以看作是一种决策行为,
随着信息化和电子商务的不断发展,企业间应用系统、企业内部各应用系统之间常常需要协同工作,因此分散在网络上的应用系统需要信任彼此的用户身份,形成“可信任网络”。可信任网
基因芯片可同时快速进行大规模的基因表达水平测定,是人们了解基因组序列作用和功能的强有力工具。对基因芯片杂交反应后的图像进行快速、准确、高效、自动化的处理,从而为基因
本文提出了一种通过静态分析提取宏动作的方法。静态分析的对象是基动作之间的关系。首先经过分析问题域,特定的选取一些常量对动作实例化,得到一些基动作。然后分析这些基动作
为提升物流管理的效率和准确率,本文协助物流企业把日常的物流管理平移到信息系统中,结合企业的物流管理流程和具体内容,开发了一套物流管理信息系统,系统的各模块充分针对物流企
无线网状网是近年来迅速发展起来的一种新技术,它解决了当前无线局域网覆盖范围小、可靠性差等缺点。无线网状网的无线访问点(AccessPoint)之间通过无线方式组成网状结构,提供
随着通信技术的迅猛发展,飞速膨胀量成了下一代无线网络中最关键的问题。而中继以其性能佳、易于拓展部署方便等优势在新一代网络标准中占有一席之地。本文挑选了三个典型的
路径规划、寻路问题是当前计算机科学领域中具有较高研究价值的一类问题,在计算机网络路由算法设计、机器人探路、交通路线导航、人工智能、交互虚拟现实等系统中有着广泛的
WEB上的数字化信息呈爆炸式增长,Internet已经成为一个巨大的信息数据库。要在如此庞大且瞬息万变的Internet上获取所需的信息,必须一个有效的检索工具的协助。现有的搜索引
随着Internet的快速发展,网络的应用范围越来越广泛,如何保证以及提高网络的服务质量(Quality of Service,QoS)成为至关重要的问题。流量工程(Traffic Engineering,TE)就是为