半结构化文本信息抽取方法研究及应用

被引量 : 4次 | 上传用户:sck1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着办公自动化的快速发展,使得企事业单位及国家政府机关的数据存储及表示形式呈现出分布性、异构性的特点。不仅包括企事业单位及国家政府机关内使用的关系数据库、面向对象数据库等传统结构化数据,还包括Excel、Xml、Html等不具有像数据库那样有明确结构的半结构化数据,以及音频、图像、视频、原始的文本文件等具有无模式及自描述特点的非结构化数据。每个公司及政府部门都会有大量的、不同结构形式的数据,他们会根据不同类型数据对应的数据结构选择不同的存储方式。因此,为了实现公司及政府部门不同结构数据之间的查询和共享,不同结构形式的数据集成问题已成为网络应用、数据库应用研究和解决实际需求的一个重要研究课题。本文主要研究的是半结构化数据与结构化数据的集成问题,选择了一种典型的半结构化数据Excel表单,对不同行业、不同形式的数百张Excel表单从结构上进行了总结、分析、归纳和分类。在手工和编程实现对这种半结构化数据进行数据抽取的基础上,总结了一些对这种典型的半结构化数据的抽取规则,将这些规则形式化地描述为不同的指令,形成一套半结构化Excel表单数据抽取指令系统。最后,提出了一个具有通用性的基于指令系统的Excel表单数据抽取模型。本文的基于指令系统的Excel表单数据抽取模型不仅能够快速、准确地对一个特定的Excel表单数据进行抽取和加载,还能通过修改指令配置文件对不同样式的Excel表单数据灵活地进行自动抽取和加载;该模型可以通过指令解释器中的解释器规则库实现指令的可扩展性,使其具有更强的通用性;该模型已经在某公司的几个项目中使用,并封装成了WebService服务放在公司的服务器上,可以供不同的项目方便地调用,证明了其良好的通用性及实际价值。
其他文献
随着全球化的进程,人们与不同国家的人交流日趋频繁。由于文化的不同,在跨文化交际中,他们不可避免地遭遇了交际失败,导致了误解、猜疑甚至冲突。这种叫做语用失误的现象引起了越
截至2018年12月份,广西装配式建筑生产基地已竣工投产23个,建设中9个,预计全部建成后,装配式混凝土构件产能将达到约340万m~3,装配式钢结构产能将达到约180万t。此外,全区还
期刊
首诊为口腔肿物的鼻咽癌2例张荣幸,周磊(广东医学院附属医院口腔科,湛江524001)鼻咽癌是鼻咽部常见的恶性肿瘤,临床上肿瘤多发生于鼻咽顶后壁、咽隐窝、咽鼓管咽口或鼻后孔处,而肿瘤明显突
期刊
自然语言处理关键任务之一的句法分析过程直接依赖基本短语的分析结果。在国内外,许多语言已经有比较成熟的基本短语识别技术,然而起步较晚的维吾尔语信息处理在基本短语方面
研制了一台高光束质量、高稳定的基于激光二极管阵列(LDA)侧泵Nd玻璃的纳秒方形激光脉冲放大器。为了获得较高的输出能量,采用LDA泵浦的"串联式双程放大"高增益组件进行能量
提出了一种应用于指静脉光学图像采集系统的新型光路设计,实现了基于最大曲率方法的指静脉提取,并对系统的有效性进行了实验验证。结果表明,采用本文方法的指静脉识别错误匹
电容器装置是电力系统无功功率补偿装置的基本元件,广泛应用于高压直流换流站中。随着电容器台数的增加、单台容量的增大以及电网中高次谐波电流的入侵等因素,使得电容器的噪声
随着我国农村经济的快速发展,农村集体建设用地使用权流转问题引起了社会各界的关注。自2003年开始,我国各地开始对农村集体建设用地按"同地、同价、同权"的原则,纳入统一的
目的:讨论关节镜下自体腘绳肌单束联合重建膝前、后交叉韧带的手术方法及疗效,并对一些相关问题展开讨论。材料与方法:自2008年9月~2009年12月,12例经影像学及关节镜下检查诊
溶胶-凝胶法制备纳米级二氧化钛。不同温度下,对制备粗产品二氧化钛进行焙烧,制备得到一系列产品,采用x射线小角度衍射仪(XRD)对上述方法得到产品进行晶形结构分析鉴定,XRD图谱结果