HLR日志信息抽取技术的研究与应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:hhf1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
获取用户手机的信息必须先发送相应的指令到HLR设备,HLR设备的应答报文是由大量英文字母组成的半结构化文件,如何从半结构化文件当中高效准确的抽取可用的信息是论文研究的主要内容。  论文以HLR业务提取为研究对象,分析了发送指令之后HLR返回的指令日志的特点和信息抽取的任务,研究了针对半结构化指令日志的的信息抽取技术,提供了统一接口,实现了对具有一定结构特征的半结构化文件的信息抽取。  论文介绍了正则表达式和XML技术,分析了正则表达式的应用以及解析XML文件的方法。介绍了HLR设备的基本知识、业务和指令。  在深入分析了半结构化指令日志的文件格式的基础上,针对信息抽取的任务,提出了基于模板的信息抽取技术和同步检测的方法。每一厂商返回的指令日志文件都有属于自己特点的逻辑结构特征,在全面了解指令日志文件的逻辑结构特征和信息抽取任务的基础上,为每一厂商的指令日志文件手动生成相应的解析模板。解析模板中定义了抽取的字段以及匹配的规则和方式。在进行信息抽取时应用解析模板中定义的标志性的信息,以及匹配规则和方式,实现快速准确地抽取信息。解析模板中规则是用正则表达式表达的,由于正则表达式较难设计,容易出错,导致了解析模板的定义有时候不是一次性可以成功的。当不成功时为了能及时看出是哪一行的匹配规则出错了,在进行匹配的同时给出每一行的匹配情况,即同步检测的方法。  在指令日志信息抽取的基础上,实现了获取号码在HLR设备上的业务信息。通过集中代理发送指令到相应的HLR设备,对HLR的应答报文进行信息抽取,对信息抽取后的结果经过二次翻译,得到具有实际意义的业务信息。  论文的最后给出了一个针对半结构化文本信息抽取的基本思路。
其他文献
时间序列数据广泛存在于经济金融、气象科学等领域,时间序列的相似性研究具有深刻的理论意义与重要的实际应用价值。时间序列数据挖掘研究中许多算法都是基于某种相似性度量
随着网络与多媒体技术的快速发展,图像数据发生爆炸性增长,基于内容的数字图像操作越来越多,给人们对图像的管理带来巨大挑战。面对海量图像数据,传统依靠人工操作对图像进行
概念格理论,也叫形式概念分析(FCA),是一种有效的知识表示与知识发现的工具,已被成功应用于知识工程、机器学习、信息检索、数据挖掘、语义Web、软件工程等许多领域。要使用概念
随着可靠组播通信业务需求的增加,组播作为最有效的组通信技术,其可靠性成为当前研究的热点。由于传统的IP组播技术至今无法在Internet中广泛应用,并且各种IP可靠组播协也存
高质量图像输入输出设备的出现,使得票据的伪造变得更加容易,这对大量发行和使用的票据来说无疑是个巨大冲击。利用数字水印技术在票据纸张上实现防伪,是票据防伪的一个发展方向
随着数据仓库广泛应用带来的良好影响,数据仓库技术得到了迅猛的发展。数据仓库中最常用、最重要的查询语句的执行效率直接影响了数据仓库的性能,在查询处理中将查询语句重写
运钞车辆路径问题是VRP问题的一个实际应用。对运钞车辆的行车路径进行合理的管理和规划,是降低运钞成本、提高运钞车工作效率和安全性的有效手段。本文以运钞车辆路径问题为
无线传感器网络(Wireless Sensor Networks,WSNs)具有资源有限、以数据为中心、节点数量众多且分布密集等特点,因此为了最大化网络的生命周期,在实现无线传感器网络的关键技术时,必
在零售业,营销分析发挥着重要作用,同时,数据仓库因用于存储历史销售数据而得到了广泛应用。然而,随着数据规模的急剧增长,各企业数据管理和营销分析的水平不一且发展极不均
随着网络应用的发展和安全形势的变化,互联网安全需求也随之有了新的变化和发展。爆发式的恶意软件(Malware)增长和传播使得传统的恶意软件检测方法无法及时、有效的分析和处