论文部分内容阅读
获取用户手机的信息必须先发送相应的指令到HLR设备,HLR设备的应答报文是由大量英文字母组成的半结构化文件,如何从半结构化文件当中高效准确的抽取可用的信息是论文研究的主要内容。 论文以HLR业务提取为研究对象,分析了发送指令之后HLR返回的指令日志的特点和信息抽取的任务,研究了针对半结构化指令日志的的信息抽取技术,提供了统一接口,实现了对具有一定结构特征的半结构化文件的信息抽取。 论文介绍了正则表达式和XML技术,分析了正则表达式的应用以及解析XML文件的方法。介绍了HLR设备的基本知识、业务和指令。 在深入分析了半结构化指令日志的文件格式的基础上,针对信息抽取的任务,提出了基于模板的信息抽取技术和同步检测的方法。每一厂商返回的指令日志文件都有属于自己特点的逻辑结构特征,在全面了解指令日志文件的逻辑结构特征和信息抽取任务的基础上,为每一厂商的指令日志文件手动生成相应的解析模板。解析模板中定义了抽取的字段以及匹配的规则和方式。在进行信息抽取时应用解析模板中定义的标志性的信息,以及匹配规则和方式,实现快速准确地抽取信息。解析模板中规则是用正则表达式表达的,由于正则表达式较难设计,容易出错,导致了解析模板的定义有时候不是一次性可以成功的。当不成功时为了能及时看出是哪一行的匹配规则出错了,在进行匹配的同时给出每一行的匹配情况,即同步检测的方法。 在指令日志信息抽取的基础上,实现了获取号码在HLR设备上的业务信息。通过集中代理发送指令到相应的HLR设备,对HLR的应答报文进行信息抽取,对信息抽取后的结果经过二次翻译,得到具有实际意义的业务信息。 论文的最后给出了一个针对半结构化文本信息抽取的基本思路。