论文部分内容阅读
近年来互联网金融产业蓬勃发展,伴随而来的是规模巨大的互联网金融数据,这些数据蕴含着巨大的价值,有行业热点追踪预测、行业监管等重要应用。在对互联网金融数据进行数据挖掘、数据分析的过程中,有一项很重要的工作就是网页信息抽取。 不管什么类型的互联网金融网站,都需要展示信息给用户,而比较常用的展示形式是项目列表。但是目前绝大数通用网页信息抽取的方法都是以新闻、论坛、产品网页作为应用举例,验证其效果,很少有研究者专门针对互联网金融项目信息提出网页信息抽取方法。从网页信息抽取方法的角度看,互联网金融项目信息的网页不同于新闻、论坛和产品的网页,有其自身的特殊性,这种特殊性导致其用现有的网页抽取算法不能很好的解决。因此,本文致力于互联网金融项目信息抽取中的关键技术研究。 (1)非表格形式互联网金融项目信息抽取算法 通过对互联网金融项目网页的考察,本文发现,互联网金融项目列表可以分为两类:表格形式和非表格形式。表格形式项目列表抽取用已有方法可以很好的解决。针对非表格形式互联网金融项目网页,本文提出一种新的抽取算法:首先利用MDR算法发现项目信息区域并找到每条项目记录,然后利用启发式属性分割方法对单条项目记录进行属性分割。再利用XGBoost模型对分割后的属性进行标注。最后,对单个网站下的抽取标注结果进行统计校正。 (2)基于带L1正则的CRF模型特征选择算法 为了满足我们的抽取算法对于特征选择质量和速度的要求,本文提出了一种基于带L1正则的CRF模型特征选择算法,利用L1正则稀疏解的特性,避免了传统CRF模型特征选择算法的多次迭代。 (3)设计并实现了互联网金融项目信息采集抽取系统原型 利用非表格形式互联网金融项目抽取算法和基于带L1正则的CRF模型特征选择算法,本文设计并实现了互联网金融项目信息采集抽取系统原型。其中有多个子模块,有采集模块、预处理模块、网页分类模块、表格形式项目信息抽取模块、非表格形式项目信息抽取模块、特征提取和选择模块、模型训练模块。本文在该部分提出了一套针对互联网金融项目信息抽取的一整套解决方法,可以较好的解决互联网金融项目信息抽取问题。 实验表明,本文提出的非表格形式互联网金融项目信息抽取算法的抽取准确率为83.59%;基于带L1正则的CRF模型特征选择算法和传统的CRF模型特征选择算法相比,速度更快,特征质量相当。这使本文设计的系统在保证高质量抽取的前提下,能够稳定高效的运行。所以本文的研究成果有很好的应用价值。