互联网金融项目信息抽取的关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:huanan_0909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网金融产业蓬勃发展,伴随而来的是规模巨大的互联网金融数据,这些数据蕴含着巨大的价值,有行业热点追踪预测、行业监管等重要应用。在对互联网金融数据进行数据挖掘、数据分析的过程中,有一项很重要的工作就是网页信息抽取。  不管什么类型的互联网金融网站,都需要展示信息给用户,而比较常用的展示形式是项目列表。但是目前绝大数通用网页信息抽取的方法都是以新闻、论坛、产品网页作为应用举例,验证其效果,很少有研究者专门针对互联网金融项目信息提出网页信息抽取方法。从网页信息抽取方法的角度看,互联网金融项目信息的网页不同于新闻、论坛和产品的网页,有其自身的特殊性,这种特殊性导致其用现有的网页抽取算法不能很好的解决。因此,本文致力于互联网金融项目信息抽取中的关键技术研究。  (1)非表格形式互联网金融项目信息抽取算法  通过对互联网金融项目网页的考察,本文发现,互联网金融项目列表可以分为两类:表格形式和非表格形式。表格形式项目列表抽取用已有方法可以很好的解决。针对非表格形式互联网金融项目网页,本文提出一种新的抽取算法:首先利用MDR算法发现项目信息区域并找到每条项目记录,然后利用启发式属性分割方法对单条项目记录进行属性分割。再利用XGBoost模型对分割后的属性进行标注。最后,对单个网站下的抽取标注结果进行统计校正。  (2)基于带L1正则的CRF模型特征选择算法  为了满足我们的抽取算法对于特征选择质量和速度的要求,本文提出了一种基于带L1正则的CRF模型特征选择算法,利用L1正则稀疏解的特性,避免了传统CRF模型特征选择算法的多次迭代。  (3)设计并实现了互联网金融项目信息采集抽取系统原型  利用非表格形式互联网金融项目抽取算法和基于带L1正则的CRF模型特征选择算法,本文设计并实现了互联网金融项目信息采集抽取系统原型。其中有多个子模块,有采集模块、预处理模块、网页分类模块、表格形式项目信息抽取模块、非表格形式项目信息抽取模块、特征提取和选择模块、模型训练模块。本文在该部分提出了一套针对互联网金融项目信息抽取的一整套解决方法,可以较好的解决互联网金融项目信息抽取问题。  实验表明,本文提出的非表格形式互联网金融项目信息抽取算法的抽取准确率为83.59%;基于带L1正则的CRF模型特征选择算法和传统的CRF模型特征选择算法相比,速度更快,特征质量相当。这使本文设计的系统在保证高质量抽取的前提下,能够稳定高效的运行。所以本文的研究成果有很好的应用价值。
其他文献
描述逻辑(DL)作为一类用于知识表示的形式化工具,具有较强的表达能力和可判定性。近年来,随着语义Web的兴起,描述逻辑成为了知识表示领域的研究热点。在关于描述逻辑的研究课
移动电子商务(M-Commerce),是指用户使用手机、PDA等移动通信设备所进行的一种电子商务活动.随着Internet的快速发展及无线设备的迅速普及,移动电子商务有着越来越大的发展潜力
地理信息系统是用于采集、存储、管理、处理、分析和表达地理空间数据的计算机系统,是分析和处理地理数据的通用技术。随着对地观测技术的持续发展和数字化城市建设的需求,人们
自90年代起,有关“核机器”的研究开始在机器学习领域中蓬勃发展。比较典型的核机器包括SVM(SupportVectorMachine,支持向量机)、RVM(Relevance Vector Machine,相关向量机)、GP
在本研究工作中,我们根据电子政务研究建没的实际需求,研发了多项实用技术以及原型系统,有些原型系统还得到了实际的应刚,获得了较好的实际效果。总的来说,主要的研究工作在于以下
Maze拥有超过7,000,000的注册用户,他们的体验是对Maze系统最有价值的评价。围绕可量化的“资源获取”体验,我们将“资源获取”划分为三个阶段:“资源发现”,“资源定位”和“资
工业以太网以其良好的兼容性和互操作性逐渐成为构建工业网络的主流技术。然而传统以太网不确定性的先天不足使得以太网的应用仅仅停留在网络的信息层和管理层,尽管交换式以
个人计算机的普及曾经带动了全球的信息化的发展。但是个人计算机更新换代频繁,利用率低等缺点,使得基于个人计算机的信息系统总体拥有成本很高。目前国际上的研究热点是利用网
随着互联网的不断发展,出现了大量的P2P网络应用,为互联网用户的提供了非常大的便利,得到了人们的广泛认同。MazeP2P文件共享系统便是其中的一个。它为中国教育网中数十万的用户
由Mandelbrot创建的分形理论现在被广泛地应用于各种领域。利用分形可以解释自然界中不稳定的、非线性的、不规则的复杂现象的内在规律,可以研究无标度特性的物体和集合的自相