基于模板的Web信息自动提取方法

来源 :计算机应用研究 | 被引量 : 48次 | 上传用户:zhuxh054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。
其他文献
提出一种基于四元数小波幅值相位表示及分块投票策略的人脸识别方法。该方法首先对人脸图像进行预处理,利用四元数小波变换的四路小波提取多个角度方向的小波系数,并求取四元数幅值和三个相位,将这些幅值和相位特征组合并分成若干子块,对每个子块根据最近邻原则进行分类,对各子块分类结果进行投票以实现人脸图像最终识别。对五个人脸数据库的实验表明,该方法具有较高识别率和对表情及光照变化的鲁棒性。
采用非均匀梁作为树枝物理模型,分析了梁的弯曲效应,推导出挠度曲线表达式,并对其运用多项式最小二乘法拟合,将拟合后的简洁表达式预计算于纹理中,有效降低了实时计算量。为平衡CPU与GPU的负载,设计了分层次的树木结构模型,将力学分析计算转移到GPU上进行,同时避免了将树枝分段计算导致段间断裂现象及分段过大引起模拟效果过于粗糙的缺点。实验表明,该方法能完全实时、真实地模拟出风中树木动画的物理效果,解决了
益肝明目颗粒是本院眼科刘玉芬主任医师研制的治疗老年性皮质性白内障早期的纯中药制剂,在不破坏晶体组织结构的的前提下,提高患者的视力,减轻晶体的混浊程度。
主要研究了无线传感执行网络中执行节点之间的协调,提出了基于单执行节点任务的分布式协调机制。在多执行节点协调算法中,建立了多执行节点协调的数学模型,引入基于进化算法的多目标优化,提高了系统的最优性能。
现有多机器人协作构建地图的方法对环境和机器人位置信息有着较高要求,因而在实际应用中存在一定局限性。针对这一问题,提出了一种基于遗传算法的改进方法。该方法采用独立探索、集中建图的探索策略,对环境建立局部栅格地图并予以融合。在地图融合过程中,无须考虑机器人位置信息,而是以栅格地图相似度为度量标准,利用改进的遗传算法快速、高效地搜索各局部地图之间的最大重叠部分,进而予以融合。实验结果验证了该方法的可行性
针对光滑曲面采样散乱点云含有噪声及异常数据的问题,提出了一种基于多尺度核函数的过滤处理方法。采用核密度估计技术及均值漂移跟踪算法对原始点云数据进行聚类,结合局部似然函数来测度一个三维点位于采样曲面上的概率,利用过滤后的极大似然点集精确地逼近采样曲面,最后结合经典网格化算法能够获得较好的曲面重构效果。处理实例证明,该方法实用性好,不仅能够很好地抑制不同幅值的噪声,同时也能够探测到异常数据并进行自动清
为了提高角点检测的准确性和快速性,通过分析穿过角点的直线所具有的特性,提出了一种基于非终结线数目的快速角点检测算法。该算法以当前像素为核心作用一个圆形模板,计算穿过核心的非终结线的数目换算值,当该值位于给定的阈值范围内时,则当前像素为角点。针对伪响应,提出了一种基于非终结线均匀程度的非极大值抑制方法。通过实验验证了新算法的可行性,以及在准确性和快速性上所具有的优点。
1临床资料 2008—05—2009—05我院各科住院患者中诊断为医院获得性肺炎的患者48例,患者均在住院48小时以后发病,诊断符合“医院感染诊断标准”:(1)发病前无与肺炎相关的症状和体
为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对超平面进行调整。该方法可补偿非平衡数据分类的倾向性,提高预测分类精度。最后在非均衡的人工和真实数据集上的数值实验表明了该方法的可行性与有效性。
投影神经网络算法被誉为最有希望解决优化问题的算法之一,可用于求解优化问题的前提是它应具有全局收敛性。根据凸二次规划约束条件的特点,利用常微分方程理论、M-矩阵理论,通过构造适当的Lyapunov函数,获得了该网络求解一类凸二次规划问题的全局指数收敛性条件,该条件只与神经元连接权矩阵的部分元素有关,其比现有文献所得的收敛条件更弱。最后给出一组实例,说明该网络计算上是可行和有效的。