突发事件新闻标题与正文提取方法

来源 :计算机应用 | 被引量 : 15次 | 上传用户:zhaimeng2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。
其他文献
2008年6月18日,马萨诸塞州米尔福德-沃特世公司(WAT:NYSE)XBridge^TM分析色谱柱系列从今天起将增加一个新成员-XBridge HILIC色谱柱。此产品能够有效地提高极性化合物的保留,而如
针对回溯搜索优化算法(BSA)收敛速度慢的缺点,提出基于麦克斯韦-玻尔兹曼分布的变异尺度系数和带贪婪性的交叉策略,来提高算法收敛速度。利用麦克斯韦-玻尔兹曼分布产生变异尺度系数,能有效提高搜索效率,提高收敛速度;在交换维数较少的交叉策略中使用向优秀个体群学习过的变异种群进行交叉,在充分保证种群多样性的前提下为交叉策略添加了一定贪婪性,成功克服了以往算法添加贪婪性时易陷入局部最优的缺点。对15个标准
针对灰度图像空域算法中水印鲁棒性较差的问题,提出了一种快速、鲁棒性强的零水印算法,并将该算法用于以数字图像为载体的信息隐藏,以实现水印信息的提取和认证。首先利用位平面(BP)理论将图像解析为不同的位平面层次,构造无权值的位平面矩阵,结合各位平面非零值个数生成图像的特征矩阵;然后对特征矩阵分块操作,利用奇异值分解(SVD)生成块最大奇异值矩阵,并通过对生成矩阵二维混沌加密得到注册零水印信息。仿真实验
目前大多数无证书签密方案都是在随机预言模型下提出的,针对随机预言模型下的方案往往无法在实际应用中构造相应实例这一问题,采用标准模型的方法来进行构造。在对几个已有标准模型下相应方案分析的基础上,指出它们都是不安全的。以Au等所提出的方案(AU M H,LIU J K,YUEN T H,et al.Practical hierarchical identity based encryption and
排挤遗传算法能够比较稳定地获取多个峰值,但其求解效率不高,在有限的遗传代数下无法获得较高的求解精度,需要较多的迭代次数。为了快速求出多峰函数的所有最优解,提出了一种基于对数自适应的排挤遗传算法。该算法结合小生境排挤遗传和爬山算子,根据遗传代数对爬山算子的距离值进行对数自适应计算,使种群在遗传过程中保持多样性。通过对多个一维和二维多峰函数的实验和比较分析,测试结果表明,该算法在有限的遗传代数下既能保
目的:评价米氮平治疗伴抑郁的心血管神经症的临床疗效和安全性.方法:将60例伴抑郁的心血管神经官能症患者随机分为米氮平组和氟西汀组,进行为期42天的治疗观察.采用汉密顿抑
目的:探讨高原军人对环境和服役的认知评价与自测健康状况的关系.方法:采用随机整群抽样法,选择驻西藏海拔3000-4000米高度的某部队官兵490名,应用自测健康评定量表以及高原
目的:建立川产九节龙药材中九节龙皂苷Ⅰ的HPLC—ELSD测定方法,考察了药材中九节龙皂苷Ⅰ含量。方法:采用Phenomenex C18色谱柱(4.6mm×250mm,5μm);流动相为甲醇-水(75:25);漂移管温
多项式插值技术是近似理论中一种常见的近似方法,被广泛用于数值分析、信号处理等领域。但传统的多项式插值技术大多是基于数值分析与实验结果相结合得到的,没有统一的理论描述和规律性的解决方案。为此,根据密切多项式近似理论为图像的多项式插值算法提出一个统一的理论框架。密切多项式近似的理论框架包括采样点数目、密切阶数和导数近似规则三个部分,它既可以用于分析现有的多项式插值算法,也可以用于开发新的多项式插值算法
目的 :编制一套适用于大学生的学习自主性评定量表。方法 :以Zimmerman提出的自主学习模式为依据 ,结合对大学生的访谈资料和开放式问卷调查结果 ,随机整群抽取湖南省长沙市