基于字频分布的中文网页编码识别算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：muyue3122

【摘要】

：

编码识别是网页内容过滤的必要前提，多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题，提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率，选取使用

【作者】

：

侯整风张浩张娜

【机构】

：

合肥工业大学计算机与信息学院,安徽移动淮南分公司

【出处】

：

计算机工程

【发表日期】

：

2014年12期

【关键词】

：

中文编码网页过滤高频字符模式匹配有限状态自动机 Chinese encodingWeb filteringhigh frequency characte

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

编码识别是网页内容过滤的必要前提，多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题，提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率，选取使用频度较高的字符构成高频字符编码表，以高频字符编码作为关键字，使用改进的模式匹配算法查找待识别网页，并统计匹配次数。将编码的匹配结果作为分析的依据，最终判定待识别网页的真实码制。实验结果证明，与Unigram算法相比，该算法对目前通用的中文编码识别率较高，适合对未知编码的中文网页进行快速编码识别。

其他文献

少数民族地区特色产业发展研究

我国民族地区有着丰富的自然资源和浓厚的历史文化氛围,就总体经济发展程度而言,民族地区的经济发展严重滞后。加快民族地区经济发展,对于实现民族地区团结和实现全面小康社

期刊

少数民族地区特色产业政策扶持

一种有机相容性石墨烯的制备方法及其研究

因为石墨烯和高聚物之间有相似相容性很低,可以和有机高分子混合的方法来制备大分子复合材料[1-4],机能提升比较小。在不毁坏石墨烯内部结构,保持其独特性能的前提下,但愿通

期刊

石墨烯改性有机相容性烷基偶联剂(KN-560)

虚拟机跨域迁移中的网络重定向模型

提出一个网络重定向模型,实现局域网或广域网环境下的虚拟机跨域迁移。利用地址解析协议同步策略,在源节点和迁移后的虚拟机之间快速建立单向IP隧道,将数据重定向至虚拟机。

期刊

虚拟机跨域迁移重定向IP隧道地址解析协议IP双栈Virtual Machine（VM） cross-domain migration redirec

中国水土保持学会专业委员会近期活动

2009年7月28—30日，中国水土保持学会规划设计专业委员会在呼和浩特召开2009年年会暨学术研讨会。中国水土保持学会规划设计专业委员会名誉主任、水利部水土保持司张学俭巡视

期刊

专业委员会水土保持学会中国水利勘测设计院规划设计学术研讨会水利部

农村金融生态环境问题研究

农业是国民经济的基础,农村金融在市场资源配置中至关重要,发展农业经济、增加农业收入离不开良好的农村金融生态环境。在当今新形势下,重构适应社会主义新农村建设需要的现

学位

农村金融生态环境和谐发展研究方法对策建议

云南临沧市春茶产量增加价格上涨

本刊讯今年云南临沧市春茶由于受去年12月极端雪霜天气影响，开采期总体推迟一个星期左右。进入3月以来，全市各茶区茶叶才开始渐渐萌发，茶农陆续开采，3月10号以来，各企业相继开秤，春

期刊

春茶产量临沧市价格上涨云南统计分析开采期茶区茶农

旺苍县举行呼和浩特茶叶推介会签单1．86亿元

为开拓北方茶叶市场，四川省旺苍县近日在呼和浩特市举行了米仓山茶叶推介会。在当天的推介会上。旺苍县米仓山茶业集团共与内蒙古地区6家茶叶经销商签订了1．86亿元的经销协议。

期刊

呼和浩特市茶叶市场旺苍县内蒙古地区米仓山四川省经销商

郑州市生态廊道建设初探

在论述郑州市生态廊道发展历程和各个阶段主要成效的基础上,总结了郑州市生态廊道建设的创新之处和存在问题,对今后郑州市生态廊道发展方向提出了建议。

期刊

生态廊道发展历程创新成就郑州市

TRC银行票据贴现业务经营战略

随着现代社会日益进步,经济迅猛增长,票据作为现代企业日常最常用的非现金支付工具之一,越来越被重视与认可。随着2013年中央换届选举,利率市场化改革,监管政策的调整和完善,

学位

TRC银行票据贴现业务经营战略

软岩高边坡的三段式折线滑动面探析

软质岩的变形破坏模式介于（类）土质边坡和岩质边坡之间，具有其特殊的复杂性，文中结合工程案例将软质岩边坡潜在滑动面分为三段，根据各段主要破坏型态、受力特点和位移监测数据合理

期刊

软岩边坡深层位移监测折线滑动面边坡加固soft rock slope] deep displacement monitoring slip surfac

基于字频分布的中文网页编码识别算法

与本文相关的学术论文