基于字频分布的中文网页编码识别算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:muyue3122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。
其他文献
我国民族地区有着丰富的自然资源和浓厚的历史文化氛围,就总体经济发展程度而言,民族地区的经济发展严重滞后。加快民族地区经济发展,对于实现民族地区团结和实现全面小康社
因为石墨烯和高聚物之间有相似相容性很低,可以和有机高分子混合的方法来制备大分子复合材料[1-4],机能提升比较小。在不毁坏石墨烯内部结构,保持其独特性能的前提下,但愿通
提出一个网络重定向模型,实现局域网或广域网环境下的虚拟机跨域迁移。利用地址解析协议同步策略,在源节点和迁移后的虚拟机之间快速建立单向IP隧道,将数据重定向至虚拟机。
2009年7月28—30日,中国水土保持学会规划设计专业委员会在呼和浩特召开2009年年会暨学术研讨会。中国水土保持学会规划设计专业委员会名誉主任、水利部水土保持司张学俭巡视
农业是国民经济的基础,农村金融在市场资源配置中至关重要,发展农业经济、增加农业收入离不开良好的农村金融生态环境。在当今新形势下,重构适应社会主义新农村建设需要的现
本刊讯今年云南临沧市春茶由于受去年12月极端雪霜天气影响,开采期总体推迟一个星期左右。进入3月以来,全市各茶区茶叶才开始渐渐萌发,茶农陆续开采,3月10号以来,各企业相继开秤,春
为开拓北方茶叶市场,四川省旺苍县近日在呼和浩特市举行了米仓山茶叶推介会。在当天的推介会上。旺苍县米仓山茶业集团共与内蒙古地区6家茶叶经销商签订了1.86亿元的经销协议。
在论述郑州市生态廊道发展历程和各个阶段主要成效的基础上,总结了郑州市生态廊道建设的创新之处和存在问题,对今后郑州市生态廊道发展方向提出了建议。
随着现代社会日益进步,经济迅猛增长,票据作为现代企业日常最常用的非现金支付工具之一,越来越被重视与认可。随着2013年中央换届选举,利率市场化改革,监管政策的调整和完善,
软质岩的变形破坏模式介于(类)土质边坡和岩质边坡之间,具有其特殊的复杂性,文中结合工程案例将软质岩边坡潜在滑动面分为三段,根据各段主要破坏型态、受力特点和位移监测数据合理