汉维主题网页自动获取技术的研究

来源 :计算机应用与软件 | 被引量 : 4次 | 上传用户：jerryzhang1805

【摘要】

：

为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阈值的源码块。针对汉维网页做了实验,

【作者】

：

梁建飞吐尔根·依布拉音田生伟赛依旦·阿不力米提

【机构】

：

新疆大学信息科学与工程学院

【出处】

：

计算机应用与软件

【发表日期】

：

2012年01期

【关键词】

：

有主题网页主题信息噪音信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

浅谈如何加强中学音乐教学中的民族音乐教育

　　我国是历史悠久的文明古国，有着灿烂绚丽的民族音乐文化。民族音乐是我国传统文化的瑰宝，然而，受到流行文化的冲击和影响，当前很多中学生醉心流行音乐，而对民歌、舞剧、歌剧等

期刊

中学音乐教学民族音乐

论多媒体技术在中学语文教学中的应用

　　信息时代的到来，多媒体技术的迅猛发展给人以越来越强烈的视听震撼，当然也给语文教学注入了新鲜的血液，带来了勃勃生机，使语文教学插上了腾飞的翅膀，实现了质的飞跃。

期刊

多媒体技术中学语文教学应用

试论非语言因素在播音主持中的运用

　　非语言因素是主持人利用各种无声的体态语言将内心的想法和情感向外部表达的一种手段，内容非常丰富，在播音主持工作中有着非常重要的地位。恰如其分地运用非语言手段能够充

期刊

播音主持非语言因素

高校书法专业就业问题研究

随着国家对书法文化的重视,高校书法专业的招生数量不断增加,这为书法艺术的传承发展及高等书法教育带来了积极的影向,但同时也存在着书法专业毕业生就业困难的问题.本文针对

期刊

书法专业就业问题研究

浅谈戏剧和戏曲的发声和演唱技巧

中国的戏剧、戏曲作为一门独立的艺术形式,包含了文学、音乐、美术、舞蹈等多种艺术表现形式,是一门综合性的艺术.本文对中国戏剧戏曲的声乐特点进行了初步探讨,并对戏剧戏曲

期刊

戏剧戏曲发声和演唱技巧方法

浅谈高职室内设计专业“项目工作室制”教学模式——理论与实践的结合

本文对目前高职室内设计专业教育存在的主要问题进行了分析,对“项目工作室制”教学模式的特点进行了研究,对“项目工作室制”教学模式在高职室内设计专业的可行性进行了探索

期刊

项目工作室制教学设计教学体系设计人才

论姜文电影里的男女性别差异

姜文在中国电影导演中是一位难得的奇才,他的想象力、执行力和个人魅力使得他能够集合一批批的优秀的电影制作者,让他的电影给观众带来惊喜.本文主要探讨姜文导演的几部电影

期刊

姜文性别差异电影风格

初探沈周花鸟画

沈周是明代花鸟画史上一位成就显著的画家,他的花鸟画以文人水墨写意形态出现,引领了该时代的画风倾向.文章首先对沈周花鸟画艺术的风格特点进行简要的分析和归纳,并总结出其

期刊

沈周花鸟画绘画风格

摄影教育新思考

摄影术的诞生处处昭示着人类文明的伟大,自摄影术发明以来随着新技术的不断发明,短短十几年时间功夫,传统摄影术遭受了前所未有的冲击.数码摄影来势之凶猛,让人为之震惊,似乎

期刊

数字摄影弊端摄影教育

基于工学结合的医学检验技术专业实践教学体系的研究

针对目前高职高专教育医学检验技术专业实践教学体系中的薄弱环节,以学生医学检验职业技能与职业素质养成为主线,通过构建基于工学结合的实践教学目标体系,构建能力递进式的

期刊

工学结合医学检验技术实践教学体系Combining work with studyMedical laboratory technologyPract

汉维主题网页自动获取技术的研究

与本文相关的学术论文