HTML文档信息抽取及语音再表达的研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:zxhw888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,以HTML文档作为信息的载体己非常普遍。然而,其复杂的组织结构、对视觉的依赖使得失明人士在访问HTML文档的时候遇到很大的困难。目前,失明人士浏览网页主要通过读屏软件或带语音接口的纯文本Web浏览器。两者均只能把网页上的文字读出,不能发现网页中的有机结构,要在信息繁多的网页中找到少量真正关心的内容十分困难和费时。 本文将提出一种专门针对失明人士而设计的语音浏览器。该浏览器先从网络抓取HTML文档,生成DOM树;然后通过对DOM树的结构进行分析,生成各种帮助浏览的新节点插入其中;再遍历该DOM树,从中提取可语音表达元素生成新的元素列表;最后根据各种不同HTML元素的特点以最符合语音表达的方式,通过文语转换(TTS)软件表达出来。用户可通过输入设备顺序或跳跃地访问HTML文档的任何一个可被语音表达的元素。 本浏览器与其它浏览器的不同之处除了对HTML元素的独特语音表达方式外,还引入对HTML文档结构信息的摘要。通过分析HTML文档DOM树中隐含的各种结构信息,告诉用户文档的基本结构,共分成多少个部分,各部分大致有什么内容,以及整个文档的主体部分在什么位置。这些提示将大大帮助失明用户在HTML文档中快速寻找他们关心的信息。
其他文献
随着网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题之一。现有IP协议的拓扑驱动和无连接等特性对网络对资源和流缺乏整体控制能
信息技术已经非常深刻地融入了人类社会,几乎所有的组织(政府、企业、团体等)都需要信息系统的支持。工作流技术的出现为构建信息系统提供了先进的方法和技术手段。今天,对工作
随着模式识别技术的不断发展,利用机器自动完成军用武器装备、医用药品等的识别越来越受到世界各国的重视。国外已经开展了化学武器弹药分类、医用片剂快速区分、核材料识别
计算机互联网的爆炸式增长以及基于因特网的电子商务的增加使得网络安全成为网络设计的一个重要因素。因此,开展网络安全特别是入侵攻击与防范技术的研究,开发急需的、高效实
在动态开放的多Agent系统中基于可信机制帮助Agent选择可靠的交互对象一直是Agent信任研究领域的重要研究课题。本文主要研究如何基于社会网络技术探讨基于群体的多Agent系统
业务交付平台是一个综合的增值业务支撑系统,使运营商能够快速灵活地提供电信增值业务。但是由于业务交付平台整合了原有各增值业务支撑系统的功能实体,因此系统接口相对比较复
入侵检测系统(IDS)是继“防火墙”、“信息加密”等传统安全保护方法之后的新一代安全保障技术。近年来,随着商业化IDS产品的不断开发,入侵检测系统也逐渐发展普及。但是,复杂的
多域间的安全互操作,需要集成、协同和统一的安全管理。解决多域互操作产生的策略冲突问题是多域集成的基础。本体是共享概念模型的形式化规范说明,是一种能在语义和知识层次
作为多媒体和网络研究领域的交叉学科,流媒体技术的应用和研究在近几年获得了迅速的发展。然而在Internet上传统基于C-S方式的流媒体应用很容易导致服务器端的性能瓶颈,并不能
网格技术是当今计算机研究领域的热点之一。而随着海量递增的数据处理需求以及信息服务需求的日益增多,如何有效地管理、分配、调度网格资源,来更好地满足用户的请求,提高用户的