论文部分内容阅读
随着互联网的飞速发展,以HTML文档作为信息的载体己非常普遍。然而,其复杂的组织结构、对视觉的依赖使得失明人士在访问HTML文档的时候遇到很大的困难。目前,失明人士浏览网页主要通过读屏软件或带语音接口的纯文本Web浏览器。两者均只能把网页上的文字读出,不能发现网页中的有机结构,要在信息繁多的网页中找到少量真正关心的内容十分困难和费时。
本文将提出一种专门针对失明人士而设计的语音浏览器。该浏览器先从网络抓取HTML文档,生成DOM树;然后通过对DOM树的结构进行分析,生成各种帮助浏览的新节点插入其中;再遍历该DOM树,从中提取可语音表达元素生成新的元素列表;最后根据各种不同HTML元素的特点以最符合语音表达的方式,通过文语转换(TTS)软件表达出来。用户可通过输入设备顺序或跳跃地访问HTML文档的任何一个可被语音表达的元素。
本浏览器与其它浏览器的不同之处除了对HTML元素的独特语音表达方式外,还引入对HTML文档结构信息的摘要。通过分析HTML文档DOM树中隐含的各种结构信息,告诉用户文档的基本结构,共分成多少个部分,各部分大致有什么内容,以及整个文档的主体部分在什么位置。这些提示将大大帮助失明用户在HTML文档中快速寻找他们关心的信息。