论文部分内容阅读
社会化书签系统是Web信息资源收集、管理、分享的有效工具,但是它的社会化功能取决于用户量与资源量。本文主要的研究内容是如何将Web信息抽取等自然语言相关研究应用于书签系统中,解决书签系统的冷启动问题,提高用户体验。本文首先研究并实现了Web信息抽取算法。本文的Web信息抽取算法以Goose项目为基础,改进了Web网页数据抓取,添加了对网页编码的自动识别,通过观察与总结大量网站的HTML结构特征,优化了对网页的预处理,并添加了对中文网页信息抽取的支持,最后对正文进行格式化处理,以优化阅读体验。最终实现了基于ElementTree的Web信息抽取模块。该模块能够用于生产系统中,具有较强的实用性。同时本文基于Web信息抽取的结果与Web网页的元数据,实现了基于资源的标签推荐算法,并简单实现了网页摘要功能。本文设计并实现了书签系统,基础架构采用Tornado作为Web服务器兼Web开发框架,MongoDB作为数据库服务器,客户端使用AngularJS框架、j Query框架,同时使用BootStrap3样式风格,实现了响应式布局与扁平化网格的客户端应用,并实现了Chrome浏览器插件。系统实现中整合了Web信息抽取模块,为用户提供书签内容阅读编辑等功能,有效的提高了用户体验。基于信息抽取的结果,本文书签系统的搜索功能能够采用了全文搜索实现,避免了传统书签系统中通常只针对标签或标题进行搜索的局限性,也避免了对整个Web页面进行全文搜索存在的噪音信息。本文实现的系统不同于当前热门的推荐阅读系统,更注重书签管理而非阅读,如果能将书签系统与笔记系统结合使用,可以有效实现信息的二次过滤。