论文部分内容阅读
随着信息科技的发展,信息过载的问题也越来越严峻。比如,Blog虽然通过大量的链接和RSS订阅功能,聚合了大量的信息,形成了信息流动链条,但RSS聚合器是将全部信息毫无遗漏地推送到我们的桌面上,让我们订阅的Feed中每天都充满了海量的重复、冗余的信息,给阅读订阅信息带来了麻烦,更给挑选有价值的信息造成了困难。如何解决信息过载呢?有人提出从削减RSS源数量上入手,有人认为可以通过设置RSS聚合器来提高阅读效率……雅虎公司推出的Yahoo Pipes(管道或通道)服务给我们提供了解决信息过载的新思路。
什么是Yahoo Pipes
依据雅虎的说法,Yahoo Pipes是“一项主机服务,可以让你在一个可视化的编程环境中,重新组合Feeds并且创建出新的数据混搭(Mashups-基于网络的数据集成程序)”。通俗点说就是将不同网站的Xml格式的输出内容(Feed)作为数据源,用户无需专业编程知识,利用Pipes提供的模块(Module)对这些数据进行一系列的加工,最终获得用户想要的结果。
Pipes是一个开发级的RSS构建工具包,提供了可视化的接口,借助其强大的逻辑流控制,把整个网络当成了一个大数据库,让使用者宛如绘图般可以拉出各种信息整合来源与整合的路径,制作出信息流程。模块的作用就是对数据库进行检索、查询、过滤、排序,把最终结果输出成RSS或JSON格式给用户。越是经过整合的信息越具有价值。这种不用写程序即可开发Mash Up的程序,为信息再造与流通降低了门坎。在当今各种Web API越来越普遍之际,Yahoo Pipes为整合多种来源信息提供海纳百川的一种解决方式。教师可以用Pipes构建自己的资讯平台,把经过精选的学习资源提供给学生学习。
应用实例
要创建一个自己的Pipes,需要先用雅虎ID 登录(如果没有ID,需先注册),然后,点击“Create a New Pipe”(如图1)。这里,我们以我国航天史上划时代的“嫦娥一号”月球探测计划为例,说明如何“混搭”自己的教育时事资讯平台(如图2)。
设计思路:从笔者订阅的一些地理Blog、网站中筛选出标题或内容包括“嫦娥一号”或“奔月计划”的所有信息。
(1)抓取。从左边的Sources组中拖一个 Fetch Feed(抓取) 组件到右边的编辑器上,在URL地址中填入所订阅的RSS地址,要增加地址点击URL的“+”号。技巧:Pipes支持RSS2.0、Atom格式,有的网站的RSS格式可能不兼容,这个时候可以用feedsky.com或feedburner.com等对RSS地址重新烧制一下,即可解决问题。如果有多个网站,建议用多个Fetch区分开来,再用Operators中的Union(组合)组件将不同的数据源连接起来,以方便以后删除或新增地址。
(2)过滤。展开Operators组,拖一个Fliter(过滤)组件到编辑器,以挑选出符合需求的信息。设置选项为“Permit”,即允许匹配任何标题包含“嫦娥一号”和描述包括“奔月计划”的信息。反之,选“Block”则是排除任何标题和描述包括“嫦娥一号”和“奔月计划”的信息。
(3)筛选。从Operator组中拖一个Unique组件来做筛选,Unique 可以依照我们的设定,删除重复的资料,只留下其中的一条。这里,笔者是用Unique对比所有信息的原始网址,去除重复的网址。技巧:为什么不用标题来做比对,删除重复标题的文章呢?因为许多人收集信息时,都会依照自己的喜好来更动标题,所以,如果依照标题来筛选数据,会有很多重复文章筛选不到。另外,相同标题也有可能是不同的文章,如果利用标题删除重复文章,就有可能发生误删的情况。
(4)排序。对Unique筛选后的结果利用Sort(排序)组件,依照文章发表的先后顺序进行排列,如把最新发表的文章排在最上方。如果符合要求的信息太多而导致列表太长的话,还可用Truncate(截断)组件截取其中的一部分。
(5)输出。把各个组件的输出点和输入点先用“管道”连接起来,再将结果输出 (Output)。这样,地理资讯平台就搭建成功了。
(6)发布与使用。单击“Save”,再单击“Publish”,输入你认为可取的选项,这样,你的“管道”在全世界范围内就都可用了。右击“Get as RSS”或“Get as JSON”链接以保存链接位置,并在任何可能经常使用提要的应用程序中设置使用这个URL(如图3)。
Yahoo Pipes这项服务为我们提供了直觉的使用方式与弹性的架构,为任何有创意或有特殊需求的使用者提供了一个简单的混搭工具,而不再受不熟悉的程序语法、数据型态、网络协议等技术门坎所阻隔。赶快打造你的第一个Pipes吧。
什么是Yahoo Pipes
依据雅虎的说法,Yahoo Pipes是“一项主机服务,可以让你在一个可视化的编程环境中,重新组合Feeds并且创建出新的数据混搭(Mashups-基于网络的数据集成程序)”。通俗点说就是将不同网站的Xml格式的输出内容(Feed)作为数据源,用户无需专业编程知识,利用Pipes提供的模块(Module)对这些数据进行一系列的加工,最终获得用户想要的结果。
Pipes是一个开发级的RSS构建工具包,提供了可视化的接口,借助其强大的逻辑流控制,把整个网络当成了一个大数据库,让使用者宛如绘图般可以拉出各种信息整合来源与整合的路径,制作出信息流程。模块的作用就是对数据库进行检索、查询、过滤、排序,把最终结果输出成RSS或JSON格式给用户。越是经过整合的信息越具有价值。这种不用写程序即可开发Mash Up的程序,为信息再造与流通降低了门坎。在当今各种Web API越来越普遍之际,Yahoo Pipes为整合多种来源信息提供海纳百川的一种解决方式。教师可以用Pipes构建自己的资讯平台,把经过精选的学习资源提供给学生学习。
应用实例
要创建一个自己的Pipes,需要先用雅虎ID 登录(如果没有ID,需先注册),然后,点击“Create a New Pipe”(如图1)。这里,我们以我国航天史上划时代的“嫦娥一号”月球探测计划为例,说明如何“混搭”自己的教育时事资讯平台(如图2)。
设计思路:从笔者订阅的一些地理Blog、网站中筛选出标题或内容包括“嫦娥一号”或“奔月计划”的所有信息。
(1)抓取。从左边的Sources组中拖一个 Fetch Feed(抓取) 组件到右边的编辑器上,在URL地址中填入所订阅的RSS地址,要增加地址点击URL的“+”号。技巧:Pipes支持RSS2.0、Atom格式,有的网站的RSS格式可能不兼容,这个时候可以用feedsky.com或feedburner.com等对RSS地址重新烧制一下,即可解决问题。如果有多个网站,建议用多个Fetch区分开来,再用Operators中的Union(组合)组件将不同的数据源连接起来,以方便以后删除或新增地址。
(2)过滤。展开Operators组,拖一个Fliter(过滤)组件到编辑器,以挑选出符合需求的信息。设置选项为“Permit”,即允许匹配任何标题包含“嫦娥一号”和描述包括“奔月计划”的信息。反之,选“Block”则是排除任何标题和描述包括“嫦娥一号”和“奔月计划”的信息。
(3)筛选。从Operator组中拖一个Unique组件来做筛选,Unique 可以依照我们的设定,删除重复的资料,只留下其中的一条。这里,笔者是用Unique对比所有信息的原始网址,去除重复的网址。技巧:为什么不用标题来做比对,删除重复标题的文章呢?因为许多人收集信息时,都会依照自己的喜好来更动标题,所以,如果依照标题来筛选数据,会有很多重复文章筛选不到。另外,相同标题也有可能是不同的文章,如果利用标题删除重复文章,就有可能发生误删的情况。
(4)排序。对Unique筛选后的结果利用Sort(排序)组件,依照文章发表的先后顺序进行排列,如把最新发表的文章排在最上方。如果符合要求的信息太多而导致列表太长的话,还可用Truncate(截断)组件截取其中的一部分。
(5)输出。把各个组件的输出点和输入点先用“管道”连接起来,再将结果输出 (Output)。这样,地理资讯平台就搭建成功了。
(6)发布与使用。单击“Save”,再单击“Publish”,输入你认为可取的选项,这样,你的“管道”在全世界范围内就都可用了。右击“Get as RSS”或“Get as JSON”链接以保存链接位置,并在任何可能经常使用提要的应用程序中设置使用这个URL(如图3)。
Yahoo Pipes这项服务为我们提供了直觉的使用方式与弹性的架构,为任何有创意或有特殊需求的使用者提供了一个简单的混搭工具,而不再受不熟悉的程序语法、数据型态、网络协议等技术门坎所阻隔。赶快打造你的第一个Pipes吧。