清华教授温江涛:后摩尔时代的视觉感知应回归能耗

来源 :海外星云 | 被引量 : 0次 | 上传用户:fakemario
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
温江涛在演讲

  “我们现在已经进入到了一个面向特定域设计架构的时代,现在最大的限制因素就是能耗,我们需要提出一系列新的理论指导下的算法,针对特定应用領域,面向应用和算法设计架构,面向应用和架构设计算法,思考怎么可以更高效地感知、处理我们获得的数据。”铂岩科技CEO温江涛在峰会上表示。
  温江涛于2012年回到学术界后仅仅3年即当选国际知名学会IEEE Fellow,是当时中国大陆最年轻的当选者。他现任清华大学计算机科学与技术系长聘正教授,同时也是媒体与网络技术教育部———微软重点实验室联合主任。
  需要提到的是,他于21世纪初在美国从事视频编码、多媒体通信等相关的研究和标准制定工作,曾有多个专利被国际标准采用。他作为共同创始人,主要技术负责人和天使投资人也参与创办了多家公司,先后被Dell、Facebook等上市公司收购,产品在世界各地广泛应用,包括三星、华为、阿里巴巴、谷歌等公司都在使用他设计实施的产品。
  他在大会上以《摩尔定律之后的视觉感知》为题发表了演讲,他认为现在正处在3个趋势的交汇期:无处不在的视频和视觉应用;摩尔定律和登纳德缩放效应的终结;伦理和隐私问题。他认为,相机的分辨率、处理器能力、AI算力已遇瓶颈,而能耗更是最终的限制因素。
  既使用我们能设想的最先进的理想半导体技术,要实现类似生物大脑的信息处理能力也需要10兆瓦的能耗,但是生物大脑的能耗不过10瓦,这里面有1000000:1的差距。如果要把视觉数据通过网络传输的话,功耗会更大若干的数量级,而且延时对很多应用来讲不能接受。
  所以人们希望可以通过AI处理器来解决这样的问题,比如华为和英伟达等公司,它们希望可以让摄像头更智能,避免摄像头和云服务器之间的数据传输,并且处理视觉信息比传统通用服务器更有效率。
  除了数据在芯片上和芯片外、网络中的传输,现有体系对于视觉信号的表示和处理的效率也不是很高。人类大脑可以通过各种方式直接实现非线性处理,但是机器只能处理0和1这样的二进制数据,需要用很多门电路才能完成对复杂逻辑和函数的模拟。这在很大程度上也限制了效率。因此有公司希望通过开发不同线路来模拟人类大脑功能,有一些致力于开发神经芯片,通过监控神经元的突起开发出深度学习的算法并集成到线路中。
  而在下一代“视觉感知”技术中,温江涛认为“会有这样一种新的阵列,它的耗能是非常低的,而且整体延迟率非常低,并且可以具有学习能力,可以进行不断的自我演进,这是后摩尔定律和登纳德缩放效应时代视觉处理的必由之路。”
  他把这类视觉处理器架构称为VPU,VPU(Visual Perception Unit,视觉感知单元)可以以极低的功耗和延时,更好地完成感知、追踪和识别等基本视觉任务。
能耗1000000:1
VPU直接利用光子的数据,低功耗低延迟实现追踪等基础视觉任务

  传统的效果是把光子信息通过光电转换和复杂的信号处理重建为一系列数据量巨大的高清晰度像素点阵序列信息。这些信息再通过通用或者专用处理器处理,中间涉及大量的无效计算和数据传输,并且为了完成数据传输,需要压缩、解压缩等复杂处理。而VPU可以直接感知光子,不需要通过视频序列的重建就可以直接完成视觉任务,从而在根本上实现现有体系无法达到的功耗、延时和处理性能。
  生物视觉的另外一个特征是大量不同类型的视觉细胞(比如人类就有两种)甚至复眼系统的信息融合,以达到更宽广的视野和更好的感知能力。VPU架构也需要把不同的信息融合在一起,还需要考虑兼容性、同步、异步、可靠性等等问题。这个融合可以在芯片内完成,也可以在芯片外完成,甚至可以通过摄像头阵列来实现。
  因为大量的感知单元运行着一系列随机的任务,为了能更好地配置资源,必须要高效建模,然后实时动态地对数以万计的处理资源做优化的分配。这一核心技术也可以用在英特尔CPU这样的通用处理器上,实现诸如实时、低延时、高广播级超高清视频编码这样对计算资源和数据吞吐率有极高要求的应用。
  温江涛的团队今年在世界上首次实现了广播级8K 5G的实时转播,在诸如男篮世界杯比赛,新华社国庆70周年庆祝活动24小时直播得到了应用。
  同时,温江涛和团队也在和内容制作商探讨,把这项技术更好地运用在体育、音乐等领域。“我们希望能够搭建起一个生态系统,更好地建立面向下一代的视频技术。”
  问:从广播电视一直到网络数字图象发展非常速度快,现在已经到4K、8K、16K,你怎么评价这种趋势?
  温江涛:首先肯定是很快,我觉得最核心的几个要素现在已经具备了:首先是带宽,其次现在比较流行的一些短视频软件都允许用户直接在手机上进行编辑编码,从而大大提到用户生成内容的观赏价值。
  但是这里有一个非常重要的问题,今天给人看的和给机器看的视频是没有区别的。今天拍摄到的绝大部分内容可能是永远不会有人看的,比如城市监控这些视频,除非调出来,出事的时候才会有人看。而有更多的摄像机永远都不会被接到显示器上去。   在将来,视频的应用是无处不在的。我们希望被人看的视频能越来越清晰,而除了娱乐以外,针对机器看的东西希望能开始重新设计一套机理让它广泛应用起来,在一些用很复杂的传感器来解决问题的地方,可以用视频来解决。但是最核心的东西,一个是成本,一个是功耗。
温江涛接受采访

  问:你演讲里提到的1000000:1等等比例,是不是主要指的就是能耗?怎么去理解视觉感知正处在三种趋势的交汇期?
  温江涛:对,主要是能耗和它计算的效率。某种程度上我不像有些专家对人工智能那么欢欣雀跃或者忧心忡忡。比如下棋下过人类,这个事情固然了不起,但是首先,它是针对一类特定的问题;这类问题都是人发明出来为难我们自己的,人工智能系统采用众多的服务器恨不得后面有一个核电站给这类机器供电。柯洁、李世石早上随便吃了点就来跟你下,所以我觉得人的效率的高的不得了。
  而伴随着摩尔定律和登纳德缩放效应的终结,现有计算机处理能力既使采用针对应用的架构设计也很难有摩尔定律时代的10000:1甚至1000000:1的飞跃,能耗更是越来越高,所以我们必须找到下一个10000:1飞跃的方向。我觉得最根本的东西,未来是能量受限的。在这种情况下,真正的人工智能不是用机器去挑战一个什么样的功能,或许是合成一个什么样的“器官”,用两碗豆浆就可以支撑完成一些任务。现在提到的很多机器人和人工智能可能没有关系。所以未来的话,最核心的东西不一定在电化学机理上仿真,但至少从它的系统设计的思想和概念上去仿真。
  问:今天很多的人工智能的应用其实只要是涉及到人的一些基本功能的,其实相当复杂,视觉只是其中之一。有人在从机理上做生物芯片,试图模拟电化学反应过程或者电信号处理过程。但是我们现在想的是如何从逻辑上模拟大脑的过程,空气中有温度、触觉等等刺激,大脑是如何将之过滤掉并呈现出视觉表象的?
  温江涛:大脑中间的每一个脑细胞,可能都是不太可靠的。但是大量的东西结合在一起就变得可靠了,我们希望这些东西能解决一些问题,如果大量部署,那么就会非常便宜而且非常低功耗。可能激光雷达要卖2 万美元,而这个东西只卖25美分,但是我们可以放在很多地方。比如让老人用的轮椅具有避障等安全功能,如果在轮椅上装激光雷达那成本太高,我们可以装很多小的、便宜的摄像头。
  我希望在价格、功耗、延时和性能之间做一个权衡取舍。一些不需要高精度的地方以成本和功耗为主,不断再去提升性能。隐私方面,比如我想在停车场拍车牌,除了拍到车牌以外,还会拍到其他那些东西,比如驾驶员的脸之类的,这就涉及到隐私问题。假如我做一个摄像机,它唯一的功能就是识别车牌。那么,这个摄像机可以抓拍任何地方,大家觉得很安全,不怕被泄漏隐私。
  问:除了在轮椅上以外,你设想的产品还会用在哪些领域?
  温江涛:一些低速的机器人,比如仓库里面的,它有一个基本固定的路线,不需要走很快,但是这过程中可能有东西掉下来,周边的工人需要躲避等等场景。
  这样的一些环境是可以很快应用的,假如成本做得很便宜的话,我们可以装很多,它协同工作的时候会很可靠,同时这堆东西的出错概率非常低。
  问:这个思路有没有别人也想出来或者他们正在做的?
  温江涛:针对人类视觉的想法有很多探索,但是我们这样定义视觉感知单元(VisualPerception Unit),而不是视频处理单元(VideoProcessing Unit),或者人工智能芯片,应该是没有了。这是由应用需求、技术发展两者的综合效应决定的一个可能是最有效的方式。我们的输入是vision, 不是先将其重建为video. 目标是perception,也不是处理。事实上现有很多神经芯片用模拟电路仿真深度学习的一些方法,由于架构和算法脱节,可能不会实现非常理想的效果。
  问:5G对视觉感知领域会带来什么影响?
  温江涛:因为5G带来了对消耗带宽的需求,所以8K今年得到了及其大的重视。我们做了世界杯男篮的转播,国庆的时候我们做了新华社24小时的直播。8K 超高清视频通过5G现网实现直播,这是世界首次,我们也非常荣幸能和上下游的合作伙伴一起实现这些世界第一。
  另外一些5G的物联网或者机器人的应用可能要到明年或者更晚一些。目前来看,普通消费者可能感觉不到4K、8K、16K的区别,但是有几个地方是需要的:安防领域,摄像头的位置和数量是有限制的,很多装的非常远,在建筑物顶上,又要看到很宽的范围,这就需要超高清晰度,这是8K、16K的硬需求,甚至这些都还是不够的,可能需要十亿像素级别的分辨率;第二个是体育领域,在转播中因为受机位限制,无法设置过多的4K 相机,而在一个大的场景里用8K去拍,不用剪来剪去,大分辨率可以支持自动剪裁,不需要增加成本和效率。
  问:技术本身有没有一些挑战和瓶颈?FPGA是不是一个有效的方案?
  温江涛:最大的瓶颈在于资源的调度和高性能的计算,还有一个是数据的传输,这些都是要动态控制的,是挺难的事情。
  FPGA有一点儿像CPU和GPU中间的一种,可以用一些硬件的办法去优化一些核心的处理能力。这一类东西适合在今天人工智能里面做深度学习的训练。但是对视频来讲,输入没有办法把它做得很规整,所以它并不适合做很多的视频处理。
  我认为你只要同意视频未来有重大的需求,CPU和GPU会遇到巨大的瓶颈,一定会有新的架构出现才可以。
  问:你在美国工作有十多年了,有很多专利被采用,包括在UCLA里面最大的专利授权协议。能不能谈一下你是如何推动些学术研究落地的?
  温江涛:实际上今天去看那些发明,不是在做了科学研究或者理论之后,再想这个东西可以在什么地方用。假如你真正很厲害的话,需要先找到要解决哪一些问题,然后再一一去找解决方案。为什么有些研究不太能落地,就是因为做了一些不需要的抽象,解决了一些其实不需要解决的问题。
  麻省理工学院Bob Gallager教授说过,做教授最基本的职责是帮助学生去找到一个最简单的没解决的问题,我觉得这里每一个都是关键词。
  所谓硬核的科技,这些东西需要一定的流程和培育方式,一些方式不光是在课本里。我觉得目前中国对硬核科技或者是真正有价值的技术的认识在不断改变。
其他文献
冲绳岛位于日本西南的琉球群岛,在这一片狭长地带数千米之下的海底,散落着一些已经熄灭的海底热泉喷口。  由于国际社会对深海采矿的兴趣日益浓厚,这些早已死亡的海底热泉喷口处的矿物质正受到越来越多的关注。据悉,在这些散落的矿藏中,仅其中一处的锌储量就足以满足日本一年的需求。对一个大量矿产资源依赖进口的国家来说,海底硫化物矿床是诱人的潜在替代选择。但要付出高昂代价:采矿可能会破坏宁静的海域,危及独特而脆弱
每年,数以百万吨计的塑料垃圾要么被填埋,要么被焚烧,污染遍及整个地球,部分塑料污染严重的地区,人类和动物体内都不知不觉已经摄入了微型塑料颗粒,不仅缺乏高效的回收手段,而且每天还有更多的新塑料从石化资源中产出,塑料垃圾不断累积形成恶性循环。  聚对苯二甲酸乙二酯(PET)是生活中最常见的热塑性塑料,用于制造饮料瓶、零售包装、衣物或地毯等产品,在环境中自然分解需要数百年时间,现在,科学家们合成了一种新
张议潮雕像  那是一次九死一生的悲壮行程。  10队使者,携带着10份完全相同的文书,从沙州(今敦煌)的各个方向出发,绕过吐蕃人控制的河西各个城池,向着千里之外的目的地——长安进发。  10支队伍,穿越茫茫大漠,峨峨雪山。10支队伍中的九支,或在吐蕃武士的追击下牺牲,或迷失方向而葬身于朔漠雪窟,只有由僧人悟真领导的一支,经过整整两年的长途跋涉后终于成功抵达了长安。“节帅张议潮已克复沙瓜二州,愿与王
有些人天生具有一些“超常”体能,可能与他们的遗传构成有关大多数人在水下的视线是模糊的我们大多数人无法在冰屋内长期居住  具备强大“钢铁之躯”的超人通常只是科幻小说和漫画中的人物,让我们普通人无法企及。  然而,生活中的确有一些人具备一些特殊体能和本领,令大多数人只能羡慕和梦想。  是什么原因让这些人具备一些常人没有的本领呢?是遗传基因突变还是他们的适应能力强?  以下的五大实例或许帮我们揭开人体的
若你对生活、工作感到倦怠,或是存在不满,以下三个小练习,或许能让你的烦闷人生重现美。练习一:转换工作场所布置  工作是个容易使人们昏昏欲睡的地方。我们到班,然后忙着手边的工作。我们的时间被专案塞满,有些天里,我们几乎没有时间抬个头,或者记得照顾自己。  今天,我们要改变一下这种情况,移动一下你办公桌附近的照片,重新安排墙上的东西。如果可以,稍微移动整个工作位置,重点是从环境上破除你的工作场所,营造
查尔斯·达尔文去世近140年后,科学家首次证明了他的进化论中一个重要猜测。3月18日,剑桥大学圣约翰学院生物人类学博士生Laura van Holstein在《英国皇家学会学报B(Proceedings of the Royal Society B》上发表了一项研究,她发现哺乳动物亚种在进化中发挥的作用比之前认为的更为重要。  她的研究现在可以用来预测人类应该重点保护哪些物种,防止它们的灭绝。物种
变成化石的鱼层层叠叠。也许,巨大的冲击波引发湖啸,水里的鱼带着满腮的熔岩颗粒,被滔天巨浪抛上岸,叠成一堆  大约6600万年前,一度统治地球两亿年的恐龙突然灭绝;目前的权威解释是,因为一颗天外小行星撞地球导致尘埃蔽天,酸雨盖地,断绝食源的恐龙和众多动植物从此绝迹。这个“恐龙杀手”被称为希克苏鲁伯陨石。  多少年来,科学界对恐龙灭绝的研究一直没有停顿。那颗“杀手”陨石撞地球的时间、地点对恐龙灭绝至关
α-酮戊二酸盐(AKG/α-KG)是三羧酸循环的中间产物之一,是人体中天然存在的化合物,在人体内一系列释放、储存能量的反应中起关键作用。有研究表明,随着年龄的增长,血浆中AKG的水平会大幅下降。且α-酮戊二酸盐无法从食物中获取,可以通过膳食补充剂的形式进行补充。  作为膳食补充剂的一种,健身爱好者们服用AKG以增肌塑形。而从2014年开始,研究人员发现了AKG在延长健康寿命,以及骨质疏松、慢性肾脏
俄国摄影师戈什科夫的作品《拥抱》  被誉为野生动物摄影“奥斯卡”的2020年“野生动物摄影师大奖赛”结摄影师戈什科夫博得头筹。  获奖作品名为《拥抱》,“主人公”是生活在俄罗斯远东深山老林中的一只西伯利亚虎(阿穆尔虎)。  照片中,这只神情梦幻的雌虎似乎在与满洲里冷杉紧密拥抱。其实,它是在留下体味,宣示自己的“领土”主权。  大奖赛评审员基德曼一考克斯形容,光线、颜色、质感让这幅照片俨如“油画”。
用总统特朗普的话说,美国的“正义力量”是为了阻止“化学武器的生产、传播和使用”  对叙利亚发动空袭,美、英、法三国的理由是,有必要维持禁止使用化学武器的国际禁令,捣毁总统阿萨德的化学武器库,并且阻止其再次使用化学武器攻击叙利亚平民。  英国首相特雷莎·梅表示,英国一贯站出来捍卫全球法律法规和道德准则,以维护本国国家利益和有秩序的国际社会的整体利益。  然而,英国政府在之后发表的正式法律辩护中强调,