您的位置:网站首页 > 硬件知识 > 正文

【谷歌IO李飞飞】计算机视觉下一个突破在“Vision + X”我要发明AI 杀

类别:硬件知识 日期:2017-5-20 14:48:03 人气: 来源:

  【新智元导读】时间今天凌晨,谷歌的 I/O 大会第三天的论坛《人工智能和机器学习的过去、现在和未来》由谷歌云负责人 Diane Greene 做主持,嘉宾包括刚加入谷歌不久,负责谷歌云 AI 团队的李飞飞教授;谷歌的 Francoise Beauys;谷歌 Fernanda Viegas,以及 Coursera 联合创始人、现 Alphabet 旗下号称要“治愈衰老”的 Calio 部门首席计算家 Daphne Koller。几位语音、视觉的专家,她们从各自的角度,结合实际例子,分析了 AI 和 ML 的变化及趋势。【新智元导读】时间今天凌晨,谷歌的 I/O 大会第三天的论坛《人工智能和机器学习的过去、现在和未来》由谷歌云负责人 Diane Greene 做主持,嘉宾包括刚加入谷歌不久,负责谷歌云 AI 团队的李飞飞教授;谷歌的 Francoise Beauys;谷歌 Fernanda Viegas,以及 Coursera 联合创始人、现 Alphabet 旗下号称要“治愈衰老”的 Calio 部门首席计算家 Daphne Koller。几位语音、视觉的专家,她们从各自的角度,结合实际例子,分析了 AI 和 ML 的变化及趋势。

  视频长度近 1 小时,谷歌 5 位 AI 女性代表齐聚,共论 AI 和 ML 的过去、现在和未来。在 WiFi 下观看哦~

  Diane Greene:大家好,我是 Diane Greene,我负责谷歌云这一强大的部门,是 Alphabet 董事会之一。今天非常荣幸能够在这里主持这场论坛,嘉宾都是来自人工智能(AI)和机器学习(ML)领域的研究人员和专家。我们的论坛内容构成将是讨论 AI 和 ML 的过去、现在和未来,以每位的个人对整个行业及个人职业生涯的反思作为结尾。

  在讨论开始前,我先快速介绍一下论坛的嘉宾。从左往右,首先是谷歌首席研究员、谷歌语音识别项目组负责人 Franoise Beauys,她加入谷歌已有 12 年,我们每个人都会用到她开发的产品。

  其次是谷歌云首席科学家李飞飞,她致力于将 AI 和 ML 推广到整个谷歌以及世界;加入谷歌前,李飞飞是斯坦福 AI 实验室主任,开创了 ImageNet,后者对如今 AI 中深度学习的发展做出巨大贡献,她在 STEM 教学中表现优异,是 AI For All 的创始人。

  接下来是谷歌高级主任研究员 Fernanda Viegas,她也是一位计算设计师(computational designer),关注整个信息可视化方面的研究,也是谷歌大脑“大数据可视化团”队的联合领导人;关于 Fernanda 最著名的是她的一些基于信息可视化的作品,被纽约现代艺术博物馆(MoMa)收藏为永久展出的一部分。

  最后是 Daphne Koller,她现在 Alphabet 旗下致力于延长人类寿命和让生活更健康的部门 Calico 实验室工作,担任首席计算管;在此之前,她在斯坦福工作了 18 年,是当时斯坦福 AI 团队的联合负责人;Koller 还与人联合创办了 Coursera,也是目前最大的开源 MOOC 在线教育平台。你们知道 Daphne 2012 年入选《时代》“最有影响力的100 人”榜单,凭借优异的计算机能力,Koller 在运营首届 ACM 计算期间赢得了麦克阿瑟学金;此外,她还是美国科学院和工程院的,这些都是说明她能力卓越的一些证明。

  Diane Greene:从历史的角度开始,Daphne 你作为 ML 领域最著名和多产的作者之一,能谈谈你对我们现在转变到深度学习的现象怎么看吗?

  Daphne Koller:我认为深度学习是真正令人激动的强大作用,解决了现实世界中很多时候很多方面的问题。但是,这场源于很早之前的 ML 研究,是这些研究为深度学习提供了基础。大概在过去 10 到 15 年之间,我们努力研发了很多更为手工制作(hand crafted)的模型,这些模型需要更多的先验知识,你必须想清楚具体细节以及模型与领域之间的关系,因为当你没有很多数据的时候,你必须更多依靠人类的直觉去解构模型。

  随着文本、图像等领域的数据越来越多,我们开始用大量的数据去替代这种直觉,我认为在这方面需要做一些平衡。很多 10 到 15 年前研发的方法,比如优化算法,到如今依然至关重要,也是深度学习之所以取得成功的关键因素之一。现在我们大概认为大数据能够解决一切问题,但某些领域仍然只有中等乃至小型的数据体系,因此,我认为在人类对领域知识方面的直觉和不断涌现的数据之间必须取得平衡,模型要将结合这两部分的最佳优势。

  Diane Greene:飞飞,你负责斯坦福的人工智能实验室,你领导的 ImageNet 项目又如此成功。现在你在探索如何将 AI 带入世界的每家公司。你对此有什么看法呢?

  李飞飞:谢谢 Diane。首先我想简单回顾一下,在人类文明进程中,AI 实际上是一门非常年轻的科学,只有 60 年的历史。但在我看来,从人类文明诞生之初我们就一直在追寻智能究竟是什么,想知道灵感是从何而来。所以,在 60 年前几期开始做简单计算的时候,像阿兰图灵这样的思想家就已经对全人类提出了这个问题——“机器能够思考吗?机器也具有智能吗?”同样,在大约 60 年前,像马文明斯基、约翰麦肯锡这样的计算机科学师,还有很多人聚在一起,思考这个问题。

  如今掀起热潮的 AI,与 AI 的众多奠基人从技术上看常不同的。但是,核心思想都是让机器能够思考,能与人交流。AI 经历了几次起起伏伏,从最初的命令逻辑到专家系统,再到早期机器学习浪潮,最后到今天的深度学习,我认为过去 60 年 AI 是处于一种“in virtual”的状态,在实验室里。在这 60 年的过程中,我们打下了基础,发展了对 AI 而言至关重要的领域,比如机器人技术、计算机视觉、自然语言处理、语音处理等等。同时,我们也衡量对数据的理解,发明很多工具,因此在 2010 年左右,统计机器学习工具的成熟和互联网、传感器带来的大数据有幸融合在一起,再加上摩尔定律让我们拥有了更好的硬件设备,也即强大的计算力,这三者合在一起,共同支撑起了如今 AI 的发展,也就是我所谓的“invivo AI”,对现实世界产生实际影响。如今由 AI 和 ML 给谷歌云带来的转变,我认为这才是 AI 的历史时刻,AI 将对更多产业造成实质上的影响。但是,我想强调这一切都还只是开始。

  我们目前所发明的方法,目前探知的 AI 好比大海中的几滴水,我们不能过分夸大。不过,我认为前面有许许多多令人振奋的工作在等待着我们。

  Diane Greene:我非常同意你的观点。现在很多公司都在用 AI 去做一些以前我们完全无法想象的事情,而且涉及的范围还很广,AI 似乎随处可见,不仅仅在云里。

  如果我们看到问题的更深一些的层面,Franoise 你是做语音识别的。现在语音识别可以说是最普遍的 AI 应用之一。你能分享你对这一转变的看法吗?

  Franoise Beauys:我 12 年前加入谷歌时,我们一帮人有个梦想,就是用语音识别做一些既有用又好玩的东西。语音识别实际上很早就有了,但我们想做一些与众不同的东西,这在当时很困难,因为那时候的语音数据没有今天这么多。于是,我们从很小的产品开始做起,不能识别太复杂的东西。我们不断尝试去拓展,但又不能往前推进太多,毕竟我们需要作出让人想用的成功的产品,然后开始收集数据,构建模型,再不断迭代。

  我不知道你们还记不记得一款叫“Google 411”的产品,当时只是一个很简单的电话应用,你拨打一个号码,系统会告诉你这是哪个州哪个城市,然后你说你对什么东西感兴趣,系统会问你具体对什么公司(business)感兴趣,你告诉系统一个具体的名字,它就会自动将那个州那个城市的那家公司跟你连接起来。

  要知道那是 12 年前,没有 iPhone 也没有手机,只有翻盖机,能做的事情非常有限。但好在谷歌领导层对这一技术针对常有远见,很积极地鼓励我们研发,我们才得以继续探索。

  后来,iPhone 和手机的出现让一切都变了样。很显然,视觉反馈成为最主要的,于是我们开始设想其他的应用,最后想到的就是语音搜索。

  所以,谷歌语音搜索是那个时候起,才真正开始有专人全心投入。随着手机上的麦克风不断变化,能用声音做的事情也变得越来越多。最近,我们开始研发将手机上的语音识别转移到 Google Home 这样的家居设备上,因为人们对使用语音完成任务的需求越来越多。这可以说是打开了整个语音助理行业的入口。能用语音完成的任务越来越多,你可以用自然语言与机器交互,不再需要很麻烦的键盘输入。

  Diane Greene:谢谢。Fernanda,你之前提到想要普及将数据可视化,这跟数据之间有着密切的关联。如何实现你的目标?你是怎么看数据可视化分析的?

  Fernanda Viegas:我 10 多年前开始从事数据可视化,当时条件要艰苦困难得多,无论是机器的性能,还是可以获得的公开数据,都不能与现在同日而语。但如今,人们似乎处处都通过数据可视化的方法沟通交流,我看见新闻业中使用数据可视化真的很开心,当说起很复杂的与统计学相关的故事时,我们总是开玩笑说,数据可视化就像是统计学“入门毒品”(gateway drug),就好像你正在做统计学但完全没有意识到你在做统计学一样,因为我们人类实在是太擅长在通过视觉识别模式、看出重点等等。

  所以数据可视化的方法渐渐得到推广普及,而且我认为我们在将数据可视化的能力和工具方面也不断提升。例如 AI 在数据可视化的发展当中就起到了飞跃性的作用,像 Hinton 和他的学生在可视化方面取得的巨大成功。

  这让我明白了高维空间系统中的数据对人类而言很难理解,因此,数据可视化是试图去理解在这些系统里发生了什么的一种方法。例如 Hinton 发明的技术能够让我们明白数据是怎么聚集在一起的,不同的概念之间有什么区别,这些系统是如何吸收数据的。这一点我认为是十分重要的进步。

  Diane Greene:接下来我们的话题会转向技术层面。Franoise 你先说一下在语音识别中最大的技术转变是什么吗?目前最大的技术挑战又是什么?

  Franoise Beauys:好的。要知道语音识别是很复杂的,每个人都有不同嗓音、不同口音,在不同中每个人说话,这导致了语音数据多种多样。我认为很大程度上语音识别一直是基于机器学习的,也不是说哪种机器学习,总之随着机器学习的发展,语音识别也在不断进步。过去 10 年很重要的一点,我认为是使用了神经网络,大约在 8 年前的样子吧,或者更早。

  实际上神经网络很早就出现了,有很多相关的研究,也取得了一些不错的结果,但当时的计算力不足以支撑得到现在这样好的结果,所以神经网络被抛弃了一段时间。与此同时,语音识别继续使用更加基础的方法,比如高斯混合模型。

  当我们真正涉及深度神经网络后,在工程的角度上我们需要全新的视角,应对延时问题,还有训练等等。再后来,当深度神经网络变成现实,我们开始实际使用并真正在产品上应用的时候,打开了一条全新的通道,因为现在我们有强大的计算能力,能够快速的将一个神经网络转移到另一个架构上。于是,我们开始探索递归神经网络(RNN),比如 LSTM,还有CTC 建模,我们有了一系列的序列建模。

  因此,转向神经网络了全新的可能,让我们从技术的核心去创新,驱动系统,持续优化,比如提供多种语言,提升识别的精确度。

  Diane Greene:好的,说完了深度神经网络对语音识别的影响,Daphne 你能谈谈神经网络在让我们更健康、延长寿命方面有什么作用吗?这是个相当的问题了。

  Daphne Koller:你知道为什么 Calico 需要全世界最好的生物学研究人员的。Calico 虽然宣传不多,但我们的目标是理解衰老这个问题,从而帮助人们更加健康长寿。衰老实际上可以说是率最高的原因。想起来或许很好笑,但实际上很多疾病都是在 40 岁以后出现的,并且在这之后发病率呈指数级增长。每年死于糖尿病、心血管疾病或癌症有多少人?没有人知道为什么 40 岁以后,每年我们患病的几率就会成倍增长。

  为此,我们真的需要去研究衰老从层面到系统层面在生物中是如何展现的,并且弄清楚衰老的真正原因。

  我不认为我们会长生不死,但或许我们可以通过干预措施活得更长更健康。从 UCSF 来到 Calico 的科学家 Cynthia Kenyon 证明了,单个特定基因的突变可以将寿命延长 30% 到 50%。而且,实验中的线虫不仅仅是活得更久了,也更年轻了,这可以从繁殖健康和运动水平上观测出来。

  如果我们能在人类身上实现这一点,那就真的酷极了。但为了能实现这一点,我们必须一大堆我们还不明白的东西。所以,我们需要收集各种生物系统的数据,线虫的也好、苍蝇的、大鼠的、人类的。我们在层面上有很多共同点,所以科学家才有幸在过去 20 年开发设备、测量模型,让我们有所了解,或者说至少得到了有关生物系统衰老的数据,比如基因测序、低水平微流体,以及所有健康检测仪、可穿戴设备。

  这些数据都隐含着衰老的信息,但没有人有能力将所有这些不同类型和范畴的数据统合起来,要整理、归类、分析这些数据耗费的时间太长,一个人一辈子也可能做不完。所以,我们真的很需要利用科学家收集数据,并从中得到灵感的过程和从事机器学习的研究人员很好得协作,两方面的人哪一方都是是无法单独完成这项任务的。

  我很幸运成为进入这一领域的研究者之一。计算生物学从 21 世纪初兴起。生物学家和计算机科学家互相合作,才能从大量我们获取的数据中发现意义,从而真正理解衰老的生物学原理,同时研发有助于减慢这一过程的干预措施。

  Diane Greene:感谢 Daphne 的深度分享。那么,飞飞,上次你在接受 TechCrunch 采访时说,“视觉是 AI 的杀手级应用”,你能具体解释一下吗?

  李飞飞:我的话的确很刺激(provocative),但我还是这样认为,因为很多人问计算机视觉的杀手级应用是什么,我则在想视觉是 AI 的杀手级应用。下面我具体解释一下。

  这样说有两个原因,一个是从5.4 亿年前起,数量突然增多了,也被称为寒武纪生物大爆发。为什么会发生这种情况?最近有一项非常令人信服的著名推论认为,这是由于眼睛出现了。

  当生物演化出视觉以后,整个演化进程都改变了,有了捕猎者和猎物。5.4 亿年后,人类成为地球上最有智慧的生物。根据自然演化,人脑的一半都用于处理视觉信号,因为视觉是如此重要。

  另一个则是技术层面。现在,我们生活在互联网时代,有人预计整个网络上超过 80% 的数据都可以说是某种类型的像素,无论是可见的,还是传感器收集不可见的。从医院、无人驾驶汽车到安防摄像头,到处都是像素形式的数据,而企业如何通过云服务应用这些数据,为消费者带来真正的价值,是问题的核心。

  我一直在说,现在对图像识别、视频处理、视频分析有大量的需求。对于计算机视觉而言,这是一个令人激动的时代,与语音识别一样,视觉也是经由深度神经网络才在过去 10 年有了一个线 年,我认为计算机视觉最大的进步在于基本的任务,比如物体识别、给图像打标签、物体检测……这些都可以从谷歌推出的各种产品中看到。

  但是,要在计算机视觉中做下一步的投资,我认为则是“视觉 + X”,视觉十分重要,是基础的基础,而语言交流也很重要……所以我认为将视觉和语言结合起来将极其有趣,不论是生物学可视化也好,还是医疗图像等等,我认为视觉在这里面都有巨大的机会。

推荐:

0
0
0
0
0
0
0
0
下一篇:没有资料

相关阅读

网友评论 ()条 查看

姓名: 验证码: 看不清楚,换一个

推荐文章更多

热门图文更多

最新文章更多

关于联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 人才招聘 - 帮助

声明:网站数据来源于网络转载,不代表站长立场,如果侵犯了你的权益,请联系站长删除。

CopyRight 2010-2016 无痕网- All Rights Reserved