隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印?
观点 隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印? 观点 | 2018-12-25 09:02 隐藏的学霸之魂:Zero-Shot Learning如何打破“零起点”的封印? 脑极体

回顾一年来CV技术的产业化进程,算得上是红红火火恍恍惚惚。

2018年还剩不到10天,回顾一下今年CV(Computer Vision,计算机视觉)领域的进展,在技术上并没有迎来什么革命性的新突破。


几个头部企业的业务重点,除了强化现有算法的精度,更多还是将精力投掷在商业布局上。


似乎每家公司都在为这个看得见的“赛点”争分夺秒地发掘新应用场景。


不过,还是有很多新技术的进步值得我们专门用一篇文章来说一说,比如今天要讲的Zero-Shot Learning。


毕竟,当场景被开发到极限,大家就又回到了技术的起跑线。


什么是ZSL?


零样本学习zero-shot learning,是最具挑战的机器识别方法之一。2009年,Lampert 等人提出了Animals with Attributes数据集和经典的基于属性学习的算法,开始让这一算法引起广泛关注。


之所以如此重要,因为其迥异于传统图像识别任务的思考方式。


从原理上来说,ZSL就是让计算机具备人类的推理能力,来识别出一个从未见过的新事物。


举个例子,我们告诉一个从没见过斑马的小朋友:“斑马是一种长得像马,身上有黑白色条纹的动物”,他就可以很轻松地在动物园里找出来哪个是斑马。


可是,在传统的图像识别算法中,要想让机器认出“斑马”,往往需要给机器投喂足够规模的“斑马”样本才有可能。而且,利用“斑马”训练出来的分类器,就无法识别其他物种。


但是ZSL就可以做到,一次学习都没有,只凭特征描述就识别出新事物,这无疑离人类智力又近了一步。


那么,这种“天秀”到底是怎么工作的?


简单说的话,就是利用高维语义特征代替样本的低维特征,使得训练出来的模型具有迁移性。


比如斑马的高维语义就是“马的外形,熊猫的颜色,老虎的斑纹”,尽管缺乏更多细节,但这些高位予以已经足够对“斑马”进行分类,从而让机器成功预测出来。


这就解决了图像识别长久以来的问题:如果一个事物从来没有在现有数据集中出现过,机器应该如何学习和识别它。


听起来是不是很爽很智能的样子,实际上也确实如此!


ZSL的“优越感”来自哪里?


在CV领域的顶会CVPR 2018 会议中,一个关于使用鉴别性特征学习零样本识别的论文,被认为代表了该领域当前的最佳水平。


之所以受到如此重视,主要源于近年来零样本学习(ZSL)在目标识别任务中的大显身手。


由于ZSL所挑战的现实情境前所未有地苛刻,使其具备了影响其他图像识别效果的关键能力。


现有识别技术大多集中于监督学习,所以需要不断推出更大的数据集,谷歌曾介绍说他们在用300Million的3D图片进行训练。而且,每个领域还需要各自的数据集。


这种情况下,全部进行数据标注的工作量也变得很大,很多新生事物更是想标注都无从谈起。这样在部署端的效率和成本就成了产业的“不可承受之重”。


那怎么办呢?科研人员只好努力让机器学会“花更少的钱,办更多的事”。


以腾讯AI Lab的研究为例,其“Diverse Image Annotation”,就是充分利用标签之间的语义关系,用少量多样性标签来表达尽可能多的图像信息,实现自动标注。


ZSL则更为极端,要在一个样本都没有的前提下“空手套白狼”,这种极限挑战,就给技术界带来了新的活力。


首先,ZSL降低现有算法对数据集的依赖和标注的压力,有利于提升机器视觉技术的亲和力及部署效率;


另外,现在产业端对缩减算力需求的呼声日渐高涨,ZSL清晰有效地指向了可行的解决方案;


更重要的是,ZSL解决的不仅仅是视觉问题,更与NLP的发展相辅相成。根据模糊高维的语义描述去进行识别,对机器的要求不仅仅是简单分类,还要理解特征一些人类的高级知识,比如一种艺术作品的风格、一种特殊的情绪等。找到这种语义上的联系,将机器视觉与NLP技术联合在一起解决问题,ZSL激发的技术想象很是有趣。


都说“数据是AI的燃料”,那没有燃料是不是就注定GG? ZSL表示可以续命,就是这么得瑟!


从0到1:ZSL和OSL有何不同?


这时,想必很多关注技术趋势的同学可能已经发现了,零样本学习与少样本学习(OSL,One-Shot Learning)在最终的应用成果上,似乎作用很相近啊。


比如说,都指向了高层次的认知问题。只要给OSL一张“斑马”的图片,它就能很高效地将它从其他动物中鉴别出来。背后靠的也是从很少的标签中学习、分类和推理的能力。


在应用端,因为都不依赖庞大的数据集,两种模型都能帮助产业的AI识别实现降本增效。


按理说,既然零样本是少样本的子集,那么是不是可以直接套用ZSL的模型来解决OSL的问题呢?


其实是可以的。毕竟“从没见过”与“见过一次”相比,“从0到1”的技术难度要求更高。


不过,二者并不能轻易地被替代或划等号,各自的研究都很有意义。


最大的区别在于, ZSL挑战的是在相似语义中完成知识迁移,而OSL需要解决的是语义补全的能力,即如何利用唯一的样本学习到更多的特征。


在实际应用中,关键能力的不同,赋予了它们不同的“必杀技”。


比草原广阔:ZSL的应用场景


那么,ZSL到底能干些什么呢?


前面我们说过,目前产业界应用深度学习最大的痛点,无非是爱上一匹野马 (泛化能力),可是家里没有草原 (高质量数据集) 。也并没有企业会为了几匹野马,就不计成本地承包所有草原。


而ZSL能够提供的想象空间,就比“草原”大得多了:


1.图像自动标注、处理。人工标注代价高、速度慢,一旦ZSL被应用,其语义理解和迁移能力,借助知识图谱的辅助(如属性、文本描述等),把不同的视觉联合在一起进行系统观察,可以自动完成数据的识别和标注工作,而且结果的准确性不低于人工。


2.未知或生僻语种翻译。在电影《降临》中,美国的语言学家通过艰难地特征推断,完成了与外星人的沟通。未来,这件事可以由机器来代劳。比如说一些样本很少甚至早已不可考的语言(比如乌伯克语),通过ZSL系统就可以自动完成翻译过程,实现宇宙的love&peace。


3.新类别的图像合成。ZSL的学习目标是识别新事物,一些新类别的图像合成,完全可以通过ZSL被创造出来。比如还原已经灭绝的物种。也许未来你在《侏罗纪》系列中看到的恐龙,就是机器“画”出来的。


4.视频识别。目前,越来越多的数据是视觉与文本信号共同出现,比如综合性视频网站,视频、音频、字幕、弹幕、评论等多模态信息都有,想要挖掘它们之间的相关性,就依赖于ZSL的宏观预测能力。


总而言之,让机器能够像人一样凭借“只言片语”做出推理和判断,是一个很有用的功能。


从入门到放弃:

ZSL的问题依然顽固


既然这么牛,为什么ZSL一直不温不火呢?至少没有像其他深度学习算法一样成为“群宠”。主要原因还是在于几个“牛皮癣式”的顽疾:


一是ZSL的效果依赖于相似模态的信息。在训练时如果训练集和测试集的类别相差太大,比如一个里面全是动物,另一个里面全是家居,这时让ZSL分析二者的映射关系就太困难了,就很容易出现属性漂移的“强偏”问题,难以预测出正确的结果,导致ZSL的性能表现大打折扣。


二是缺乏足量的专业定义和描述。ZSL虽然不需要大量的图像数据集,但需要进行特征描述。这方面人工比机器分类效果更好。但目前还缺乏足够的专业人员进行协助,NLP自身的发展也尚不足以满足ZSL的需要,使得整体进程相对缓慢。


这些桎梏不解决,ZSL即便具备从零起点到学霸的潜力,也只能入宝山而空回,被不如它的算法抢走工作机会。


回顾一年来CV技术的产业化进程,算得上是红红火火恍恍惚惚。


我们可以想象,未来一两年,从个人智能终端到城市的眼睛,机器视觉将无处不在。


一面是应用场景百花齐放异常火热,一面像ZSL这样的潜力股又处在相对停滞的状态,核心问题都没能取得突破性的进展。


在新年这样承前启后的阶段,或许是时候给ZSL许一个未来了。

-END-

本文由脑极体投稿一鸣网,本文仅代表作者个人观点,文章非经授权请勿转载,

向一鸣网投稿,请点击投稿按钮,详情请参阅《一鸣网投稿须知》。

互联网人都在关注的微信号

难道你还没有关注?