比来,抖音推出了一款动漫殊效滤镜“变身漫画”,可以或许让用户在直播中,把本身的实际形象刹时变化为二次元“画风”。对于动漫二次元爱好者来说,“冲破次元壁,变身纸片人”这类自娱自乐方式可谓久玩不腻,在此之前,各种美颜修图和视频直播类app也都纷纷开辟了雷同功能,但没有一个可以或许让用户拥有“二次元分身”。那么,这类可以或许“动起来”的二次元滤镜,背后隐蔽什么黑科技呢?
闻名电竞选手PDD秒变二次元美少年,观众纷纷表现:“裂开了”
从盘算机视觉建造的角度讲,把一张图片与另一张的视觉要素相混淆,称为风格迁徙(style transfer)。
把日本闻名浮世绘作品《神奈川冲浪里》迁徙到一匹骏马皮肤外表的结果 | www.theverge.com
一张照片的风格迁徙,可以由人工操纵,使用视觉编辑软件完成。固然,像抖音如许在环球拥有上亿用户的短视频交际平台,同时要应对云云多用户的视觉滤镜出现,就必要人工智能算法加持,尤其是“卷积神经网络”(Convolutional Neural Network, CNN)。
本日, “深度学习”之以是是个热门概念,都可以追溯到卷积神经网络在2012年的横空出世。不要被这个高大上的名词吓到,它的道理实在也不复杂,用小学数学就可以表明:在AI眼里,任何图片都是像素构成的矩阵(左),卷积核(kernal)是另一个小矩阵(中),它们叠加在一起,对应位置的数值相乘再求和,得到“特性映射”(右)。
卷积核一样平常都不大,有的5x5,有的3x3,比如工兵的地雷探测器,去探测图片里存在的模式。信息逐级加工,终究得到一个分类辨认的效果。
本日的AI,要想辨认视觉形象,必须起首教它“学会”特性提取 | www.cnblogs.com
提示各人,万万不要认为如今人工智能就是科幻影戏里的超等电脑,全知万能。实在它如今的“认知本领”非常弱,险些只即是0到4岁的儿童。如上图所示,科学家们假如想要人工智能辨认一些根底物体,好比人脸、汽车、动物,和椅子,那么起首就要把这些物体的特性“提取”出来,也就是上图第二行图中那些五官、车轮、象鼻、椅背什么的,交给人工智能去“影象”。然而可怜的人工智能“智商捉急”,只能再把这些特性进一步简化为第三行图中的简朴外形符号,加以“死记硬背” 。而人工智能范畴的科学家,就必须像耐烦的父母教诲小朋侪那样,不停调解,优化这些最根底的外形符号,把它们酿成呆板可以或许明白的“卷积核参数”。
卷积核里的数字决定了它能探测到什么样的特性,大概是表面,大概是外形,也大概是纹理,而“风格”就是各式特性的组合。这些负责判定差别图形特性的卷积核分层分列在一起,就成了卷积神经网络。
ImageNet建立后,每年还会构造一次环球视觉辨认挑衅赛(ILSVRC),鼓励环球科研团队拿出本身的 AI图像辨认算法举行PK | www.medium.com
小朋侪辨认物体,最好的办法就是与周边情况多打仗,大概看绘本画册。对于AI这个小朋侪来说,它看的绘本,是ImageNet:一个具有1000类、数万万张图片的超大型数据集。卷积神经网络就像一个笨笨的小朋侪,整天在ImageNet内里玩着“看图识物”的练习游戏,久而久之,它渐渐具备了相称的特性提取本领。
要让人工智能实现对大批量的及时图像举行批量风格迁徙,就比如让这个笨笨的小朋侪先欣赏一大堆物品的外形和颜色,然后再逊??提取差别的特性,末了形成图像。比如说,假如要让孩子画一张“紫色大象“的图片,父母就必须给孩子出示两张照片,一张黑白洲草原能上的大象,一樟?鱿色色卡。
那么,AI这位小朋侪就开始了作画(盘算),起首把这两张照片传送到同一个神经网络,加以合成,要求这张新画作上图像的形状只管与大象靠近,颜色只管靠近紫色,那么AI颠末反复的内容与风格特性提取,终究大概会到达一个满足的结果
那么AI有无大概像部门智慧的小朋侪那样,不消科学家(父母)的引导,而开始自学呢? 科学家们想出来一个点子:对抗网络(Generative Adversarial Network),由两套独立的人工智能网络构成,分别是天生网络(G)与鉴别网络(D)。天生网络就是谁人画画的笨孩子,鉴别网络就像是个严酷的美术老师,负责给孩子的作品打分。
对抗网络图像辨认与判定流程图 | https://www.kdnuggets.com
鉴别网络的使命很简朴,就是区分真假。作甚真?天然拍摄的图片就是真,而人工合成的图片称为“假”。天生网络G会产生一批假数据,对鉴别网络举行练习,刚开始的假数据很粗糙,肯定通不外,以是鉴别网络只必要很开端的辨认本领就可以判定,这是一个“菜鸡互啄”的阶段。
D有了进步,G也要奋起直追,再对天生网络举行练习,目的是天生更加拟真的数据,骗过当前的鉴别网络。这些新的数据又用来练习鉴别网络,本身生产,本身消化,云云循环,摆布互搏。
在这个不停博弈的过程中,两个网络的本领都得到了提拔。犹如武侠小说里的“梯云纵”,左脚踩右脚,右脚踩左脚,武功高强的大侠就能飞檐走壁。练习完成以后,鉴别网络作为“工具人”就可以临时领便当苏息了,留下天生网络(G),用以产生图像。
如今,AI这个画画的小朋侪可以或许不消引导,本身根据图像举行摹仿了,然后还自学了填色(风格迁徙)。不外这个时间,严酷的美术老师鉴别网络D又要登场了。这次不但要辨别图像是否为真,还要看在填色(风格迁徙)的过程中,有无出现其他毛病。
如图所示,大部门实际物体中,可以或许形成对应关系的并未几,以是必要两个天生网络各司其职,相互查验制约 | https://mc.ai
固然,实际生存中可以或许形成严酷对应关系的物体并未几。为了确保精度,AI工程师会同时引入两套天生网络。好比我们要把一匹马的照片酿成斑马,但很显着,实际中你可以找到两只除了颜色外,千篇一律的鞋子,但不大概存在两匹体型和五官特性完全相似的马与斑马,以是就必要两个天生网络各司其职。天生网络A完成从马到斑马的转换,另一个天生网络B负责从斑马转换到马。如许在优化过程中,两边可以或许相互查验与制约,这就是比年来运用英魂场景不停增多的深度学习算法CycleGAN。
有了CycleGAN算法,我们就像有了仙女棒,随意变老变小变美丽 | https://mc.ai
这套算法,就是隐蔽在如今市场上大多数美图软件滤镜后的幕后功臣,什么“LOMO风格”,“甜蜜日系”,“好坏简笔”,“美白磨皮”,都可以让用户轻松一键搞定,完成刹时“变身”。
美图秀秀的各种滤镜,信赖各人已用得轻车熟路 | www.show.meitu.com
Landmark Assisted CycleGAN天生的卡通形象,最左为真人形象,最右为终究输出效果 | www.medium.com
不外,要把本身的视觉形象在抖音里转化为相似的二次元纸片人,另有末了一个门槛,由于次元壁并不是那么好冲破的,真实人脸和卡通人脸之间的构造差异太大,很难捕获面部根本特性。以是,专家们计划出了一个优异的助手Landmark Assisted CycleGAN,来资助AI,让这个笨笨的小朋侪能根据真实用户人脸“画”出相应的卡通形象。简朴来说,它的练习机制就是,每当CycleGAN提供一张人脸图像,它就先对脸部关键点举行标志,然后再根据这些标志点天生最初的卡通形象,并把这些标志输入鉴别网络。然后,启动两个CycleGAN中两个图像天生网络,让卡通形象和人脸形象之间不停地相互举行辨认,反映到屏幕上,就是你看到了一个和本身酷似,惟妙惟肖的二次元纸片人。
更紧张的是,这些二次元形象,还必须跟随着视频中的真人形象“动起来”,这就涉及到巨量的运算。成千上万的用户同时利用滤镜,就会形成海量的运算数据,假如单纯依赖云端盘算,分析这些视频数据,再想办法为每个用户量身定制,画出二次元形象,那么很大概造成卡顿,进而会影响用户的体验感。为了制止卡顿,这些颠末练习以后的面部辨认模子,会随着软件更新,“下发”到每个用户的手机上,把每个抖音用户手机里的CPU和GPU运算力也“发动”起来,举行及时的推理(inference)盘算。根据抖音技能团队透露,“变身漫画”滤镜启用了字节跳动自研的推理引擎ByteNN,高效使用了移动端的盘算本领,使AI算法快速落地到每一台用户的移动装备。这就比如一个工厂自身生产本领不敷,把一部门加工步伐,连同加工装备,外包给千万万万个工厂外的家庭小作坊一样。
日本Botsnew VR公司推出的一款以龙珠为主题的VR眼镜,使用AI图像辨认推理机制,本身在游戏中可以或许变身龙珠风格的动漫脚色,身边的NPC脚色可以或许和本身同步举措,好比发出闻名的龟派气功波 |http://www.poppur.com
可以或许自行根据模板举行创造的AI图像天生技能,将来大概为我们开发很多不可思议的电子互动娱乐场景与模式。想想看,戴上拥有这项功能的VR/AR装备顺手一挥,画廊中莫奈的名画酿成了摇摆生姿的实景AR景观,动动手指,屏幕上的影戏或二次元动漫脚色就冲破次元壁来到你身边——本身和儿时的偶像,“龙珠”中的小悟空并肩战役,在VR场景中一起发出龟派气功波,有多么热血!
一个如梦似幻,冲破了次元壁的天下,你等待吗?
本文来自果壳,未经授权不得转载.
如有必要请接洽sns@guokr.com