(配图来自Canva)智能音箱赛道的头部效应已经越发明显,小度智能音箱、小爱智能音箱、天猫精灵已经成为这个领域的头部选手。随着智能音箱作为的入口效应越来越强,头部之间的竞争也越发激烈,小度智能音箱则率先开启了自己的资本运作路程。百度AI的变现捷径近日,百度宣布旗下智能生活事业群组业务(简称“小度科技”)完成了独立融资协议的签署。据了解,小度科技此次融资后,投后估值达约200亿元,本轮融资由百度资本及CPE战略领投,IDG资本跟投。作为公司的重要的战略业务板块,此次融资后百度依然保持了对小度科技的绝对控制权。对于此举,行业相关人士普遍看好,认为独立融资无论是对于小度科技的自身发展,抑或是对于小度...... Last article READ

原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

  鱼羊发自凹非寺

  量子位报道公众号 QbitAI

  虽然每天早晨甚至无法从 50 平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球——

  穿越到霸道总裁小说的世界,是一种怎样的体验?

  最近,一个能满足这种幻(xia)想的快手 AI 特效火了。

  不仅老铁们纷纷穿越,许多明星大V也贡献了自己的「言情小说脸」。

  你看这位李雪琴老师,就瞬间女主光环加持,慵懒的眼神里又多了几分灵动的忧郁。

  硬糖少女刘些宁,更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗?

  还有歪嘴战神本神,到了二次元的世界,还是熟悉的配方,熟悉的味道。

  看到这些,我不禁产生了一个大胆的想法,让老婆们也一起穿越,不也就是举起手机就能搞定的事?

  

  新垣结衣

  嗯,新垣结衣是二次元走出来的实锤了!

  更妙的是,这样一个 AI 特效,不仅能实时捕捉每一个表情变化,模仿咆哮帝也能 hold 得住:

  

  明道

  细节处理也着实奥利给,描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。

  打破次元壁的技术

  所以快手这一堪称「穿越神器」的 AI 特效,在技术上是如何实现的呢?

  快手工程师介绍,相比于此前的一些特效玩法,「手绘」系列最大的不同,是需要兼顾真实感、美感以及卡通效果三方面的要求。

  也就是说,既要最大程度保留用户本人的五官和外形特征,还要具备手绘风格的美学和艺术效果。

  这就对整体风格和局部细节的呈现都提出了高要求。

  为此,快手特效中心团队研发了一个基于 GAN(对抗生成网络)的图像翻译和风格迁移学习训练框架,结合此前 CycleGAN、U-GAT-IT 等技术的主要优点,并根据实际需求进行了定制化的开发和优化。

  CycleGAN

  CycleGAN 可以说是 GAN 中的「前辈高人」,由 UC 伯克利的朱俊彦团队提出,影响了后续一众「换脸」研究。

  其最大的突破,是打破了图像风格转换中,需要成对图片训练集的限制。

  也就是说,在源域和目标域之间,无需建立训练数据间一对一的映射,就可实现风格迁移。

  就像下图中右侧所示。

  基于此,去年香港中文大学贾佳亚教授团队,就曾提出过一个加强版的 CycleGAN,可以将人脸照片转化成如同手绘图像,甚至还能反向转换,将二次元的卡通图像,转换成现实中可能的样子。

  U-GAT-IT

  U-GAT-IT,是一种无监督图到图翻译算法,由韩国游戏公司 NCSOFT 开发。

  同样是打破次元壁的神器:

  具体而言,U-GAT-IT 由两个 GAN 组成。

  一个负责把现实世界的自拍照进二次元,即从源领域到目标域的翻译。

  另一个则反过来,能把二次元人物拉回到三次元中,即从目标域到源领域的翻译。

  同样,也不需要成对的训练数据。

  为了生成更加逼真的图像,U-GAT-IT 还以端到端的方式引入了注意力机制和可学习归一化方法。

  在这一次快手手绘特效的实现上,训练同样以大量非配对数据为基础,并加上了一部分人工修图得到的配对数据作为引导,通过混合训练的方式,既快速又精准地得到整体上较为接近手绘的风格化效果。

  另外,由于手绘数据采集成本较高,所以研究人员还采用了迁移学习的方法进行数据扩增,并根据快手用户日常进行的人像拍摄场景分布规律,进行了适配。

  在细节增强方面,快手则通过加入人脸关键点、人像语义分割等 AI 技术,精确地定位到对应的关键区域,并在整体的基础上重点加强局部区域的细节调整,以全局与局部的混合训练有效的提升了整体效果的呈现。

  在此基础之上,针对手绘中特殊的线条和高光图案,研发人员也设计了对应的损失函数进行监督学习。

  而针对短视频的形式,快手的手绘特效还要考虑保障实时效果,人怎么动,画面也要跟得上。

  这就涉及到手机计算能力与模型计算量的适配脸部效果跟背景效果和素材的适配视频效果流畅性等诸多因素。

  为此,从算法,到工程、特效、涉及等多个环节,研发人员都进行了大量的尝试,以及细致的优化、打磨。

  快手技术实力:不止于 AI 特效本身

  打造这款特效的,是快手的Y-tech 技术团队。

  快手Y-tech 是快手在人工智能等前沿领域的探索者和先行者,以研发前沿科技、提升用户体验、创造用户价值为使命,致力于在计算机视觉、机器学习 、深度学习和计算机图形学等领域开展技术研究和业务落地。

  其实,从技术的角度上来说,对于快手的工程师们而言,追求效果上的极致,还不是全部目标……

  更重要的一点,是要覆盖高、中、低端各种手机型号,让每一个档次的机型的能力都发挥到最大。

  一方面,是因为每一次的产品落地,都关系到 4 亿用户的实际体验,牵一发而动全身。

  另一方面,快手的用户特性决定,用户手中的手机型号分布会很广,不同机型算力和内存资源差异很大。

  为了能够让每一位天南地北的老铁都能够无差别地享受 AI 技术带来的乐趣,在技术的设计方案上,就既要力求让高端机充分发挥计算能力,给用户带来极致体验,同时也要在中低端机上做到逼近高端机的效果。

  也就是说,不管算力高低,在最后的用户体验上,都要实现 GAN 的「秒变」。

  这事实上涉及了三方面的指标:准确率能耗延迟。毕竟除了特效的实时性,如果一次使用电量就哗哗掉,手机温度蹭蹭涨,那也非常影响用户体验。

  而要在跨度如此之大、很大一部分算力并无优势的硬件上,兼顾这三个指标,其中挑战不可谓不大。

  以这一次的「手绘」系列为例,工程师们进行了非常细致的方案细分和探索,针对不同的机型,采取差异化的 AI 模型生成方案。

  这实际上给 AI 算法和工程团队带来了更大的工作量。

  但对于快手工程师而言,让每一个档次机型的方案都尽可能达到更好的效果,既是一种「使命感」,也是一种刻在企业文化里的「技术特性」。

  近年来,快手已有不少 AI 产品成功落地、应用,其背后的技术路线,始终是坚持打造自研 AI 基础引擎、打造普惠 AI 算法,坚持让用户无差别享受高算力 AI 技术的Hard 模式

  比如自研 YCNN 深度学习推理引擎,是快手很多 AI 功能的强大加速器,是将 AI 模型迁移到不同场景、不同算力硬件的技术基础。

  比如定制化压缩模型,使快手能在考量各种边界条件、有限的计算以及内存资源条件下,把模型的计算量降到最小,同时又不影响算法效果。

  这在技术上的难度和积累,其实是不言而喻的。

  所以,每一次新的爆款,每一次给老铁们带来的新乐趣,其实都是快手技术团队实力的又一次强有力证明。

  而在技术可能加剧资源、地区和发展不平等的今天,快手运用自身强大技术,普惠每一个用户的技术民主化路线,也是其「接地气」的核心所在,是快手每一次新技术落地背后易于忽略却又令人感叹的地方。

  另外,像今天这样的特效,可能还只是快手专门集结特效中心的开头动作,后续可能还会有更多「接地气」的 AI 特效玩法……

  像是让二次元人物走进现实的动作捕捉这种:

  所以如果你也有想到、期待一些新特效新玩法,不如评论区大胆表达起。

  说不定就是下一个火爆全网的短视频新玩法呢~

  文/维维   来源:极客公园(geekpark)   马斯克和比尔·盖茨,两人近来一直不对付。   从对待新冠疫情的态度、对电动卡车的看法,再到围绕人工智能的纠葛,亦或是对彼此的评价,两个人频繁隔空互怼。   比如,马斯克说,‘他无聊透顶’,‘他对电动卡车一窍不通’;   比尔·盖茨说,‘他只是一个工程师’,‘不要被马斯克的错误言论误导’。   到底什么仇什么怨,让两位科技圈大佬频繁互掐?其实研究一下不难发现,两位大佬思考问题的角度完全不同。出现摩擦,实则是一种必然。......Next article READ