Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱、小舟编辑

动手画个二次元老婆,上科大团队这个APP刚上线就火出圈,网友:我学废了

AI 虽然能帮你完成大多数工作,但作画也是需要一定技巧的。或者说它可以让你的所有想法暴露在光天化日之下。

想给自己画个二次元老婆,但发现自己是个手残,怎么办?

问题不大,这里有个神器,你只需要涂抹出轮廓,剩下的交给 AI:

二次元老婆生成器的名字叫做「WAND」,现在已经在苹果应用商店上线了,目前提供 iPhone 和 iPad 两类设备的限时免费下载,登上了AppStore图形与设计榜下载量Top1。

「WAND」刚发布就火出了圈,在社交网络上看,很多人已经率先试用了,作品是这样的:

画出了各种漂亮的小姐姐:

嗯,三次元也可以的,还可以这样操作:

虽然但是,一部分手残党的失败案例,也会让自己 SAN 值狂掉:

编辑部实测

基于「不试试怎么知道」的想法,编辑部也下载了一个 WAND,并翻出了手机相册里珍藏多年的二次元老婆照片。

WAND 提供的功能很丰富,你可以直接上传一张二次元头像,然后生成其他风格版本的「老婆」。这里我们上传的是无人不爱的辉夜大小姐:

可见 AI 还贴心地帮你解决了发际线的问题。

还可以在画板上对人像进行调整,改造一番。此处手残党要高度警惕,不要搞出一些惊悚创作,破坏「老婆」的形象。
如果是线稿,导入后也会自动上色,切换风格还能得到多个版本:

即使你对现在的二次元老婆们都不满意(过分),也可以从零开始,亲手捏一个出来,只不过,二次元老婆的上限将完全取决于你的艺术造诣。

多少憨憨心碎于此:

而且,这个 App 还埋了一个功能:「真人模式」。一旦选择「Realistic」,再来张自拍,你或许会陷入深深的思(jue)考(xing)之中……

最终,用户们悟到了这个 App 的真谛:

其实,使用的时候也有一些小技巧。比如作者表示,在上传照片时,尽量只让人脸在整个框内,识别和生成的效果会更好。

吸收各方反馈,WAND 后续可以做一些改进:

还有很多人问,Android 版什么时候有呀?

机器之心帮忙向开发团队询问了一下,作者表示:「已经新建文件夹了。」相信用不了太久,Android 用户就可以在自己的手机上亲手画二次元老婆了,同时「老公版」的WAND 也正在制作中。

据了解,「WAND」背后的开发团队影眸科技孵化于上海科技大学,团队聚焦于前沿人工智能计算机视觉技术在影视制作、大众娱乐市场的推广应用,近期也有相关研究入选 ICCV 2021 等顶会

SofGAN

看完了 APP 效果,我们来看下背后的技术。据项目介绍,该软件基于上海科技大学 ACM Transactions on Graphics 2021 的一篇研究论文实现。
  • 论文地址:https://arxiv.org/pdf/2007.03780.pdf

  • 项目主页:https://apchenstu.github.io/sofgan/


尽管生成对抗网络(GAN)已被广泛用于人像图像生成,但在 GAN 学习的潜在空间中,不同的属性,如姿态、形状和纹理风格,通常是纠缠在一起的,这使得对特定属性的显式控制变得困难。为了解决这个问题,该研究提出了一个名为 SofGAN 的图像生成器,将人像的潜在空间解耦为两个子空间:几何空间和纹理空间。从两个子空间采样的潜在代码分别馈送到两个网络分支,一个生成具有规范姿态的人像的 3D 几何图形,另一个生成纹理。对齐的 3D 几何图形还带有语义部分分割,编码为语义占用字段(semantic occupancy field,SOF)。SOF 能够在任意视图渲染一致的 2D 语义分割图,然后将其与生成的纹理图融合并使用语义 instance-wise(SIW)模块将其风格化为人像图像。该研究通过大量实验表明该系统可以生成具有独立可控几何和纹理属性的高质量人像图像。此外,该方法还可以很好地推广到各种应用中,例如外观一致的面部动画生成等。

在 StyleGAN 中,基于不同级别的输入潜在向量,图像的风格在每个卷积层上通过特征来控制。这种控制机制虽然有效,但并没有提供对单个属性的独立控制,很大程度上是由于各种属性的纠缠。为了解决这个问题,该研究将生成空间分解为两个子空间:几何空间和纹理空间,如下图 3 左所示。
该研究提出的生成 pipeline 概览。

几何空间中的每个样本都可以被解码为 SOF 网络的权重,该网络表征了带有伴随语义标签的 3D 连续占用字段 (SOF)。在渲染阶段,给定任意查询视点,该方法将使用光线移动框架将 SOF 映射为 2D 分割图。SOF 的使用确保了视图的一致性。接下来该研究遵循语义图像合成框架提出了一个基于语义的 instance-wise 的生成模块,来生成逼真的图像。

几何建模

相比于先前已有的方法,该研究提出了一个更稳定的光线移动器,用于根据当前位置特征和光线方向预测步长,如下图 4 所示。
图 5 展示了一个 SOF 样例,其中包含针对体(volume)内每个点的预测语义标签(只显示最高概率的标签)。
图 5:SOF 是一个 3 维的体,每个空间点都有一个𝑘−class 语义概率。

纹理合成

该研究使用 SIW 卷积层将基于区域的特征图放大为高分辨率图像,如下图 6 所示。
图 6:该研究的 SIW 生成模块。


入门二次元GAN
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~