泽南、蛋酱报道

远程会议让我无心工作,让AI替我去开会吧

对于国内外不少人来说,现在已经是 Zoom 时代了,我们整天都生活在其中无法自拔。

不管你喜不喜欢,新冠疫情期间,人们都得使用远程办公平台开视频会议。就算是饱受批评,视频会议平台 Zoom 也在最近一段时间业务量有了爆炸性增长。

不过对于一些有些腼腆(家里东西摆得比较乱)的人来说,使用视频会议软件,让摄像头对着自己拍摄老半天总觉得有点别扭。更何况你总得整理好仪容,穿上正式一点的上衣什么的。

有没有办法避免这种尴尬呢?

最近,美国一家名为 Redpepper 的创业公司里,工程师 Matt Reed 找到了使用 AI 技术创造虚拟形象的方法。用 AI 模拟自己的形象,代替自己参会,并与他人进行交流,看起来是个完美的解决方案

「我参加 Zoom 会议的数量已经突破了大气层,冲上了火星,」Reed 在自己的博客中写到。「这让我几乎没有精神放松的时间,刷刷 Reddit,或者真正地完成工作。如果 Zoom 是电影《头号玩家》里的虚拟现实环境 Oasis——每个人都整天泡在里面。」

他为自己设计的虚拟形象非常有针对性,名为 Zoombot。其使用目前流行的基于深度学习的算法,以及文本转语音工具,其模型可以在会议中实际对其他人的交流活动做出反应。有趣的是,Reed 并不只是说说而已,他的 Zoombot 虚拟形象登上公司内部会议前甚至都没有和自己同事说一声。

这位仁兄还把自己构建虚拟人的方法写在了 GitHub 上,希望能为大家「造福」:https://github.com/mcreed/zoombot

看起来只是用 js 接口做的一个小程序,你只要把自己的照片替换掉 Reed 的照片,然后将其搭建在自己的服务器上即可

最初,Reed 是受到一条推特的启发:「世界如此美好,我却因为 Zoom 画地为牢。」他突然产生了一个大胆的想法,为什么不制作做一个虚拟的自己呢?让这位「孪生兄弟」替我开会。

这个梦想,你我都曾经有过,假如有个和自己一模一样的机器人,那它就可以替我上学和写作业了,岂不美哉。

Reed 盘算了一下,虽然使用虚拟人物去开会也有暴露的可能,但理想状态下,从会议开始的「Hello」到会议结束的「Bye」,很可能都不会有人注意到自己。

而且,这个操作也并没有什么难度。首先,你要把/ img 中的图像替换成自己的照片,然后把这些文件放在运行 https://的服务器上,否则 Chrome 会引发安全错误,也会无法访问麦克风。

最关键的一步是如何营造互动感。Reed 使用 Artyom.js 进行了语音互动设置,这是一个语音识别和文本转语音的库,可以用来接收你的领导或者同事所说的话,然后还能自动说出你所编写的内容,打造一种「愉快」的会议互动氛围。

这个库的优点在于,不像 Alexa 或 Siri,必须要唤醒词才能使用。它只需要听到「How are you」、「Are you OK」或者「你能发送一下吗」,就会触发命令,比如循环脸部静止图像并说出回复。

Artyom.js 项目地址:https://github.com/sdkcarlos/artyom.js/

随后,在 Chrome 中访问 Zoombot https:// URL,使用左上方的按钮打开 Zoombot,它开始收听所有这些关键词。最后,将 Zoom 的摄像头设置为「ManyCam 虚拟网络摄像头」,并打开扬声器,与 Zoombot 交谈。

如此一来,你就可以化身一个没有感情的开会机器了。

  • 「How are you?」——「我很感谢您的问候。」

  • 「你明白了吗?」——「我没听清你在说什么。」

  • 「再见!」——「稍后再聊。」

在同事们明白 Reed 在搞什么鬼之后,大家都忍俊不禁。「这就是最有趣的地方,」Reed 说道。「但我必须在事情变得无法收拾之前提前切断会议,因为 Zoombot 有可能无限循环『让我们回到上一个』或者『我听不清,你能重复一遍吗』这样无意义的对话状态。不过这足以引发所有人爆笑了。」

要说让一张照片按照你想要的方式「动起来」,在 AI 领域里还真不是什么无法实现的事。去年 5 月三星发表的一篇 CVPR 2019 论文就介绍了能让《蒙娜丽莎》动起来说话的 AI 模型。研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。

想要做到这样的效果,我们需要利用 Few-shot learning 等技术,合成头部图像和面部 landmark。由算法创建的数字替身此前也被用于创建 deepfake 图像和视频。

CVPR 2019 论文:Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 呈现的效果。

效果不错?看到这里,你是不是也想搭建自己的 Zoombot 了?不过在这之后,记得向大家说一声,要是来真的,很可能就被放入下一季度优化名单了。

背后的技术:https://github.com/alievk/avatarify

参考内容:https://musebycl.io/index.php/makers/agency-guy-built-ai-clone-attend-zoom-meetings-him

入门AIAI开会Zoom
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

Zoom机构
推荐文章
暂无评论
暂无评论~