人类正在迎来人工智能领域的爆炸式更新,技术向未知拓展的每一步,几乎都引起惊人的关注度。
在人工智能边界扩张的过程中,重要赛道的技术路线创新与分歧并存。技术先锋者的判断和选择,影响着众多跟随者的脚步。
过去一年,机器之心独家率先将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给大家,为他们在互联网世界留下了第一份 “万字访谈底稿”。在技术路线尚未收敛的阶段,我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。
因此,我们推出 “AI Pioneers” 的专栏,希望继续寻找和纪录 AGI 时代人工智能各细分赛道具有领袖气质的创业者,介绍 AI 赛道最出众、高潜的创业公司,分享他们在 AI 领域最前沿、鲜明的认知。作者:姜菁玲
即使Sora已经强势“炸”过场,Pika还是再次带着硅谷一众明星资方的投票回到了舆论中心。6月5日,Pika宣布已完成8000万美元(约合人民币5.8亿元)的B轮融资,总融资额达到1.35亿美元,较2023年末,公司投后估值实现翻倍至4.7亿美元。“我们会更aggressive地做视频大模型”,这家刚刚度过一周年生日的视频生成创业公司,计划在这轮融资之后快速扩张研究和工程师团队。四个月前,来自OpenAI的Sora重新洗牌了视频生成赛道。Sora以长达60秒的连贯视频、高清画面质感、连贯的镜头移动、运动方式等优点,拉高了整个视频生成赛道的技术水平,引发了全球对视频生成的狂热。像LLM领域一样,视频生成貌似也开始变成追赶OpenAI的游戏。同样是在掌声中出道,去年11月,Pika1.0产品由于出色、令人惊艳的视频生成效果,以及支持用户实时进行视频编辑和修改的突破性功能,快速走红。一路斩获众多硅谷科技界明星人物的背书和投资。成立5个月,pika仅有3人的团队一举成为彼时视频生成赛道龙头Runway最大的竞争对手。今年4月,Adobe在自己的视频编辑工具 Premiere中嵌入了三大外部合作商,分别是Pika、Runway以及OpenAI。视频生成赛道已是三足鼎立局面。在OpenAI的暴力美学下,Pika如何评估Sora带来的竞争压力,如何找到自己的超越路径,成为一个值得期待的问题。伴随着这次融资的敲定,Pika在风投界显然已经拿出了足够有说服力的答案。但是,这个答案会是什么?在融资正式敲定后,Pika团队接受了机器之心的独家专访。在这场访谈中,机器之心对谈了Pika团队的多名核心成员,包括两位联合创始人郭文景(Demi Guo)和孟辰霖(Chenlin Meng),创始工程师陈思禹(Karli Chen)、以及Pika算法工程师王熠鹏。如果你用AI来总结下面的访谈,企图回答这个问题。他或许会用结构化的回答告诉你,Pika拥有的是强大的团队、高效的算法、明确的目标以及产品力。同时,Pika团队对我们透露,在今年年底之前,Pika将发布最新一代产品更新,新产品将展现Pika在可控性上的进步。 Sora is not very hard to beat
机器之心:首先恭喜Pika时隔半年再次完成新的融资,我们先来聊聊这轮融资的情况,用途主要是什么?Pika:好。这轮融资我们融了8000万美元,估值相比于上次融资(2023年12月)翻了一倍,现在是4.7亿美元。之后我们要训练自己的视频大模型了,融资是为了帮我们去加速这件事发展,一方面是获取更多模型需要的资源,另一方面我们也希望能招更多的人去加入我们视频大模型的团队,不论是算法研究还是工程师。机器之心:能否介绍下你们目前的团队,以及希望扩张的规模和具体方向?Pika:过去一年以来,Pika团队从3人扩张到了13人。人才是我们重要的优势。工程方面,我们拥有6个IOI国际信息学奥赛⾦牌获得者,超过AI工程师Devin的幕后公司cognition AI (5个⾦牌获得者,10个⾦牌),⼀共有9块国际奥赛⾦牌,3个 IOI世界第⼀,2个putnam fellow (美国⼤学最⾼的数学奖项) 。创始团队Demi Guo是IOI银牌,是美国队⼗⼏年来唯⼀的⼥国家队队员。科研方面,创始人孟辰霖是DDIM、Img2Img、Model Distillation的作者,这些方法能将扩散模型的推理速度提高几十到上百倍不等。同时,谷歌视频大模型Lumiere项目的一作Omer Bar-Tal,在sora发布第二周选择加入Pika。另外,斯坦福AI实验室主任Chris Manning、最有名的扩散模型研究教授之⼀Stefano Ermon、以及两次奥斯卡获得者,曾参与过加勒比海盗、星球大战等电影特效制作的Ron Fedkiw,都是Pika公司的顾问团队。我们目前open to 不同背景的聪明人,base地不限,不论是数据、系统、模型算法研究、应用算法研究等方面的人才,都非常欢迎。(hr@pika.art https://pika.art/careers)机器之心:今年2月份,OpenAI推出的Sora改变了视频生成赛道的格局,你们是怎么看待Sora的?Pika:对于Sora,我觉得虽然大家第一眼看上去觉得好像确实印象特别好,因为好像确实从来没有见过这样的视频生成质量。但是我们仔细分析了一下,其实它并不是一个非常novel(新颖)的东西,包括它的模型、算法、结构,其实都是现有的。那对于它的结果(效果更好),其实就是告诉了我们一个道理:用更多的机器、更多的数据,暴力地去Scale up,就可以达到更好的效果。在此之前,可能大部分的人在说,我要去不断提高我的算法,调优模型,但是实际上大家低估了这个Scaling up的重要性。这个其实对大家来说是一个非常积极的信号,也就等于告诉大家,你只要用相同数量的卡、相同好的数据,理论你就可以达到Sora的效果。机器之心:那你们会怎么理解自己跟Sora之间的差距?Pika:我的感觉就是,Sora is not hard to beat。只是说scaling确实很重要。机器之心:对于因为Sora而备受关注的DIT架构,你们会觉得这就是视频生成的确定性路线了吗?Pika:我们认为还没有到DIT就是确定性路线的时候。这是一个很开放的问题,或者换句话说,我认为以目前视频生成的行业阶段来看,还没有到说一种架构,一定能够比另一种架构有更清晰优势的时候。因为我觉得格局也没有发生本质的改变。机器之心:也就是说,你们用的不是DIT架构,对吗?Pika:我们内部会有不同方向的探索,但细节不便透露。不过我们考虑这个问题,角度不会那么单一。因为我们需要从系统性的方面衡量这个问题。但在科研上,我们会对结构的效率做进一步研究,这也是未来的一个潜在研究方向。目前我认为,重要的点,一是可控性,其次是效率问题,这是容易被忽略的,任何结构它需要将效率摆在第一位。机器之心:效率具体指的是,训练还是推理,还是一起?Pika:指的是用户的使用成本效率,基本可以等同于推理效率。当然,训练效率也包括其中,也很重要。机器之心:也有观点认为,Sora的效果一部分需要归功于它背后调用了自己的GPT系列模型去做用户语言理解,这个方面Pika怎么看?Pika:文字理解的准确性是非常重要的,但是否调用GPT系列模型,这个其实在视频生成赛道不构成一个竞争点。市面上也有很多开源或闭源的模型可以实现跟它差不多的效果。其实,从竞争看,OpenAI在视频生成上所拥有的所有东西,都不是绝对性的优势。机器之心:这轮融资里,是否也有投资人会问,跟OpenAI相比的话,你们公司的一些优势是什么?你们是怎么想的?Pika:对,我觉得我们跟OpenAI还是有差异的,我们公司的目标并不是做AGI,而是说做一个服务创作者的产品。这是本质的区别。我们的目标是帮助大家实现自己的创意。那在视频生成模型上,我们之间是有相似性的,我们认为自己是不会让步的。我们肯定要对标、超越,然后在产品上做自己的努力。机器之心:对标、超过Sora,会有一个大概时间表吗?Pika:Later this year.对,今年晚些时候。
Pika的路径:Smart、高效、Not only 「text」based
机器之心:如果说你们要实现更好的效果,会意味着说就是要去做更大的Scaling吗?Pika:Scaling是有上限的。我们不可能一下子从几百张卡scale到几万张卡,这个很不现实。另外,GPU本身在内存等硬件方面也都是有上限的。所以如果说大家scale到一定程度了,是无法一直scale下去的,接下来需要看大家其他方面的技术实力。如果我们参考一下OpenAI和Anthropic这两家公司,我们会发现,Open AI肯定是资源最多、数据最多的,但是这并不妨碍别人用更加smart的方法,用稍微少一点的数据达到更好的效果。机器之心:在sora出现之后,你们有去买更多的卡吗?Pika:我们其实有非常多的卡,到目前为止,我们的卡也是非常充足的。机器之心:现在你们想要做的更好的话,采取的方法是什么?Pika:我们内部有一套自己的方法,非常重视研究和创新,我们的文化是重视大家的智慧,然后要把东西做到最Smart。所以我们的核心点是要用非常前沿和可靠的算法去打造我们的模型,让它能够做到,第一非常Scalable、第二可以以小胜大,用更少一点的资源,得到更好的效果。机器之心:具体在视频生成上,你们会怎么做,实现以小胜大,有明确的技术方法了吗?Pika:我们有明确的技术方法去实现它,我可以分享一下high level的想法:因为视频是一种高维的数据,比如说对于每秒24帧的1080p视频,它的分辨率是1920×1080,这个数据每秒的维度是:1920×1080×3×24 = 155520000。这个维度非常大,对于AI来说处理起来非常困难。如果说再乘上时间,60秒,就更大了。所以这个dimension是非常高的。但是你知道,在AI中大家都知道的,curse of dimensionality(维度诅咒,指随着数据维度的增加,数据变得越来越稀疏,从而导致模型的训练和预测变得更加困难),就是说你的维度越高,你需要的数据量就越大。那随着1080p视频时间的增加,所需要的数据量就会指数增长,因为视频中的每一帧都包括了大量的信息,而随着时间的推移,帧的数量也会增加,从而导致所需数据量的指数级别增加。然而,在现实中,这是不切实际的。因为一个高清视频,你视频越长,它(存在)的数量就越少,所以这是一个非常有趣的dilemma(困境)。但是好处在于,实际上视频有点像一个“low dimensional manifold”(低维流形,一种数学概念,指维度较低的特殊空间结构),嵌入在高维空间中,也就是说它的每一个维度实际上是相互关联的。比如,我们想生成一个人在路上走路了10秒的视频。实际上,我们只需要知道第一个帧的信息,比如这个人走路的背景、他的穿着等细节,后面的帧你就不再需要完整的画面,你可能只需要一些很小的信息,比如这个人走路的姿势、或者说是背景当中汽车在移动。这个是我们这边的一个insight,就是说,有一种成功的算法,可以让这个高维数据投影到一个低维空间。用这个方法,首先你可以绕过the curse of dimensionality,其次,可以让你生成视频的效果变得更好。以及,由于你的维度变低了,所以你训练模型的效率和成本就大大降低了。这个是我们花了很多精力的一种高效架构和数据压缩方法。这种算法能够去掉90%的冗余信息,进而帮助降低数据的维度。比如你原本有几百页的文档,经过处理后,现在需要处理的数据只有几十万,这样就大大节省了算力。这是一种更加紧凑的表达方式,因为维度越大需要的参数越多,难度就更大,而我们使用这个方法所需要的参数应该是比较低的,所以不管是从数据效率、训练效率、推理效率上,都实现了更加高效。Pika:本质上,我们是希望让我们的模型能够像人类一样思考。比如说人看这个视频,可能只需要很少的信息,第一比如只需要第一帧中的这个人的背景、周围环境、穿着等各方面细节。然后第二,可能需要一个动作的引导,比如这个人是以这样的姿态、这样的速度在走路。然后我们这边发现的一个情况就是,实际上在应用场景下,虽然市场上有很多Text to video(文生视频),但真正运用起来没人在乎是不是「Text」to video。因为核心是大家更希望能够生成一个能够可控的视频。比如有人说想生成一个人以这样的姿势走路,这其实很难用语言来描述,但如果给他提供一个引导,比如一个参考视频,说这个人是这样的姿势走路。或者说,希望这人穿这样的衣服,也不知道怎么描述,可能那就给他提供第一帧。总之就是我们想建立一个模型,让它能够像人类一样思考,我们也想超越文本的交互形式,让人类可以很好地去控制它。当我们能够把那些motion prior(运动先验,表示对常见运动模式或行为的先验理解,这些先验信息可以帮助模型更好地理解和预测视频中的运动)、image prior(图像先验)嵌入到我们的模型里,那么自然而然,这个模型可以更好地理解人类,同时会学到更好的连续表示。机器之心:你的意思是,可能更高效的视频生成指令不一定是「text」这种形式?Pika:是的。因为我们发现,用户其实并不在乎是不是「text」to video这种形式。另外我们也发现,text based会让我们的模型受到更多约束。所以我们打算用来自不同形式的Prior(先验),比如运动、风格,去帮助用户表达,这也体现了我们比较以用户为中心的理念。机器之心:我看你们已经上线了「style」「lipstick」这些组件,之后会拓展更多类似这样的组件是吗?Pika:对,这样也能够反过来使我们的模型更能像人类一样思考。其实主要就是因为这些动作或者说信息,它是很难用语言去描述的,像我们该怎么去告诉AI说我希望它的嘴唇是怎么运动的呢?很难。所以我们就采用这种Prior的形式,它是有效的。之后我们还会有更多的这方面的更新。机器之心:你们之前提到过,产品的最终目标是希望做一个interface for creator,听起来这些组件像是对这个界面的完善。Pika:我们把interface理解成人类和机器交流的语言,人类和机器不能直接交流,而经过训练后的interface可以让人类向机器传达想法。这个界面可以让系统串联起来,为目标服务,我们的产品会解释模型,模型促进产品实现。我们不会局限于一种表达方式,如果用户需要一种应用,我们就会去调整模型,调整表达方式,然后推荐给用户。我们跟自己的用户走的很近,像今天上线的「style」「lipstick」也都是在充分吸收了用户的建议下上线的。 视频生成行业仍在70分阶段 可用性还没有得到本质解决
机器之心:开年以来大家一直在说,2024年是视频生成的爆发之年。你们认同吗?Pika:从关注度来讲,是认同的。事实上在sora发布之后,确实得到了很多的关注。所以我觉得OpenAI的产品发布让更多的人认识到了这样一个领域的存在,其实也是一件非常好的事情,所以行业知名度上确实是爆发的。不过从技术上来讲,是否是今年爆发,很难预测。各家都在做努力,我们还是相信量变会引起质变。从应用上来看,我认为现在有点像LLM领域ChatGPT出现之前的爆火,比如GPT-3出现的时候,大家也是很兴奋的,但是它没有一个很好的落地场景,现在的视频生成也在这个阶段,可能还是需要在模型迭代之后,被更多人用起来,大家实现了观念上的转变,这个可能是一个真正的爆发。就像我们已经很习惯掏出手机,用一些应用来修图,未来几年,我们可以相信,生成和编辑视频也是跟现在用手机P图一样简单。我相信就是在未来的一个时刻,就肯定视频这样的一个模态,是会有它非常重要的使用场景,我相信它是可以实现一个真正的爆发,但可能未必是今年会有一个非常确定的一个时间线。机器之心:如果说,评价视频生成行业技术阶段,从不成熟到成熟对应0-100分,你认为行业现在处于几分?Pika:我认为是70分左右。拿Sora来讲,现在它更多是一个概念验证产品,并没有真正解决问题。我们从别人分享的使用过程里看到,比如当时有个关于气球的生成视频,它的作者写了一篇很长的帖子,讲它的历史表现并不是特别好,可能要试几百个视频,才能实现生成一个满意的视频,而且如果直接生成高清视频,分辨率还是非常低,所以他们可能是生成一个低清的,然后再用那些人工的超分辨率方法去做超分辨率处理后放上去。另外它的效率也非常低,需要很长时间,比如 12 分钟才能做出一个成品。这个距离真正能够毫无压力商用,还是有一定差距的,所以我认为整个行业应该差不多在 60 到 70 分左右的范围。机器之心:在6、70分的阶段,要迈向100分,可能中间比较重要的待解决问题是什么?Pika:第一是准确性,怎么可以把用户的意图准确地表达出来;第二是可控性,怎么按照用户的意图对视频进行控制,你可以看到现在即使在图片领域,也没有做的很好;其次就是效率的问题,怎样迅速地去生成视频。机器之心:那在这几个方面你们会横向去对比其他公司吗?标准可能是怎样的?Pika:因为我的感觉就是这个行业可能就像我说的,大家都差不多六七十分。可能现在有些人稍微领先有一两分。但大家都没有本质地解决这些问题。所以可能现在的这个对比可能不是特别的有价值。最核心的这个可用性方面,以及刚刚提到这几个点都还没有得到本质的解决。现在去谈一些很细致的对比,可能就没有特别大的意义。尤其是从用户的层面,就可能从技术的层面,你可以提出各种各样的指标来评价一个模型的好坏。但是我们想我们公司想做的不仅仅只是停留在技术层面的。我们还是希望这样AI是真的能够为为Creator所用,希望用户觉得这是一个可以使用的产品。所以这个角度看,我认为,目前阶段可能还是在内部把模型和产品打磨地更加完善,才是第一要义。机器之心:像这些问题,会因为scaling而逐步解决吗?Pika:因为像可控性这个点,以后不会仅仅停留在文本控制生成视频的层面,会需要更加精细的控制。所以这也不是只做Scale就可以解决的。就像Sora其实也有可控性的问题。所以这个可能不能仅仅从AGI的角度去看,而是要从真正的产品角度去想。所以你可以看到,我们新发布的很多功能,基本都是从实际用例出发,而不是仅仅从模型进展。机器之心:Pika在这几个问题上的思路和优势是什么?Pika:我们的团队非常有优势,团队很多成员有对应的专业背景,他们的很多工作也是当前这个领域最核心的一些相关工作之一。具体到在可控性方面也是,我们有一部分成员之前的就是专业做这方面研究的,他们的论文也是这个领域的。基础模型上,我们既有资深的人,也有新生代有想法的人。所以这些方面的问题我们从人才上看,是非常有信心去攻克的。至于可控性的具体思路,我们之前谈到的,去丰富和拓展更多元的交互方式,其实就是模拟人类思考的过程,这种方法也是增强可控性的有效手段。至于更细节的思路,可能今年年底之前,我们会有一个产品出来,在用户交互界面上有一个比较大的升级,到那个时候我们可以全部公布。
将更aggressive做视频大模型
机器之心:去年年底的时候你们立过一个flag说,希望今年的技术能够达到一个商业上的标准,这个标准是什么?进度如何?Pika:我觉得这个领域很显然还有很多东西是没有定义的。就是说,未来AI到底是怎么样?用户到底该怎么跟AI模型做交互,交互方式其实都还是待定义的。我们希望自己可以去参与定义这个商业板块,希望我们能在今年取得进展。这个标准我认为可能也不仅仅是技术上的标准,不仅仅是说这个模型生成的分辨率有多高或者说效果有多好,最终还是要回到用户的可用性有多强。Pika:我们是想做最好的模型,但是不仅仅是做视频模型,而是想做最有用的视频模型,这个就是我们所认为的产品力。我们不仅是要做一个技术载体,比如技术极客之类的会感兴趣,更重要的是做一个有用的视频模型,不一定是技术上最强势,但是给到创作者,你能够去编辑视频、定义场景和人物,不仅能用文字、还能用声音、视频、图片去交互。然后让这个用户能够真正意义上去控制这个视频的生成和编辑。机器之心:那现阶段来看的话,像模型能力的提升和产品力的提升,对你们来说这两件事哪件是更重要的?Pika:模型是产品的基石,我们对界面的定义也是需要基于一个成功的模型,所以我觉得可能模型研发目前是稍微更重要的一点的。机器之心:在模型层面的提升上,哪些性能是最关注的?Pika:还是回到那三点,准确性、可控性以及效率。Pika:会是一个重点,在我们下一个新版本中,我们会做提升,但提升多少,我们现在还无法公布。机器之心:我看到你们说,自己会更aggressive地去做模型层面的研究和工程,这具体会表现在?Pika:第一就是加大力度的招人,另外就是现在的团队会往这方面倾注更多的精力。Pika:我们现在是已经在赚钱的,主要来自C端的订阅费用,在B端,我们会跟一些演唱会或者企业在创意上做合作,也会对外提供API,目前都在探索的路上。联系作者:jjingl- (添加请注明姓名-公司-职位)