Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型的下一站,AI 视频生成的技术突破与未来

站在年末的时间点上,我们明显可以感知到,2023 年是当之无愧的大模型元年,从文本大模型 ChatGPT,到图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着行业格局。

与此同时,文本生成和图片生成似乎已经不足以满足算法科学家和工程师们的野心。

近几个月来,视频生成和视频编辑领域的新星频繁登上各大媒体头条。

Runway 发布了 Gen-2,可以快速生成高质量的短视频;Stability AI 开源了文生视频的扩散模型 Stable Video Diffusion;Meta 发布了 Emu Video。每一次发布都带来了明显的技术更新。

图片

图 1  Emu Video 文本到视频生成过程

受到更多关注的,还有 Pika Labs 最新发布的 Pika 1.0,尽管内测申请还在排队中,但从官方的演示视频来看,似乎文生视频已经开始在新的层级上竞争了。

图片

图 2  Pika 官网上 Pika 1.0 演示视频

Google 最近发布的 Gemini 多模态大模型,尽管颇受争议,但是从陆续拿到公测名额的用户分享中,也明显感觉到技术之争的格局已然翻天覆地。

与此同时,国内在 AI 领域大力投入的科研机构和大厂也纷纷发布视频生成、视频编辑等模型和工具。

清华人工智能研究院、复旦大学、智源研究院、阿里达摩院字节跳动、百度等机构都已经大力布局视频领域,一众视频生成模型、工具和多模态大模型呈现出百花齐放、百家争鸣之势。

如果要预测 2024 年人工智能领域的热点,那么文生视频、图生视频等多模态大模型相关的视频生成能力必然在榜。

AI 视频生成的 iPhone 时刻到底在哪里?它已经出现了?还是会在即将到来的 2024 年呢?

可以坚信的是,视频生成领域的未来不可低估,值得想象!

视频生成前沿研究与应用

人工智能领域发展的当下,前沿技术已经来到了视频生成领域。

就当下的技术发展而言,视频生成相较图像生成来说有更多挑战:视频的流畅性、动作的准确性,更大的 GPU 内存,更多的逻辑问题,逐帧生成还是一起生成的生成方式 ……

在看得见的未来,上面的问题都将找到答案。

而身处当下的我们,更快地跟上技术发展的脚步、先人一步了解和学习视频生成领域尤为重要!

图片

为了助力广大企业和技术从业者紧跟视频生成技术的发展潮流,全面了解文生视频、图生视频、多模态大模型等前沿技术,机器之心专门策划了以视频生成前沿研究与应用」为主题的 AI 技术论坛。

论坛将于 2024.01.20 在北京市朝阳区举办,现场汇聚领域内专家和一线开发者,期待能为视频生成领域呈现一场高质量、高水平的线下交流活动。

机器之心在此诚邀你共赴这场知识与创新的盛宴,一同推动视频生成技术的发展和应用!

图片

为什么值得参加?

  • 汇聚高校教授及产业界重磅技术专家,掌握最新技术,拓宽技术视野
  • 和技术大牛面对面交流,会后深度链接
  • 覆盖核心技术拆解、明星产品最佳实践、技术未来探讨及展望
  • 加入视频生成高质量技术交流社群,及时跟进行业前沿技术与资讯
  • 全流程助力学习:会前会后学习资料大礼包
  • 机器之心旗下相关付费活动享购票八五折优惠

现在报名可享「75 折早鸟福利」

视频生成前沿研究与应用」机器之心 AI 技术论坛报名通道正式开启,扫描图中二维码可直达活动页面。

图片

即日起至12月31日23:55时,购票参会即可享受 299 元早鸟特惠门票价格(原价 399 元)。

机器之心 AI 技术论坛前两期的参会者,请单独添加小助手 Alice(15650753618)的微信,直达专属优惠链接。

技术交流社群

为了方便技术交流,我们也特意建立了视频生成技术交流群,欢迎关心视频生成和多模态大模型的技术从业者扫码加入对话,深入交流技术细节和行业观察。

图片

关于本次活动商务合作、团购、发票、内容等相关问题,欢迎添加本场活动小助手 Alice 或通过邮件进行咨询。(微信 15650753618,邮箱 jiayaning@jiqizhixin.com)

产业视频生成
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

达摩院机构

阿里巴巴达摩院(The Academy for Discovery, Adventure, Momentum and Outlook,Alibaba DAMO Academy)成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。阿里巴巴达摩院由三大主体组成,一是在全球建设的自主研究中心;二是与高校和研究机构建立的联合实验室;三是全球开放研究项目-阿里巴巴创新研究计划(AIR计划)。

https://damo.alibaba.com/
推荐文章
暂无评论
暂无评论~