Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱、杜伟编辑

到小红书去,AI技术青年大有可为

在小红书搞 AI,是一种怎样的体验?

作为近年来国内发展最迅速的移动互联网平台之一,小红书平台吸引了无数用户在这里交换生活经验、分享生活态度。基于独特的社区生态和丰富的落地场景,这个超大型 UGC 平台在计算机视觉、自然语言、强化学习等技术领域不断诞生着兼具价值和挑战的新问题。

与此同时,小红书从技术层面加大投入、超前布局、汇聚人才,积累了深厚的技术优势,也形成了优秀的技术团队。在吸引众多全球顶尖科技公司技术牛人加入的同时,小红书也愈发注重青年技术人才力量的集聚与培养。

青年研究者该如何选择自己的研究领域?为什么众多技术人都选择来小红书搞 AI?小红书为这些青年人才提供了怎样的广阔天地?在一场技术沙龙活动中,这些问题都得到了解答。

10 月 15 日,小红书 REDtech 青年技术沙龙 - 上海站成功举办。本场沙龙集结了多位高校顶尖学者、小红书技术团队大神,围绕多模态、大模型、视频处理等最新的 AI 前沿技术热点带来了相关报告

  • 小红书技术 VP 凯奇:《大规模深度学习系统技术及其在小红书的应用》
  • 复旦大学计算机学院教授邱锡鹏:《语言模型即服务与黑箱优化》
  • 上海交通大学电子信息与电气工程学院电子系教授翟广涛:《媒体体验质量评价》

此外,本场沙龙还为即将投身业界的高校学子特别设置了嘉宾对谈、自由交流等环节。上海科技大学副教务长、信息科学与技术学院教授与执行院长、IEEE Fellow 虞晶怡、小红书技术 VP 凯奇两位「前辈」,为青年人才们提供了很多有益的学术研究指导与建议。

在小红书,大规模深度学习是怎么应用的?

多模态技术是当前整个 AI 领域广受关注、发展迅速的技术方向之一,而小红书的社区和内容生态中包含大量的图文、视频、文字和用户行为信息,产生了海量高质量的多模态数据,因此成为了极佳的实践场景。

如何利用前沿的深度学习技术,在海量多模态数据中挖掘出用户感兴趣的内容和好的商业内容?从这个目标出发,衍生出很多有价值同时也具备挑战性的问题。

在分享中,小红书技术 VP 凯奇将这些问题及解决方案归结为四个方面:

  • 千人千面的实时推荐系统
  • 多模态的泛生活搜索引擎
  • AI 生成更原生的商业内容
  • 大规模机器学习平台 LarC

千人千面的实时推荐系统

打开小红书,首先映入眼帘的就是瀑布流或者内容流,这些都是系统为大家推荐的内容。据统计,小红书每天产生的用户行为达到几百亿级别的规模。对于这些数据,小红书技术团队使用基于 LarC 的机器学习框架对模型进行训练,根据用户行为中的规律,找出用户感兴趣的内容并推荐给用户。

上图是推荐模型的架构。这是一个多任务的机器学习模型,它能够预估用户的点击、停留时长、是否点赞收藏等行为。针对小红书平台产生的海量的系数参数,小红书通过超大规模无冲突的参数服务器,对这些参数进行更新和捕捉。

推荐系统的 Online Training 过程。

具体而言,当用户在浏览信息流的时候,推荐系统会实时捕捉用户的浏览、点击、点赞等行为,这些行为会基于 Flink 实时处理的计算引擎对这些数据进行拼接,从而产生高性能的样本,然后这些样本会被实时送到模型中去做预估。同时,这些短暂累积的样本也会用来做一次非常短暂的 Online Training 以更新模型参数。这些更新后的模型参数会立刻发布到线上,去服务下一次的请求。整个过程是保持在分钟级别的。

业界还有一个经典问题,比如大家浏览推荐内容时经常会发现:为什么密集地推送我以前看过的东西?我看的东西新鲜感不够了怎么办?

在推荐场景中,关注较短的时间周期会使得追打和信息茧房问题严重,小红书技术团队对用户的多元化长短期行为设计了不同的序列建模方式,在多个维度带来了显著提升。此外,关于内容推荐的多样性问题,小红书技术团队将传统的多样性做法从 DPP 改进到 SSD 算法,在信息流推荐的场景中高效地滑窗计算,从而将单篇模型的价值排序转化为整个浏览周期的建模。这背后依赖的是孪生神经网络学习长尾内容的相似性。小红书技术团队的相关工作成果已经发表在 KDD 2021 会议上。

多模态的泛生活搜索引擎

由于小红书社区包含了的大量实际生活当中非常有用的信息,很多用户都会把小红书当作搜索引擎来用。这其中包含一些挑战,比如多种数据形态的搜索、长尾现象严重、意图理解问题等。

举例来说,比如某人在小红书上看到了一个看好的衣服和鞋,想搜一搜它的搭配有哪些,了解在不同场合下搭配这件衣服和这款鞋子是什么样的感觉,这属于生活知识的搜索,同时又是多模态的搜索。

面对这样的问题,小红书团队构建了下一代多模态的泛生活搜索引擎。它基于对多模态内容深入的理解,通过图文、文字真正搜索视觉的内容,也能够根据用户的特点去做更加个性化的搜索。

上图展示了小红书团队规划的多模态搜索技术架构,可以看到,其中非常关键的一个依赖是特征抽取和表达的模块,对于图片里面包含的内容,无论是衣服、鞋、商品,大规模的神经网络都能有很好的表征,然后从大量的多模态内容当中检索出相同的商品或者相似的商品。

AI 生成更原生的商业内容

与其他平台相比,小红书的商业内容有一个很大的不同点——原生化。所谓原生化,就是从点赞、评论等行为去看,用户对这个内容非常欣赏,可能完全感觉不到它是一个商业内容。但是对于平台上的商家来说,制作这样的商业内容的门槛很高。如何很好地平衡商家的商业意图与生产内容的用户价值,是一个很关键的问题。

为此,小红书技术团队使用了基于大规模神经网络的生成式技术,来帮助商家根据内容去生成更好的标题和内容。这背后其实是基于大规模的预训练模型,包括业界较为领先的 T5、BERT、GPT 等模型架构,这些模型架构都在小红书海量的多模态数据上进行了训练。一部分的预训练模型用来去做笔记内容理解,一部分预训练模型会被用来去指导生成式模型去生成标题,这些都是相关技术在商业领域的应用方式。

大规模机器学习平台

上述所有的机器学习内容,其实都是基于小红书技术团队自研的 LarC 机器学习平台。它启动于 2019 年,到了 2020 年和 2021 年,相关的机器学习框架和平台推广到了搜索、推荐、广告等所有领域。2022 年,LarC 实现了平台化。

目前,LarC 机器学习平台的能力已经相当完整,涵盖从底层基础设施到计算框架、资源调度、离线应用以及在线部署多个层面(其中标黄部分代表已经实现)。

借助 LarC 机器学习平台,小红书技术团队希望能够帮所有算法同学迅速、高效地处理海量数据,训练大规模机器学习深度学习模型。

科研的最前沿,是什么?

最近科研圈有哪些前沿的研究方向与主题呢?复旦大学计算机学院邱锡鹏教授和上海交通大学电子信息与电气工程学院电子系翟广涛教授基于自己的研究领域,介绍了「语言模型」和「媒体体验」这两个方向的研究进展

邱锡鹏教授探讨了《语言模型即服务与黑箱优化》的主题。在大模型时代,上游模型预训练和下游任务微调成为 NLP 的主要发展模式。但随着模型越来越大,这种模式变得不可行了。将模型部署在服务端成为新的应用模式,邱教授团队提出语言模型即服务概念,但面临两个挑战:使用统一基础模型支持不同 NLP 任务;二是高效适配到下游任务。

对于统一基础模型,它的目标是用一个模型适配所有的 NLP 任务,比如同时支持理解和生成任务。邱教授团队提出一种非对称的预训练 Transformer 模型——CPT,同时展现出很强的理解和生成能力,在多个任务上超越主流模型。目前,支持多类型任务的有 Seq2Seq 模型,但对一些分为很多子任务的 NLP 任务如基于属性的情感分析任务(ABSA),无法同时做到一对多。团队将 ABSA 构建为序列生成任务,效果优于最近 SOTA 方法。

有了统一基础预训练模型,接下来要考虑如何将它迁移到不同下游任务中,高效微调算法变得至关重要。邱教授团队分别提出标签调节和黑箱优化方法。实验表明,标签调节在一些通用语言理解数据集上比 P-Tuning、Fix-Tuning 效果更好,而黑箱优化通过无梯度优化方法来优化大模型,并将它高效适配到下游任务。

可以看到,邱教授团队的这些研究成果会对小红书的一些应用场景产生助益,以 AI 生成更原生的商业内容为例,如果使用能够同时支持理解与生成任务的统一基础模型,加之在小红书海量多模态数据上进行训练,那么笔记内容理解和标题生成等任务可能会变得更加高效。

翟广涛教授专注于多媒体智能领域,他对《媒体体验质量评价》这一主题研究颇深。视觉感知是非常复杂的过程,我们看到的东西和视网膜上获得的视觉刺激往往不一样。有时本身是静止的图像,但看起来会产生旋转。这类例子还有很多,所以在做媒体体验质量评价时面临很多挑战。

媒体体验质量评价包括人类的主观评价和计算机实现的客观评价,后者是实现海量图像和视频大规模自动化处理的必要条件。质量评价又细分为全参考、半参考和无参考方法,应用最广的是只通过失帧视频来判断质量的无参考评价。媒体质量评价是视觉感知信号处理的一个分支。翟教授团队不仅针对视觉感知创建了结构化建模方法,而且提出了无参考视觉质量评价算法。

在讨论质量评价时,学界主要考虑多数人评分的均值,但用该均值代表质量是否合理有待商榷。考虑码率或分辨率成本时,也并不是投入的码率越高分辨率就越高。翟教授团队用大量实验证明图像或视频的主观分数分布,利用 Alpha-stable 模型模拟主观分数分布。音视频的相互作用也是做媒体要考虑的重要内容,一方面做视觉模型时考虑音频特征,另一方面创建音视频联合的质量评价模型。

作为一个非常大的 UGC 内容社区,小红书上图像或视频的来源可以说非常宽泛,有时真实拍摄环境不受控,导致内容质量不能保证。这时,处理质量评价问题就要考虑全参考和无参考两种场景,而翟教授团队在这方面的一些研究成果正好可以满足像小红书这类媒体产业质量监管的大规模应用需求。

「高能」对谈:青年 AI 人才的培养与成长

人工智能的发展浪潮中,涌现出一大批新的青年研究人才,他们也做出了许多优秀的工作。而在相关技术发展的过程中,学界和企业界共同起到了关键的推动作用。

对于高校来说,如何设置培养体系,才能让这些青年人才获得全面的发展,具备解决挑战的理论基础和实践能力?

对于企业来说,又该如何吸引顶尖 AI 技术人才的加入,并为人才提供广阔的发展空间,实现个人与企业的双赢?

本次沙龙的压轴环节,虞晶怡、凯奇两位前辈分别从学界和业界立场出发,开展了一场「高能」对谈。

凯奇表示,一个好的工作或者一项好的技术,一定跟它所处的业务场景相辅相成。业界与学界的不同点是,在找到一个问题以后,业界在具体过程中会更加关注数据和数据的闭环,数据决定了整个技术能够达到的天花板。

比如百度拥有一个巨量的搜索引擎入口,能够为其搜索技术提供一个高压力、高准确度的需求场景。再比如,阿里在双十一期间有海量的、突发的流量场景,就能够非常锻炼技术团队提升系统稳定性的能力。对于今天的小红书来说,这样极具价值的业务场景也是存在的。

当前,小红书已经成长为一个月活超 2 亿的 UGC 内容社区,又涵盖了视频、图片、文字、用户交互等类型的数据。在这样一个落地场景丰富的社区,如果能将多模态数据利用好,真正对用户和内容做出准确的理解和分发,让技术与小红书的业务场景互相结合、互相成就,其应用前景不言而喻。

虞晶怡教授则总结道,找到一个好的问题,再找到对的思路去解答它,才是关键所在。工业界的优势就在于有很多现成的问题需要求解。

「我时常跟我的学生说,找到好的问题要比找到好的答案重要得多——什么样的问题是值得做的?什么样的问题哪怕非常困难也是值得探索的?不管在学界工作还是在工业界工作,最终考验的是解决问题的方法和思路。不是说死记硬背就能解决一个问题,没有那么简单。」

这也正是二者的区别之一。工业界其实有很多实际落地的问题,这些问题的发现要比解决方法重要得多。近年来,随着小红书用户规模的高速发展与用户需求的不断提升,衍生出了大量新的技术应用课题,前沿技术在这一平台发展中的角色也越来越重要。与此同时,小红书在技术领域不断加大投入,加快布局前沿技术,以创新技术推动业务增长。

目前,小红书技术团队的很多应用都是基于大规模深度学习。而凯奇在对谈中提到,对于目前工业界的很多实践应用来说,深度学习领域依然有着很多热点话题和热点工作可以去做,包括最近大火的基于 Diffusion 方法的生成模型

见证了社交网络的起起伏伏,虞晶怡教授谈到一点自己的感受:「我一直在思考,社交平台怎么样才能更Attractive,更有粘性?我个人觉得一个重要组成部分是情感(Emotion)。以AIGC为例,你可以生成一个很美的画面、视频,但如果里面缺少了情感的交流,缺少了人与人的沟通,是很难打动用户的。」当焦虑等负面情感占据主流社交媒体,一个能帮大众发现建立健康积极情感的社交平台会成为这个时代的英雄。

在当前的 AI 领域,对于人的情感这件事情的研究还在很早期,沈向洋博士此前提到,「情感」会是 AI 的下一个突破。虞晶怡教授指出,关于人的情感如何能在 AI 的方法里面得以体现,今后会涌现出很多课题研究。可以想象的是,富有「情感」的小红书社区能为这个方向的研究提供海量的数据和场景,或许能够提出很好的研究命题。

理论与实践,往往是相互促进的。虞晶怡教授表示,AI 技术人才的成功虽然很大程度上可以归功于学校的培养,但必须承认的是,包括像小红书这样的公司以及很多初创公司的成功,也给了很多年轻学生鼓励和激励,为人才的茁壮成长提供了充分的空间。

面向优秀的应届毕业生,除了提供场景、数据等丰厚资源之外,小红书技术团队已经制定了从融入职场到成长为行业技术人才全周期的的详细培养方案,护航每一位高校顶尖 AI 技术人才的成长。

在第一年,小红书技术团队聚焦「融入」,通过薯光计划、Mentor 机制等方式,帮助大家完成从学生到职场人的转型,同时帮助大家在实践中找到擅长的技术方向。

在第二年、第三年,小红书技术团队会通过业务实践、体系化课程、前沿分享及学术交流等方式,培养青年人才们成为独当一面的技术骨干。在这个过程中,优秀的同学也有机会成长为技术 leader。

「同学们可以为自己设立非常高的、挑战性的目标,这样你才能达到好的状态、拿到好的结果,而小红书这个平台也会持续为年轻的 AI 技术人才们提供实践的战场。」凯奇总结道。

特别的是,面向入职之后的优秀应届生,直属上级会始终关注新人的成长过程,提供指导与帮助,也会分享来自国内外大厂的技术经验给到同学们。此外,小红书技术团队还面向应届生提供了绩效保护和绿色晋升通道,以往已经有多位技术应届生获得了连续晋升。

「内容社区」的印象之外,小红书「技术立身」的另一面始终相对低调。事实上,小红书技术团队的很多成员都有谷歌、BAT 等国内外一线大厂背景。在多年来的落地实践中,小红书已经积累了深厚的技术优势,也形成了一支非常优秀的技术团队。

今天的小红书,正处于一个高速增长期。技术团队的价值进一步凸显,对前沿技术及其落地实践的探索需求比以往更加旺盛,也正在期待更多顶尖 AI 人才的加入。

小红书还将在 10 月 19 日与 10 月 26 日晚七点举行两场线上技术分享活动,邀请到了 One Flow 一流科技创始人袁进辉与小红书智能分发部负责人瑞格,就工业级机器学习框架的挑战与实践展开分享。后一期直播则邀请到了上海交通大学计算机科学与工程系(CSE)副教授张伟楠带来「推荐系统的技术演进」主题讨论,同时小红书搜广推技术的相关负责人也将就实际业务中的问题展开分享。
产业深度学习多模态学习小红书
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
沈向洋人物

微软全球执行副总裁,美国工程院院士。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征抽取技术

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~