Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

如何用两个月的时间做出一款AI项目?李开复的DeeCamp告诉你答案

如何用两个月的时间做出一款具有商业价值的AI应用?DeepCamp 2020上的上的这些“天才少年”们给出了答案。

DeeCamp是由创新工场从2017年开始发起的人工智能训练营,在世界各地高校中挑选200余位学员进行大师课培训,导师包括李开复、张亚勤、吴恩达、周志华、俞敏洪等各位学界和业界大牛。今年学员56%为硕士研究生,也有1%是在读高中生。

大师课后设立开放性竞赛,学生需要组队在两个月时间内做出一款具有商业价值的AI产品Demo。

几名学生,短短两个月的时间,AI会与不同行业擦出怎样的火花?以下是各分赛道冠军产品。

一、用AI玩乐高、写小说...技术的商业想象力如何?

心灵捕手

在AI+医学赛道,两个月的时间内心灵捕手小组做出了一款软硬结合的“听医生”产品。

硬件是电子听诊器,能测量心音、呼吸音和脉搏三种信号,通过算法直接在小程序里给出分析。

image.png

算法分为三个部分:呼吸音预测、心音预测和脉搏分析。

呼吸音预测使用集成学习与卷积神经网络方法,结合kaggle网站心音数据集进行训练。首先将采集到的音频信号经过特征提出输入到Adaboost分类器中,作为第一路分类模型;然后原信号经过频带分解生成MFCC热图,输入到CNN网络中作为第二路分类模型,两类模型经过决策树最终得到一个分类结果。


image.png

由于缺少开源数据库,心音预测采用迁移学习的方法。对心音异常部分计算HRV特征,结合辅助数据通过迁移学习进行学习和分类。

脉搏分析算法则是通过由6000余例专家标定的脉搏波样本,将采集到的信息特征提取后由决策树分类。

相比大部分只能简单测量信息参数的竞品,“听医生”产品还是很有竞争力,并且价格便宜,成本118元,量产后价格更低,一般人都能消费起。

CAP Quant

你可曾想过用AI来赚钱?来看看CAP Quant。

这组针对外汇量化交易场景对历史数据,提出了一种数据依赖的相似性度量方法。对每一个分类,分别使用所提出的层次注意力来说他们模型对未来汇率进行预测,最后对多个分类的预测结果进行集成,结合挖掘出来的典型pattern制定交易策略。

预测结果方面,最基础交易策略下即可实现盈利,所有年份年均收益率为9.9301%,最近5年收益率为11.7615%。

目前这套模型已经通过路孚特应用至外汇市场中,未来还可能拓展至模块、股票和债券等场景。

Teched U

网课太长只想听重点?这组的Teched U堪称网课福音。

系统可根据关键词自动胜场大纲,自动寻找知识结构断电,将长视频切割成短视频。

最关键的是,产品可以通过关键词搜索在长视频中精确到秒定位相关视频。不用手动检索,搜一搜就可以找到重点内容。

技术方案上,视频分割是基于transformer的端到端多模态视频分割算法。首先提取音频信息根据语音识别模型得到字幕信息,再根据每句话的停顿做初步分割。然后把每个片段的视频与字幕分别用预训练的CNN和BERT提取特征,前后片段特征结合在一起做二分类。

如果把中间的结构简化为特征提取模块,每一个视频片段经过这个模块做二分类任务便可以判断一个短视频的开始。

image.png

这一系列结构是Teched U的原创神经网络,叫做TopicNet。

大纲制作环节,则只需要对每一帧图像进行预处理,机器视觉找出页面切换帧,再通过页面切换帧的标题筛选关键帧。然后对每一个关键帧利用OCR模型提取文字。

该模型准确率达到0.916,远高于对标的业界最新模型0.44准确率。产品面向B端在线教育公司,目前已经得到字节跳动等大客户的青睐。

Faster&Better

这是一组硬核技术项目。针对自动驾驶场景细分场景,在满足严格算符算力的要求下,设计了一种极为高效的anchor-free车辆检测模型,用来对自动驾驶捕捉到的图像进行目标检测。

模型采用了TTFNet结构,该模型采用backbone、后处理策略,将物体看作点,使用轻量的head来预测物体位置、类别和bounding box,在保障性能的同时大幅提升了速度,每秒可读取100帧画面。

image.png

该模型目前已经通过自动驾驶公司Momenta得到了实际应用。未来可以部署到行车记录仪等传统硬件上,使其智能化,具备行车预警功能;同时可以部署到安防监控中,使用模型自动过滤筛选,将视频中有车辆的场景加以保存,节省存储空间,也节省人员回放视频的时间。

AI科幻世界

这一组是创造了一个“AI科幻小说家”。

借鉴作家创作小说的过程,受到认知心理学和文学理论启发,提出情节大纲主导的、人机协同写作的范式:用户输入第一句,机器输出多个人称一致、语句连贯、逻辑合理的下一句话候选,由用户做筛选和修改,不断重复形成情节闭环。

image.png

在人机协同的半自动模式下,AI科幻世界写作故事大纲的速度每分钟可达50-100字。而在无人干预的全自动模式下,可以在1秒钟之内写出一个曲折动人的两千字故事。

该方案前期输入了百亿级别的中文数据和科幻小说数据,基于Open AI 的GPT-2模型,在百亿级中文大规模语料上进行自我监督训练,增强写作逻辑性。

AI科幻世界组的导师是星云奖得主、世界华人科幻作家协会会长陈楸帆。在这个科幻小说家眼里看来,AI科幻世界”项目虽然在目前算法还无法处理人物关系,但可以启发作者思路,帮助构思,摆脱思维惯性和固有的禁锢,从更广阔、弹性的空间上给与作家情节脉络发展的创意和启发。

未来也能用于新媒体编辑、网文作家、营销文案写手等商业场景。

方仔照相馆

AI和积木搭配起来能有什么奇妙的组合?

方仔照相馆团队组建了一个AI积木创作平台,只需简单上传一张自己的头像照片,便可以生成个性化定制的方仔玩偶头像,同时AI生成可用来DIY的3D拼接模块和拼接说明书。

image.png

用户只需要采购对应的积木就可以拼出自己或者朋友的乐高模型。

技术实现环节,首先是人物特征提取,进行人脸分析、衣着分析和姿态分析,提取出包括发型、肤色、刘海、衣服款式和纹理等特征向量,然后生成部位零件(手、发型、肤色等)数据库和纹理贴图,最后生成拼装步骤。

在盲盒等潮玩市场大热的背景下,这种AI定制化玩偶本身就有很大的市场潜力,团队还探索出了配套的商业方案,包括供应商、销售商、成本结构、收入来源等。

三、AI祛魅

今年的Deecamp与往年相比一个明显的变化就是更注重商业化,每一组产品Demo都有自己的商业逻辑,CAP Quant和Faster&Better小组产品甚至已经应用在了商业场景中。

此次也破天荒的有两组拿到了十万元的冠军奖励,Faster&Better和方仔照相馆,一组是技术硬核,另一组是商业潜力大。李开复说,今年DeeCamp最主要的考核标准依然是技术,但会要求学生在技术的基础上有一定的商业逻辑。

为什么要求一群学生做商业化的AI产品?

创新工场CTO两年前便解释过举办DeeCamp人工智能训练营的初衷,就是AI人才结构失衡,“当时最好的AI技术人员更愿意在大学里搞学术,或在企业研究院里发论文,或在创业公司拿着高薪担任首席科学家之类的职位,但AI商业化落地亟需的AI应用开发人员、AI架构设计人员、AI产品和解决方案设计人员等,人才市场上几乎是空白。”

从创新工场的角度,举办DeeCamp想解决的核心问题就是从”最好的学生中培出更多擅长解决真实世界问题的AI主力军。”

“用AI解决真实世界的问题”,这实际上也是AI祛魅的过程,让高精尖技术落地行业,产生实际的价值。

李开复在媒体沟通会中也谈到,现在做科技的人对商业都不够敬畏。“做科技的人还是用五年前的思维,希望用科技颠覆某个行业,这样的心态不会为社会创造价值。如果真的希望创造价值,必须很深度的理解商业模式、用户、市场,用谦卑的心态将用户当作上帝,在合适的地方放最好的科技进去。”

问题放大看,现在整个人工智能行业都面临商业化困境,不少投资人认为AI在遇冷。

但李开复认为,AI并没有遇冷,而是进入了一个新的阶段,需要赋能行业,即所谓“行业+AI”。

“单纯的AI公司不会颠覆教育行业,但一家教育公司+AI就有可能颠覆教育。”

DeeCamp一个重要的功能就是输送+AI人才。据统计,DeeCamp前三节一共培养了以前名左右学生,大多加入了谷歌、Facebook、微软、百度、阿里等顶级互联网企业,或者旷世科技、第四范式等头部互联网公司。

也有不少产品原型对行业产生了很大影响,旷视,Momenta,华为都有采用DeeCamp思路和技术的例子。

产业AI
暂无评论
暂无评论~