全景分割新突破,创新奇智荣获MIT场景解析评测世界冠军

创新奇智AInnoSeg全景分割算法相比较于目前最优的分割算法,能够有效地分割物体边缘和小物体的分割

近日,创新奇智凭借突破性的AInnoSeg全景分割算法,刷新MIT Scene Parsing Benchmark 场景解析任务世界最好成绩,击败商汤科技(2020年3月、5月为该基准测试的世界冠军)、北京大学、南京大学、腾讯等众多知名公司和研究机构,以绝对优势获得冠军。

来源于:http://sceneparsing.csail.mit.edu/

关于ADE20K数据集

MIT Scene Parsing Benchmark 致力于为场景感知、场景解析、实例分割和语义理解等计算机视觉技术提供训练和性能标准化评估平台。该基准测试的数据来自ADE20K数据集,以场景目标复杂、目标尺度变化范围大等特点著称,共包含150个类别,覆盖人类生活各个方面的场景,里面同种类的物体在不同场景中表现出的大小、比例、姿态差别非常大,并且不同物体之间存在遮挡严重的问题,是全球范围内公认的最具挑战性、权威性、代表性的场景解析评测集,在AI相关技术领域受到广泛关注和高度认可,吸引着众多国际知名企业、学术研究机构集中参与。ADE20K数据集在图像分割领域意义重大,是世界计算机视觉三大顶级会议(CVPR、ICCV和ECCV)语义分割论文权威基准数据集。

ADE20K数据集

创新奇智的AInnoSeg算法

目前最优的全景分割算法无法解决图像中物体边缘像素的分割和小物体的分割准确性。创新奇智提出的AInnoSeg算法却能有效地解决这些问题。AInnoSeg算法首先使用基于Nonlocal network修改的pixel and channel attention网络结构来嫁接在HRnet上面,这样能够精确地对图像中每个像素进行分割;然后连接一个OCRnet网络结构对图像中每个物体和属于这个物体的像素进行联系,从而能够让算法更加关注物体自身的像素和边缘像素;然后使用数据增强的方式,让算法更加关注图像中小物体的分割。同时使用多个辅助损失函数来完成训练。

HRnet网络结构

其次,AInnoSeg提供了半监督的训练模型流程,可以在数据集比较少的情况下,提升算法模型的表现力。

半监督训练流程图

AInnoSeg算法实现细节论文:https://arxiv.org/pdf/2007.10591.pdf  

我们来看看AInnoSeg算法在ADE20K数据集上面的表现。

AInnoSeg算法相比较于目前最优的分割算法,能够有效地分割物体边缘和小物体的分割

全景分割的落地应用

图像分割计算机视觉领域的重要任务,有着众多的应用场景。本次大赛创新奇智夺冠的AInnoSeg全景分割算法已经应用到创新奇智ManuVision工业视觉平台和MatrixVision视频智能平台,用于工业制造过程的产品质量管控,以及生产园区的车辆检测、行为分析等各类复杂现实场景。

创新奇智不仅拥有业界领先的计算机视觉技术 — 连续刷新人脸检测竞赛WIDER FACE、物体检测竞赛 PASCAL VOC、实例分割竞赛Cityscapes、多目标跟踪竞赛MOT Challenge等多个世界顶级计算机视觉大赛的全球排行榜,以2%的概率入选计算机视觉顶会ECCV 2020 Oral论文;还注重将技术商业化落地,在IDC中国人工智能市场报告中,跻身中国人工智能市场计算机视觉应用主流供应商,市场份额位居第6,是2018-2019 YoY增速最快企业。

创新奇智CTO张发恩表示:“创新奇智重创新,更重实践,研发能解决实际问题的AI算法,推动人工智能与实体产业的融合发展。未来,创新奇智将探索包括图像分割在内的计算机视觉技术在更多细分场景的应用落地,助力产业智能化。”

创新奇智
创新奇智

人工智能技术创新公司,专注“AI+”商业化落地

https://www.ainnovation.com/
产业全景分割
相关数据
商汤科技机构

商汤科技作为全球领先的人工智能平台公司,商汤科技SenseTime是中国科技部指定的“智能视觉”国家新一代人工智能开放创新平台。同时,商汤科技也是全球总融资额及估值最高的人工智能创新企业。 商汤科技以“坚持原创,让AI引领人类进步”为愿景。公司自主研发并建立了全球顶级的深度学习平台和超算中心,推出了一系列领先的人工智能技术,包括:人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶和遥感等。商汤科技已成为亚洲最大的AI算法提供商。 商汤科技在多个垂直领域的市场占有率位居首位,业务涵盖智能手机、互联网娱乐、汽车、智慧城市、以及教育、医疗、零售、广告、金融、地产等多个行业。目前,商汤科技已与国内外700多家世界知名的企业和机构建立合作,包括本田、SNOW、阿里巴巴、苏宁、中国移动、OPPO、vivo、小米、微博、万科、融创等。

http://www.sensetime.com
图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。 腾讯希望成为各行各业的数字化助手,助力数字中国建设。在工业、医疗、零售、教育等各个领域,腾讯为传统行业的数字化转型升级提供“数字接口”和“数字工具箱”。我们秉持数字工匠精神,希望用数字创新提升每个人的生活品质。随着“互联网+”战略实施和数字经济的发展,我们通过战略合作与开放平台,与合作伙伴共建数字生态共同体,推进云计算、大数据、人工智能等前沿科技与各行各业的融合发展及创新共赢。多年来,腾讯的开放生态带动社会创业就业人次达数千万,相关创业企业估值已达数千亿元。 腾讯的愿景是成为“最受尊敬的互联网企业”。我们始终坚守“科技向善”的初心,运用科技手段助力公益事业发展,并将社会责任融入每一个产品。2007年,腾讯倡导并发起了中国互联网第一家在民政部注册的全国性非公募基金会——腾讯公益慈善基金会。腾讯公益致力于成为“人人可公益的创连者”,以互联网核心能力推动公益行业的长远发展为己任。腾讯公益联合多方发起了中国首个互联网公益日——99公益日,帮助公益组织和广大爱心网友、企业之间形成良好的公益生态,让透明化的“指尖公益”融入亿万网民的生活。

http://www.tencent.com/
实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

创新奇智机构

创新奇智(AInnovation)成立于 2018 年 3 月,是创新工场 AI 子公司,人工智能独角兽企业。公司以 “人工智能赋能商业价值” 为使命,致力于用最前沿的人工智能技术为企业提供 AI 相关产品及商业解决方案,通过 AI 赋能助力企业客户及合作伙伴提升商业效率和价值,实现数字化转型。创新奇智以 “技术产品”+“行业场景” 双轮驱动模式,为制造、金融、零售、公共服务等行业提供人工智能整体解决方案,已获取中冶赛迪、宗申、中集、宝武钢铁、中铁四局、中纺标、鸿海科技、玛氏、雀巢、嘉士伯、惠氏、邮储银行、光大银行、人保、太保、泰康等多家行业标杆客户。公司成立以来快速成长,在多个城市落地,形成全国性布局。创新奇智的飞速发展广受市场认可,荣获多项国内外大奖,如:MIT 全球最聪明公司 50、英国《金融时报》最具创新企业、2020 CB Insights AI100、《哈佛商业评论》拉姆・查兰管理实践奖、《Fast Company》中国最佳创新公司 50、中国人工智能产业独角兽 Top50、2020 最具登陆科创板潜力企业等。

http://www.ainnovation.com/
人脸检测技术

人脸检测(face detection)是一种在任意数字图像中找到人脸的位置和大小的计算机技术。它可以检测出面部特征,并忽略诸如建筑物、树木和身体等其他任何东西。有时候,人脸检测也负责找到面部的细微特征,如眼睛、鼻子、嘴巴等的精细位置。

多目标跟踪技术

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个目标进行定位、维持他们的ID、生成他们各自的轨迹。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~