Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

文件扫描,AI修图:夸克App升级成了效率中心

这款应用或许会成为2022级新生的必备。

只需要一个手机 APP,你就能快速扫描大量纸质文件,AI 算法可以自动帮你摆正图像,识别文字,消除模糊,你甚至还能直接编辑扫描件上面的内容。

8 月 24 日,在北京举行的开放日活动上,阿里旗下的夸克向我们进行了最新 AI 视觉技术的分享。

「夸克是一个简单、极速的智能搜索 App,我们围绕搜索提供了很多能力,如搜索直达和与图像技术结合的以图搜图、万物识别、明星、动漫人物的识别,图像翻译、食材识别等能力,」夸克视觉技术负责人黄锐华表示。

除搜索能力之外,最新的夸克 App 中,夸克扫描王新增了大量能力,提供了文字提取、格式转换、照片修复、魔法擦除、自拍证件照等十余项功能。夸克利用多模态算法等 AI 技术,让其中的体验达到了业界领先的水平。

AI 加持的手机扫描

在夸克的用户中,有一半年龄在 25 岁以下,大学学习是排名第一的使用场景(占比超过 51%),工作需求紧随其后。随着居家学习、移动工作的需求的增长,大学生和职场人对扫描的需求正在增加。人们不仅需要清晰度更好的扫描内容,对于后期的编辑、分享、存储和创作都提出了更多需求,传统的扫描仪已经很难满足这一变化。

「因为手机扫描可经过云端算法处理,所以我们能够解决传统硬件解决不了的问题。我们现在能让扫描到的内容更加清楚,去除背景里的杂质,调整拍摄角度,给文件打水印。对于大量文件的扫描,手机也比传统的扫描仪效率更高,」黄锐华说道。

经过多年的技术沉淀和探索,夸克 AI 视觉技术加持的智能搜索、智能工具已经成为用户获取信息的重要入口之一。通过手机硬件与云端强大算力结合,夸克采用业界最新的深度学习算法构建了一套完整的训练模型和技术能力,并已经应用在日常学习、办公、生活等领域中。

夸克扫描王就是以 AI 视觉技术为核心的智能工具,从识别、录入、编辑、管理、个性化创意等方面,满足不同场景下的用户需求,帮助人们处理各类扫描问题,把手机变成了一台可随时使用的智能扫描仪。

在应用夸克扫描王能力时,扫描内容的模糊、污渍可被 AI 算法自动修复,清晰度能得以提升。针对手机扫描容易出现的角度不正、部分遮挡等常见问题,夸克扫描王会通过智能算法和图像识别进行摆正、校对。针对个性化的信息处理需求,夸克加大在识别文字和版式上的技术投入,实现了提取文字、拍黑板、加密以及擦除等实用功能,让处理信息变得更简单和易用。

构建更实用的算法

在技术能力上,夸克希望用 AI 解决用户的实际问题。据悉,夸克突破了传统光学字符识别的技术瓶颈,首次将多模算法引入文字识别领域,让公式识别、手写识别的效果得到了大幅度提升,印刷文字识别精度 99.99%,手写文字识别精度超过了 98%,在业内达到了较高水平。

而在面对复杂的 Word、Excel、PPT 等板式和结构时,夸克也能自动理解,并通过自然语言处理计算机视觉技术的深度融合,帮助用户精准、快速的解决复杂问题。

为了实现更好的扫描效果,夸克把游戏引擎中的数据模拟方法与半监督模型训练方法引入到文件扫描的模型开发中,通过深度模拟和还原快速提升文件矫正、字迹清晰度、背景杂质擦除的实际效果,进一步拓展了手机扫描的能力和应用场景。

「在物理世界中,我们会将纸张进行抹平。而在数字图像上,机器可以对象素进行位移,算法估测某个点和摄象头的距离,再推断它应该往 X 方向和 Y 方向移动的距离。经过深度估计加上平移,我们就可以从摄像头成像畸变、拍摄角度歪斜的弯曲图片中得到更标准的图片,」夸克视觉算法工程师尚文祥介绍道。

通过游戏引擎的模拟技术,夸克工程师生成了上千万弯曲纸张作为数据,提升了训练后 AI 模型的效果。

此外,夸克还将手机扫描的大部分功能集成在了手机端,可实现完全的「离线模式」,进一步保护用户数据隐私和安全。夸克也成为第一个将扫描 AI 算法上端的 APP。在模型本地化之后,端到端的识别流程仍只需 2 秒,识别准确率达到 95%,夸克是整个行业内首家实现这样水平的应用。

夸克扫描王除了保证扫描效果和安全性,还研发了魔法擦除、记录屏幕、照片修复等实用功能。在文件中,你可以简单一抹去除不想要的文字或批注痕迹,再直接打字输入新内容。在照片上,夸克 APP 还可以让你直接编辑手机上的图片,P 掉不想出现的人或物,让图片更具美感。

通过自研算法、多模型融合、有监督和半监督混合训练,夸克提供的去手写功能效果和效率远超行业水平。

从搜索引擎到全能工具集,夸克面向 AI 的进化正在让它获得更多人的青睐。

今年 5 月,夸克的 Slogan 由「新生代智能搜索」升级为「你的高效拍档」,这款 APP 正在超越传统搜索引擎,以「智能工具 + 内容 + 服务」的新模式,围绕用户的交互体验与使用场景持续迭代创新,更精准、高效的满足用户主动获取信息、解决实际问题的需求。

产业夸克阿里巴巴
相关数据
光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~