产业资讯方案大厅机构大厅

文档智能审阅系统 · DATA GRAND

自然语言处理数据科学达观数据

产品描述

1. 文字语义自动分析技术可以对文档进行快速处理,补充人类的不足之处,可以发现人们容易忽略的错误。而人类在工作流程中的任务是复查计算机给出的结果,这样可以大幅度提高工作效率。2. 在金融等对于文本准确性要求很高的行业中,计算机具有快速处理数据的能力,对内容的复核,包括字词的复核都有天然的优势。让计算机理解金融行业里的领域知识,让算法和专业内容更加紧密地结合在一起,需要把领域内的知识固化到软件系统内,这样软件才能像白领员工一样进行工作。3. 在可用性方面,机器学习系统也有着自己的优势。在达观数据很多客户的专业领域内,培养一个专家需要很多年的时间,在此之后,经验和知识又很难迁移到其他人身上。而现在,计算机软件系统一旦训练好,就具备了类似人类专家水平的能力,同时可以零成本地进行复制,服务更多人。

1. 达观数据的语言处理模型在训练时使用了两部分数据,一方面是特定领域内的语料数据,包括行业中公开的语料数据、资料、专业术语等。技术人员已投入大量精力对数据进行了采集、归纳整理和分析。另一方面,达观数据的客户多年来也积累了大量高质量行业数据。通过高质量的数据训练算法,计算机系统会变得越来越聪明。2. 达观数据的文档审核系统在纠错算法和审核算法中采用了 LSTM 等技术,其 2.0 版还引入了迁移学习和增强学习。复杂的模型带来了更高的准确率。3. 在提高计算并行化效率上,达观数据的产品采用了 Mini batch 等新技术。同时,其模型也结合了 LSTM、CNN、统计学习等方法,通过独有的双层组合学习的方法,整个系统可充分发挥各种算法的优势,让算法的能力发挥到最大。

所用技术

研发机构

达观数据是一家专注于文本智能处理技术的国家高新技术企业,先后获得中国人工智能领域最高奖 “吴文俊人工智能奖”、ACM CIKM算法竞赛全球冠军、EMI Hackathon数据竞赛全球冠军等荣誉。利用先进的自然语言处理(NLP)、光学字符识别(OCR)、知识图谱等技术,为大型企业和政府机构提供机器人流程自动化(RPA)、文档智能审阅、智能推荐等智能产品,让计算机协助人工完成业务流程自动化,大幅度提高企业效率。