Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

作者DataFunTalk

让预训练语言模型读懂数字:超对称技术发布10亿参数BigBang Transformer[乾元]金融大规模预训练语言模型

导读超对称技术公司发布10亿参数金融预训练语言模型BigBang Transformer[乾元]。BBT大模型基于时序-文本跨模态架构,融合训练文本和时序两种模态数据,下游任务准确率较T5同级别模型提升近10%,并大幅提高时序预测的R2 score。跨模态架构能让语言模型识别时序数据的变化并通过人类语言来分析和阐述其发现。BBT模型可用于金融量化投资的因子挖掘,支撑多因子策略,以及广泛的数据可视化和物联网的时序数据分析等。BBT模型的目标是实现具备人类级别分析能力的预训练大模型,构建可在行业落地的通用人工智能架构。

01 通用大模型的缺陷

OpenAI的GPT-3, Google 的LaMDA, PaLM等千亿以上参数的语言模型和多模态大模型在写作、文字生成图片、对话等任务能接近乃至超越人类的智力水平。但是以上大模型有一些共同的缺陷:

① 大模型以通用的语料和数据进行预训练,在通用场景上表现良好,但是在专业领域有明显缺陷。所以GPT-3, 悟道,盘古等模型多用续写小说,写作诗歌,或者人机对话来展示大模型的能力。涉及到严肃的工作场景,则是只见打雷不见下雨。至今未见基于大模型在行业上的已经规模化应用的产品,背后的原因尚需进一步挖掘。仅用通用语料,未用行业数据进行预训练的大模型,其能力边界在哪里?如果超对称团队证明用行业数据训练的模型准确度更好,是否说明现有大模型的总体设计需要重新调整,才能获得大模型在不同行业的通用性?

② Dalle 2 等预训练多模态模型在文字生成图像的应用取得惊人的效果,但是多模态模型在时序数据,表格文档数据等更实用更复杂的模态上进展不大,而这些模态占据了实际工作的大量场景。除了可以处理语言、语音、图像这三种常见模态,能读懂和分析数据也是人类智能的一种突出能力,而且人类能够并行处理语言,数据来获得结论。大模型是否也能实现人类智能对数据的分析能力,从而有效实现在工业场景的广泛应用。

超对称技术公司专注于开发算法和数据产品为金融、媒体、生产制造等行业提供服务。超对称公司针对金融投资领域的应用设计和训练了一个大规模参数预训练语言模型Big Bang Transformer乾元(BBT),目前发布了Base 版本2.2亿参数和Large 版本 10亿参数。同超对称团队还针对金融行业的预训练模型发布了一套评测数据集BBT-FinCUGE,开源于Github。BBT模型参考T5的Encoder+Decoder结构,以融合处理NLU和NLG的下游任务。超对称团队整理了一套金融行业的数据集,建立了一个跨模态联合训练文本和时序数据的基于Transformer的架构。

大模型是通往Artificial General Intelligence (AGI) 的一条道路。超对称公司认为具备数据分析能力是实现AGI的基础之一。超对称技术公司联合复旦大学计算机学院肖仰华知识工场实验室,浙江大学徐仁军实验室,南开大学和北师大人工智能学院的老师,在基础理论、架构、算法实现三方面推动AGI底层算法的研发,构建AGI在产业应用的底座。该项研究获得甘肃高台“东数西算”项目在算力基础设施上的支持。

以Google 的T5框架为参考基准,BBT模型的实验验证了以下几个结论:

  • 基于领域专业数据集预训练的大模型,比T5同级别参数模型平均下游任务准确率可以提高接近10%。
  • 不同下游任务的语料数据集比例对下游任务的准确度有影响。
  • 基于下游任务类别提供Source Prompt的提示学习能大幅提高下游任务的准确度。
  • BBT的时序模型进行多元时序预测,比普通的Transformer获得R2 score的大幅提升。
  • 联合文本和时序数据数据进行训练,模型能读懂数字变化所对应的真实世界。

02 专注于融合训练时序-文本跨模态的预训练模型算法架构

传统的时序模型往往仅依赖时序本身的信息完成各种任务,而忽略了时序数据对外部信息的依赖。例如某一时刻股价、经济指标等数据的波动并不完全由这一时刻前的数据决定。语言模型具有强大的表征文本信息的能力,将语言模型与时序模型结合,既可以使得世界信息能够以文本的形式支撑时序任务的完成,又可以通过时序数据中包含的信息强化语言模型对信息的理解能力。

为此超对称团队设计了基Transformer的时序-文本跨模态预训练模型,这是业内最早的专注于联合训练时序-文本二模态的预训练算法架构之一。预训练方式为通过T时刻前的文本信息和时序信息对T时刻的时序数据进行预测。时序数据和文本图像数据同时作为Embedding层输入Encoder一个双向的Transformer,输出向量进入的Decoder有NLU,NLG,Time Series三类。

图片

BBT模型设计了一个通用的将时间向量化输入Embedding层的模块。多元时间序列受到空间维度与时间维度两方面信号脉冲的影响,其被激活的时间、空间范围是一个连续的频谱,可大致分为低频局部脉冲、低频全局脉冲、高频局部脉冲和高频全局脉冲四方面分析这种影响。其中,“低频”/“高频”是指从时间视图描述了影响的激活范围,而“全局”/“局部”从空间视图描述了激活范围

  • “低频”即脉冲变化平稳,倾向于在较长时间内保持稳定;
  • “高频”即脉冲变化剧烈;
  • “全局”是指这种脉冲对所有时间序列产生类似的影响;
  • “局部”是指脉冲只影响单个的时间序列,或对不同的时间序列施加不同的影响。

基于此,超对称提出一种通用的、模型无关的、可学习的向量时间表示组件DWT-ST2Vec,可适用于多种模型结构与下游任务。该组件可从时空两个维度对序列的高频、低频分量进行分解,从而更加充分学习序列信息。

图片

03 学术和工业界覆盖最完整、规模最大的金融投资类数据集

语料库的质量、数量和多样性直接影响语言模型预训练的效果,现有的中文金融预训练语言模型,例如FinBERT与英伟达发布的FinMegatron,其预训练语料在数量和多样性上十分有限。

为了更好地推进中文金融自然语言处理(NLP)的发展,超对称搜集和爬取了几乎所有公开的和其他手段可以获得的中文金融语料数据,包括过去20年所有主流媒体平台发布的财经政治经济新闻,所有上市公司公告和财报,上千万份研究院和咨询机构历史上发布的所有研究报告,百万本金融经济政治等社会科学类书籍,40多个政府部位网站和地方政府网站的公告和文档,社交媒体平台用户发帖,从中清洗和整理了大规模中文金融语料库BBTCorpus,涵盖五大类别共300多GB,800亿Token的高质量多样化语料数据,是目前市面上覆盖最完整,规模最大的金融投资类数据集,具体的规模分布如表1所示。

图片

表1:BBTCorpus语料大小分布,其中上市公司公告与研究报告的原始文件为PDF格式。

04 创新的预训练方法可大幅提高语言模型准确度:Similarity Sampling 和 Source Prompt

为了验证领域语料预训练的有效性,超对称团队使用在通用语料库CLUECorpus-samll上进行预训练的模型t5-v1_1-base-chinese-cluecorpussmall与超对称团队的模型进行对比,实验结果如表2所示。

超对称团队针对具体问题对T5的预训练方式做出了创新性的改进

首先是针对预训练语料采样问题提出的语料来源相似度加权采样算法。由于超对称团队的语料库十分庞大,以至于在模型预训练的全过程中也只能采样约百分之十的文本进行训练,因此模型势必要对不同来源的语料进行随机采样。如果对所有语料进行简单随机采样,则事实上是对不同来源的语料按大小规模进行混合,即在模型进行预训练的语料子集中,公告:研报:新闻:股吧:雪球的比例约为105:11:30:74:44。超对称团队提出,相对于单纯的简单随机采样,按照评测基准中的文本与不同来源的语料的相似度进行加权采样是更加合理的选择。经过加权平均采样的语料库子集训练出的模型在评测基准上平均能取得0.7%的提升,实验结果如表2所示。

这一创新点不仅适用于金融领域语言模型的预训练工作,它的思想同样可以推广到其他具备多种异质语料来源的领域,例如生物医药、法律等领域。之后,在此基础上,超对称团队进一步把模型规模扩充到十亿参数的Large级别,实验结果如表2所示。

图片

表2:成绩为模型在评测基准上的平均成绩。T5-base代表t5-v1_1-base-chinese-cluecorpussmall。ss代表超对称团队的首个创新点语料来源相似度加权采样算法(Similarity weighted Sampling of corpus source)。base模型的参数量均为2.2亿,large模型的参数量为10亿。

超对称团队又针对异质语料混合的问题开创性的提出了来源提示方法(Source Prompt, SP),即在预训练时,语料前放置一个代表其来源的提示。

对于语料:“据国家统计局消息,2022年5月份,全国居民消费价格同比上涨2.1%。” 预训练时在其前部放置来源提示:【新闻】 变为:“【新闻】据国家统计局消息,2022年5月份,全国居民消费价格同比上涨2.1%。”, 之后正常进行MLM预训练 。Source Prompt在Base 模型中在Similarity Sampling模型的基础上提高3.21%。

图片

表3:T5-base 和BBT不同模型在8个下游任务的表现。

05 通用的时间向量表示组件DWT-ST2Vec 可以连接不同模型

BBT模型对时序数据进行处理的基本能力包括 :

  • 提供了一种通用的、与模型无关的、可学习的向量时间表示组件DWT-ST2Vec,能够将时间作为Embedding输入Encoder,与文本联合学习。
  • 可以实现准确度更高的多元时间序列预测。
  • 可将时序数据按照“全局-局部”、“周期-趋势” “低频-高频”进行分解。
  • 通过与文本的融合学习,大模型可以针对时序数据变化生成文字。

随机选取40家国内上市公司,以开盘股价的时间序列为主要评测对象,以股票开盘以来长度为4000的序列数据为训练集,以4000-4200的序列数据为测试集进行训练,以测试集的MSE, RMSE, MAE, MAPE指标加总为评测指标。以Transformer为基线,训练出的模型在评测基准上,在MSE, RMSE, MAE, MAPE上有平均0.5%-2%的提升。

图片

图片

BBT的时序-文本的跨模态架构能够通过辨识股价变化,触发NLU的能力,生成类似分析师和散户投资者的评论 。

输入股价:

图片

模型能基于所学习的海量新闻,写出类似专业新闻记者一样的评论,如:

图片

图片

也能像散户投资者一样谈论市场趋势

图片

图片

BBT时序-文本跨模态架构,能实现让模型来阅读公司的财报和新闻来写出一篇公司发展趋势分析报告,也能让模型学习品牌在电商平台的多年销售数据和产品特性,来预测产品未来销售量进而写出针对性市场营销报告,或者让模型学习制造业生产机器的监控数据,写出非专业人员也能懂的运维故障报告。

06 BBT-KG:动态追因的事理图谱

超对称团队构建了中国20万一级市场公司和4500家A股上市公司的知识图谱,用于知识增强的语言模型学习。BBT-KG与市面上的金融知识图谱不同在于,超对称团队通过语言模型的能力,构建了动态的新闻事件和企业之间的关联关系和事件之间的因果关系,从而让模型具备能力判断新发生的事件对公司和市场的影响,并对市场波动追因溯源。

图片

图片

07 应用BBT大模型构建量化投资新因子 BBT模型助力多因子策略开发

超对称团队应用BBT模型计算个股的情绪指数,再监测相邻时段的情绪变化,选取突出变化作为多空因子构建量化因子策略,最终收益远超市场。超对称团队回溯情绪指数杰出的选股能力,发现模型能有效地学习金融财经类文本,并量化地反应市场的信息,创造性地提供另类因子。除了计算市场情绪,BBT模型拥有的多维度能力也同样可以运用在财经金融领域。

例如利用BBT的事件抽取能力,可以抽取出同类事件或新闻与量价数据做对照,以研究不同事件传导到市场速度的快慢;BBT还可以通过超对称团队独有的金融知识图谱学习供应链中经济个体间的相互关系,以机器学习的方法来消除因子间的共线性,为传统线性回归多因子模型为传统线性回归多因子模型带来颠覆性创新。

除此之外,BBT的负面消息识别能力还可以为信用风险评估体系增加实时舆情监控,新闻分类能力更是能帮助财务分析师和金融分析师快速处理大量信息,以获得更全面客观的结论。

图片


08 Benchmark 评测数据集:首个中文金融NLP评测数据集

评测基准对自然语言处理(NLP)的发展起着重要的指导作用,而在中文金融NLP的研究与应用蓬勃发展的同时,业界缺少一个权威的评测基准。为了解决这个问题,超对称团队提出了BBT-FinCUGE,开源地址:

GitHub.com/ssymmetry/BBT-FinCUGE-Application

这是一个中文金融自然语言理解和生成评测基准,具有以下特点:

① 专业性:所有数据集的筛选和标记工作都有金融专家的参与。

② 实用性:所有任务均由金融专家进行实用性评分,作为任务选择和最终评分的依据。评测基准共包含以下八个数据集:

  • 论坛情绪分析FinFE

在股吧和雪球等股民论坛中,股民们每天会产出海量的评论文本,其中包含有感性的情感输出和理性的涨跌预测等内容。针对这些文本,该数据集要求模型学习并预测文本的情绪指数(0、1、2,分别代表消极、中性和积极)。

  • 事件抽取FinQA

事件抽取是指自动从文本中识别事件的发生,抽取事件参数并整理成结构化数据的算法,包括企业投融资、上市、收购等事件的检测和参数抽取。(为了更好的横向对比不同的模型,超对称团队将该数据集整理为阅读理解问答QA的形式)。

  • 因果事件抽取FinCQA

与常规事件抽取不同,因果事件抽取专注于在文本中识别出具有因果关系的两个事件及其事件参数,并将其整理为机构化数据。超对称团队的因果事件数据集包含对大宗商品领域的因果事件识别,识别的事件类型包括台风/地震,供给增加/减少,需求增加/减少,价格上升/下降等可能为原因和结果事件及其对应关系和对应的产品、地区等参数(为了更好地横向对比不同的模型,超对称团队将该数据集整理为阅读理解问答QA的形式)。

  • 新闻文本摘要FinNA

中文金融新闻摘要生成任务。该数据集取自于新浪财经的大规模中文短新闻,包含了20000条真实的中文短文本数据和对应的摘要。

  • 关系抽取FinRE

一个人工精标注的财经金融领域的数据集。给定句子和其中的头尾实体,要求模型预测头尾实体之间的关系。该数据集由新浪财经新闻语料标注得到,其中命名实体为商业公司,在关系上设计了44个金融领域的关系类别(双向),包含拥有、持股、竞争、收购、交易、合作、减持等财经金融领域的特有关系类别。

  • 负面消息识别及主体判定FinNSP

本数据集包含两个任务:

负面信息判定:判定该文本是否包含金融实体的负面信息。如果该文本不包含负面信息,或者包含负面信息但负面信息未涉及到金融实体,则负面信息判定结果为0。

负面主体判定:如果任务1中包含金融实体的负面信息,继续判断负面信息的主体对象是实体列表中的哪些实体。

  • 新闻分类FinNL

把金融新闻分类为一个或多个与其描述内容相关的类别。新闻采样于新浪财经,目前共有公司(个股)、行业(板块)、大盘、中国、国际、经济、政策、期货、债券、房地产、外汇、虚拟货币、新冠、能源等14个类别 。

  • 事件主体抽取

本评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。即输入:一段文本,事件类型S;输出:事件主体。

09 开发者服务:向金融和非金融行业开发者开放API构建BBT大模型开发者生态

超对称团队面向金融和非金融行业的开发者开放11项API能力,建设BBT大模型开发者生态。第一批开放的API能力包括:知识图谱、文章摘要、社交媒体情绪识别、新闻情绪识别、新闻分类标签、命名实体识别、关系抽取、事件抽取、事件因果抽取、公告抽取、负面消息和主体识别。

API文档:

https://www.ssymmetry.com/newproduct/bbtlink

10 金融和经济领域的基石模型

BBT 1.0版本模型的目标是为金融投资建立统一的人工智能算法框架,基于transformer构建能融合训练金融投资涉及的不同模态数据的架构。在统一架构的基础上训练大规模参数预训练模型,随着模型参数和训练数据集继续增大,超对称团队有希望开发出在金融领域接近人类智能水平的模型。

作为金融领域的基石模型,BBT模型为所有金融投资、经济分析、商业咨询等场景的深度学习下游任务提供微调服务。金融投资领域有大量从业机构和人员,大厂有财力雇佣算法工程师,小团队却用不起基本的文本抽取算法。BBT模型作为金融领域的算法基础设施,让所有从业者配备同级别的武器,让全行业站在同一起跑线去竞争更优的投资策略,从而推动金融和经济市场更高效的信息和要素流动。

让模型读懂数字,是BBT模型专注开发的一种时序-文本跨模态架构的能力,这是人类追求的通用人工智能的最核心能力之一。模型能在海量时序数据中识别出变化的模式和规律,并通过预训练语言大模型将其与现实世界准确对应,从而在数据世界和人类语言世界建立起桥梁,将会给更广泛的数字化技术带来革命,包括商业数据分析、数据可视化、数据库技术等。BBT模型不仅可以应用于金融,在时序数据处理需求为主的生产制造、物联网、智慧城市、互联网大数据分析都有应用的潜力。

今天的分享就到这里,谢谢大家。

理论自然语言处理语言模型超对称
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

时间序列预测技术

时间序列预测法其实是一种回归预测方法,属于定量预测,其基本原理是;一方面承认事物发展的延续性,运用过去时间序列的数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到偶然因素影响而产生的随机性,为了消除随机波动的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

超对称机构

超对称数据平台是一个基于人工智能的商业大数据解决方案提供商,专注于组织全球商业数据,构建完整的商业知识图谱。

http://chaoduicheng.com/
数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

事件识别技术

事件识别(事件模式匹配)指检测与处理相关的事件,从而提供实施反应措施的机会。比如识别计算机网络节点中的攻击,视频内容中的人类活动,社交网络上的新兴故事和趋势,智能城市中的交通和运输事件,电子市场中的欺诈,心律失常和流行病传播等。在每个场景中,事件识别通过理解大数据流而做出相应的反应。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

时序预测技术

时序预测(时间序列预测)是预测时间序列未来值(以及不确定性的边界)的任务。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~