Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

刘芷辰作者郝雪阳编辑

人工智能技术如何助力病案智能化编码与DRG支付方式变革

随着病案首页在医疗付费、流程管控中的重要性增加,其编码数据的准确性引起了越来越多的关注。从各类医院的真实数据抽验研究表明,病案首页编码数据的准确程度远未达到监管部门的要求。

为了使各项统计工作、审批基线有据可依,院方应严把病案首页质量关,狠抓全体医护人员病案书写质量,并加强医师的职业素养和专业水平,同时使用技术手段辅助、审查并按数据的准确度与完整性,大力促进病案首页书写标准化、规范化,确保统计工作的高质量,实现医学、统计、信息、计算机应用四位一体。

同时,也应加强病案、技术部门相互间的沟通与协作,使得人工智能等先进技术得以辅助日常的医生工作流程,提高工作效率和工作质量。

专栏作者:DRG资深专家、复旦大学公共管理博士后刘芷辰博士

个人履历:复旦大学公共管理后流动站、国家卫计委统计信息中心博士后工作站博士后。大健康领域资深战略专家。近10年的互联网医疗和大健康领域战略咨询经验,曾在国内某上市IT解决方案与服务供应商担任战略咨询和科研业务发展总监职务,主导策划了面向大健康领域很多具有前瞻性的创新商业模式,曾前瞻性的预测了中国医疗支付尤其是DRG支付方式改革将成为中国十三五深化医改的关键举措。曾以整体项目牵头负责人的角色,参与国内某地市级DRG医保支付方式改革的试点项目。帮助该市医保局构建了全市DRG支付体系改革的顶层方案设计,并落地信息化系统的工具支撑。

前期回顾:

DRG专栏系列之一:综述篇

DRG专栏系列之二:临床数据篇

DRG专栏系列之三:成本数据篇

DRG专栏系列之四:DRG分组篇

DRG专栏系列之五:DRG定价篇

DRG专栏系列之六:DRG监管篇

一、电子病案智能化编码的发展现状

计算机辅助编码工具已经存在了多年,但是国内目前对智能编码概念的理解程度不一,对智能实现的方式还停留在比较浅的层面上,现存疾病智能编码研究大多基于大夫给出的诊断,在诊断关键字基础上做可能的提示,引导编码人员一步步操作得出最终编码(具体见图1)。

另外一种是在病案管理系统中设置逻辑规则提示编码(具体见图2)。以上均不能从根本上解决疾病和编码的统一,没有体现编码过程中所需阅读病历的过程,因此是一种伪智能。

图1基于诊断和标准库查询编码

图2在病案系统设置规则提示编码

二、人工智能技术应用于智能编码的原理

随着计算能力的提升,基于深度学习人工智能技术出现了井喷。人工智能技术在很多的领域里可以模仿人脑进行一定程度的逻辑及非逻辑判断,最终可以实现类似于人类的决策判断。

利用先进的人工智能技术探索在病案首页质量控制问题,尤其是编码纠正、辅助上的应用具有了一定的可行性。具体可以实现的功能包括:智能化ICD自动编码对应;多诊断情况下自动判别主要诊断;智能化编码合并及合理费用优化。

病案首页数据质控可以使用片面与全面方式分别实现。片面实现方式仅只利用病案首页内的相关数据,利用相关分析方法进行处理分析,最终可以实现病案数据的修正、优化及稽查。

全面实现方式在可以获得包括病人电子病历数据、处方数据、检查数据等相关其他信息时可以做出的复杂数据质量评估。

人工智能技术应用于智能编码其算法的基础都是自然语言处理(NLP)技术,该技术是通过计算机科学、信息工程和人工智能等手段让计算机实现对非结构化文本的理解、分析和处理工作。

电子病历中患者的主诉、既往史、症状、诊疗过程及临床诊断等信息大多以非结构化的自然语言形式储存,如何能让计算机利用这些无章但极有价值的信息来辅助病案首页编码是提升医院管理效率和管理质量的一个重要部分。具体而言,文本处理所包含的步骤包括:

1、分词

分词是将文本序列切分成一个个单独的词,例如将“糖尿病周围血管病变”分解为“糖尿病”“周围血管”“病变”,这需要庞大的医学知识库在背后支撑,否则将会影响分词效果及以后的文本处理步骤。

2、词嵌入

简单来说,词嵌入是一种词的类型表示,具有相似意义的词具有相似的表示,是将词汇映射到实数向量的方法总称。通过这种方式产生的词向量不仅维度低,而且包含了语义信息。例如“癌”和“恶性肿瘤”这两个词所对应的向量在空间中距离很近,但“癌”和“汽车”这两个不搭边的词所对应的向量就距离很远。这样,通过运算可以使计算机像人一样“理解”词汇的意思。

3、命名实体识别

在经过分词和词嵌入之后,计算机就可以开始识别文本中具有特定意义的实体了,在医疗中这些实体包括病人基本信息相关实体(姓名、年龄等)、药品名、疾病名和手术名等。一些常见的实体可能包含在知识库当中,识别起来就很简单。但是对于那些不常见的实体的识别,则需要一些算法来实现。

通过以上三个步骤,计算机已经可以较好的理解文本的语义,以辅助编码为例,计算机可以通过“基于规则”和“人工智能”这两个手段来达成。

4、基于规则

“基于规则”依靠的是大量医学知识的沉淀,通过编码逻辑和编码规则,将处理好的文本与编码的标准描述对齐匹配,达到编码的目的。逻辑和规则的搭建需要依靠电子病历中不同部分的内容信息,其中包括:病人基本信息(性别、年龄)、临床诊断、手术操作、影像信息和病理信息等。“基于规则”智能编码系统的搭建需要花费大量的时间和专家资源,且维护的成本高。但是一旦搭建完成,其编码的效果好、编码路径的可解释性强。

5、人工智能

人工智能”途径则可以在最短时间内搭建出一个较为可靠的编码模型。它的主要核心是将编码问题转化为经典的文本分类问题来解决,只是在智能编码这个背景下,输入的是电子病历文本,输出的是该病例编码。计算机通过大量准确历史数据的训练,学习从文本中找特征,并将这些特征和编码标签联系在一起,从而完成学习的流程。

在数据多且质量好的情况下,人工智能算法可以达到很好的效果,但是数据少、数据错误多都会让计算机“学错”,导致效果不佳。另外,相较于“基于规则”的智能编码,人工智能模型的可解释性不强,这也是人工智能在医疗很多应用上受限的一大原因。

因此,最理想的病案首页辅助编码是以医学知识为基石、通过人工智能的算法赋能来搭建的。这样的系统既能保留很强的医学解释性,又能具有人工智能算法的高效和可扩展性。

三、人工智能应用于智能辅助编码的关键技术

应用先进的自然语言处理技术、机器学习技术等基于人工智能算法开发的各类模型,将其应用在以诊断(编码)为主的病案首页数据之上。具体技术架构如图3所示,其包含以下特征。

图3 病案首页质控框架

1、整合知识库自然语言处理文本分析

原始出院诊断信息为病案首页中的重要信息来源,而且大多数情况下以自然语言形态出现(即医生手动输入的文字型诊断内容)。同时,国家规范的ICD编码(包含ICD-10以及ICD-9-CM版本),其中的标准诊断书写方式也是基于自然语言。

一般情况下医生需要通过自己输入的关键词或完整诊断内容从系统自动化匹配的ICD编码中选择合适的对应编码。然而很多时候医生的书写方式与ICD中的形态完全不同,因而一些情况下通过关键字的搜索无法找到对应的ICD编码。

然而这一问题可以通过知识库积累与自然语言处理算法进行优化。自然语言处理算法可以将医生书写的出院诊断文字进行语义学分析。将其中的核心词,及对应程度、病因、病理、部位、临床表现等的修饰词进行拆分与结构化。因而,不同部分的信息点可以以不同的方式进行分析。

例如,标为“开放性右肱骨骨折”的主要诊断,自然语言分析可将其拆分为“开放性” “右” “肱骨””骨折”,分别指代诊断的类别、方位、位置及内容。因而可以对不同部分进行详尽的分析,从ICD编码中找出对应的大类。

进而,医学知识库可以将各类表述同一诊断的不同表述方式进行整理归一,同时也可以将各类医学名词之间的关联性进行细化。例如上例中,可以通过知识库分析得知“右肱骨”属于“肱骨”、“肱骨”位于上臂,因此将会从ICD编码中排除所有不符合的编码,对候选结果进行优化。

2、机器学习深度学习模型构建

由于编码过程除了涉及医学相关知识外,还要求编码人员有一定的逻辑判断能力。例如可以从多个出院诊断中选择合适的诊断作为主要诊断,或面对多个诊断信息时可以恰当地将其中可以合并的诊断进行编码合并。在此前提下,机器学习深度学习算法可以对该环节进行一定程度的辅助。

计算语言相似度的方法有很多,依据前期探索的经验,单一方法在自动编码辅助上的效果都偏差。因而需要探索多种方法整合后生成的模型是否可以具备更高的可用性。同时,应用神经网络将各类单一算法中有限的变量整合后进行关联,将可以在原有算法基础上形成新的、可支持一定逻辑深度学习模型。一些候选的研究算法罗列在表1中。

表1 研究算法

3、自学习算法、强误差容忍度

为实现主诊断的选择与合并编码,模型应具备极强的自学习能力与抗噪声能力。现有院内编码数据(甚至包括监管部门得到的历年上传的数据)的一个特点就是其中依旧有不少难以发现的错误与偏差。

因而,在训练相关的模型时,在无法得到完整的并且无误的训练数据的时候如何保证模型具备一定的误差容忍度就成了极具挑战性的命题。

四、电子病案智能化编码在DRGs支付方式改革中推广应用的对策建议

伴随着DRGs支付方式改革的逐步推进,病案首页质量将越来越重要,编码的准确性问题需要引起高度重视。市场上的很多信息化厂商也纷纷开始关注病案首页质控以及智能化辅助编码的技术实现问题。

随着人工智能技术的逐步推进,基于人工智能技术从电子病历数据来进行智能辅助编码将具有更广阔的前景。

根据笔者的调研目前市场上也已经有一些厂商已经在一定程度上进行了很好的探索和市场化应用推广,为提升病案首页的数据质量以及编码的准确性做出了一定的贡献。

但是,如果要从国家层面助力医保深入开展DRGs支付方式改革的全国推广,还需要进行一定程度的顶层设计,具体建议如下:

1、自上而下的进行临床数据的统一规范管理

1)、推行统一规范的病案首页填写版本

尽管国家已经发布了统一版本的病案首页填写要求,但是从各地的实际来看还有很多城市存在病案首页填写版本不一致的现象,建议应该首先由卫健委或医保局统一牵头推进病案首页上报的标准版本,并确保该版本所需的数据能够满足DRGs分组所需要的全部数据需求。

2)、推行统一的DRGs分组器,并发布与之相适应的编码体系,形成定期维护更新机制

目前,国内主流的分组器版本有CN-DRGs、C-DRG、上海版DRGs等,为适应不同的DRGs分组器,各不同学派又研发了自己的编码体系,由于不同版本的编码体系有较大的差异,在信息化建设、数据共享和交换等方面不能满足信息化建设和医改提出的要求,加强疾病分类编码的统一管理、推行统一标准,是当前的大势所趋。

因此,建议国家能够从顶层设计的思路考虑,充分吸纳借鉴各个学派的优势,融会贯通,确定国家统一的法定DRGs分组器版本、以及与之相适应的编码标准、编码规则,并形成定期维护更新机制。确保分组科学,疾病之间的可比性以及为DRGs支付提供技术支撑。

3)、构建全国统一的病案首页/电子病历临床数据库,并成立专门的部门进行自上而下统一的数据质量监管

根据国际经验,各国DRGs支付成功的必要条件是准确的临床和成本数据。因此,各国在实施DRGs支付体系构建时都会成立专门的部门负责对数据的搜集、处理、以及监管和审核等工作。

以德国为例,德国专门责成InEK(Institut für das Entgeltsystem im Krankenhaus,DRGs研究院)进行DRGs的改革与开发工作。InEK的主要职责之一就是对医疗机构的数据进行收集与分析工作,并下设数据中心对医疗机构等提交的数据进行整理与汇总。

临床数据主要用于诊断分类系统和程序分类系统,由InEK的数据中心收集汇总后提交给DIMDI(Deutsches Institut für medizinische Dokumentation und Information,联邦医疗数据文献及信息研究院)进行诊断和程序编码(基于InEK数据中心对临床数据的处理与汇总审核是确保DIMDI 的正确编码与分组的重要保障)。

在编码层面,德国DRGs相关的编码工作,多数医院是由医师或专业编码人员来做。每一家医院皆设有医疗控制中心负责编码的正确性与优化,医疗控制中心同时也负责在专业审查过程与MDK连络。 

德国DRGs支付制度改革的一个很重要的经验就是数据基础建设。DRGs的开发依靠信息、能力、政策工具等多项基础条件,而可得、及时、准确的成本、临床、病案等数据基础是改革是否成功的决定因素之一。

好的数据基础需要花时间来构建。一些国家希望在一个月之内就建成DRGs体系,但实际上构建DRGs系统是非常复杂的一项工程。在美国,建立DRGs系统花了15年的时间,先是在部分州作为试点,逐步扩大并完善。准确的数据是合理定价的基础,以马里兰州为例,在数据逐步完善的情况下,至少花了4-5年之后才确定费率。

另外,DRGs系统本身的持续进化和更新本身还需要大量数据的积累,以更好的实现对于病种分类的不断改进,对于严重程度的评价与监督,以及对于存在变异性很大的数据的规律性的总结与验证等。

2、加强数据标准化和跨部门数据共享机制的建设

DRGs支付体系涉及卫生、人社、发改、医院和商保等多部门的协同联动,数据标准化和跨部门的数据共享是推进该支付体系改革顺利实施和高效运行的重要保障,需要从国家层面加强对数据标准化的要求,并加强推进跨部门数据共享机制的建设,保障数据互联互通,更好的推进DRGs支付改革的顺利实施。

另外,还应积极通过促进跨部门的数据融合,比如身份信息可以通过公安或运营商的数据进行补全及真实身份认证,来提升对医保支付基金的合力支付和使用的有效监管,避免医保欺诈行为的发生。

3、充分运用最新技术手段

人工智能物联网5G等丰富数据源和数据实时采集功能,不断通过数据交叉验证等方式提升对编码和DRGs分组准确性的判断。

随着人工智能技术的快速发展,可以考虑借助人工智能的技术通过“智能编码”的应用,从电子病历中通过语义分析的技术直接提取出关键主题信息,再利用深度学习的技术将主题信息进行分析对应到出院诊断,医生对诊断分析结果进行复核,并对应到编码,从而提升编码员编码的准确性,并反向监管编码与病案首页数据质量。

但是,医保局在进行DRGs支付时,主要应用的分组数据来源于病案首页,尽管有部分厂商现在尝试利用人工智能技术,将数据采集从病案首页扩展到电子病历,无论是病案首页,还是电子病历,都是在病人出院后的结果数据,无法对病人在住院过程中的实时数据进行实时采集和过程管控。

建议可以充分利用物联网手段采集与病案内容相关的护理数据、医疗器械数据、环境数据、患者数据,采用大数据技术对病案内容进行交叉验证,从而大大提高病案数据的完整性、真实性、及时性和可信度,同时也便于医院和医生对病人住院的治疗过程进行更精准的临床过程管理,和使用药品、耗材等的成本管控。

对于医保部门来说,还有利于运用这些过程数据与编码数据进行交叉验证,有利于结合过程数据对编码的准确性进行进一步的辅助确认。

4、构建完善的DRGs费用、编码及数据质量审查及监管机制

编码决定了DRGs 的分组及费用支付的标准。因此国家医保局应该成立专门的组织来专职负责构建完善的DRGs费用、编码及数据质量审查及监管机制。

未来实行DRGs支付制度改革,病案首页的数据质量将直接关系到医院的经营收益,从国外经验来看,实行DRGs支付后,一些医疗可能会存在高编码倾向,也要求监管部门通过规范临床数据,加强对病案首页的审核监管来避免高编码行为。这些都要求对病案首页的数据质量给予高度重视。

5、建立有针对性的高编码风险监管的奖惩机制

根据国际经验,实行DRG付费后高编码的现象会根据不同的制度设计呈现不同的特点,根据对国外的文献梳理发现,高编码风险的可能性和影响因素,因不同市场、控制和病例组合系统而存在不同的特点。具体如下图所示:

图4 DRGs系统高编码风险的影响因素

因此,建议医保局结合DRGs支付方式改革的目标、系统的特点,在制度层面综合考虑设计有针对性的高编码风险监管的奖惩措施,尽量降低高编码的风险。

6、加强对专业人才的培养与培训,特别是对二级医院编码的应用培训

DRG涉及到编码、病案、分组、权重与费率测算、质量监管等系列专业性极强的关键技术环节,从目前我国的人才现状来看,还需要持续加强对不同领域专业人才的强化培训与持续培养机制的建设,为DRG支付体系改革的持续发展提供专业的人才保障。

特别是基层医院、二级医院、民营医院等,由于医院信息化水平低下,缺乏专业的病案与编码人才,临床医生对临床数据尤其是编码的准确性重视不够等,长期以来数据质量低下,亟需提升与改善。需要通过专业化的培训以及借助智能编码等信息化手段,快速提升编码准确性,确保 DRGs分组的准确性以及支付方式改革的顺利开展。

7、智能编码应用试点先行,逐步推广

当前,病案首页数据质量问题是一个普遍存在的问题,智能编码厂商的信息化软件系统的应用也是处于研发和试点阶段,建议国家医保局可以充分整合各厂商的产品优势,寻找基础条件好的省市及重点医院开展试点,先行先试,在总结试点经验的基础上进行逐步推广。

8、颁布专门的法律法规保障DRG支付体系的权威性和顺利推进执行

DRG支付体系改革是改变医疗卫生生态体系利益分配格局的一次卫生经济改革,涉及产业链条里的各方利益博弈,从国外经验来看,为了更好的保障各方利益,很多顶层设计的规则、制度、标准需要以法律的形式进行明确,以更好的体现DRG 支付改革的权威性,确保改革能够顺利推进执行。

因此,中国需要结合DRG顶层设计方案确定的系列规则、制度、标准及利益主体的谈判机制、组织形式及组织保障、数据如DRGs分组及编码的标准、质量监管等通过立法的方式予以明确。

参考文献

1.朱明宇. 基于医学人工智能技术的病案首页智能编码研究 [J].中国数字医学,2018(4)。

2.高轶.公众号:风中小亭——文章:[围炉品茗话医保]第十二节:从技术角度看病案首页辅助编码系统。

3.陆慧,陈家应. 美、澳、荷三国病例组合系统高编码风险比较研究[J].国外医学(卫生经济分册),2008,25(3): 120-126。

版权声明:

本文中的大部分观点属于刘芷辰博士个人博士后课题研究成果,所引用的文章及观点属于作者在公开渠道获得的文献作者的观点,未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

动脉网
动脉网

专注医疗产业服务平台

产业词嵌入命名实体识别自然语言处理机器学习深度学习DRG医疗
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

相关分析技术

相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~