Content Entry

PlantData: 知识图谱在数字新基建的落地分析

导读: 人工智能作为国家新基建战略的重点建设项目,是新一轮产业变革的核心驱动力量。当前人工智能正由感知智能走向认知智能,而知识图谱是实现认知智能的基石。知识图谱作为是大数据时代的知识工程集大成者,以其强大的语义表示能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案。本次分享将探讨如何基于知识图谱构建新一代数据智能基础设施,实现海量多模态数据的深度语义化治理。主要内容包括:

  • 新基建简介
  • 知识图谱助力新基建
  • 基于知识图谱的智能数据治理
  • 基于知识图谱的认知智能中台
  • 产业化实践

01 新基建简介

1. 新基建: 提出与发展

这里整理了新基建提出与发展的时间轴,大家可以参考下。

2. 新基建: 建设内容

新基建主要包括哪些内容?

新基建主要包括5G基建、大数据中心、人工智能、工业互联网、高速铁路和城际轨道交通、特高压、新能源汽车充电桩等七大部分的建设,今天主要关注大数据中心与人工智能两个话题。

3. 新基建: 大数据中心

2019年中国数据中心数量大约有7.4万个,大约能占全球数据中心总量的23%,但大型和超大型数据中心的数量较少并且地区分布很不均衡,各方均倾向通过规模化建设以避免盲目建设和重复投资,数据中心大型化、规模化将成为大势所趋。预测到2030年,全球数据原生产业规模量将占整体经济总量的15%,而中国数据总量将超过4YB,占全球数据量30%,在新基建政策的推动下,中国的大数据产业将迎来更好的发展机遇,大数据中心也将成为新一轮全球竞争中,国家竞争力的新的内涵。

4. 新基建: 人工智能

人工智能是新一轮产业变革的核心驱动力量,将推动数万亿数字经济产业转型升级。国务院《新一代人工智能发展规划》指出,到2025年中国人工智能核心产业规模超过4000亿 元,带动相关产业规模超过5万亿 元。人工智能是新一轮科技竞赛的制高点,对经济增长和国家安全均至关重要。

我们分析一下,人工智能首先包括基础层的硬件、算法、数据和知识。其次技术层的视觉、语音、自然语言处理、大数据治理等等。在向上是平台与系统包括基础AI框架、技术开放平台、AI中台等等,最上面一层是应用层包括在金融、医疗、教育等行业方面的应用。

随着新基建的推进,国家也将数据、技术、与知识作为更重要的战略资源,提高到与健全劳动力、资本、土地一样作为生产要素按贡献参与分配的机制。今年3月份中共中央国务院在会议上提出《关于构建更加完善的要素市场化配置体制机制的意见》中提到加快培育数据要素市场,全面贯彻落实以增加知识价值为导向的收入分配政策,充分尊重科研、技术、管理人才,充分体现技术、知识、管理、数据等要素的价值。对大数据、人工智能产业的发展提供更好的政策支持。

02 知识图谱助力新基建

接下来,让我们来看看知识图谱怎么助力新基建。

1. DIKW模型

首先咱们共同看一下DIKW模型,大家对这个模型应该是耳熟能详了,它呈现自底向上金字塔的形态,依次是数据、信息、知识,最终达到智慧。

我们依据对DIKW模型的理解,可以通过不同的视角进行分析。首先,我们从DIKW模型可以看到从数据->知识->智慧的数据利用过程。其次,我们也可以从技术的视角来看,关联到几个关键词: 数据对应的是大数据、知识对应的是知识图谱、智慧对应的是人工智能。最后,我们再从新基建的视角,可以结合着大数据中心的建设->大规模智能数据中心建设 ( 也就是大规模知识图谱建设 ) ->人工智能基础设施的建设,从不同的角度来理解从数据到知识再到智慧应用的提炼过程。

2. AI正在向”认知智能”演进

人工智能和前面介绍的DIKW模型一样也呈现金字塔模型,从最底层的运算智能->感知智能->认知智能->通用智能。当前我们所看到的人工智能都还停留在感知层面。简单来说,基本实现了能听会说,能看会认,还不能具备人类所具有的理解、思考和解释等能力。这也是很多专家提出来现在的人工智能还是有缺陷的人工智能,还需要进一步发展,成为具有思考、理解能力的人工智能,这也就是人工智能要进入的,目前正在进入的,而且必须要进入的下一个阶段,也就是认知智能。比如清华大学的张钹院士曾说”我们现在的人工智能基本方法有缺陷,我们必须走向具有理解的AI,这才是真正的人工智能。人的智能没法通过单纯的大数据学习把他学出来,那怎么办?很简单,加上知识,让他有推理的能力,做决策的能力。”

从国务院《新一代人工智能发展规划》中,曾明确提出建立新一代人工智能关键共性技术体系重点任务,特别强调了研究跨媒体统一表征、关键理解与知识挖掘、知识图谱构建与学习,知识演化与推理等技术。在今年的重大项目审批指南中反复提到”认知”,”知识图谱”相关的关键词,并鼓励在信息平台、金融、客服、教育、工业、医疗等领域构建行业知识图谱。

3. 认知智能基础: 符号与连接的结合

国家层面已经这么重视认知智能,我们该如何构建认知智能的基础?其中有两个核心支撑的技术: 一个是符号主义、一个是联结主义,也是目前人工智能主要发展三大流派中的两大流派。简单的理解可以认为符号主义现阶段主要发展的是知识图谱,联结主义现阶段主要发展的是深度神经网络。一方面我们需要它们各自来实现我们需要的认知智能,同时我们还需要将它们进行结合,也就是我们现在大家经常听到的符号主义和联结主义相结合的,比如说图嵌入、图神经网络以及基于知识图谱的表示学习。

4. 知识图谱: 实现认知智能的基石

重点介绍下实现认知智能的基石—知识图谱。如果说知识是人类进步的阶梯,知识图谱就是AI进步的阶梯。这正是知识图谱对于AI最核心的意义。有了知识图谱,可以让机器更好地理解数据,同时还可以让机器更好地解释现象。知识图谱从2012年提出之后,在搜索行业上得到了广泛的应用。

5. 知识图谱助力人工智能应用

知识图谱在助力人工智能上都有哪些应用?

包括我们在前面提到的搜索,还包括聊天机器人、决策支持、私人助理、智能硬件、智能家居等等各方面都得到应用。

6. 知识图谱助力新基建

知识图谱怎样助力新基建?

简单来说,可以分为两个部分:

  • 建设新一代智能数据中心的基础设施
  • 助力认知智能构建人工智能基础设施,从而构建AI上层应用

总体上介绍完知识图谱助力新基建,下面我们从上述两个方面更加详细的介绍怎么建设新一代智能数据中心的基础设施,怎么助力认知智能构建人工智能基础设施,构建AI上层应用。

03 基于知识图谱的智能数据中心

1. 大数据中心建设—数据治理

首先介绍下大数据中心建设最重要的环节: 大数据治理。大数据治理从大数据的产生到现在已经经历了十多年的发展,里面包含着非常多的技术以及系统化的工程指导。大数据治理具体包括以下几类: 元数据管理、主数据管理、数据质量、业务流程、数据架构、数据标准、数据生命周期、数据安全等。同时也出现了很多标准,如国标GB/T 34960的数据治理框架,它包括顶层设计、数据治理环境、数据治理域以及数据治理过程几个部分。

2. 数据治理需要提升与完善的痛点

虽然数据治理已经有了完善的数据治理技术与框架,但是数据治理仍面临需要提升和完善的痛点:

  • 非结构化数据利用程度低: 数据治理中很少去考虑非结构化的数据,但是非结构化数据、或半结构化数据在目前占的比重会越来越大
  • 不同类型的多模态数据难以融合: 多模态的数据尚未做深度的融合
  • 数据之间的关联信息未有效利用
  • 缺乏面向业务的灵活模型
  • 智能化应用支持能力不足

3. 基于知识图谱的数据治理

针对目前大数据治理遇到的痛点问题,以及需要完善的地方。我们提出基于知识图谱的数据治理方案。总体来说,建设知识图谱深度地提取知识,然后构建智能的应用,进一步提升数据的价值。具体实现:

  • 在经典的大数据治理框架基础上定义一个统一的知识表示模型,包括概念、实体、属性、关系、事件、业务规则、链接多模态数据等等,对数据进行统一的表示。
  • 有了统一的数据表示和存储模型,我们可以针对结构化、半结构化的数据进行进一步的知识提取,让计算机进一步的理解,包括实体的识别、属性的抽取、事件的抽取等等。
  • 通过实体这一基础的知识组织方式,可以提取实体之间的关系,建立数据、知识之间的关联。
  • 同时我们也进行采用本体映射、实体对其、知识链接等相关技术,对知识进行更层次的融合,形成统一的知识图谱。
  • 通过统一的知识图谱存储,可以进行智能应用的构建。包括语义检索、智能问答、图关联分析以及决策分析等等。

刚刚,我们讲了知识图谱治理整体的框架,下面我们从: 统一表示与建模、知识抽取、多策略信息抽取、深度语义融合、多态存储,来对知识图谱治理进行展开分析。

① 统一表示与建模

使用统一的表示模型,包括概念、实体、属性、关系、事件、业务规则以及链接多模态数据 ( 通过链接的方式与知识图谱中的元素进行链接关联 )。举个栗子,特朗普属于人物概念,他是美国当前的总统,他的国籍是美国,这是一个关系。对于一个事件,比如2020年7月25日,特朗普首次承认疫情恶化,就一个事件,它包括事件发生的时间、地点、人物等等。业务规则: 如果美国关闭中驻美领事馆,那么中国也将采取对等反制措施,这便是一条具体的业务规则。

② 知识抽取

当面临结构化数据和半结构化数据知识抽取,它包括对结构化数据的转换与图映射,以及对纯文本数据的信息抽取。

③ 多策略信息抽取

采用多策略抽取的模型来实现半结构化、非结构化数据的信息抽取。非结构化数据任务的处理可以分为命名实体识别、关系抽取、属性抽取、事件抽取、指代消解以及规则挖掘等方面。

多策略抽取的方法: 首先,通过远程监督学习方式从结构化信息或者已有的知识库中自动地生成语料, 然后训练非结构化数据的模型,最终实现大规模数据的抽取。

④ 深度语义融合

针对半结构化和非结构化数据抽取后,我们来实现知识或数据的深层次语义融合。以下主要从四个方面来介绍:

  • 本体对齐: 实现不同来源本体中概念和关系的映射与对齐,实现模式层面的融合
  • 实体对齐: 对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体,比如说两个实体描述的是同一个实体,或者两个事件描述的是同一个事件
  • 关系发现: 发现实体之间的关联关系,建立数据、知识之间的关联,撬动数据深层次价值
  • 实体链接: 把多模态数据与知识图谱中的知识进行语义关联,形成多模态知识图谱

通过以上几步我们可以实现深层次的语义融合。

⑤ 多态存储

通过以上的数据表示,结构化数据和半结构化数据提取与融合,就可以形成统一的知识图谱,通过多态的知识图谱存储引擎来获取知识的存储。具体来说,我们会以图数据库为核心,结合多种存储引擎来实现多种类型数据的存储,包括以上提到的记录型数据、文档型数据、多模态的媒体数据以及索引数据。通过多种存储机制存储,我们形成了以图数据库为核心的知识图谱多态存储引擎。

4. 基于知识图谱的智能数据治理平台

通过前面的几个步骤,我们构建了一个基于知识图谱的智能数据治理平台。针对目前数据治理所面临的挑战,通过统一的知识表示,及统一的知识提取进行知识融合,形成统一的知识图谱、多态知识存储,为上层提供统一的知识消费,进而实现智能问答、智能检索、智能推荐等上层智能应用。

5. 基于区块链与安全多方计算的联邦智能数据中心

由于面临数据分散在不同的地方,同一公司分布在不同的部门或分公司的问题,我们提出基于区块链与安全多方计算的联邦智能数据中心,其中最核心的技术/最热门的技术包括区块链、安全多方计算以及联邦学习等等,以达到异地数据的共识、共享、加密、协同计算、溯源的目的。

04 基于知识图谱的认知智能中台

1. 知识图谱认知智能中台化

当我们通过知识图谱实现数据的深度治理,可以很方便的实现上层的智能应用,通过这种思路我们在很多领域做了相关的实践,引入知识图谱后,并不是替代经典的大数据治理,反而是对经典大数据治理的一种增强,进一步提升数据的价值,所以之前提到大数据治理面临的问题,我们大多数可能也都会遇见。我们只是通过知识图谱技术去进一步的挖掘数据的价值。在实践过程中,我们发现还会存在一些问题,比如从应用的角度,大数据治理构建周期较长,图谱构建难度高,复用率低。但从用户的视角,更多的是开箱即用,换句话说,就是快速构建业务的方式实现业务要求,通过我们在多个行业的实战,我们通过数据中台的理念,提出了基于知识图谱的认知智能中台。中台的一个主要目的是快速实现业务数据的构建。

2. 知识图谱认知智能中台化思路

我们通过基于知识图谱的认知智能中台,以期达到数据敏捷,以及应用开发的敏捷:

  • 通过高度抽象对组件进行微服务化,提高复用性
  • 预构建,目标就是开箱即用
  • 通过业务可编排的方式,使用户自助构建应用

① 中台组件微服务化

中台组件的微服务化,一方面针对大数据治理组件化、微服务化,同时也针对知识图谱里面的能力,比如知识建模、知识获取、知识融合、知识存储等等去组件化,方便数据统一的管理。

另一方面,在数据治理的基础上我们提供智能应用组件,包括统一检索、智能推荐等等。

② 中台化预构建

预构建模型的直接使用与深度启示:

  • 直接使用,预构建模型直接用于知识图谱构建与应用过程中的NLP、NLU相关Task。
  • 深度启示,Bert使用大量数据 ( 弱标注 ) 和复杂的模型来降低高质量语料的支持,形成通用的语言模型。

大量弱标注数据+复杂模型=通用语言模型

PlantData: 我们从多元异构数据中的结构化数据开始,使用远程监督的思想自动生成训练数据,通过迭代生成面向行业应用的模型。

基于结构化数据生成的标注数据+相对简单的模型=领域应用模型

对于预构建,我们还可以以预构建数据的模式,预构建知识库,预置业务应用,预构建模型和算法以及预构建业务场景,这就是中台化预构建的主要内容。

③ 中台业务编排

通过前面组件的微服务化、预构建的大量的数据和知识,可以在这些基础上面对业务进行编排,让用户快速实现应用的形态。

3. 基于知识图谱的认知智能中台架构

基于知识图谱的数据治理平台,以及对中台化的思考与改造,包括组件的微服务化、中台化的预构建、中台业务的编排与应用的实现,最终我们实现了基于知识图谱的认知智能中台的整体架构。

05 产业化实践

1. 认知智能中台产业化实践步骤

基于数据治理平台以及认知智能中台,我们在实践中实现了这种大中台小前台的应用构建新范式。重心在智能中台的构建,会将前面的数据的治理、知识的挖掘以及中台的建设放到产业化实践的重心。我们可以在面向用户场景之前就做很多工作,包括从技术层面的工作、数据层面的积累、模型与应用层面的积累。等到用户具体的场景后,在此基础上就可以快速构建一个客户业务的应用。

2. 基于图挖掘与复杂推理的金融风控中台

基于知识图谱的认知智能构建的范式,在金融领域就可以针对一些公开的数据,或者第三方的数据进行预构建数据,预构建知识,预先实现我们的数据治理,再此基础上就可以去构建知识图谱,比如说面向企业的知识图谱,面向专利的知识图谱、面向产业链的知识图谱。有了这些之后,我们还可以预构建面向于金融行业的模型与应用,包括风险画像模型、谱系分析模型、供应链风险传导等模型。在实现应用时,只要把客户相关的数据引入,以及客户相关的场景构建相应的业务建模,针对他的数据和场景实现算法的微调,最终根据业务编排引擎快速构建具体应用。

3. 面向事件分析与复杂推理的情报分析中台

同样在情报分析领域,我们实现了这样一个情报分析中台。同样去预训练我们的数据、图谱以及模型与应用,最终用户可以通过我们的业务编排工作台来构建智能应用。在客户现场我们可以快速引入客户的数据,快速实现客户的应用。

4. 其他应用场景

基于这样的中台,我们还可以应用在其他应用场景,比如保险业的保险咨询、产品推荐类的机器人。在电商领域我们可以提供面向电商的语义搜索。还有一些复杂领域的应用,比如纪检领域,基于前面的数据和知识,通过推理的方式,实现隐含关系的推理。同样的,我们还可以通过业务编排引擎来实现一些应用的编排。

文章来源

  • 原创作者: 胡芳槐, 海乂知信息科技(南京)有限公司 | CTO
  • 编辑整理: 莫高鼎
  • 出品平台 1: DataFunTalk (微信 #DataFunTalk), 专注于大数据、人工智能技术应用的分享与交流。
  • 出品平台 2: AI 启蒙者,致力于分享 AI 在业界的落地实践案例,了解 AI 在各个企业的不同发展阶段,推动 AI 在行业的落地。
comments loading