人工智能应用基础
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.2 知识图谱的特点

1. 知识图谱无处不在

说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等,各行各业都在研发底层技术和寻求AI场景,却忽视了当下时髦且很重要的AI技术——知识图谱。

当我们进行搜索时,搜索结果右侧的联想,来自知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。

个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱。典型的知识图谱如图4-6所示。

图4-6 典型的知识图谱

2. 知识图谱与人工智能的关系

知识图谱用节点和关系所组成的图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。

形成知识图谱的过程本质是在建立认知、理解世界、理解应用的行业或者说领域。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱。正是因为有获取和形成知识的能力,人类才可以不断进步。

知识图谱对于人工智能的重要价值在于,知识是人工智能的基石,机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如狗的嗅觉。

而认知及语言是人类区别于其他动物的能力,同时,知识也使人类不断地进步,不断地凝练、传承知识,是推动人类不断进步的重要基础。知识对于人工智能的价值就在于,让机器具备认知能力。构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。

3. 图数据库

知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,图论中图的基本元素是节点和边,在图数据库中对应的就是节点和关系。用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。

目前市面上较为流行的图数据库有Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修改便容易“牵一发而动全身”,图数据库可实现数据间的“互联互通”。与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。

图数据库将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。

4. 知识图谱的价值

知识图谱运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然和高效,不需要中间过程的转换和处理——这种中间过程的转换和处理,往往把问题复杂化,或者遗漏掉很多有价值的信息。

在风控领域中,知识图谱产品为精准揭露“欺诈环”“窝案”“中介造假”“洗钱”和其他复杂的欺诈手法,提供了新的方法和工具。尽管没有完美的反欺诈措施,但通过超越单个数据点并让多个节点进行联系,仍能发现一些隐藏信息,找到欺诈者的漏洞,通常这些看似正常不过的联系(关系),常常被我们忽视,很有价值的反欺诈线索和风险突破口。

尽管各个风险场景的业务风险不同,其欺诈方式也不同,但都有一个非常重要的共同点——欺诈依赖于信息不对称和间接层,且它们可以通过知识图谱的关联分析被揭示出来,高级欺诈也难以“隐身”。

凡是有关系的地方都可以用到知识图谱,事实上,知识图谱已经成功俘获了大量客户,且客户数量和应用领域还在不断增长中,包括沃尔玛、领英、惠普、FT金融时报等知名企业和机构。

目前知识图谱产品的客户行业,分类主要集中在:社交网络、人力资源与招聘、金融、保险、零售、广告、物流、通信、IT、制造业、传媒、医疗、电子商务和物流等领域。在风控领域中,知识图谱类产品主要应用于反欺诈、反洗钱、互联网授信、保险欺诈、银行欺诈、电商欺诈、项目审计造假、企业关系分析、罪犯追踪等场景中。

相比传统数据的存储和计算方式,知识图谱的优势显现在以下四个方面。

(1)关系的表达能力强

传统数据库通常通过表格、字段等方式进行读取,而关系的层级及表达方式多种多样,且基于图论和概率图模型,可以处理复杂多样的关联分析,满足企业各种角色关系的分析和管理需要。

(2)像人类思考一样去做分析

基于知识图谱的交互式探索和分析,可以模拟人的思考过程去发现、求证、推理,业务人员自己就可以完成全部过程,不需要专业人员的协助。

(3)知识学习

利用交互式机器学习技术,支持根据推理、纠错、标注等交互动作的学习功能,不断沉淀知识逻辑和模型,提高系统智能性,将知识沉淀在企业内部,降低对经验的依赖。

(4)高速反馈

图式的数据存储方式,相比传统存储方式,数据调取速度更快,图库可计算超过百万潜在的实体的属性分布,还可实现秒级返回结果,真正实现人机互动的实时响应,让用户可以做到即时决策。

5. 知识图谱的主要技术

(1)知识建模

知识建模,即为知识和数据进行抽象建模,主要包括以下5个步骤(知识图谱的建立过程如图4-7所示):

• 以节点为主体目标,实现对不同来源的数据进行映射与合并(确定节点)。

• 利用属性来表示不同数据源中针对节点的描述,形成对节点的全方位描述(确定节点属性、标签)。

• 利用关系来描述各类抽象建模成节点的数据之间的关联关系,从而支持关联分析(图设计)。

• 通过节点链接技术,实现围绕节点的多种类型数据的关联存储(节点链接)。

• 使用事件机制描述客观世界中动态发展,体现事件与节点间的关联,并利用时序描述事件的发展状况(动态事件描述)。

图4-7 知识图谱的建立过程

(2)知识获取

从不同来源、不同结构的数据中进行知识提取,形成知识再存入知识图谱,这一过程我们称为知识获取。针对不同种类的数据,会利用不同的技术进行提取。

• 从结构化数据库中获取知识——D2R。难点在于复杂表数据的处理。

• 从链接数据中获取知识——图映射。难点在于数据对齐。

• 从半结构化(网站)数据中获取知识——使用包装器。难点在于方便的包装器定义方法,包装器自动生成、更新与维护。

• 从文本中获取知识——信息抽取。难点在于结果的准确率与覆盖率。

(3)知识融合

如果知识图谱的数据源来自不同数据结构的数据源,在系统已经从不同的数据源把不同结构的数据提取知识之后,接下来要做的是把它们融合成一个统一的知识图谱,这时候需要用到知识融合的技术(如果知识图谱的数据均为结构化数据,或某种单一模式的数据结构,则无需用到知识融合技术)。

知识融合主要分为数据模式层融合和数据层融合,分别用到如下技术。

• 数据模式层融合:概念合并、概念上下位关系合并、概念的属性定义合并。

• 数据层融合:节点合并、节点属性融合、冲突检测与解决(如某一节点的数据来源有豆瓣短文、数据库、网页爬虫等,需要将不同数据来源的同一节点进行数据层的融合)。

由于行业知识图谱的数据模式通常采用自顶向下(由专家创建)和自底向上(从现有的行业标准转化,从现有高质量数据源转化)结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。

(4)知识存储

图谱的数据存储既需要完成基本的数据存储,同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用,因此,需要存储以下信息:三元组(由开始节点、关系、结束节点三个元素组成)知识的存储、事件信息的存储、时态信息的存储、使用知识图谱组织的数据的存储。

其关键技术和难点就在于:

• 大规模三元组数据的存储。

• 知识图谱组织的大数据的存储。

• 事件与时态信息的存储。

• 快速推理与图计算的支持。

(5)知识计算

知识计算主要是在知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则等,知识计算的范畴非常大,主要涉及以下三个方面。

• 图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘。

• 本体推理:使用本体推理进行新知识发现或冲突检测。

• 基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。

(6)图挖掘和图计算

知识图谱之上的图挖掘和计算主要分为以下6类:

• 图遍历,知识图谱构建完之后可以理解为是一张很大的图,即怎么去查询遍历这个图呢?要根据图的特点和应用的场景进行遍历。

• 图里面经典的算法,如最短路径算法。

• 路径的探寻,即给定两个实体或多个实体去发现它们之间的关系。

• 权威节点的分析,这在社交网络分析中用得比较多。

• 族群分析。

• 相似节点的发现。