知识图谱概述及应用

上传人:卷*** 文档编号:123265124 上传时间:2022-07-22 格式:DOC 页数:20 大小:1.60MB
收藏 版权申诉 举报 下载
知识图谱概述及应用_第1页
第1页 / 共20页
知识图谱概述及应用_第2页
第2页 / 共20页
知识图谱概述及应用_第3页
第3页 / 共20页
资源描述:

《知识图谱概述及应用》由会员分享,可在线阅读,更多相关《知识图谱概述及应用(20页珍藏版)》请在装配图网上搜索。

1、导读:知识图谱 (Knowledge Graph) 是目前的研究热点。自从Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网公司在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。例如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改善其搜索质量。那么与这些老式的互联网公司相比,对处在当今风口浪尖上的行业 -互联网金融, 知识图谱可以有哪方面的应用呢?目录:1. 什么是知识图谱?2. 知识图谱的表达3. 知识图谱的存储4. 应用5. 挑战6. 结语1.什么是知识图谱?知识图谱本质上是语义网络,是一种基于图的数据构造,由节点(Point)和边(E

2、dge)构成。在知识图谱里,每个节点表达现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表达方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一种关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出,重要是用来优化既有的搜索引擎。不同于基于核心词搜索的老式搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解顾客意图,改善搜索质量。例如在Google的搜索框里输入Bill Gates的时候,搜索成果页面的右侧还会浮现Bill Gates

3、有关的信息例如出生年月,家庭状况等等。此外,对于稍微复杂的搜索语句例如 ”Who is the wife of Bill Gates“,Google能精确返回她的妻子Melinda Gates。这就阐明搜索引擎通过知识图谱真正理解了顾客的意图。上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表达方式和应用,这也是工业界比较关怀的话题。2.知识图谱的表达假设我们用知识图谱来描述一种事实(Fact) - “张三是李四的爸爸”。这里的实体是张

4、三和李四,关系是“爸爸”(is_father_of)。固然,张三和李四也也许会跟其她人存在着某种类型的关系(临时不考虑)。当我们把电话号码也作为节点加入到知识图谱后来(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。此外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表达开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和老式的RDF格式都

5、可以作为知识图谱的表达和存储方式,但两者还是有区别的,这将在背面章节做简朴阐明。3.知识图谱的存储知识图谱是基于图的数据构造,它的存储方式重要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参照【1】。下面的曲线表达多种数据存储类型在近来几年的发展状况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 下面的列表表达的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,并且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 固然,如果

6、需要设计的知识图谱非常简朴,并且查询也不会波及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的长处还是非常明显的。一方面,在关联查询的效率上会比老式的存储方式有明显的提高。当我们波及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。另一方面,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。例如我们有一种新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要变化,它的代价是非常高的。

7、最后,把实体和关系存储在图数据构造是一种符合整个故事逻辑的最佳的方式。4.应用在本文中,我们重要讨论知识图谱在互联网金融行业中的应用。固然,诸多应用场景和想法都可以延伸到其她的各行各业。这里提到的应用场景只是冰山一角, 在诸多其她的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。反欺诈反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(构造化,非构造)整合在一起,并构建反欺诈引擎,从而有效地辨认出欺诈案件(例如身份造假,团队欺诈,代办包装等)。并且不少欺诈案件会波及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直

8、接表达方式,可以较好地解决这两个问题。 一方面,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。另一方面,知识图谱自身就是用来表达关系的,这种直观的表达措施可以协助我们更有效地分析复杂关系中存在的特定的潜在风险。反欺诈的核心是人,一方面需要把与借款人有关的所有的数据源打通,并构建涉及多数据源的知识图谱,从而整合成为一台机器可以理解的构造化的知识。在这里,我们不仅可以整合借款人的基本信息(例如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一种难点是诸多的数据都是从网络上获取的非构造化数据,需要运用机器学习、

9、自然语言解决技术把这些数据变成构造化的数据。不一致性验证不一致性验证可以用来判断一种借款人的欺诈风险,这个跟交叉验证类似。例如借款人张三和借款人李四填写的是同一种公司电话,但张三填写的公司和李四填写的公司完全不同样,这就成了一种风险点,需要审核人员格外的注意。再例如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎一方面会去读取张三和李四的关系,从而去验证这个“三角关系”与否对的。很显然,朋友的朋友不是父子关系,因此存在着明显的不一致性。不一致性验证波及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已

10、有的关系图谱里推导出新的关系或链接。例如在上面的例子,假设张三和李四是朋友关系,并且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。组团欺诈相比虚假身份的辨认,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着,不容易被发现。当我们只有把其中隐含的关系网络梳理清晰,才有也许去分析并发现其中潜在的风险。知识图谱,作为天然的关系网络的分析工具,可以协助我们更容易地去辨认这种潜在的风险。举一种简朴的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概阐明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系网络我们很容易看

11、出这三者之间都共享着某一部分信息,这就让我们立即联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其她任何的工具提供更佳便捷的分析手段。异常分析(Anomaly Detection)异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简朴理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点也许会关联到欺诈。既然知识图谱可以看做是一种图 (Graph),知识图谱的异常分析也大都是基于图的构造。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以

12、把异常分析分为两大类: 静态分析和动态分析,背面会逐个讲到。- 静态分析所谓的静态分析指的是,给定一种图形构造和某个时间点,从中去发现某些异常点(例如有异常的子图)。下图中我们可以很清晰地看到其中五个点的互相紧密度非常强,也许是一种欺诈组织。因此针对这些异常的构造,我们可以做出进一步的分析。- 动态分析所谓的动态分析指的是分析其构造随时间变化的趋势。我们的假设是,在短时间内知识图谱构造的变化不会太大,如果它的变化很大,就阐明也许存在异常,需要进一步的关注。分析构造随时间的变化会波及届时序分析技术和图相似性计算技术。有爱好的读者可以去参照这方面的资料【2】。失联客户管理除了贷前的风险控制,知识图

13、谱也可以在贷后发挥其强大的作用。例如在贷后失联客户管理的问题上,知识图谱可以协助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。现实中,不少借款人在借款成功后浮现不还款现象,并且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其她联系人,但还是没有措施联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的状况下,我们有无措施去挖掘跟借款人有关系的新的联系人? 并且这部分人群并没有以关联联系人的身份出目前我们的知识图谱里。如果我们可以挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,

14、但我们却联系不上李四。那有无也许通过2度关系的分析,预测并判断哪些李四的联系人也许会结识借款人。这就波及到图谱构造的分析。智能搜索及可视化展示基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, 百度上的应用。也就是说,对于每一种搜索的核心词,我们可以通过知识图谱来返回更丰富,更全面的信息。例如搜索一种人的身份证号,我们的智能搜索引擎可以返回与这个人有关的所有历史借款记录、联系人信息、行为特性和每一种实体的标签(例如黑名单,同业等)。此外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然

15、。精确营销“A knowledge graph allows you to take core information about your customertheir name, where they reside, how to contact themand relate it to who else they know, how they interact on the web, and more”- Michele Goetz, a Principal Analyst at Forrester Research一种聪颖的公司可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联

16、网时代,营销手段多种多样,但不管有多少种方式,都离不开一种核心 - 分析顾客和理解顾客。知识图谱可以结合多种数据源去分析实体之间的关系,从而对顾客的行为有更好的理解。例如一种公司的市场经理用知识图谱来分析顾客之间的关系,去发现一种组织的共同喜好,从而可以有针对性的对某一类人群制定营销方略。只有我们能更好的、更进一步的(Deep understanding)理解顾客的需求,我们才干更好地去做营销。5.挑战知识图谱在工业界还没有形成大规模的应用。即便有部分公司试图往这个方向发展,但诸多仍处在调研阶段。重要的因素是诸多公司对知识图谱并不理解,或者理解不深。但有一点可以肯定的是,知识图谱在将来几年内必

17、将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。固然,知识图谱毕竟是一种比较新的工具,因此在实际应用中一定会波及到或多或少的挑战。数据的噪声一方面,数据中存在着诸多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的精确性。在这里重要从两个方面说起。第一,目前积累的数据自身有错误,因此这部分错误数据需要纠正。 最简朴的纠正措施就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。例如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都从属于一家公司,但由于她们填写的名字不同,计算机则会

18、觉得她们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一种名字? 这就波及到自然语言解决中的”消歧分析”技术。非构造化数据解决能力在大数据时代,诸多数据都是未经解决过的非构造化数据,例如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非构造化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言解决能力提出了更高的门槛。知识推理推理能力是人类智能的重要特性,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要某些规则的支持【3】。例如“朋友”的“朋友”,可以推理

19、出“朋友”关系,“爸爸”的“爸爸”可以推理出“祖父”的关系。再例如张三的朋友诸多也是李四的朋友,那我们可以推测张三和李四也很有也许是朋友关系。固然,这里会波及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最核心的。常用的推理算法涉及基于逻辑(Logic) 的推理和基于分布式表达措施(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表达措施的推理也成为目前研究的热点。如果有爱好可以参照一下这方面目前的工作进展【4,5,6,7】。大数据、小样本、构建有效的生

20、态闭环是核心虽然目前能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一种基于机器学习的反欺诈评分系统,我们一方面需要某些欺诈样本。但事实上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很也许也就几万个而已。这对机器学习的建模提出了更高的挑战。每一种欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于老式的机器学习系统,例如图像辨认,不难拿到好几十万甚至几百万的样本。在这种小样本条件下,构建有效的生态闭环特别的重要。所谓的生态闭环,指的是构建有效的自反

21、馈系统使其可以实时地反馈给我们的模型,并使得模型不断地自优化从而提高精确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,并且要进一步到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要懂得整个过程都布满着博弈。因此我们需要不断地通过反馈信号来调节我们的方略。6.结语知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会具体地讲到这方面的应用。参照文献:【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J

22、., Queipo, J., . & Vidal, M. E. (). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.【2】abeutel/kdd_tutorial/【3】刘知远 知识图谱机器大脑中的知识库 【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.【5】Soch

23、er, R., Chen, D., Manning, C. D., & Ng, A. (). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems (pp. 3167-3175).

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!