知识图谱 (Knowledge Graph) 是当前的研究热点。
自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。
比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢? 目录1. 什么是知识图谱?2. 知识图谱的表示3. 知识图谱的存储4. 应用5. 挑战6. 结语 1. 什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。
在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。
通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。
比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。 另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。
这就说明搜索引擎通过知识图谱真正理解了用户的意图。 上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。
接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。 2. 知识图谱的表示 假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。
这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。
当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。
另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。
属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。 3. 知识图谱的存储 知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。
至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。
从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years 下面的列表表示的是目前比较流行的基于图存储的数据库排名。
从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking 当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。
但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。
当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。
比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。
最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。 4. 应用 在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。
当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。
反欺诈 反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。
而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。
首。
1. 知识结构图是指把所学内容进行整理并制成比较系统完整的知识结构图示,它在心理学中被称为知识网络图。
2. 知识结构是指一个人经过专门学习培训后所拥有的知识体系的构成情况与结合方式。知识结构,就是既有精深的专门知识,又有广博的知识面,具有事业发展实际需要的最合理、最优化的知识体系。建立起合理的知识结构,培养科学的思维方式,提高自己的实用技能,以适应将来在社会上从事职业岗位的要求。合理的知识结构是担任现代社会职业岗位的必要条件,是人才成长的基础。
3. 现代社会的职业岗位,所需要的是知识结构合理、能根据当今社会发展和职业的具体要求,将自己所学到的各类知识,科学地组合起来的,适应社会要求的人才。教师专业素质的知识结构主要是由教师在系统专业知识和教育实践的知识构成的体统。
知识图谱,也称为科学知识图谱,它通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。
北京知识图谱科技有限公司是2017-05-31在北京市海淀区注册成立的有限责任公司(自然人投资或控股),注册地址位于北京市海淀区中关村大街18号B座9层909室342号。
北京知识图谱科技有限公司的统一社会信用代码/注册号是91110108MA00EUGR87,企业法人吴刚,目前企业处于开业状态。
北京知识图谱科技有限公司的经营范围是:技术开发、技术推广、技术转让、技术咨询、技术服务;销售自行开发的产品;计算机系统服务;基础软件服务、应用软件服务;软件开发;软件咨询;会议服务;数据处理(数据处理中的银行卡中心、PUE值在1.5以上的云计算数据中心除外);接受金融机构委托从事金融信息技术外包服务;接受金融机构委托从事金融业务流程外包服务。(企业依法自主选择经营项目,开展经营活动;依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动;不得从事本市产业政策禁止和限制类项目的经营活动。)。本省范围内,当前企业的注册资本属于一般。
通过百度企业信用查看北京知识图谱科技有限公司更多信息和资讯。
自己建吗可以下载图谱软件构建可以参考一下这个SPSS: 大型统计分析软件,商用软件。
具有完整的数据输入、编辑、统计分析、报表、图形绘制等功能。常用于多元统计分析、数据挖掘和数据可视化。
Bibexcel: 瑞典科学计量学家Persoon开发的科学计量学软件,用于科学研究免费软件。具有文献计量分析、引文分析、共引分析、耦合分析、聚类分析和数据可视化等功能。
可用于分析ISI的SCI、SSCI和A&HCI文献数据库。HistCite: Eugene Garfield等人于2001年开发的科学文献引文链接分析和可视化系统,免费软件。
可对ISI的SCI、SSCI和SA&HCI等文献数据库的引文数据进行计量分析,生成文献、作者和期刊的引文矩阵和实时动态引文编年图。直观的反映文献之间的引用关系、主题的宗谱关系、作者历史传承关系、科学知识发展演进等。
CiteSpace: 陈超美博士开发的专门用于科学知识图谱绘制的免费软件。国内使用最多知识图谱绘制软件。
可用于追踪研究领域热点和发展趋势,了解研究领域的研究前沿及演进关键路径,重要的文献、作者及机构。可用于对ISI、CSSCI和CNKI等多种文献数据库进行分析。
TDA: Thomson Data Analyzer(TDA)是Thomson集团基于VantagePoint开发文献分析工具。商用软件。
具有去重、分段等数据预处理功能;可形成共现矩阵、因子矩阵等多种分析矩阵;可使用Pearson、Cosine等多种算法进行数据标准化;可进行知识图谱可视化展示。Sci2 Tools: 印第安纳大学开发的用于研究科学结构的模块化工具可从时间、空间、主题、网络分析和可视化等多角度,分析个体、局部和整体水平的知识单元。
ColPalRed: Gradnada大学开发的共词单元文献分析软件。商用软件。
结构分析,在主题网络中展现知识(词语及其关系);战略分析,通过中心度和密度,在主题网络中为主题定位;动态分析,分析主题网络演变,鉴定主题路径和分支。Leydesdorff: 系类软件。
阿姆斯特丹大学Leydesdorff开发的这对文献计量的小程序集合。处理共词分析、耦合分析、共引分析等知识单元体系。
使用“层叠图”实现可视化知识的静态布局和动态变化。Word Smith: 词频分析软件。
可将文本中单词出现频率排序和找出单词的搭配词组。NWB Tools: 印第安纳大学开发的对大规模知识网络进行建模、分析和可视化工具. 数据预处理;构建共引、共词、耦合等多种网络;可用多种方法进行网络分析;可进行可视化展示.Ucinet NetDraw: Ucinet是社会网络分析工具。
包括网络可视化工具Net Draw。用于处理多种关系数据,可通过节点属性对节点的颜色、形状和大小等进行设置。
用于社交网络分析和网络可视化。Pajek: 来自斯洛文尼亚的分析大型网络的社会网络分析免费软件。
Pajek基于图论、网络分析和可视化技术,主要用于大型网络分解,网络关系展示,科研作者合作网络图谱的绘制。VOSviewer: 荷兰莱顿大学开发的文献可视化分析工具。
使用基于VOS聚类技术技术实现知识单元可视化工具。突出特点可视化能力强,适合于大规模样本数据。
四种视图浏览:标签视图、密度视图、聚类视图和分散视图。[4]陈悦, 刘则渊, 陈劲等. 科学知识图谱的发展历程[J]. 科学学研究, 2008, (03): 449-460.[5]Shiffrin, R.M., and Katy Börner. Mapping Knowledge Domains[C]. Proc. Proceedings of the National Academy of Sciences of the United States of America pp. 5183-5185.[6]Börner, K., Chen, C.和Boyack, K.W. Visualizing knowledge domains[J]. Annual review of information science and technology, 2003, 37, (1): 179-255.[7]CM, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57, (3): 359-377.[8]陈悦和刘则渊. 悄然兴起的科学知识图谱[J]. 科学学研究, 2005, (02): 149-154.[9]邱均平. 信息计量学[M]. (武汉大学出版社, 2007. 2007).[10]沙勇忠和牛春华. 信息分析[M]. (科学出版社, 2009. 2009).[11]塞沃尔, 建军和煦. 链接分析: 信息科学的研究方法[M]. (东南大学出版社, 2009. 2009).[12]Egghe, L.和Rousseau, R. Introduction to informetrics: Quantitative methods in library, documentation and information science[J]. 1990[13]韩家炜, 坎伯, 裴健等. 数据挖掘: 概念与技术[M]. (机械工业出版社, 2007. 2007).[14]Wasserman, S. Social network analysis: Methods and applications[M]. (Cambridge university press, 1994. 1994).[15]Persson, O., R. Danell, J. Wiborg Schneider. How to use Bibexcel for various types of bibliometric analysis[C]. Proc. International Society for Scientometrics and Informetrics., Leuven, Belgium2009 pp. 9–24.[16]Yang, Y., Akers, L., Klose, T.等. Text mining and visualization tools–impressions of emerging capabilities[J]. World Patent Information, 2008, 30, (4): 280-293.[17]Börner, K., Huang, W., Linnemeier, M.等. Rete-netzwerk-red: analyzing and visualizing scholarly networks 。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.844秒