知识图谱构建 | Jason Hao's Blog
0%

知识图谱构建

知识图谱构建法

  1. 自顶向下

先定义好本体(Ontology 或称为 Schema),再基于输入数据完成信息抽取到图谱构建的过程,适用于专业知识(领域)方面图谱的构建 2. 自底向上

从开放的 Open Linked Data 中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建,适合于常识性的知识,比如人名、机构名等通用知识图谱的构建,因为无法区分与领域无关的信息

自顶向下的知识图谱构建

本体构建 --> 数据源配置 --> 信息抽取 --> 知识融合

本体构建

本体是知识图谱的定义语言,就像是数据库中新建表时用的 schema 一样,定义了数据表的格式。通过梳理领域知识、术语词典、专家的人工经验等作为本体构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义

数据源配置

  1. 非电子文档:扫描,OCR识别
  2. 电子文档:根据类别整合成统一格式
  3. 网络资源:爬虫技术
  4. 第三方数据:接口获取

信息抽取

对实体,属性和关系的抽取,用(主语,谓语,宾语)三元组表示。

知识融合

对上一步抽取的三元组进行融合。完成实体对齐和知识融合。实体对齐是一个技术难点,通常由基于实体属性相似度的框架、基于联合表征的深度学习框架着两种方法

参考 (References)

  1. https://xie.infoq.cn/article/eb0d3f2a5691bf3aabb73966f