知识图谱构建法
- 自顶向下
先定义好本体(Ontology 或称为 Schema),再基于输入数据完成信息抽取到图谱构建的过程,适用于专业知识(领域)方面图谱的构建 2. 自底向上
从开放的 Open Linked Data 中抽取置信度高的知识,或从非结构化文本中抽取知识,完成知识图谱的构建,适合于常识性的知识,比如人名、机构名等通用知识图谱的构建,因为无法区分与领域无关的信息
自顶向下的知识图谱构建
本体构建 --> 数据源配置 --> 信息抽取 --> 知识融合
本体构建
本体是知识图谱的定义语言,就像是数据库中新建表时用的 schema 一样,定义了数据表的格式。通过梳理领域知识、术语词典、专家的人工经验等作为本体构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义
数据源配置
- 非电子文档:扫描,OCR识别
- 电子文档:根据类别整合成统一格式
- 网络资源:爬虫技术
- 第三方数据:接口获取
信息抽取
对实体,属性和关系的抽取,用(主语,谓语,宾语)三元组表示。
知识融合
对上一步抽取的三元组进行融合。完成实体对齐和知识融合。实体对齐是一个技术难点,通常由基于实体属性相似度的框架、基于联合表征的深度学习框架着两种方法
参考 (References)
- https://xie.infoq.cn/article/eb0d3f2a5691bf3aabb73966f