基于知识图谱构建规章的本体模型的方法
技术领域
本发明属于知识图谱领域,具体涉及一种使用知识图谱三元组构建规章的本体模型的方法。
背景技术
适航规则是航空领域最基础的部分,在飞机设计的初始阶段就必须将适航规则完全匹配,否则后期修改成本会大幅上升。目前对于飞机设计的规则是由领域专家进行审核,在行业领域中,培养一位领域专家需要大量的人力和时间成本,国内人材不足,审核流程复杂都成为了飞机设计的瓶颈。
知识图谱是一个基于图的存储方法,主要应用于检索引擎和智能问答,目前存在将其应用于自然语言处理的研究,一般而言,该分类下应用较多的是法律文书的处理,称为司法辅助功能。该司法辅助功能主要为:把法律文书的时间线路、线索整理出来,供法官查看;在有多个文书时,把多个文书间的逻辑关系整出来,得到两个事件之间有多大概率是因果关系。
然而,将知识图谱应用在适航规则时,会因为适航规则的术语较多,文本结构复杂,从而导致大段文字作为一个图节点,内容不能够细化。同时,传统知识图谱还具有不能对先后顺序、布尔计算、条件逻辑进行建模的缺点,因此将知识图谱应用在适航规则时,会进一步导致建模内容的宽泛,也就难以构建能够完整表达适航规章的本体。
发明内容
为解决上述问题,提供一种能够利用知识图谱构建规章数据库的方法,本发明采用了如下技术方案:
应用于数据库构建,智能问答等领域
本发明提供了一种基于知识图谱构建规章的本体模型的方法,用于通过知识图谱对规章文本进行处理从而形成一个能够的本体模型,其特征在于,包括如下步骤:步骤S1,获取规章文本并对该规章文本中各个单词的词性进行识别,进一步将规章文本的段落按照主语、宾语、谓语进行划分;步骤S2,将主语、宾语分别构建为第一图节点以及第二图节点;步骤S3,将谓语以及宾语中的连接词构建为关系图节点;步骤S4,为第一图节点以及第二图节点分别构建一个第一关系链接并与关系图节点进行链接,进一步构建一个用于链接第一图节点以及第二图节点的第二关系链接;步骤S5,判断规章文本是否存在索引号并在判断存在索引号时,就将该索引号构建为索引图节点,并为索引图节点构建一个第三关系连接并分别与第一图节点、第二图节点以及关系图节点链接;步骤S6,对规章文本进行抽象并确定对应第一图节点、第二图节点与关系图节点的实体类别,以及对应第一关系链接、第二关系链接与第三关系链接的关系类别;步骤S7,基于实体类别、关系类别以及规章文本构建本体模型。
本发明提供的基于知识图谱构建规章的本体模型的方法,还可以具有这样的技术特征,其中,步骤S7包括如下子步骤:步骤S7-1,基于实体类别以及关系类别构建一个相应的模型文件;步骤S7-2,基于实体类别对规章文本进行实体抽取以及标记从而得到标记文本;步骤S7-3,将标记文本导入模型文件从而得到本体模型。
本发明提供的基于知识图谱构建规章的本体模型的方法,还可以具有这样的技术特征,其中,第一图节点和第二图节点之间存在两条通路:一条是独立的三元组;另一条是一个谓语关系。
发明作用与效果
根据本发明的基于知识图谱构建规章的本体模型的方法,由于对规章文本中的段落按照主语、宾语、谓语的形式进行划分后,将主语、宾语、谓语以及宾语中的连接词都作为图节点,并构建各个图节点之间的关系链接,进一步对规章文本进行抽象并确定对应各个图节点的实体类别以及对应各个关系链接的关系类别,从而构建出对应规章文本的本体模型,因此,在形成基于独立三元组的图谱结构后,可以通过独立三元组中的第二关系链接(即父级关系),直接针对某一类关系进行快速检索,从而最终增加本体模型的响应速度以及推理速度。根据本发明的构建规章的本体模型的方法,能够将规章文本处理为可以精细地表达规章内容以及内容间的逻辑关系的本体模型进行存储,所以,用户以及其他检索引擎和智能问答等程序即能够以该本体模型为基础,进行规章的准确查询以及判定,为适航规则的构建提供了基础。
附图说明
图1是本发明实施例中基于知识图谱构建规章的本体模型的方法的流程图;
图2是本发明实施例中传统知识图谱的结构示意图;
图3是本发明实施例中增加了索引(条款E)、关系C变为了图节点形成的独立三元组的结构示意图;
图4是本发明实施例中美国联邦规章25.651条款中各个实体与关系的示意图;
图5是本发明实施例中基于美国联邦规章25.651条款所构建的知识图谱的示意图。
图6是本发明实施例中抽象出的实体列表表格的示意图;
图7是本发明实施例中抽象出的关系类别表格的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于知识图谱构建规章的本体模型的方法作具体阐述。
<实施例>
图1是本发明实施例中基于知识图谱构建规章的本体模型的方法的流程图。
如图1所示,基于知识图谱构建规章的本体模型的方法具体包括如下步骤:
步骤S1,获取规章文本并对该规章文本中各个单词的词性进行识别,进一步将规章文本的段落按照主语、宾语、谓语进行划分。
本实施例中,以美国联邦规章第25部分、适航规则651条为例:
(a)Limit load tests of control surfaces are required.These tests mustinclude the horn or fitting to which the control system is attached.
(b)Compliance with the special factors requirements of§§25.619through 25.625 and 25.657 for control surface hinges must be shown byanalysis or individual load tests.
在本实施例的步骤S1中,通过常规的词性分析方法对上述规章进行检测,即可完成如下划分:
主语有:$25.651;Limit load tests;control surface hings
谓语有:require;include;compliance;shown;
宾语有:control surfaces;horn or fitting to which the control systemis attached;the special factors requirements of $$25.619 through 25.625 and25.657;analysis or individual load test.
步骤S2,将主语、宾语分别构建为第一图节点以及第二图节点。
步骤S3,将谓语以及宾语中的连接词构建为关系图节点。
在传统的知识图谱构建方法中,如图2所示,除了将主语和宾语构建为知识图谱图节点(即实体A与实体B),还会将谓语构建为两个知识图谱图节点之间的关系连接(即关系C)。
与之相比,在本实施例的知识图谱构建方法中,如图3所示,主语和宾语被构建为知识图谱图节点(即实体A与实体B)后,谓语以及宾语中的连接词也会被构建为知识图谱图节点(即关系C)。
步骤S4,为第一图节点以及第二图节点分别构建一个第一关系链接并与关系图节点进行链接,进一步构建一个用于链接第一图节点以及第二图节点的第二关系链接。
本实施例中,第一关系链接为自定义的关系,专用于链接谓语关系节点和原始图节点,这个关系连接可以随意取名,只要和其他关系不重名就可以,例如,取名blank、entity-to-relationEntity等,该第一关系链接的目的就是连接实体和关系节点。。第一图节点和关系图节点之间的关系与第二图节点和关系图节点之间的关系为相同的关系,形成了两个连续的三元组,即主语->关系->谓语(或连接词)->关系->宾语。
本实施例中,第二关系链接是关系节点(即谓语)的父级关系。比如谓语是“up”,“upper”,“not lower than”,那么这里的关系就是“position”。如果分类更细,可以是“up”。对于逻辑关系“and”“or”“if”父级关系可以是“logic”,更为细化的话,可以是“bool”“judge”。如果用户不需要父级关系,或者关系划分非常细,那么父级关系和关系节点的内容是一样的。
本实施例中,第一图节点和第二图节点之间存在有两条通路:一条是独立的三元组(即两者的通路为第一图节点->第二关系链接->第二图节点);另一条是一个谓语关系(即两者的通路为第一图节点->第一关系连接->关系节点->第一关系连接->第二图节点)。
本实施例中,在对美国联邦规章第25部分、适航规则651条进行处理时,如图4所示,粗体字是可以构建独立三元组的关系图节点,灰底色标出的词是关系图节点连接的实体(即第一图节点及第二图节点),灰色字体字需要人工参与并根据实际语义判断(或者也可以与连接的实体作为一个整体进行处理)。
步骤S5,判断规章文本是否存在索引号并在判断存在索引号时,就将该索引号构建为索引图节点,并为索引图节点构建一个第三关系链接并分别与第一图节点、第二图节点以及关系图节点链接。
本实施例的步骤S5中,若是规章文本存在规章特有的索引号时,可以根据该索引号再构建一个独立三元组(如果没有可以不构建),形成如图3所示的结构。其中,索引号即规章编号,例如美国联邦规章中的“F分部21.123条款”。在构建独立三元组时,会根据索引号创建一个图节点,内容是规章编号,同时指向该条款中所有的相关节点,即图3中最上面的图节点(即条款E)和延伸的关系(即第三关系链接)。
本实施例中,在通过上述步骤S1至步骤S5的处理后,美国联邦规章第25部分、适航规则651条最终所形成的图谱结构如图5所示。
步骤S6,对规章文本进行抽象并确定对应第一图节点、第二图节点与关系图节点的实体类别,以及对应第一关系链接、第二关系链接与第三关系链接的关系类别。
本实施例的步骤S6中,针对适航规则,需要领域专家对文本进行抽象,确定实体类别、关系类别。在对美国联邦规章第25部分、适航规则651条进行处理时,抽象出来的实体列表表格和关系类别表格分别如图6和图7所示。
步骤S7,基于实体类别、关系类别以及规章文本构建本体模型。该步骤S7具体包括如下子步骤:
步骤S7-1,基于实体类别以及关系类别构建一个相应的模型文件;
步骤S7-2,基于实体类别对规章文本进行实体抽取以及标记从而得到标记文本;
步骤S7-3,将标记文本导入模型文件从而得到本体模型。
本实施例的步骤S7中,在S6的实体关系定义完成后,首先使用本体构建工具(例如Protege工具)构建一个本体的模型文件,然后使用标记工具(例如Brat工具)对适航规则全文进行手工标记(或者也可以通过实体抽取算法进行自动标记,但自动标记效果相对较差),进一步将标记后的文档通过编写的脚本(或者在数据量不大时也可以手工录入)录入模型文件。
本实施例中,模型文件中的数据即图5中的数据,保存格式是rdf/xml文件。最终,构建出的本体模型与图5所示的图谱结构相对应,该本体模型存储在一个由用户持有的计算机中,当计算机中的程序需要识别适航规则时,即可读取该本体模型并利用该本体模型准确地进行检索、判定等功能。
实施例作用与效果
根据本实施例提供的基于知识图谱构建规章的本体模型的方法,由于对规章文本中的段落按照主语、宾语、谓语的形式进行划分后,将主语、宾语、谓语以及宾语中的连接词都作为图节点,并构建各个图节点之间的关系链接,进一步对规章文本进行抽象并确定对应各个图节点的实体类别以及对应各个关系链接的关系类别,从而构建出对应规章文本的本体模型,因此,在形成基于独立三元组的图谱结构后,可以通过独立三元组中的第二关系链接(即父级关系),直接针对某一类关系进行快速检索,从而最终增加本体模型的响应速度以及推理速度。根据本发明的构建规章的本体模型的方法,能够将规章文本处理为可以精细地表达规章内容以及内容间的逻辑关系的本体模型进行存储,所以,用户以及其他检索引擎和智能问答等程序即能够以该本体模型为基础,进行规章的准确查询以及判定,为适航规则的构建提供了基础。
另外,实施例中,本方法构建出的本体模型对规章中的逻辑进行了表达,为两个实体节点增加了一个多出来关系节点的通路,相当于变成了四元组,弥补了传统知识图谱表达的不足。具体地,规章中往往出现大量的同义词语,或者同一意思不同表达方式,本体模型所具有的父关系能够将这些同义词归为一类,同时用关系节点区分不同的表达方式,当同时存在业务需求既要合并同义词又要区分不同的表达方式时(例如表达程度),该方法可以适用。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
例如,在上述实施例中,构建了适航规则的本体模型,本发明的构建方法还可以应用于其他规章的本体模型的构建,例如对交通规章、软甲开发流程等规章构建相应的本体模型,从而便于在对应领域中实现智能问答、智能检索等功能。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种应急处置预案方法和系统