图片类别的识别方法、装置、电子设备及存储设备

文档序号:8555 发布日期:2021-09-17 浏览:23次 英文

图片类别的识别方法、装置、电子设备及存储设备

技术领域

本申请涉及计算机

技术领域

,具体涉及一种图片类别的识别方法、装置、电子设备及存储设备;本申请还涉及一种图片搜索方法,一种图片身份卡证的识别方法,以及一种图片票据的处理方法;本申请还涉及另一种图片类别的识别方法和一种知识图谱的构建方法。

背景技术

目前,光学字符识别技术(例如,读光OCR)提供特定文档图片的光学字符识别与信息结构化服务,但是此技术需要预先知道该文档图片属于哪种文档。真实场景下,很多不同类型的文档数据都会混杂在一起,如果对文档类型进行人工打标需要额外成本,并且也存在错误率,用户希望能有自动化数据分类的方案。

现有技术下,在对文档图片进行分类时,采用CNN(卷积神经网络)抽取文档图片的像素特征,再将文档图片的像素特征输入分类器来判断文档图片的图片类型。该方案的缺点是像素级别的特征受到的干扰非常多,如光影、模糊、色调、拍摄角度等,因此往往需要大量的数据来训练。

发明内容

本申请提供一种图片类别的识别方法、装置、电子设备及存储设备,以解决现有技术存在的根据像素特征对文档图片进行分类时受到干扰多而导致的需要大量数据训练的问题。

本申请提供一种图片类别的识别方法,包括:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述文本块生成图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

可选的,所述根据所述图结构得到图结构的向量特征信息,包括:

根据所述图结构得到图结构的文本块特征信息;

将所述图结构的文本块特征信息转换为向量特征信息;

可选的,所述根据所述文本块生成图结构,包括:

将所述文本块中的文字内容转化为节点的向量特征信息作为所述文本块对应的图结构的节点的特征信息;

将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息;

根据所述节点的特征信息和节点之间的边的特征信息生成图结构。

可选的,所述将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息,包括:

根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形;

对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;

将两个矩形对应顶点之间的相对位置信息和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。

可选的,所述根据所述图结构得到图结构的文本块特征信息,包括:

将图结构中每个节点的特征信息和图结构包含的所有边的特征信息进行合并处理,作为图结构的文本块特征信息。

可选的,所述根据所述节点的特征信息和节点之间的边的特征信息生成图结构,包括:

根据所述节点的特征信息和节点之间的边的特征信息生成全连接有向图。

可选的,所述将所述向量特征信息输入向量分类模型,得到所述目标图片的类别,包括:

将所述向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于每一类别的概率值;

根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别;

将所述向量特征信息对应的类别作为所述目标图片的类别。

可选的,所述根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别,包括:

从所述向量特征信息属于每一类别的概率值中选取最大的概率值;

判断所述最大的概率值是否大于或等于预设的概率阈值;

若是,将所述最大的概率值对应的图片类别作为所述向量特征信息对应的类别。

可选的,所述目标图片为包含文字信息的文档图片。

本申请还提供一种图片类别的识别装置,包括:

目标图片获得单元,用于获得目标图片;

文本块得到单元,用于根据所述目标图片得到含有坐标信息和文字内容的文本块;

图结构生成单元,用于根据所述文本块生成图结构;

向量特征信息得到单元,用于根据所述图结构得到图结构的向量特征信息;

目标图片的类别得到单元,用于将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

本申请还提供一种电子设备,包括:

处理器;以及

存储器,用于存储图片类别的识别方法的程序,该设备通电并通过所述处理器运行该图片类别的识别方法的程序后,执行下述步骤:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述文本块生成图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

本申请还提供一种存储设备,存储有图片类别的识别方法的程序,该程序被处理器运行,执行下述步骤:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述文本块生成图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

本申请提供一种图片搜索方法,包括:

获得待搜索的图片;

根据所述待搜索的图片,生成所述待搜索的图片的图结构;

获得所述图结构的向量特征信息;

利用向量分类模型,获得所述待搜索的图片的类别;

根据所述待搜索的图片的类别,输出所述待搜索的图片的信息数据。

本申请提供一种图片身份卡证的识别方法,包括:

获得待识别的图片身份卡证;

根据所述图片身份卡证,生成所述图片身份卡证的图结构;

利用向量分类模型,获得所述图片身份卡证的类别;

向用户输出用于确认所述图片身份卡证的类别是否正确的确认信息;

获得用户输入的确认信息;

根据所述用户输入的确认信息,调整所述向量分类模型的参数。

本申请提供一种图片票据的处理方法,包括:

获得待识别的图片票据;

根据所述图片票据,生成所述图片票据的图结构;

利用向量分类模型,获得所述图片票据的类别;

若所述图片票据的类别为发票,则对所述图片票据的金额进行统计,获得所述发票的总金额。

本申请提供一种图片类别的识别方法,包括:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述目标图片,生成所述目标图片的图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的候选类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别;

判断所述目标图片的候选类别是否与所述文本块相匹配;若匹配,则将所述所述目标图片的候选类别确定为所述目标图片的类别。

本申请提供一种知识图谱的构建方法,包括:

在用于图片分类的向量分类模型的训练过程中,获取所述向量分类模型的训练特征;

根据所述训练特征,获得所述图片的实体信息和各实体之间的关系;

根据所述实体信息和所述各实体之间的关系,构建图片知识图谱。

与现有技术相比,本申请具有以下优点:

本申请提供一种图片类别的识别方法,包括:获得目标图片;根据所述目标图片得到含有坐标信息和文字内容的文本块;根据所述文本块生成图结构;根据所述图结构得到图结构的向量特征信息;将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。本申请提供的图片类别的识别方法,首先将目标图片转化为文本块;然后根据文本块生成图结构;再根据图结构得到图结构的向量特征信息,并根据向量特征信息对文档图片进行分类,由于向量特征信息是根据文本块获得的,因此不会受到光影、模糊、色调、拍摄角度等的干扰,不需要大量数据进行训练,解决了现有技术存在的根据像素特征对文档图片进行分类时受到干扰多而导致的需要大量数据训练的问题。

附图说明

图1A是本申请第一实施例提供的一种图片类别的识别方法的应用场景图。

图1是本申请第一实施例提供的一种图片类别的识别方法的流程图。

图2是本申请第一实施例提供的一种根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形的示意图。

图3为一个包含3个节点的全连接有向图的示意图。

图4是本申请第二实施例提供的一种图片类别的识别装置的示意图。

图5是本申请第三实施例提供的一种电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。

为了更清楚地展示本申请,先对本申请第一实施例提供的图片类别的识别方法的应用场景进行简单介绍。

本申请第一实施例提供的图片类别的识别方法可以应用于客户端与服务端交互的场景,如图1A,在需要识别目标图片的类别时,通常是由客户端首先与服务端建立连接,连接之后客户端发送目标图片到服务端,服务端接收到目标图片之后,服务端根据目标图片得到含有坐标信息和文字内容的文本块;然后根据文本块生成图结构;再根据图结构得到图结构的向量特征信息;将向量特征信息输入向量分类模型,得到目标图片的类别,将目标图片的类别提供给客户端,客户端接收目标图片的类别。

本申请第一实施例提供一种图片类别的识别方法,以下结合图1进行介绍。

如图1所示,在步骤S101中,获得目标图片。

所述目标图片为待获得类别的图片。所述目标图片可以为包含文字信息的文档图片。例如,身份证图片、结婚证图片。目标图片可以为经过对原始图片(例如,身份证原件)进行扫描获得的图片,也可以指通过对原始图片进行拍照获得的图片。

图片类别的识别方法可以运行在服务端,目标图片可以为从客户端获得的目标图片,当用户需要获得目标图片的类别时,可以将目标图片通过客户端上传至服务端,服务端获得客户端发送的目标图片。图片类别的识别方法也可以运行在客户端。

如图1所示,在步骤S102中,根据所述目标图片得到含有坐标信息和文字内容的文本块。

在具体实施时,可以采用通用的OCR(光学字符识别)技术,根据目标图片得到含有坐标信息和文字内容的文本块,OCR技术指从目标图片中定位文字坐标信息并识别文字内容的技术。

所述文本块指包含文字内容的矩形。

所述文本块的坐标信息指围成矩形的四个顶点在目标图片中的坐标信息。

例如,一个文本块的文字内容是“上海市XXX”,包含文字内容的矩形的四个顶点的坐标为:(86,162)、(337,162)、(337,182)、(86,182)。

根据一个目标图片可以得到多个含有坐标信息和文字内容的文本块。例如,可以根据一个身份证图片得到了21个文本块,分别表示为文本块0、文本块1、直到文本块20,每个文本块的信息中包括坐标信息和文本块的文字内容。

如图1所示,在步骤S103中,根据所述文本块生成图结构。

所述根据所述文本块生成图结构,包括:

将所述文本块中的文字内容转化为节点的向量特征信息作为所述文本块对应的图结构的节点的特征信息;

将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息;

根据所述节点的特征信息和节点之间的边的特征信息生成图结构。

在具体实施时,在将文本块中的文字内容转化为节点的向量特征信息时,可以采用sentence embedding将文本块中的文字内容转化为节点的向量特征信息,其中,sentence embedding是一种句向量技术,为一种将一段文字信息表征为向量特征信息的方法。

所述两个文本块之间的相对位置信息,指采用相对坐标表示的文本块之间的位置信息。由于考虑到拍照图片中各种类型的证件在目标图片中的位置并不确定,因此舍弃x1,x2,y1,y2这样的绝对坐标,采用x2-x1,y2-y1这样的相对坐标表示两个文本块之间的相对位置。

所述两个文本块之间的相对宽高信息,指以其中一个文本块的宽度或高度信息为分母,对其他的宽度或高度进行归一化处理获得的宽高信息。由于考虑到拍照时证件(例如,身份证)在目标图片中的大小也无法确定,因此采用w1,h1,w2,h2这样的绝对值没有意义,此处选择用其中一个文本块的宽度或高度信息作为分母,对两个文本块的宽度和高度的值进行归一化,采用相对比例作为特征信息。

所述将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息,包括:

根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形;

对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;

将两个矩形对应顶点之间的相对位置信息和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。

如图2所示,根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形:矩形1和矩形2,矩形1的宽为w1,高为h1,矩形2的宽为w2,高为h2。然后以矩形1的高为h1作为分母,对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;将两个矩形对应顶点之间的相对距离和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。边的特征信息可以为一个5维的向量(由于h1一定会归一化到1,所以可以省略),5维的向量包括:归一化处理后的矩形1的宽度信息w1/h1、矩形2的宽度信息w2/h1和矩形2的高度信息h2/h1、矩形1和矩形2的左上顶点间相对位置的x分量(即(x2-x1)/h1)与y分量(即(y2-y1)/h1)。

所述根据所述图结构得到图结构的文本块特征信息,包括:

将图结构中每个节点的特征信息和图结构包含的所有边的特征信息进行合并处理,作为图结构的文本块特征信息。

在本申请第一实施例中,根据所述节点的特征信息和节点之间的边的特征信息生成图结构,可以包括:根据所述节点的特征信息和节点之间的边的特征信息生成全连接有向图。

例如,图3为包含3个节点的全连接有向图的示意图。

在具体实施时,除了根据节点的特征信息和节点之间的边的特征信息生成全连接有向图之外,也可以根据节点的特征信息和节点之间的边的特征信息生成其他结构的图。

如图1所示,在步骤S104中,根据所述图结构得到图结构的向量特征信息。

所述根据所述图结构得到图结构的向量特征信息,包括:

根据所述图结构得到图结构的文本块特征信息;

将所述图结构的文本块特征信息转换为向量特征信息。

具体实施时,可以采用Graph Embedding将图结构的文本块特征信息转换为向量特征信息。其中,Graph Embedding:图嵌入技术,是一种将图结构数据表征为向量特征的方法。

现有技术中的一种文档图片类别的识别方案,采用标定文档的关键词,识别文档图片的OCR结果,并计算关键词的匹配率的方法进行类别的识别。该方案的缺点是当关键词区分度不足,比如两种文档图片中的文字内容有80%的关键词重合时,很难将文档图片区分开。相比于现有技术中存在的基于关键词进行文档图片类别识别的方法,本申请第一实施例由于在根据文本块数据的构图过程中引入了相对位置与相对宽高,因此在根据图结构得到图结构的向量特征信息的过程中不仅可以学到关键词方面的知识,还能学到文档版面的知识,可以区分关键词雷同但是版面不一样的数据,区分度更强。

如图1所示,在步骤S105中,将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

所述向量分类模型,指采用某些类别的图片对应的向量特征信息以及向量特征信息的类别标注作为样本集,对原始向量分类模型进行训练获得的目标向量分类模型。如果训练样本中包括结婚证图片、身份证图片、护照图片,则向量分类模型支持结婚证类别、身份证类别、护照类别。如果需要增加向量分类模型支持的图片类别,则需要增加这些类别的图片对应的向量特征信息以及向量特征信息的类别标注,与原来的样本集进行合并,训练新的向量分类模型。

所述将所述向量特征信息输入向量分类模型,得到所述目标图片的类别,包括:

将所述向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于每一类别的概率值;

根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别;

将所述向量特征信息对应的类别作为所述目标图片的类别。

所述根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别,包括:

从所述向量特征信息属于每一类别的概率值中选取最大的概率值;

判断所述最大的概率值是否大于或等于预设的概率阈值;

若是,将所述最大的概率值对应的图片类别作为所述向量特征信息对应的类别。

具体实施时,可以采用Sigmoid分类器作为向量分类模型对向量特征信息进行分类。Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。

例如,如果将向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于身份证类别的概率值为70%,输出向量特征信息属于结婚证类别的概率值为10%,输出向量特征信息属于护照类别的概率值为10%,则从三个概率值中选取最大的概率值70%,然后判断概率值70%是否大于预设的概率阈值(如果预设的概率阈值为50%),经过判断概率值70%大于预设的概率阈值,因此将最大的概率值70%对应的图片类别身份证作为向量特征信息对应的类别,即获得了目标图片的类别为身份证类别;如果将向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于身份证类别的概率值为10%,输出向量特征信息属于结婚证类别的概率值为15%,输出向量特征信息属于护照类别的概率值为15%,则从三个概率值中选取最大的概率值15%,经过判断概率值15%小于预设的概率阈值50%,则目标图片属于向量分类模型不支持的类别。

至此,完成了对本申请第一实施例的介绍,本申请第一实施例提供的图片类别的识别方法,首先将目标图片转化为文本块;然后根据文本块生成图结构;再根据图结构得到图结构的向量特征信息,并根据向量特征信息对文档图片进行分类,由于向量特征信息是根据文本块获得的,因此不会受到光影、模糊、色调、拍摄角度等的干扰,不需要大量数据进行训练,解决了现有技术存在的根据像素特征对文档图片进行分类时受到干扰多而导致的需要大量数据训练的问题。此外,相比于现有技术中存在的基于关键词进行文档图片类别识别的方法,本申请第一实施例由于在根据文本块数据的构图过程中引入了相对位置与相对宽高,因此在根据图结构得到图结构的向量特征信息的过程中不仅可以学到关键词方面的知识,还能学到文档版面的知识,可以区分关键词雷同但是版面不一样的数据,区分度更强。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第二实施例还提供了一种图片类别的识别装置。

如图4所示,所述图片类别的识别装置,包括:

目标图片获得单元401,用于获得目标图片;

文本块得到单元402,用于根据所述目标图片得到含有坐标信息和文字内容的文本块;

图结构生成单元403,用于根据所述文本块生成图结构;

向量特征信息得到单元404,用于根据所述图结构得到图结构的向量特征信息;

目标图片的类别得到单元405,用于将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

可选的,所述向量特征信息得到单元,具体用于:

根据所述图结构得到图结构的文本块特征信息;

将所述图结构的文本块特征信息转换为向量特征信息;

可选的,所述图结构生成单元,具体用于:

将所述文本块中的文字内容转化为节点的向量特征信息作为所述文本块对应的图结构的节点的特征信息;

将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息;

根据所述节点的特征信息和节点之间的边的特征信息生成图结构。

可选的,所述所述图结构生成单元,具体用于:

根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形;

对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;

将两个矩形对应顶点之间的相对位置信息和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。

可选的,所述所述向量特征信息得到单元,具体用于:

将图结构中每个节点的特征信息和图结构包含的所有边的特征信息进行合并处理,作为图结构的文本块特征信息。

可选的,所述图结构生成单元,具体用于:

根据所述节点的特征信息和节点之间的边的特征信息生成全连接有向图。

可选的,所述目标图片的类别得到单元,具体用于:

将所述向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于每一类别的概率值;

根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别;

将所述向量特征信息对应的类别作为所述目标图片的类别。

可选的,所述所述目标图片的类别得到单元,具体用于:

从所述向量特征信息属于每一类别的概率值中选取最大的概率值;

判断所述最大的概率值是否大于或等于预设的概率阈值;

若是,将所述最大的概率值对应的图片类别作为所述向量特征信息对应的类别。

可选的,所述目标图片为包含文字信息的文档图片。

需要说明的是,对于本申请第二实施例提供的装置的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第三实施例还提供了一种电子设备。

如图5所示,所述电子设备,包括:

处理器501;以及

存储器502,用于存储图片类别的识别方法的程序,该设备通电并通过所述处理器运行该图片类别的识别方法的程序后,执行下述步骤:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述文本块生成图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

可选的,所述根据所述图结构得到图结构的向量特征信息,包括:

根据所述图结构得到图结构的文本块特征信息;

将所述图结构的文本块特征信息转换为向量特征信息;

可选的,所述根据所述文本块生成图结构,包括:

将所述文本块中的文字内容转化为节点的向量特征信息作为所述文本块对应的图结构的节点的特征信息;

将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息;

根据所述节点的特征信息和节点之间的边的特征信息生成图结构。

可选的,所述将两个文本块之间的相对位置信息和相对宽高信息作为两个文本块对应的节点之间的边的特征信息,包括:

根据两个节点对应的文本块的坐标信息,得到与文本块对应的两个矩形;

对两个矩形的宽和高进行归一化处理,得到归一化处理后的两个矩形;

将两个矩形对应顶点之间的相对距离和归一化处理后的矩形的宽度信息和高度信息作为两个文本块对应的节点之间的边的特征信息。

可选的,所述根据所述图结构得到图结构的文本块特征信息,包括:

将图结构中每个节点的特征信息和图结构包含的所有边的特征信息进行合并处理,作为图结构的文本块特征信息。

可选的,所述根据所述节点的特征信息和节点之间的边的特征信息生成图结构,包括:

根据所述节点的特征信息和节点之间的边的特征信息生成全连接有向图。

可选的,所述将所述向量特征信息输入向量分类模型,得到所述目标图片的类别,包括:

将所述向量特征信息输入向量分类模型,向量分类模型输出向量特征信息属于每一类别的概率值;

根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别;

将所述向量特征信息对应的类别作为所述目标图片的类别。

可选的,所述根据向量特征信息属于每一类别的概率值,得到所述向量特征信息对应的类别,包括:

从所述向量特征信息属于每一类别的概率值中选取最大的概率值;

判断所述最大的概率值是否大于或等于预设的概率阈值;

若是,将所述最大的概率值对应的图片类别作为所述向量特征信息对应的类别。

可选的,所述目标图片为包含文字信息的文档图片。

需要说明的是,对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第四实施例还提供了一种存储设备,存储有图片类别的识别方法的程序,该程序被处理器运行,执行下述步骤:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述文本块生成图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别。

需要说明的是,对于本申请第四实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第五实施例提供一种图片搜索方法,包括:

获得待搜索的图片;

根据所述待搜索的图片,生成所述待搜索的图片的图结构;

获得所述图结构的向量特征信息;

利用向量分类模型,获得所述待搜索的图片的类别;

根据所述待搜索的图片的类别,输出所述待搜索的图片的信息数据。

需要说明的是,对于本申请第五实施例提供的图片搜索方法可以参考对本申请第一实施例的相关描述,这里仅作简要说明。在获得所述待搜索的图片的类别后,再根据所述待搜索的图片的识别信息,可以获得所述待搜索的图片的信息数据。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第六实施例提供一种图片身份卡证的识别方法,包括:

获得待识别的图片身份卡证;

根据所述图片身份卡证,生成所述图片身份卡证的图结构;

利用向量分类模型,获得所述图片身份卡证的类别;

向用户输出用于确认所述图片身份卡证的类别是否正确的确认信息;

获得用户输入的确认信息;

根据所述用户输入的确认信息,调整所述向量分类模型的参数。

需要说明的是,对于本申请第六实施例提供的图片搜索方法可以参考对本申请第一实施例的相关描述,这里就不再赘述了。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第七实施例提供一种图片票据的处理方法,包括:

获得待识别的图片票据;

根据所述图片票据,生成所述图片票据的图结构;

利用向量分类模型,获得所述图片票据的类别;

若所述图片票据的类别为发票,则对所述图片票据的金额进行统计,获得所述发票的总金额。

需要说明的是,对于本申请第七实施例提供的图片搜索方法可以参考对本申请第一实施例的相关描述,这里就不再赘述了。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第八实施例提供一种图片类别的识别方法,包括:

获得目标图片;

根据所述目标图片得到含有坐标信息和文字内容的文本块;

根据所述目标图片,生成所述目标图片的图结构;

根据所述图结构得到图结构的向量特征信息;

将所述向量特征信息输入向量分类模型,得到所述目标图片的候选类别;所述向量分类模型用于根据输入的向量特征信息获得向量特征信息所对应的图片的类别;

判断所述目标图片的候选类别是否与所述文本块相匹配;若匹配,则将所述所述目标图片的候选类别确定为所述目标图片的类别。

需要说明的是,对于本申请第八实施例提供的图片搜索方法可以参考对本申请第一实施例的相关描述,这里就不再赘述了。

与本申请第一实施例提供的图片类别的识别方法相对应的,本申请第九实施例提供一种知识图谱的构建方法,包括:

在用于图片分类的向量分类模型的训练过程中,获取所述向量分类模型的训练特征;

根据所述训练特征,获得所述图片的实体信息和各实体之间的关系;

根据所述实体信息和所述各实体之间的关系,构建图片知识图谱。

在用于图片分类的向量分类模型的训练过程中,可以获取所述向量分类模型的训练特征。例如图片可以是身份证、发票,车辆信息等。根据这些训练特征,可以获得实体信息及各实体之间的关系。最后,根据所述实体信息和所述各实体之间的关系,构建图片知识图谱。例如,一个图片中包括统一社会信用代码、车辆品牌、车辆使用时间、车辆使用状况、车辆牌照等几个属性,则可以反映该图片对应有一个叫“法人”的实体,以及“车辆”这个实体。

“法人”、“车辆”这个实体可以是构建知识图谱的专家通过图片内容根据自己的知识概括获得的,也可以是根据一个初始知识库通过机器推导获得;此外,还可以知道“法人”具有“统一社会信用代码”这个属性,“车辆”具有“品牌”、“使用时间”、“牌照”、“使用状况”等属性。

接着,通过包括统一社会信用代码、车辆牌照、车辆使用时间等几个属性的图片,可以知道“法人”与“车辆”之间具有“拥有”这种关系。

通过图片中包括的统一社会信用代码、车辆牌照、车辆使用时间等几个属性,获得了“法人”与“车辆”两个实体;“法人”具有“统一社会信用代码”这个属性,并且由于这个属性与法人实体具有一对一的关系,该属性可以作为“法人”实体的主键信息;同样的,“车辆”具有牌照、使用时间、使用状况等属性,使用车辆牌照,可以与具体的某一车辆一一对应,因此可以作为“车辆”实体的主键信息。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、存储器映射输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:数据处理方法、模型训练方法、装置及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!