度量空间划分多边界搜索性能衡量的方法及相关组件

文档序号:7800 发布日期:2021-09-17 浏览:64次 英文

度量空间划分多边界搜索性能衡量的方法及相关组件

技术领域

本发明涉及数据处理

技术领域

,尤其涉及一种度量空间划分多边界搜索性能衡量的方法及相关组件。

背景技术

现有的基于划分的度量空间索引,比如以超平面为基础划分,以超平面为基础划分的结果具有良好的几何特性,其划分所得的各区域之间不相互重叠。

现有的对经典索引的优化都是从对划分后的数据进一步处理和数据的分布出发的,而少有人在划分边界的形态上着手对索引进行优化,原因是:一方面,不同索引之间的性能比较都是通过实验进行的,没有一套体系的、理论的方法可以客观地对不同方法的优劣进行评价,因此没法客观地反映潜藏在实验背后的不同划分方法的内在差异;另一方面,对不同的划分都需要编写专门的穿件索引和范围搜索的代码,存在实验成本过高的问题;再一方面,需要利用不同的索引对数据库中的所有数据进行范围搜索,并且返回索引利用不同索引时所采用的范围搜索时间或者范围搜索所需要的距离计算次数,存在时间成本高和效率低的问题。

发明内容

本发明的目的是提供一种度量空间划分多边界搜索性能衡量的方法及相关组件,旨在解决现有度量空间中,分析多组不同的多划分边界的性能时,存在实验成本高、时间成本高、效率低的问题。

为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种度量空间划分多边界搜索性能衡量的方法,其包括:

获取度量空间中的多个划分边界组,每个所述划分边界组包括第一划分边界和第二划分边界;

针对每一所述划分边界组,计算所述第一划分边界和第二划分边界的法向量,分别得到第一法向量和第二法向量;

针对每一所述划分边界组,计算所述第一法向量和第二法向量的夹角的余弦值,并作为对应所述划分边界组的余弦值;

对比每个划分边界组的余弦值,根据对比结果确认各所述划分边界组的搜索性能。

另外,本发明要解决的技术问题是还在于提供一种度量空间划分多边界搜索性能衡量的装置,其包括:

获取单元,用于获取度量空间中的多个划分边界组,每个所述划分边界组包括第一划分边界和第二划分边界;

第一计算单元,用于针对每一所述划分边界组,计算所述第一划分边界和第二划分边界的法向量,分别得到第一法向量和第二法向量;

第二计算单元,用于针对每一所述划分边界组,计算所述第一法向量和第二法向量的夹角的余弦值,并作为对应所述划分边界组的余弦值;

对比单元,用于对比每个划分边界组的余弦值,根据对比结果确认各所述划分边界组的搜索性能。

另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的度量空间划分多边界搜索性能衡量的方法。

另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的度量空间划分多边界搜索性能衡量的方法。

本发明实施例公开了度量空间划分多边界搜索性能衡量的方法及相关组件。该方法包括获取度量空间中的多个划分边界组,每个划分边界组包括第一划分边界和第二划分边界;针对每一划分边界组,计算第一划分边界和第二划分边界的法向量,分别得到第一法向量和第二法向量;针对每一划分边界组,计算第一法向量和第二法向量的夹角的余弦值,并作为对应划分边界组的余弦值;对比每个划分边界组的余弦值,根据对比结果确认各划分边界组的搜索性能。本发明实施例通过计算各组的划分边界组的余弦值,可确认划分边界组中的第一划分边界和第二划分边界的划分形态,并对划分形态进行分析,从而选出搜索性能最优的划分边界组,具有实验成本低、时间成本低、比较效率高的优点。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的度量空间划分多边界搜索性能衡量的方法的流程示意图;

图2为本发明实施例提供的步骤S101的子流程示意图;

图3为本发明实施例提供的步骤S102的子流程示意图;

图4为本发明实施例提供的一个划分边界组的划分性能的示意图;

图5为本发明实施例提供的另一个划分边界组的划分性能的示意图;

图6为本发明实施例提供的度量空间划分多边界搜索性能衡量的装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的度量空间划分多边界搜索性能衡量的方法方法的流程示意图;

如图1所示,该方法包括步骤S101~S104。

S101、获取度量空间中的多个划分边界组,每个所述划分边界组包括第一划分边界和第二划分边界。

具体的,如图2所示,所述步骤S101包括:

S201、选取不同的支撑点,对度量空间中的同一数据范围进行两次划分,得到包含第一划分边界和第二划分边界的一个划分边界组;

S202、根据数据到各个支撑点的不同加权距离继续对数据进行不同划分,即可得下一个划分边界组,以此类推,得到多个划分边界组。

所述度量空间为二元组(M,d),其中M是有限非空的数据集合,d是定义在M上的距离函数。

所述度量空间(M,d)满足:

数据S={si|si∈M,i=1,2,...,m},S中存在n个支撑点P={p1,p2.,..,pn},对于以数据到支撑点的距离d(s,pi)作为坐标,定义一个从M到n维空间的映射,用sp表示s在n维空间中的像,存在映射函数FP,d如下:

FP,d(s)=(f1(s),f2(s),...,fn(s))=(d(s,p1),d(s,p2),...,d(s,pn))∈FP,d(M),

支撑点空间是S在Rn的像:

FP,d(s)={sP|sP=d(s,p1),d(s,p2),...,d(s,pn),s∈S}。

举例来说,假设度量空间中三个数据s1,s2,s3,其中d(s2,s1)=12,d(s2,s3)=23,d(s1,s3)=13,当选用s1,s3两个支撑点时,得到的支撑点空间维度为2,s1,s2,s3在支撑点空间中的像分别为s1 P=(d(s1,s1),d(s1,s3))=(0,13),s2 P=(d(s2,s1),d(s2,s3))=(12,23),s3 P=(d(s3,s1),d(s3,s3))=(13,0)。

所述线性划分边界规则满足:

对于度量空间(M,d),在S中选择n个支撑点p1,p2,...,pn存在以下线性关系:

本实施例中,基于度量空间、支撑点空间以及线性划分边界规则的表述;可以采用GH划分的方式进行数据划分,具体的,针对所述度量空间中的同一数据范围,选取k个支撑点,k≥2,以数据到k个支撑点的距离作为坐标,采用线性划分的方式将数据划分到最近的支撑点,可得到一条划分边界;比如,令k=2,根据上述的线性划分边界规则,即d(s,p1)=d(s,p2)可以为第一划分边界,s是数据点,p是支撑点,d(s,p)代表距离函数,而第二划分边界可以是2*d(s,p1)=d(s,p2),基于此,可得到一个包含第一划分边界和第二划分边界的一个划分边界组,其中所述第一划分边界和第二划分边界的形态为相交的两个超平面。

采用相同的划分方式,根据数据到各个支撑点的不同加权距离继续对数据进行不同划分,可得到下一个划分边界组;也就是说选取两个支撑点后,可得得到线性划分边界集合:a1·d(s,p1)+a2·d(s,p1)=c,(a1,a2,c一般来说,可以是任意实数),根据该集合可得到无数个划分边界组,后续分别选取不同的划分边界组进行划分性能比较,由此来分析出划分性能更优的划分边界组具备的特性。

S102、针对每一所述划分边界组,计算所述第一划分边界和第二划分边界的法向量,分别得到第一法向量和第二法向量。

具体的,如图3所示,所述步骤S102包括:

S301、将所述第一划分边界和第二划分边界映射到支撑点空间中,得到对应的第一划分超平面和第二划分超平面;

S302、分别计算所述第一划分超平面和第二划分超平面的权值,将所述第一划分超平面的权值作为第一划分边界的第一法向量,将所述第二划分超平面的权值作为第二划分边界的第二法向量。

本实施例中,将数据映射到支撑点空间时,也会把所述第一划分边界和第二划分边界映射到支撑点空间中,所述第一划分边界和第二划分边界在所述支撑点空间的表达即为第一划分超平面和第二划分超平面,例如:GH划分,假设选取俩支撑点p1,p2,GH划分的实质是将数据划分到离自己更近的支撑点。则有划分边界d(s,p1)=d(s,p2),s为任一数据点。如果将数据映射到以p1,p2为支撑点的支撑点空间,则x轴代表d(s,p1),y轴代表d(s,p2),划分边界在该支撑点空间中的表达形式为x=y。

分别计算所述第一划分超平面和第二划分超平面的权值,以上述d(s,p1)=d(s,p2)为第一划分边界为例,即d(s,p1)-d(s,p2)=0,这里的第一划分超平面的权值即为:a1=1,a2=-1。

将所述第一划分超平面的权值作为第一划分边界的第一法向量,将所述第二划分超平面的权值作为第二划分边界的第二法向量。

S103、针对每一所述划分边界组,计算所述第一法向量和第二法向量的夹角的余弦值,并作为对应所述划分边界组的余弦值。

具体的,所述步骤S103包括:

按如下式子计算所述第一法向量和第二法向量的夹角的余弦值:

其中,(a1,a2,…,an)为所述第一法向量的坐标,(b1,b2,…,bn)为所述第二法向量的坐标,n为支撑点的数量。

本实施例中,根据上述公式,将所述第一法向量的坐标和所述第二法向量的坐标代入并进行计算,即可得到对应的划分边界组的余弦值。

S104、对比每个划分边界组的余弦值,根据对比结果确认各所述划分边界组的搜索性能。

本实施例中,划分边界组的余弦值越小,搜索超立方体的超集越小,进行范围搜索时需要线性扫描的集合大小越小;由余弦函数的规律可知,当所述第一法向量和第二法向量之间的夹角越接近π/2时,余弦值越小,由此,对比每个划分边界组的余弦值,确认余弦值最小的划分边界组的搜索性能最优。

具体的,如图4和图5所示,可直观对比出两个划分边界组的搜索性能;假设一个划分边界组的第一划分边界和第二划分边界分别为H1和H2,另一个划分边界组的第一划分边界和第二划分边界分别为K1和K2

对于这两个划分边界组,所形成的r邻域(非空白部分)不同的原因在于H1和H2的夹角θ与K1和K2的夹角θ不同,需要说明的是,r-邻域是指划分边界附近的一个区域,当范围搜索R(q,r)的中心q落入该区域时,进行范围搜索时划分边界两边的区域都无法被排除。

由此可见,r邻域越小,查询点落入其中的可能性越小,从图4和图5可知,将数据分成4块,如果查询点落入空白处,可排除掉其他三块数据,不用再进行查询了,如果落入其他阴影(图中浅色的阴影)部分,则能够排除掉另外两块不相交的区域,如果落入黑色阴影区域,则4块都不能排除,每一块都要搜索,因此,通过数学计算总的排除率,可以得出当θ=π/2时,相交区域面积最小,可以排除掉的数据在概率上就会更多,即查询点落入相交区域面积的排除率最大,故得到余弦值最小的划分边界组的搜索性能最优的结论。

本发明实施例还提供一种度量空间划分多边界搜索性能衡量的装置,该度量空间划分多边界搜索性能衡量的装置用于执行前述度量空间划分多边界搜索性能衡量的方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的度量空间划分多边界搜索性能衡量的装置的示意性框图。

如图6所示,度量空间划分多边界搜索性能衡量的装置600,包括:获取单元601、第一计算单元602、第二计算单元603以及对比单元604。

获取单元601,用于获取度量空间中的多个划分边界组,每个所述划分边界组包括第一划分边界和第二划分边界;

第一计算单元602,用于针对每一所述划分边界组,计算所述第一划分边界和第二划分边界的法向量,分别得到第一法向量和第二法向量;

第二计算单元603,用于针对每一所述划分边界组,计算所述第一法向量和第二法向量的夹角的余弦值,并作为对应所述划分边界组的余弦值;

对比单元604,用于对比每个划分边界组的余弦值,根据对比结果确认各所述划分边界组的搜索性能。

该装置利用相同的判断依据对两组不同的多划分边界的范围搜索性能进行分析判断,直接比较两个或多个划分边界组的优劣,比较结果经过数学理论上的证明比较分析的可行性,使得结果更加客观。

该装置可以直接对比不同划分方法形成的划分边界组的划分形态的数据关系进行性能分析,而不需要经过具体地为该方法建立索引、进行搜索操作,节约了比较分析的空间和时间成本。

在一实施例中,所述获取单元601包括:

第一划分单元,用于选取不同的支撑点,对度量空间中的同一数据范围进行两次划分,得到包含第一划分边界和第二划分边界的一个划分边界组;其中,单次划分的过程包括:在度量空间中选取两个支撑点,以数据到两个支撑点的距离作为坐标,将数据划分到最近的支撑点;

第二划分单元,用于根据数据到各个支撑点的不同加权距离继续对数据进行不同划分,即可得下一个划分边界组,以此类推,得到多个划分边界组。

在一实施例中,所述第一计算单元602包括:

映射单元,用于将所述第一划分边界和第二划分边界映射到支撑点空间中,得到对应的第一划分超平面和第二划分超平面;

法向量计算单元,用于分别计算所述第一划分超平面和第二划分超平面的权值,将所述第一划分超平面的权值作为第一划分边界的第一法向量,将所述第二划分超平面的权值作为第二划分边界的第二法向量。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的度量空间划分边界的性能衡量方法。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于度量空间划分边界的性能衡量方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:度量空间划分边界的性能衡量方法、装置及相关设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!