数据标注系统

文档序号:7982 发布日期:2021-09-17 浏览:24次 英文

数据标注系统

技术领域

本发明涉及数据标注

技术领域

,尤其涉及一种数据标注系统。

背景技术

近年来,随着人工智能神经网络算法的快速发展,计算机视觉技术的相关应用也得到了的很大的推动。例如汽车自动驾驶、人脸识别、图像分类、目标检测等,特别是人脸识别和目标检测等技术已经得到广泛的应用。当前计算机视觉是深度学习领域最热门的研究领域之一,深度学习领域中神经网络模型的训练需要大量的标注数据,一个计算机视觉的典型应用场景的开发支持需要上万甚至数十万张不等的经过标注的图片数据,随着计算机视觉在不同领域和场景下的广泛应用,高质量的标注数据有着长期的海量的需求。此外,标注数据的质量往往直接决定了模型最终的性能,因此获取高质量的标注数据是深度学习领域中极其重要的一环。但现有技术中,高效率的获取大量高质量的标注数据对深度学习模型的落地和AI项目的推进是十分重要的,尚存在较大的改进空间。

发明内容

为解决标注数据的获取效率较低、质量较差的技术问题,本发明实施例提供一种数据标注系统。

本发明实施例的技术方案是这样实现的:

本发明实施例提供了一种数据标注系统,数据标注系统包括:

数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;

标注管理模块,与所述数据管理模块连接,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;

统计分析模块,与所述数据管理模块和所述标注管理模块连接,用于对账户的处理进度进行统计,并提供统计结果。

上述方案中,所述数据管理模块还用于根据每个具有数据预处理权限的账户的第一分配权重为每个具有数据预处理权限的账户分配原始图像数据。

上述方案中,所述标注管理模块还用于根据每个具有数据标注权限的账户的第二分配权重为每个具有数据标注权限的账户分配数据预处理后的图像数据。

上述方案中,所述数据标注系统还包括账户管理模块,与所述数据管理模块和所述标注管理模块连接;

所述账户管理模块,用于执行账户注册、账户注销、账户权限认证和账户权限变更的操作。

上述方案中,所述账户管理模块,还用于将账户划分为不同的账户类型;其中,所述账户类型包括处理员、审核员、管理员;所述账户类型为处理员的账户具有执行数据标注的权限或执行数据预处理的权限;所述账户类型为审核员的账户具有执行数据审核的权限;所述账户类型为管理员的账户具有执行数据管理的权限。

上述方案中,所述数据标注系统还包括前端模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;

所述前端模块,用于提供交互界面;其中,所述前端模块是通过第一框架进行开发的,除所述前端模块之外的其他模块是通过第二框架进行开发的;通过所述第二框架开发的其他模块通过API接口为所述前端模块提供服务。

上述方案中,所述数据标注系统还包括中间件模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;

所述中间件模块,用于缓存通信数据和执行通信数据的分布式通信。

上述方案中,所述中间件模块包括第一中间件模块、第二中间件模块和第三中间件模块;

所述第一中间件模块,用于缓存待处理数据,建立待处理任务队列,执行各个模块间待处理数据的通信;

所述第二中间件模块,用于在各个模块内执行待处理数据的通信;

所述第三中间件模块,用于记录系统运行期间所产生的运行日志。

上述方案中,所述数据标注系统还包括数据库模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;

所述数据库模块,用于进行数据存储。

上述方案中,所述数据库模块包括第一数据库模块和第二数据库模块;

所述第一数据库模块,用于存储结构化数据;所述结构化数据包括账户信息、图像数据;

所述第二数据库模块,用于存储非结构化数据。

本发明实施例提供的数据标注系统,数据标注系统包括数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;标注管理模块,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;统计分析模块,用于对账户的处理进度进行统计,并提供统计结果。本发明提供的数据标注系统易于安装部署,方便用户简便快捷地标注数据,能进行统一的数据管理,还能提供统计服务,输出结果可直接用于模型训练过程。

附图说明

图1为本发明实施例数据标注系统的结构示意图;

图2为本发明应用实施例系统架构示意图;

图3为本发明应用实施例系统任务分配流程示意图;

图4为本发明实施例计算机设备的内部结构图。

具体实施方式

下面将结合附图及实施例对本发明作进一步详细的描述。

计算机视觉深度学习当中最常见的标注任务为图像数据标注,目前企业中标注数据工作主要有三种方式完成,分别是:企业内部自建的数据标注团队、与外包公司合作以及数据众包平台。

目前,企业当中用于数据标注工作的技术方案主要有以下两种:

一种是以Labelme为代表的提供图形界面的数据标注软件,能够对图像进行多边形,矩形,圆形,多线段,线段,点形式的标注,能够满足绝大多数的用于计算机视觉场景的图像数据标注任务,可用于目标检测,图像分割等任务。在进行数据标注时,管理员首先把处理好的原始图像数据分发传递给每个标注员的本地磁盘上,标注员在自己电脑的本地磁盘当中打开Labelme并使用其进行数据标注,将标注好的数据发给审核员进行质量复核。

另一种是以百度智能云为代表的一体化数据服务平台,提供了数据采集、数据标注服务。在使用时,在平台上申请相应的服务,提出需求,最终由平台进行数据交付。

但上述两种方式并不能满足用户需求,存在以下缺陷:

(1)安装部署麻烦

以Labelme的安装为例,由于Labelme是基于python开发的,因此在使用Labelme进行数据标注工作时,需要安装配置python环境和相关库,通常的解决方案是配置Anaconda环境,在此基础上使用pip库来下载安装labelme。此外也可以使用pyinstaller将labelme打包成独立的可执行文件,但仍存在打包文件体积过大的问题。Labelme的安装部署和环境配置对于普通标注人员来说过于麻烦,不便捷,且若是需要多人进行标注工作时,每个标注员的电脑都需要进行一次安装部署,若配置环境或相关库的版本不一致,还可能出现数据兼容性问题。

(2)团队协同工作中的沟通效率、执行成本和执行效率方面表现不尽人意

在企业中通常是通过组建一个内部标注团队来进行数据标注工作的,而Labelme类的数据标注工具只支持读取和操作本地磁盘文件,因此在团队协同进行数据标注工作时,管理员需要先手工地进行任务量的评估和分配,然后将数据通过网络或者U盘等存储介质分发至每个标注员的电脑的本次磁盘当中,标注员标注后再将标注后的数据传递给质量审核人员,审核人员将合格的数据再发还给管理员,这一过程中的数据传递成本较高,数据在多端传递途中容易带来数据丢失等数据管理上的问题,此外还会造成在多个电脑端中存储同一份数据的数据冗余。

(3)缺少可视化的数据报表

在一个团队进行协同数据标注任务的时候,管理员需要对任务进行分发、跟踪每个标注员的任务的完成进度,在一个标注项目结束后还需要对整个项目进行汇总、统计和评估项目难度,给每个标注员进行绩效评定,同时还要结合模型训练效果对标注工作进行反馈。在传统工具类软件中不提供这些可视化的统计分析功能,通常是管理员进行手动通过Excel等工具进行汇总计算,不够直观,且容易出错,效率不高。

(4)人工手动任务分配可能存在不合理以及效率低

在一个项目的起始阶段,传统流程中需要管理员手动地进行任务划分和分配。且分配好后,任务量的分配是固定的,若某个标注员由于一些原因标注效率较低,由于短板效应,会使得整个项目的进度受到拖累。

(5)数据泄露风险

在一些对数据安全较为敏感的数据标注任务的场景中,若是将部分任务交给外包公司或百度智能云类的数据服务平台,则会出现一定的数据泄露风险。在使用Labelme类的传统工具类软件,由于数据需要通过U盘等存储介质在不同电脑之间来传递数据,因此也存在一定的数据丢失风险。

(6)没有提供用于模型训练的数据接口

在完成数据标注任务后,传统的数据标注类软件或平台在所提供的标注数据在模型的训练时往往需要进行格式转换,转换成可直接用于模型训练的数据格式(例如张量),传统的数据标注类软件或平台提供的标注数据并不能直接用于模型的训练。

基于此,本申请提出一种易于安装部署,标注数据简便快捷,能够进行统一的数据管理,自适应任务分配,提供可视化的实时进度追踪、项目汇总统计、自动绩效评定、提供可直接用于模型训练、用于计算机视觉工业应用场景的分布式多人协作数据标注系统。

具体地,本发明实施例提供了一种数据标注系统,如图1所示,该数据标注系统100包括:

数据管理模块101,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;

标注管理模块102,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;

统计分析模块103,用于对账户的处理进度进行统计,并提供统计结果。

实际应用时,数据管理模块101、标注管理模块102和统计分析模块103可由数据标注系统中的处理器实现。

具体地,该数据标注系统100可提供用于外部连接的数据接口,通过该数据接口可从外部模块或外部客户端中导入原始图像数据。

进一步地,在一实施例中,所述数据标注系统100还包括账户管理模块;

所述账户管理模块,用于执行账户注册、账户注销、账户权限认证和账户权限变更的操作。

此外,在一实施例中,所述账户管理模块,还用于将账户划分为不同的账户类型;其中,所述账户类型包括处理员、审核员、管理员;所述账户类型为处理员的账户具有执行数据标注的权限或执行数据预处理的权限;所述账户类型为审核员的账户具有执行数据审核的权限;所述账户类型为管理员的账户具有执行数据管理的权限。

具体地,针对不同的账户类型,所述数据管理模块101还可以用于执行如下操作:将原始图像数据分配给账户类型为处理员的账户,在所述账户执行完数据预处理操作后,将数据预处理后的图像数据分配给账户类型为审核员的账户进行审核,在所述账户类型为审核员的账户审核通过后,保存所述数据预处理后的图像数据。其中,账户类型为管理员的账户对上述过程进行监管。

相应地,标注管理模块102可以用于执行如下操作:将数据预处理后的图像数据分配给账户类型为处理员的账户,在所述账户执行完数据标注操作后,将数据标注后的图像数据分配给账户类型为审核员的账户进行审核,在所述账户类型为审核员的账户审核通过后,保存所述数据标注后的图像数据。其中,账户类型为管理员的账户对上述过程进行监管。

进一步地,在一实施例中,所述数据管理模块101还用于根据每个具有数据预处理权限的账户的第一分配权重为每个具有数据预处理权限的账户分配原始图像数据。

相应地,在一实施例中,所述标注管理模块102还用于根据每个具有数据标注权限的账户的第二分配权重为每个具有数据标注权限的账户分配数据预处理后的图像数据。

这里,第一分配权重和第二分配权重可以为系统预设的,也可以是人工进行设定的,并且在特定场合下,可以对设定好的第一分配权重和第二分配权重进行修改,已完成分配任务。

此外,在进行分配时,可以采用自适应任务分配方式。具体地:

对每一个需要进行任务的账户设置一个分配权重值,所有账户的分配权重值的总和为1。根据每个账户设置的分配权重值来进行任务的分配。例如,5个账户(p1,p2,p3,p4,p5),分别对应的分配权重为0.5,0.3,0.1,0.05,0.05。则分配任务时,该任务有50%的概率分配给p1,30%的概率分配给p2,10%的概率分配给p3,5%的概率分配给p4和p5。

进一步地,给每一个需要进行任务的账户设置的分配权重值可以根据该账户以往的处理进度进行调整。

具体地,可先获取每个账户近一段时间内的平均日任务完成量,记为Ew,最近一天的日任务完成量为W,则Ew可通过如下公式(1)进行计算:

公式(1)

其中,Ew表示每个账户近一段时间内的平均日任务完成量,Ew’表示前一个工作日的每个账户近一段时间内的平均日任务完成量,W表示最近一天的日任务完成量,表示参数,取值为0.3。

这里,当某个账户的Ew值为0时,表示该账户是新创建的账户,没有历史数据,则该账户的初始值赋为所有具有历史数据账户的Ew的平均值。

具体地,根据所获得的每个账户的Ew值计算每个账户的分配概率权重,计算公式如下:

公式(2)

其中,Wi表示每个账户的分配概率权重,Ewi表示第i个账户近一段时间内的平均日任务完成量,n表示所有账户的数量。

这里,若平均Ew值为0,则所有账户的Ew值都为0,则表示系统为初始化状态,没有任何历史数据,则赋予每个账户等同的任务权重,每个账户的分配权重为(n为标注账户的总数量)。

进一步地,为完成数据的标注任务,以使得图像数据能被展示,从而被进行标注,在一实施例中,所述数据标注系统还包括前端模块;

所述前端模块,用于提供交互界面;其中,所述前端模块是通过第一框架进行开发的,除所述前端模块之外的其他模块是通过第二框架进行开发的;通过所述第二框架开发的其他模块通过API接口为所述前端模块提供服务。

这里,前端模块可以为能进行人机交互的UI界面,在该界面中输入对应的访问地址,可执行本系统的相关功能操作。

具体地,该第一框架可以为Vue前端框架下的ElementUI,第二框架可以为采用Python中的fastapi框架。第一框架和第二框架为两个不同的框架,从而实现前后端分离的效果。这里的API接口可以为符合restful规范的API接口。

实际应用时,用户可以先在该前端模块中进行用户认证。这里,若无账户需要先进行账户注册,注册时由管理员确定账户的使用权限。登录时,前端模块将输入的用户信息发送给后端的登录接口,由后端的账户管理模块进行验证,验证通过后返回一个token值,表示登陆成功,并且在前端的任何请求都需要携带token信息,在使用了没有对应权限的接口时则返回错误。登陆成功后,则进入到该前端模块的主界面,具有不同权限的用户的主界面可操作功能是不同的,例如管理员具有最高权限,可以查看所有的账号信息,而标注员则不能,只能对分配到该前端模块的任务进行标注,审核员则不具有标注功能界面。

进一步地,在一实施例中,所述数据标注系统还包括中间件模块;

所述中间件模块,用于缓存通信数据和执行通信数据的分布式通信。

具体地,在一实施例中,所述中间件模块可包括第一中间件模块、第二中间件模块和第三中间件模块;

所述第一中间件模块,用于缓存待处理数据,建立待处理任务队列,执行各个模块间待处理数据的通信;

所述第二中间件模块,用于在各个模块内执行待处理数据的通信;

所述第三中间件模块,用于记录系统运行期间所产生的运行日志。

这里,第一中间件模块可为Redis,第二中间件模块可为ZeroMQ,第三中间件模块可为kafka。

另外,在一实施例中,所述数据标注系统还包括数据库模块;

所述数据库模块,用于进行数据存储。

具体地,在一实施例中,所述数据库模块包括第一数据库模块和第二数据库模块;

所述第一数据库模块,用于存储结构化数据;所述结构化数据包括账户信息、图像数据;

所述第二数据库模块,用于存储非结构化数据。

这里,第一数据库模块可为MySQL,第二数据库模块可为MongoDB。

本发明实施例提供的数据标注系统,数据标注系统包括数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;标注管理模块,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;统计分析模块,用于对账户的处理进度进行统计,并提供统计结果。本发明提供的数据标注系统易于安装部署,方便用户简便快捷地标注数据,能进行统一的数据管理,还能提供统计服务,输出结果可直接用于模型训练过程。

下面结合应用实施例对本发明再作进一步详细的描述。

具体地,本实施例提供一种易于安装部署,标注数据简便快捷,能够进行统一的数据管理,自适应任务分配,提供可视化的实时进度追踪、项目汇总统计、自动绩效评定、提供可直接用于模型训练、用于计算机视觉工业应用场景的分布式多人协作数据标注系统。

如图2所示,本实施例采用前后端分离的架构,一共四层包括前端(可理解为上述的前端模块)、服务层(包括上述的数据管理模块、标注管理模块、统计分析模块和账户管理模块)、中间件层(可理解为上述的中间件模块)以及数据层(可理解为上述的数据库模块)。这里,服务层、中间件层和数据层为后端。其中,前端采用web作为人机交互的UI界面,主要使用Vue前端框架下的ElementUI进行开发,后端的服务层采用Python中的fastapi框架向前端的表示层提供符合restful规范的api接口,中间件层主要负责缓存和分布式通信,数据层主要负责统一的数据管理和数据存储。

前端的表示层主要提供UI界面,负责和用户的人机交互。在使用本发明的数据标注管理系统时,需在浏览器输入对应的地址访问界面。在进行标注或其他系统功能之前,用户首先需要在登录界面进行用户认证,若无账户需要先进行账户注册,注册时由管理员确定账户的使用权限。登录时,前端将输入的用户信息发送给后端的登录接口,由后端进行验证,验证通过后返回一个token值,表示登陆成功,并且在前端的任何请求都需要携带token信息,在使用了没有对应权限的接口时则返回错误。登陆成功后,则进入到主界面,具有不同权限的用户的主界面可操作功能是不同的,例如管理员具有最高权限,可以查看所有的账号信息,而标注员则不能,只能对分配到前端的任务进行标注,审核员则不具有标注功能界面。

服务层提供的功能接口主要涵盖了四大模块,分别是账户管理(可理解为上述的账户管理模块)、数据管理(可理解为上述的数据管理模块)、标注管理(可理解为上述的标注管理模块)、以及统计分析(可理解为上述的统计分析模块)。账户管理模块提供账户注册、账户注销、权限认证、以及权限变更。主要用于进行权限管理,将不同权限的账户隔离开,保证标注流程中的每个角色具有专一的职责属性。例如,标注员只负责数据的标注、不能够修改数据、对数据进行删除等操作;审核员只负责进行数据复核,对数据进行质量检测;管理员则负责全局的管理。权限管理使得不同角色的职责分隔开,互不干扰。数据管理模块主要提供了数据导入、数据预处理(图像剪裁,筛选分类、无效数据过滤)、质量复核。对于多个前端界面终端,在接口层面提供了数据的统一传输、存储和管理。标注管理在接口层面主要提供了任务分配、图像标注的存储、标注数据的复核、以及标注反馈功能。其中任务分配默认采用自适应权重分配方法,根据对每个标注人员工作效率的追踪来进行不同权重的自适应任务分配,同时保留人工设定分配比重的功能接口,在特定场合下由管理员进行人工干预分配。统计分析模块主要提供了统计汇总的功能接口,可查询并返回统计数据,用于在前端进行可视化的数据报表展示。

中间件层的技术栈可由Redis、ZeroMQ以及kafka构成。Redis主要用来做数据缓存以及建立待标注任务队列,和使用发布-订阅模式用来对多个标注员的界面端进行任务的发布。ZeroMQ主要用于在不同服务进程中的数据通信,kafka用于作为整个系统的日志收集中心,记录系统运行期间所产的运行日志,以便于系统的维护。

数据层主要使用了MySQL和MongoDB这两种数据库用来进行数据存储。MySQL用来存取账户信息等关系型数据,MongoDB用于存储非结构的化的数据以保证数据吞吐量和相关功能涉及的数据查询的性能。

另外,基于上述系统架构,数据标注项目在系统中的运行流程中,一个数据标注项目在系统的运行流程主要包含了三大模块,分别是数据管理、标注管理以及统计分析。

当一个数据标注项目开始时,首先由管理员将采集到的原始图像数据由系统提供的接口导入并存储至数据库,原始图像数据入库口进入数据预处理队列,由具有对应权限的人员在对应的界面进行数据预处理操作,其中包括图像的剪裁、归类以及过滤,处理完毕后,进行提交,由数据复核人员对与处理后的数据进行审核。若不合格,则返回对应数据给相应的数据处理人员重进进行数据预处理,并反馈不合格原因;若合格,则将预处理后的数据写入数据层中的未标记数据库,并同步写入待标注任务队列。下一步进入到标注管理流程。

在标注任务被写入待标注任务队列后,若采用默认分配,则后端将队列里的每个任务按照自适应任务分配方法推送到的分配的标注员的前端页面,由标注员进行标注,任务队列里的任务是由具有标注权限的多个账号共同完成的。在标注员完成一个任务的标注后,点击提交按钮,前端页面将该任务以及对应的账号信息一同发送至后端服务层,由服务层写入标注队列当中,标注复核员从标注队列中一个一个将已标注任务取出并进行质量复核,若审核不同过,则将标注任务发回对其标注的标注员,并反馈不同过的原因,若审核通过,则将标注任务进行格式转换并写入训练数据集中,算法研究员可直接调用数据接口获取转换后的标记数据进行模型训练,并将训练结果反馈给管理员。

在一个项目结束后,统计分析模块将汇总统计该项目的运行期间所产生的各种数据,统计每个标注员的工作效率,标注员的平均工作效率的时间分布,标注的合格率、漏检率,并计算每个工作人员的绩效,并将结果在前端界面以图表的形式进行可视化的展示,管理员可通过报表进行绩效评定、标注工作时间安排、标注总结等。

接下来,将详细说明本实施例中的自适应任务分配方法。

自适应任务分配方法的基本原理是赋予每个标注账户一个归一化的权重(所有权重的总和为1),并根据每个权重来进行概率化的分配。例如一个拥有5个标注人员的列表(p1,p2,p3,p4,p5), 对应的权重为(0.5,0.3,0.1,0.05,0.05),则对于一个发布的标注任务T,它有50%的概率分配给p1,30%的概率分配给p2,10%的概率分配给p3,5%的概率分配给p4和p5。

该方法所依据的指标是每个标注员的近7日指数移动平均日任务完成量,记为Ew,最近一天的日任务完成量为W,则Ew的计算公式为:

公式(1)

其中,Ew表示每个账户近一段时间内的平均日任务完成量,Ew’表示前一个工作日的每个账户近一段时间内的平均日任务完成量,W表示最近一天的日任务完成量,表示参数,取值为0.3。

这里,若某个账户的Ew值为0,则表示该账户是新创建的账户,没有历史数据,则该账户的初始值赋为所有具有历史数据账户的Ew的平均值。

另外,根据所获得的每个账户的Ew值计算每个账户的分配概率权重,计算公式如下:

公式(2)

其中,Wi表示每个账户的分配概率权重,Ewi表示第i个账户近一段时间内的平均日任务完成量,n表示所有账户的数量。

这里,若平均Ew值为0,则所有账户的Ew值都为0,则表示系统为初始化状态,没有任何历史数据,则赋予每个账户等同的任务权重,每个账户的分配权重为(n为标注账户的总数量)。

另外,参数图3,任务分配的具体流程为:

系统首先获取当前所有的标注人员账号列表,查询账户列表重每个账号的最近七日的日任务完成量,并依据公式(1)来计算每个账号当前的Ew值,若Ew值为0,则表示该账号无历史任务量数据,是新创建的账号,则计算有历史任务量数据的账号的平均Ew值作为新建账号的默认Ew值,若平均Ew值也为0,则表示所有账号都为新建账号,则赋予每个账号等同的权重w。若Ew值不为0,设置账号的Ew值,并依据公式(2)计算每个账号的任务分配权重w。最后根据每个账号的任务分配权重w,由概率算法来确定每个任务的分配账号。

本实施例的上述系统架构具有以下优点:

(1)对标注人员来说安装使用简便。

由于操作界面采用了Web端,因此对于标注员来说只需要安装一个浏览器,并在浏览器中输入一个IP地址就可以进行标注操作,省去了繁杂的环境配置和相关库的安装。

(2)大大提升了团队的协作能力,提升工作效率。

本发明的系统提供了统一的数据存储,数据接口,能够进行统一的数据管理,并提供了相应的可视化界面,数据以流水线的方式进行在不同流程间进行传递,不同人员通过系统界面进行交互,管理员通过可视化界面进行团队管理、项目管理,进度追踪等,提高的团队的协作能力和工作效率。

(3)自动化的任务分配,高效且合理。

根据每个标注员的工作效率进行自动化的任务分配,使得可以最高效的推动项目的进展,且由于是自动化分配,省去了人工计算的时间。

(4)统一的数据管理,数据安全性得到了保障,并减少了数据冗余和数据传输的丢失风险。

在后端提供了统一的数据接口、数据存储以及数据管理,因此在每个任务只需要在数据层存储一份,减少了数据冗余,数据通过统一接口在网络上进行传输,不需要使用U盘等介质进行传输,减少了在数据传递过程中的丢失风险。此外,在数据层采用数据进行数据存储,数据的安全性得到了一定程度的保障。

(5)提供了可视化的统计数据报表,方便管理员直观高效的进行统计汇总。

以图表的形式在前端界面进行可视化的展示,并且统计汇总过程是由后端自动进行计算的,相比通过Excel数据表格等传统方式提高了效率。

(6)提供模型所需的数据接口,可与模型训练无缝对接。

提供了接口,模型可直接调用进行训练。

(7)拓展能力强

由于后端采取数据库进行数据存储,当数据量大到单机无法存储时,可进行集群拓展,而获取数据的接口不变,这对前端的数据请求来说是透明了,系统的可拓展性强。

基于上述程序模块的硬件实现,本发明实施例还提供了一种电子设备(计算机设备)。具体地,在一个实施例中,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现上述数据标注系统的功能。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本发明实施例提供的设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述数据标注系统的功能。

本领域内的技术人员应明白,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

可以理解,本发明实施例的存储器可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccess Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于零知识证明的能源消费数据处理方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类