一种数据流转分类管理方法以及系统
技术领域
本发明属于计算机信息安全
技术领域
,具体涉及一种数据流转分类管理方法和系统。背景技术
现有技术对文档是否有窃密和泄密的方法大致可以为:以主动扫描方式来识别目标计算机文档里是否包含有设定的关键字,即以队列扫描和递归扫描方式对计算机文件进行扫描,根据文件扩展名判断是文件类型,进行关键字匹配;或者根据关键字识别到文档信息里面是否有对外流转信息,在识别到的文档信息里面,管理者可对文档内容信息进行查看,进行人为审计的记录查看统计出文件的流转情况,现有技术对文档是否有窃密和泄密的方法存在以下缺点:不能及时发现文件的外发情况;不能检测出文件在网络中的流转情况;不能同步对文件的操作进行图像化记录;需要在海量的审计数据中进行人为的记录;不能对远控程序的后台访问方式进行判断和阻断;不能对相似的文件或者相同分类的文件进行识别,误判较高。
发明内容
针对上述背景技术的阐述,本发明提供一种数据流转分类管理方法和数据流转分类管理系统。
为了达到上述目的,本发明提供如下技术方案:
一种数据流转分类管理方法,包括如下步骤:
步骤一、文件识别与操作信息提取,首先通过收集用户所处行业的数据进行训练建立分类模型或关键词,根据用户行业分类,设定针对行业分类模型或关键词,对计算机中正在操作的文件通过分类模型进行分类或通过关键词匹配,若正在操作的文件属于用户所指定的分类或命中关键字,则对文件进行标记并保存该文件的特征向量,对操作标记文件的应用程序进程进行应用程序特征记录,建立应用程序特征库;对操作标记文件的应用程序进行截图,同时将该截图进行文字转换识别,识别图像中是否存在正操作的标记文件的文件名或者文件内容信息;对标记文件进行压缩时,记录标记文件的哈希值与打包、压缩后的文件的哈希值,并关联;在对标记文件进行解压缩时,如果有解压出的文件被识别为目的文件,同样记录目的文件与压缩文件的哈希值并关联,关联信息最终会保存至图型数据库,并用于流转分析,上传已标记的文件以及操作该文件的应用程序的程序特征记录、操作信息与精准截图至服务端;
步骤二、在服务器端实现文件流转识别与分析,服务器端收集已标记文件,对同一已标记文件通过哈希比对,将相似度很高的文件归类为同一文件,具体文件归类的方法为,通过标记文件的特征向量与已归类文件的中心特征向量做相似度计算,如果与某归类文件相似度大于设定的阈值就加入该类并更新该归类的中心特征向量,否则就自成一类;在对新收集的标记文件进行归类的同时,通过操作方式与操作时间信息关联新文件与历史归类文件进行关联并记录至图型数据库;选中的标记文件,通过在图型数据库中查询选中的标记文件的流转关联信息,溯源其源头以及后继流转,并以图的方式展示;
步骤三、预警,统计归类选中的标记文件在各个计算中的外发、上传、下载、拷贝、打印、刻录操作方式,对被操作的次数高的标记文件确认为高风险文件,对收集的标记文件进行分析,对访问该文件的应用程序进程信息在应用特征库中进行查询和数字签名的查询比对,如果不在应用程序特征库中,同时又访问了用户隐私位置,又进行了网络连接操作,被判定为远控程序后台访问操作进行预警。
上述技术方案中,步骤一所述应用程序特征记录包括数字签名、厂家信息、产品信息、操作方式、文件数据行为。
上述技术方案中,步骤二操作方式包括外发、上传、下载、拷贝、打印、刻录、压缩、解压缩。
本发明还公开一种使用上述技术方案的数据流转分类管理系统,包括:内容分类模块、文件内容标记模块、文件监控模块、图像处理模块、远控分析模块,网络流转分析模块;
内容分类模块用于设置数据流转分类管理系统的文件行业分类信息、根据用户设置的文件类型进行分类标记;
文件内容标记模块用于对文件的内容进行分类后的类型进行抽样计算出一个特征值;
文件监控模块用于实时监视本地文件的操作变化和内容变化,如上传、打印、拷贝、下载,压缩打包;
图像处理模块用于对宿主操作系统所有进程访问的指定的分类文件进行操作截图;
远控分类模块用于对有所有的应用程序的文件遍历操作进行分析,区分用户操作和非用户操作,防止远控程序对用户的关键的位置进行查看保护用户的隐私;
网络流转分析模块用于对所有用户制定的文件类型分类后的文件内容特征值进行关联,计算出文件的特征分布在哪些计算机中,从而生成出流转图。
首先,网络流转分析模块还用于用户设置指定的文件内容类型,也可以选择行业的文件分类方式,比如建筑类型、图纸类型、合同类型等文件内容分类方式,设置完成后系统将自动将用户设置的分类信息同步下发到网络中的各个终端计算机中;
上述技术方案中,内容分类模块还用于将对计算机中的被操作的文件内容进行采样,根据用户设置的文件内容分类信息,对终端计算机中的文件内容进行类型对比,对访问过该文件的应用程序进行数字签名记录行成一个应用特征库的采样,并记录在本计算机中的哈希数据库中提供后续的查询操作;
上述技术方案中,文件内容标记模块还用于被分类后的文件内容进行主题提取,根据内容文件的主体内容进行主题抽取,并与用户设置的文件内容分类信息进行相似对比,形成一个唯一的文件内容主体中心特征,根据该特征值追加到本计算机中的哈希数据中并同步至服务器;
上述技术方案中,文件监控模块还用于对计算机中操作的所有的文件进行判断和识别文件的操作方式,例如:外发操作、打印操作、拷贝操作、上传操作、下载操作、刻录操作、截取操作;当识别到以上行为时,将文件信息和应用程序进程信息到应用特征库进行查询,是否对用户设置的文件内容分类进行操作过,并记录追加到本计算机中的哈希数据中并同步至服务器;
上述技术方案中,图像处理模块还用于计算机中,当应用程序操作过用户设置的文件内容分类信息的文件后进行截图操作,同时将该图像进行文字转换识别,识别图像中是否存在被操作过的文件名或者文件内容信息,并将该图像回传至服务器进行记录。
上述技术方案中,远控分析模块还用于对计算机中被识别为用户设置的文件内容分类文件进行分析,对访问该文件的应用程序进程信息在应用特征库中进行查询和数字签名的查询,如果不在应用程序特征库中,同时又访问了用户隐私位置,如桌面、我的文档等位置。同时又进行了网络连接操作,将被判定为远控程序后台访问操作,并将数据信息回传至服务器进行记录。
上述技术方案中,网络流转分析模块会通过服务器根据全网的终端计算上传的数据进行综合聚合分析,通过全网终端计算中的文件内容标记模块提供的数据结果进行关联分析,再对每一个文件的操作进行关联,再通过全网终端计算中的图像处理模块上传的数据信息进行关联,再将所有分类后的文件进行全网的终端计算文件监控模块上传的数据进行关联分析,最后根据所有分类文件分布进行流转分析,如:终端计算A中的建筑类型文件被微信外发后,终端计算机B接受到该建筑类型文件,将其拷贝到U盘中,并将U盘中的建筑类型文件拷出到了C终端计算中进行打印,同时C终端计算机中的远控程序又将该建筑类型文件外发到了xx邮箱中。
上述技术方案中,网络流转分析模块还用于对全网的终端计算中分类后的文件进行文件流转结果的图形化展示,以及邮件的发送和制定文件流转的报表和报告,同时能够有效的查看到各个文件的流向情况,防止企业中的知识产权文件被流转到互联网中或者竞争对手中。有效帮助企业对各个分类文件的规范化管理和控制。
本发明的有益效果为:本发明克服了前述的现有技术中对文件流转管理的难点,不能对网络中的文件流转进行控制和管理,并需要人为审计的数据的繁琐操作,并有效的帮助企业管理企业中的知识产品文件,防止文件被远控程序外发,防止重要知识产品文件被外发到互联网中,企业能够实时有效的查看文件的流向,进行规范化管理。
而且本发明解决了传统的文件关键字匹配方法的瓶颈,能够通过文件内容的主体进行主题提取方式对文件进行中心提取,得到文件中心内容,进行分类判断。无须人为进行数据审计,即可对全网的文件进行流转查看,有效的为企业提供了文件的流向数据,以便进行规范化管理和控制,防止企业的知识产权文件被流传到互联网和竞争对手中。
具体实施方式
下面将结合本发明专利的实施例,对本发明专利的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明专利一部分实施例,而不是全部的实施例。基于本发明专利中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明专利保护的范围。
实施例所示的一种数据流转分类管理方法,包括如下步骤:
步骤一、文件识别与操作信息提取,首先通过收集用户所处行业的数据进行训练建立分类模型或关键词,根据用户行业分类,设定针对行业分类模型或关键词,对计算机中正在操作的文件通过分类模型进行分类或通过关键词匹配,若正在操作的文件属于用户所指定的分类或命中关键字,则对文件进行标记并保存该文件的特征向量,对操作标记文件的应用程序进程进行应用程序特征记录,建立应用程序特征库;对操作标记文件的应用程序进行截图,同时将该截图进行文字转换识别,识别图像中是否存在正操作的标记文件的文件名或者文件内容信息;对标记文件进行压缩时,记录标记文件的哈希值与打包、压缩后的文件的哈希值,并关联;在对标记文件进行解压缩时,如果有解压出的文件被识别为目的文件,同样记录目的文件与压缩文件的哈希值并关联,关联信息最终会保存至图型数据库,并用于流转分析,上传已标记的文件以及操作该文件的应用程序的程序特征记录、操作信息与精准截图至服务端;应用程序特征记录包括数字签名、厂家信息、产品信息、操作方式、文件数据行为,操作方式包括外发、上传、下载、拷贝、打印、刻录、压缩、解压缩。
步骤二、在服务器端实现文件流转识别与分析,服务器端收集已标记文件,对同一已标记文件通过哈希比对,将相似度很高的文件归类为同一文件,具体文件归类的方法为,通过标记文件的特征向量与已归类文件的中心特征向量做相似度计算,如果与某归类文件相似度大于设定的阈值就加入该类并更新该归类的中心特征向量,否则就自成一类;在对新收集的标记文件进行归类的同时,通过操作方式与操作时间信息关联新文件与历史归类文件进行关联并记录至图型数据库;选中的标记文件,通过在图型数据库中查询选中的标记文件的流转关联信息,溯源其源头以及后继流转,并以图的方式展示;
步骤三、预警,统计归类选中的标记文件在各个计算中的外发、上传、下载、拷贝、打印、刻录操作方式,对被操作的次数高的标记文件确认为高风险文件,对收集的标记文件进行分析,对访问该文件的应用程序进程信息在应用特征库中进行查询和数字签名的查询比对,如果不在应用程序特征库中,同时又访问了用户隐私位置,又进行了网络连接操作,被判定为远控程序后台访问操作进行预警,如:现终端计算A中有建筑类型文件,被微信外发后,终端计算机B接受到该建筑类型文件,将其拷贝到U盘中,并将U盘中的建筑类型文件拷出到了C终端计算中进行打印,同时C终端计算机中的远控程序又将该建筑类型文件外发到了“[email protected]”邮箱中,最后形成一个分类文件的网络流转关系图;如新收集文件记录的操作方式为通过微信接收,而在历史归类文件中有微信发送此文件且时间一致则将两文件通过“微信外发”进行关联并记录至图型数据库。
对此,采用数据流转分类管理系统予以实现上述的技术方案,所述数据流转分类管理系统包括:内容分类模块、文件内容标记模块、文件监控模块、图像处理模块、远控分析模块,网络流转分析模块;
内容分类模块用于设置数据流转分类管理系统的文件行业分类信息、根据用户设置的文件类型进行分类标记,内容分类模块还用于将对计算机中的被操作的文件内容进行采样,根据用户设置的文件内容分类信息,对终端计算机中的文件内容进行类型对比,对访问过该文件的应用程序进行数字签名记录行成一个应用特征库的采样,并记录在本计算机中的哈希数据库中提供后续的查询操作;
文件内容标记模块用于对文件的内容进行分类后的类型进行抽样计算出一个特征值,文件内容标记模块还用于被分类后的文件内容进行主题提取,根据内容文件的主体内容进行主题抽取,并与用户设置的文件内容分类信息进行相似对比,形成一个唯一的文件内容主体中心特征,根据该特征值追加到本计算机中的哈希数据中并同步至服务器;
文件监控模块用于实时监视本地文件的操作变化和内容变化,如上传、打印、拷贝、下载,压缩打包,文件监控模块还用于对计算机中操作的所有的文件进行判断和识别文件的操作方式,例如:外发操作、打印操作、拷贝操作、上传操作、下载操作、刻录操作、截取操作;当识别到以上行为时,将文件信息和应用程序进程信息到应用特征库进行查询,是否对用户设置的文件内容分类进行操作过,并记录追加到本计算机中的哈希数据中并同步至服务器;
图像处理模块用于对宿主操作系统所有进程访问的指定的分类文件进行操作截图,图像处理模块还用于计算机中,当应用程序操作过用户设置的文件内容分类信息的文件后进行截图操作,同时将该图像进行文字转换识别,识别图像中是否存在被操作过的文件名或者文件内容信息,并将该图像回传至服务器进行记录。
远控分类模块用于对有所有的应用程序的文件遍历操作进行分析,区分用户操作和非用户操作,防止远控程序对用户的关键的位置进行查看保护用户的隐私,远控分析模块还用于对计算机中被识别为用户设置的文件内容分类文件进行分析,对访问该文件的应用程序进程信息在应用特征库中进行查询和数字签名的查询,如果不在应用程序特征库中,同时又访问了用户隐私位置,如桌面、我的文档,等位置。同时又进行了网络连接操作,将被判定为远控程序后台访问操作,并将数据信息回传至服务器进行记录。
网络流转分析模块用于对所有用户制定的文件类型分类后的文件内容特征值进行关联,计算出文件的特征分布在哪些计算机中,从而生成出流转图,网络流转分析模块还用于用户设置指定的文件内容类型,也可以选择行业的文件分类方式,比如建筑类型、图纸类型、合同类型等文件内容分类方式,设置完成后系统将自动将用户设置的分类信息同步下发到网络中的各个终端计算机中;网络流转分析模块会通过服务器根据全网的终端计算上传的数据进行综合聚合分析,通过全网终端计算中的文件内容标记模块提供的数据结果进行关联分析,再对每一个文件的操作进行关联,再通过全网终端计算中的图像处理模块上传的数据信息进行关联,再将所有分类后的文件进行全网的终端计算文件监控模块上传的数据进行关联分析,最后根据所有分类文件分布进行流转分析,如:终端计算A中的建筑类型文件被微信外发后,终端计算机B接受到该建筑类型文件,将其拷贝到U盘中,并将U盘中的建筑类型文件拷出到了C终端计算中进行打印,同时C终端计算机中的远控程序又将该建筑类型文件外发到了xx邮箱中。网络流转分析模块还用于对全网的终端计算中分类后的文件进行文件流转结果的图形化展示,以及邮件的发送和制定文件流转的报表和报告,同时能够有效的查看到各个文件的流向情况,防止企业中的知识产权文件被流转到互联网中或者竞争对手中。有效帮助企业对各个分类文件的规范化管理和控制。
以上所述,仅为本发明专利的具体实施方式,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明专利的保护范围之内。因此,本发明专利的保护范围应所述以权利要求的保护范围为准。