一种提升多标签分类正确率的方法及系统
技术领域
本申请涉及数据分析
技术领域
,具体而言,涉及一种提升多标签分类正确率的方法及系统。背景技术
社交媒体作为互联网时代的产物,已经成为人们生活中不可或缺的一部分,用户账号作为信息的发布者和传播者,蕴藏着大量有价值的数据信息。因此对海量账号进行有针对性地识别和分类,有利于减少传统账号管理系统构建所需的人力资源和时间成本,同时也能更全面有效地获取某个领域的实时信息和动态。
现有技术一般通过获取注册用于在线信息来确定其自媒体运行数据。但是注册用于在使用的时候,可能会同时使用多个自媒体,所以是很难全面获取其完整自媒体运行数据的。因而这种自媒体运行数据的获取方法存在全面性差的技术问题。
发明内容
针对上述技术问题,本申请提供一种提升多标签分类正确率的方法及系统,能够基于用户对自媒体运营平台的使用情况来确定用户的自媒体运行数据,并基于自媒体运行数据对社交媒体用户进行标签分类,基于这种标签分类结果对社交媒体用户特征进行挖掘,能够提高挖掘信息的全面性。
一种提升多标签分类正确率的方法,包括以下步骤:
S1.获取需分类的社交媒体用户中每一个需分类的用户对多个监控自媒体运营平台的在线信息;
S2.根据每一个需分类的用户对多个监控自媒体运营平台的在线信息,获取每个所述的需分类的用户的自媒体运行数据;
S3.基于各个所述的需分类的用户的自媒体运行数据,将所述的需分类的社交媒体用户划分成多个标签分类。
优选的,S1之前,还包括以下步骤:
S0.确定主题领域;
将主题标签归属于所述的主题领域的多个自媒体运营平台确定为监控自媒体运营平台;
以及,将使用所述的监控自媒体运营平台的数量达到监控数量阈值的个体,确定为所述的需分类的用户。
进一步的,S1中所述的在线信息包括:在线时间;
S1的具体包括以下步骤:
针对每个需分类的用户,获取监控历史时间段内,所述的需分类的用户与各个监控自媒体运营平台的在线时间;
S2具体包括以下步骤:
针对每个需分类的用户,按照所述的需分类的用户与各个监控自媒体运营平台之间在线时间的先后顺序,以及每个监控自媒体运营平台的位置信息,生成所述的需分类的用户的自媒体运行数据。
优选的,S3具体包括以下步骤:
基于所述的各个需分类的用户的自媒体运行数据,对所述的需分类的社交媒体用户中的各个所述的需分类的用户进行聚类,获得多个所述的标签分类。
进一步的,S3后,还包括以下步骤:
S4.针对每个标签分类,基于所述的标签分类中所包括的各个需分类的用户对各个监控自媒体运营平台的在线次数信息,对所述的标签分类中所包括的多个需分类的用户进行分类,获得与所述的标签分类对应的至少一个子分类;
所述的在线次数信息包括:在线频次或者在线次数。
进一步的,S4具体包括以下步骤:
S41.针对每个需分类的用户,获取所述的需分类的用户与各个监控自媒体运营平台之间的在线时间;
S42.针对每个监控自媒体运营平台,统计所述的需分类的用户与所述的监控自媒体运营平台之间的在线时间落入监控历史时间段内的在线次数信息;
S43.基于所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数,对所述的标签分类中所包括的多个需分类的用户进行聚类,获得多个子分类。
优选的,S43具体包括以下步骤:
S431.基于所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数信息,建立所述的标签分类中所包括的各个需分类的用户对应的次数特征向量;
S432.使用监控的聚类算法,并基于所述的标签分类中包括的各个需分类的用户对应的次数特征向量,对所述的标签分类中所包括的所有需分类的用户进行聚类。
优选的,S431之前,还包括以下步骤:
S430.对所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数进行去干扰处理;
S431具体包括以下步骤:
基于去干扰处理的结果,建立所述的标签分类中所包括的各个需分类的用户对应的次数特征向量。
进一步的,S430具体包括以下步骤:
将所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数对数化;
所述的在线次数对数化后,小于监控阈值的监控自媒体运营平台的在线次数归零。
本发明还提供一种提升多标签分类正确率的系统,包括:
获取单元,用于获取需分类的社交媒体用户中每一个需分类的用户对多个监控自媒体运营平台的在线时间信息;
自媒体运行计算单元,用于根据每一个需分类的用户对多个监控自媒体运营平台的在线时间信息,获取每个所述的需分类的用户的自媒体运行数据;
分类单元,用于基于各个所述的需分类的用户的自媒体运行数据,将所述的需分类的社交媒体用户划分成多个标签分类。
本发明通过获取带分类社交媒体用户中每一个需分类的用户对多个监控自媒体运营平台的在线信息,来确定需分类的用户的自媒体运行数据,自媒体运营平台能够持续获得用户的在线信息,从而能够根据需分类的用户对自媒体运营平台的使用情况以及每个自媒体运营平台的主题标签,确定需分类的用户的在线信息,更加全面的在线信息来对用户群体特征进行挖掘,能够得到更全面完整的挖掘结果。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请。
实施例1
一种提升多标签分类正确率的方法,包括以下步骤:
S1.获取需分类的社交媒体用户中每一个需分类的用户对多个监控自媒体运营平台的在线信息;
S2.根据每一个需分类的用户对多个监控自媒体运营平台的在线信息,获取每个所述的需分类的用户的自媒体运行数据;
S3.基于各个所述的需分类的用户的自媒体运行数据,将所述的需分类的社交媒体用户划分成多个标签分类。
实施例2
一种提升多标签分类正确率的方法,包括以下步骤:
S0.确定主题领域;
将主题标签归属于所述的主题领域的多个自媒体运营平台确定为监控自媒体运营平台;
以及,将使用所述的监控自媒体运营平台的数量达到监控数量阈值的个体,确定为所述的需分类的用户。
S1.针对每个需分类的用户,获取监控历史时间段内,所述的需分类的用户与各个监控自媒体运营平台的在线时间;
S2.针对每个需分类的用户,按照所述的需分类的用户与各个监控自媒体运营平台之间在线时间的先后顺序,以及每个监控自媒体运营平台的位置信息,生成所述的需分类的用户的自媒体运行数据;
S3.基于各个所述的需分类的用户的自媒体运行数据,将所述的需分类的社交媒体用户划分成多个标签分类。
实施例3
一种提升多标签分类正确率的方法,包括以下步骤:
S0.确定主题领域;
将主题标签归属于所述的主题领域的多个自媒体运营平台确定为监控自媒体运营平台;
以及,将使用所述的监控自媒体运营平台的数量达到监控数量阈值的个体,确定为所述的需分类的用户。
S1.针对每个需分类的用户,获取监控历史时间段内,所述的需分类的用户与各个监控自媒体运营平台的在线时间;
S2.针对每个需分类的用户,按照所述的需分类的用户与各个监控自媒体运营平台之间在线时间的先后顺序,以及每个监控自媒体运营平台的位置信息,生成所述的需分类的用户的自媒体运行数据;
S3.基于所述的各个需分类的用户的自媒体运行数据,对所述的需分类的社交媒体用户中的各个所述的需分类的用户进行聚类,获得多个所述的标签分类。 S4.针对每个标签分类,基于所述的标签分类中所包括的各个需分类的用户对各个监控自媒体运营平台的在线次数信息,对所述的标签分类中所包括的多个需分类的用户进行分类,获得与所述的标签分类对应的至少一个子分类;
所述的在线次数信息包括:在线频次或者在线次数。
S4具体包括以下步骤:
S41.针对每个需分类的用户,获取所述的需分类的用户与各个监控自媒体运营平台之间的在线时间;
S42.针对每个监控自媒体运营平台,统计所述的需分类的用户与所述的监控自媒体运营平台之间的在线时间落入监控历史时间段内的在线次数信息;
S43.基于所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数,对所述的标签分类中所包括的多个需分类的用户进行聚类,获得多个子分类。
S43具体包括以下步骤:
S431.基于所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数信息,建立所述的标签分类中所包括的各个需分类的用户对应的次数特征向量;
S432.使用监控的聚类算法,并基于所述的标签分类中包括的各个需分类的用户对应的次数特征向量,对所述的标签分类中所包括的所有需分类的用户进行聚类。
实施例4
在实施例3的基础上,S431之前,还包括以下步骤:
S430.对所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数进行去干扰处理;
S430具体包括以下步骤:
将所述的标签分类中所包括的各个需分类的用户与各个监控自媒体运营平台的在线次数对数化;
所述的在线次数对数化后,小于监控阈值的监控自媒体运营平台的在线次数归零。
S431具体包括以下步骤:
基于去干扰处理的结果,建立所述的标签分类中所包括的各个需分类的用户对应的次数特征向量。
实施例5
提供一种提升多标签分类正确率的系统,包括:
获取单元,用于获取需分类的社交媒体用户中每一个需分类的用户对多个监控自媒体运营平台的在线时间信息;
自媒体运行计算单元,用于根据每一个需分类的用户对多个监控自媒体运营平台的在线时间信息,获取每个所述的需分类的用户的自媒体运行数据;
分类单元,用于基于各个所述的需分类的用户的自媒体运行数据,将所述的需分类的社交媒体用户划分成多个标签分类。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何标记视为限制所涉及的权利要求。