当前位置:聪少自媒体网 > 微博 > 正文

微博水军识别方法与设备的制作方法

2020-10-06 微博 聪少自媒体

专利名称:微博水军识别方法与设备的制作方法

技术领域:

本发明涉及网络数据分析,尤其涉及识别微博平台中水军的方法。

背景技术:

微博作为一种新的社交媒体普及率越来越高。微博这一平台为大众提供了信息发布与获取的共享平台,用户可以随时随地记录和分享学习、工作、生活的各个方面。内容发布的便利性、及时性、丰富性,信息传播的便捷性、时效性、扩展性,为用户信息获取、信息传播、营销等提供了很好的平台,这也促使更多的个人用户、企业用户,甚至是政府部门和政府官员加入到这个平台中来,而他们的加入进一步丰富了系统的用户和内容,微博平台的价值日益凸显。正是这个平台的巨大价值使得很多的用户花费很多时间和精力来提高自己在这个平台的影响力或者充分利用这个平台提供的资源。然而也有一些用户,既包括个人用户、企业用户,也包括一些政府或者组织的用户雇佣水军来达到自己特定的目的。而且微博上用户的行为较之其它平台也更加的复杂,如有的用户是一个正常用户但是可能临时被雇佣来为某用户的微博造势,对该微博进行转发或者评论。由于微博平台作为一种新的社交网络出现的时间还不长,水军问题还没有得到应有的重视,还缺乏有效的水军识别方法。微博水军有两种,一种是指由机器人或者真正的人操纵的账号,这些账号用来给系统中某用户增加粉丝(俗称僵尸粉),另一种是指由机器算法操纵或者由其它的用户来操纵为他人转发评论造势的微博账户。在微博平台中一些用户尤其是名人用户,其影响力或者在系统中被推荐给其它用户的概率、或者在系统中曝光的频率,与其粉丝的数量有很大的关系,与其微博在平台中被转发和评论的次数也有很大的关系。因此一些用户就通过购买水军为其粉丝、通过雇佣水军对其微博进行转发和评论的方式来增加个人在平台的影响力或者排名。通过判定一个用户是否是水军,可以识别系统中用户的粉丝中真实用户的数量,从而可以帮助判定一个用户的真正的影响力,从而在系统的用户推荐等部分做出更合理的判断。

`

用户为了增加自己在平台的影响力而雇佣水军为其粉丝或者转发评论其微博对平台系统产生了一些负面的影响。还有两种情况可能比这种情况对系统的影响更大,甚至有时候误导平台的用户。一种情况是系统中的用户,包括个人用户、企业用户、组织等,发布了一条微博,然后雇佣水军对该微博进行转发和评论,从而达到某种宣传或者炒作的效果。另一种情况是雇佣水军对竞争对手的微博进行恶意评论,诋毁竞争对手,或者制造一些虚假信息雇佣水军来进行转发、评论来欺骗或者煽动群众。这两种情况对系统中的用户来讲,有可能被一些虚假信息蒙蔽或者对假信息信以为真,对微博平台来讲有可能需要更多地存储、计算等资源,甚至影响到平台上用户的体验造成用户的流失,对社会来讲有可能舆论会受到微博平台的影响,从而影响更多的人。传统的网络水军识别的方法主要针对论坛、博客等平台来进行,而且大部分是根据用户的帖子的内容如情感性倾向等来进行。而微博平台与其它的很多平台相比有很大的不同之处,首先用户在微博上的信息更加公开化,其次用户微博的内容被限制为140个字符采用传统的语义分析的方法行不通,最后微博水军的定义更加模糊,用户可能只是在某条微博的转发评论中表现出水军的性质。因此,亟需一种在微博平台中进行水军识别的方法。

发明内容

因此,本发明的目的在于克服上述现有技术的缺陷,提供针对单个用户的微博水军识别方法以及针对一条微博的转发和评论情况对转发用户和评论用户进行水军识别的方法。本发明的目的是通过以下技术方案实现的:一方面,本发明提供了一种针对单个用户的微博水军识别方法,该方法包括:步骤I)对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;步骤2)根据该用户在微博平台上的成本来判断该用户是否为水军;其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。上述方法中,用户在微博平台上的成本可包括管理成本、曝光成本、社交成本和/或微博成本;用户的管理成本表示该用户在微博平台中花费的时间和精力;用户的曝光成本表示用户暴露在微博平台中的信息的透明程度;用户的社交成本表示用户在微博平台中的人脉资源信息;微博成本表示用户在平台中发布信息、转发信息等所花费的成本。上述方法中,所述管理成本可以以用户账号中的收藏数量、用户等级、用户账号中标签的数量、和/或用户账号的注册时长来表征。上述方法中,所述曝光成本可以以用户账号中地理位置信息、用户账号中自我描述的信息、用户账号链接信息和/或用户账号认证信息来表征。上述方法中,所述社交成本可以以用户的粉丝数量、用户的关注数量、用户的互粉数量和/或与其它用户的交互比率来表征,其中,与其它用户的交互比率为N1/N2,NI为用户评论或回复其它用户的微博的数量,而N2为被该用户评论或者回复的用户数量。上述方法中,所述微博成本可以以用户发布的微博数量与粉丝数量的比率、用户发布微博的规律性、发布微博与转发微博的比率和/或转发其它用户的比率来表征,其中用户发布微博的规律性以用户最近的几个周期的方差来表征。上述方法中,还可包括确定用于评估用户在微博平台中的成本的用户属性的步骤,以及所述步骤I)可包括:对于待识别的微博用户,从微博平台采集所确定的用户属性信息;基于所采集的用户属性信息评估该用户在微博平台上的成本。又一方面,本发明还提供了一种微博水军识别方法,包括:步骤I)对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容;步骤2)采用上述针对单个用户的微博水军方法对转发该微博的用户和/或评论该微博的用户进行水军识别。其中,所述步骤2)还可包括:如果判断转发该微博的用户不是水军,则比较该用户转发该微博的次数与预定的转发次数阈值的大小,如果用户转发该微博的次数大于等于该转发次数阈值那么判定用户是水军。所述步骤2)还可包括:如果判断评论该微博的用户不是水军,则比较该用户评论该微博的次数与预定的评论次数阈值的大小,如果用户评论该微博的次数大于等于该评论次数阈值那么判定用户是水车。又一方面,本发明还提供了一种微博水军识别方法,该方法包括:步骤I)对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;步骤2)基于用户评论相似性来判断评论该微博的用户是否为水军。其中,所述步骤2)可包括:步骤a)统计评论该微博的各个用户对该微博的评论次数和评论内容;步骤b)根据用户评论内容的相似度对评论进行分组;步骤c)对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。其中,所述步骤b)可包括:对于该微博的每条评论进行如下处理:计算该评论与其它所有评论的相似性,找出该评论与其它评论的相似性最大值;判断该相似性最大值是否大于等于预定的相似性阈值,如果是,则将该评论加入到与该相似性最大值所对应的评论所在的分组。其中,所述步骤c)可包括:步骤Cl)对于每个分组内评论所属的用户,采用如上述的针对单个用户的微博水军识别方法来判断该用户是否为水军;步骤c2)计算该分组内的水军用户所占的比例,该比例等于该分组内被判定为水军的用户的数量与该分组内评论所属的用户总数的比值;步骤c3)如果该分组中水军的比例超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。其中,所述步骤c3)还可包括:如果该分组中水军的比例小于设定的阈值,则将该分组中未判为水军的每个用户按照评论次数与预定的评论次数阈值作比较,如果大于等于评论次数阈值,则判定该用户为水军,否则判定该用户不是水军,然后重新计算该分组内的水军用户所占比例,并将该比例与设定的阈值进行比较,如果超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。又一方面,本发明还提供了一种针对单个用户的微博水军识别设备,该设备包括:用户成本计算装置,其对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;和单用户水军判别装置,其根据该用户在微博平台上的成本来判断该用户是否为水军;其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。又一个方面,本发明还提供了一种微博水军识别设备,该设备包括:信息获取装置,用于对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容;上述的针对单个用户的微博水军识别设备,用于对转发该微博的用户和/或评论该微博的用户进行水军识别。又一方面,本发明还提供了一种微博水军识别设备,该设备包括:信息获取装置,其对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容;判别装置,其基于用户评论相似性来判断评论该微博的用户是否为水军。其中,所述判别装置可被配置为执行:统计评论该微博的各个用户对该微博的评论次数和评论内容;根据用户评论内容的相似度对评论进行分组;对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。与现有技术相比,本发明的优点在于:提供了用于识别微博平台中的水军的行之有效的方法,针对微博平台中水军用户出现的两种场景:作为独立用户出现和针对一条微博的转发、评论出现两种,分别提供了相应的识别方法。此外,针对评论用户的水军识别,提出针对用户评论的相似性来进行,对水军尤其是团伙水军能够有效识别。

以下参照附图对本发明实施例作进一步说明,其中:图1为根据本发明实施例的微博水军识别方法的流程示意图;图2为根据本发明一个实施例的微博水军识别设备对单用户进行识别的过程示意图;图3为根据本发明一个实施例的微博水军识别设备对转发和评论微博的用户进行识别的过程示意图;图4为根据本发明又一个实施例的微博水军识别设备对转发用户进行水军识别的过程示意图;图5为根据本发明又一个实施例的微博水军识别设备对评论用户进行水军识别的过程示意图;图6为根据本发明又一个实施例的微博水军识别设备基于单个用户水军识别方法对评论用户进行水军识别的过程示意图;图7为根据本发明又一个实施例的微博水军识别设备基于评论相似性的对评论用户进行水军识别的过程示意图;图8为根据本发明又一个实施例的微博水军识别设备的操作流程示意图;图9为根据本发明又一个实施例的水军用户和正常用户在微博平台上的成本对比示意图。

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在本发明的一个实施例中,提供了 一种在微博平台中单用户水军识别的方法,该方法针对单个用户,利用该用户在微博平台(下文中有时也简称为平台)上的成本来判断该用户是否为水军。用于评估用户在微博平台上的成本的相关信息可包括用户在微博平台中的注册行为及相关信息、用户在微博平台上的社交行为及相关信息,用户在微博平台中的发布微博、转发微博、评论微博等行为及相关信息。该方法主要包括以下步骤:步骤1,对于待识别的微博用户,根据在微博平台中采集的与该用户相关的信息,评估该用户在微博平台中的成本;步骤2,根据该用户在微博平台的成本来判断该用户是否为水军。例如将该用户在微博平台中的成本与水军判定阈值相比较,如果大于水军判定阈值,则判定该用户不是水军;如果小于水军判定阈值,则判定该用户为水军。在一个实施例中,用户在微博平台中的成本可包括管理成本、曝光成本、社交成本、微博成本等等。(I)用户的管理成本用户的管理成本表示该用户在微博平台中花费的时间、精力等,管理成本可以用户账号中的收藏数量、用户等级、用户账号中标签的数量、用户账号的注册时长等来表征(这些统称为管理成本特征)。(2)用户的曝光成本用户的曝光成本表示用户暴露在微博平台中的信息的透明程度,反映了用户对微博平台的信任与热爱,曝光成本可以用户账号中地理位置信息、用户账号中自我描述的信息、用户账号链接信息、用户账号认证信息等来表征(这些统称为曝光成本特征)。(3)用户的社交成本用户的社交成本表示用户在微博平台中的人脉资源等信息,一定程度上反映着用户在现实中的社交关系,代表着用户愿意在该微博平台中花费多大精力和时间等信息,社交成本可以粉丝数量、用户的关注数量、用户的互粉数量、与其它用户的交互比率(可简称为交互比率)等来表征(这些统称为社交成本特征)。其中,与其它用户的交互比率为N1/N2,NI为用户评论或回复其它用户的微博的数量,而N2为被该用户评论或者回复的用户数量。(4)用户的微博成本微博成本表示用户在平台中发布信息、转发信息等所花费的成本,微博成本可以用户发布的微博数量与粉丝数量的比率(可简称为微博粉丝比)、用户发布微博的规律性、发布微博与转发微博的比率、转发其它用户的比率等来表征(这些统称为微博成本特征)。其中,用户发布微博的规律性可以以用户最近的N个周期的方差来表征,例如,以时间T为周期,计算用户发布微博的数量,之后计算用户最近的N个周期内发布微博的数量的方差。举例来说:用户最近5个周期发布的微博数量分别为(3,6,I, 5,0),那么该用户在最近5个周期的方差为3.4,那么就用3.4代表用户发布微博的规律性。用户转发其它用户的比率为N1/N2,N1为用户的转发微博数,N2为用户转发微博所属的用户数。也就是说,NI为用户转发其它用户的微博数量,那么用户转发的这些微博可能有多条属于同一个用户发表的,统计用户转发的这些微博中的独立用户数量即N2。上述的用户的管理成本特征、曝光成本特征、社交成本特征、微博成本特征可以通过表1所示的属性索引表和表2所示的用户特征表来描述。表权利要求

1.一种微博水军识别方法,该方法包括: 步骤I)对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本; 步骤2)根据该用户在微博平台上的成本来判断该用户是否为水军; 其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。

2.根据权利要求1所述的方法,其中,用户在微博平台上的成本包括管理成本、曝光成本、社交成本和/或微博成本; 用户的管理成本表示该用户在微博平台中花费的时间和精力;用户的曝光成本表示用户暴露在微博平台中的信息的透明程度;用户的社交成本表示用户在微博平台中的人脉资源信息;微博成本表示用户在平台中发布信息、转发信息等所花费的成本。

3.根据权利要求2所述的方法,所述管理成本以用户账号中的收藏数量、用户等级、用户账号中标签的数量、和/或用户账号的注册时长来表征。

4.根据权利要求2所述的方法,所述曝光成本以用户账号中地理位置信息、用户账号中自我描述的信息、用户账号链接信息和/或用户账号认证信息来表征。

5.根据权利要求2所述的方法,所述社交成本以用户的粉丝数量、用户的关注数量、用户的互粉数量和/或与其它用户的交互比率来表征,其中,与其它用户的交互比率为NI/N2,N1为用户评论或回复其它用户的微博的数量,而N2为被该用户评论或者回复的用户数量。

6.根据权利要求2所述的方法,所述微博成本以用户发布的微博数量与粉丝数量的比率、用户发布微博的规律性、发布微博与转发微博的比率和/或转发其它用户的比率来表征,其中用户发布微博的规律性以用户最近的几个周期的方差来表征。

7.根据权利要求1所述的方法,还包括确定用于评估用户在微博平台中的成本的用户属性的步骤,以及所述步骤I)包括: 对于待识别的微博用户,从微博平台采集所确定的用户属性信息; 基于所采集的用户属性信息评估该用户在微博平台上的成本。

8.一种微博水军识别方法,该方法包括: 步骤I)对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容; 步骤2)采用如权利要求1-7任一项所述的方法对转发该微博的用户和/或评论该微博的用户进行水军识别。

9.根据权利要求8所述的方法,所述步骤2)还包括: 如果采用如权利要求1-7任一项所述的方法判断转发该微博的用户不是水军,则比较该用户转发该微博的次数与预定的转发次数阈值的大小,如果用户转发该微博的次数大于等于该转发次数阈值那么判定用户是水军。

10.根据权利要求8所述的方法,所述步骤2)还包括: 如果采用如权利要求1-7任一项所述的方法判断评论该微博的用户不是水军,则比较该用户评论该微博的次数与预定的评论次数阈值的大小,如果用户评论该微博的次数大于等于该评论次数阈值那么判定用户是水军。

11.一种微博水军识别方法,该方法包括: 步骤I)对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容; 步骤2)基于用户评论相似性来判断评论该微博的用户是否为水军。

12.根据权利要求11所述的方法,所述步骤2)包括: 步骤a)统计评论该微博的各个用户对该微博的评论次数和评论内容; 步骤b)根据用户评论内容的相似度对评论进行分组; 步骤c)对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看作水军。

13.根据权利要求12所述的方法,所述步骤b)包括: 对于该微博的每条评论进行如下处理: 计算该评论与其它所有评论的相似性,找出该评论与其它评论的相似性最大值;判断该相似性最大值是否大于等于预定的相似性阈值,如果是,则将该评论加入到与该相似性最大值所对应的评论所在的分组。

14.根据权利要求12所述的方法,所述步骤c)包括: 步骤Cl)对于每个分组内评论所属的用户,采用如权利要求1-7任一项所述的方法来判断该用户是否为水军; 步骤c2)计算该分组内的水军用户所占的比例,该比例等于该分组内被判定为水军的用户的数量与该分组内评论所属的用户总数的比值; 步骤c3)如果该分组中水军的比例超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。

15.根据权利要求14所述的方法,所述步骤c3)还包括: 如果该分组中水军的比例小于设定的阈值,则将该分组中未判为水军的每个用户按照评论次数与预定的评论次数阈值作比较,如果大于等于评论次数阈值,则判定该用户为水军,否则判定该用户不是水军,然后重新计算该分组内的水军用户所占比例,并将该比例与设定的阈值进行比较,如果超过了设定的阈值,则判定该分组为水军分组,该水军分组内的所有用户都被判定为水军。

16.一种微博水军识别设备,该设备包括: 用户成本计算装置,其对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本; 单用户水军判别装置,其根据该用户在微博平台上的成本来判断该用户是否为水军;其中,与微博用户相关的信息包括该微博用户在微博平台中的注册行为及相关信息、该微博用户在微博平台上的社交行为及相关信息,该微博用户在微博平台中的发布微博、转发微博、评论微博行为及相关信息。

17.根据权利要求16所述的设备,其中,用户在微博平台上的成本包括管理成本、曝光成本、社交成本和/或微博成本; 用户的管理成本表示该用户在微博平台中花费的时间和精力;用户的曝光成本表示用户暴露在微博平台中的信息的透明程度;用户的社交成本表示用户在微博平台中的人脉资源信息;微博成本表示用户在平台中发布信息、转发信息等所花费的成本。

18.一种微博水军识别设备,该设备包括: 信息获取装置,用于对于待处理的微博,获取与转发该微博的用户相关的信息、和/或与评论该微博的用户相关的信息以及用户评论的内容; 如权利要求16或17的设备,用于对转发该微博的用户和/或评论该微博的用户进行水军识别。

19.一种微博水军识别设备,该设备包括: 信息获取装置,其对于待处理的微博,获取与评论该微博的用户相关的信息以及用户评论的内容; 判别装置,其基于用户评论相似性来判断评论该微博的用户是否为水军。

20.根据权利要求19所述的设备,所述判别装置被配置为执行: 统计评论该微博的各个用户对该微博的评论次数和评论内容; 根据用户评论内容的相似度对评论进行分组; 对于每个分组判断其是否为水军分组,如果某个分组被判定为水军分组,那么该组所有的评论对应的用户都被看 作水军。

全文摘要

本发明提供用于微博平台的水军识别方法及设备,包括单个用户水军识别和一条微博的转发、评论用户水军识别。单个用户的识别过程为,对于待识别的微博用户,基于从微博平台采集的与该微博用户相关的信息评估该用户在微博平台上的成本;然后根据该用户在微博平台上的成本来判断该用户是否为水军。一条微博的转发、评论用户的识别过程主要基于单个用户水军识别,但是对评论用户增加了基于用户评论相似性进行识别的方法。该方法能有效地识别微博平台中的水军用户。而且基于用户评论的相似性的识别,更能能够有效识别团伙水军。

文档编号G06F17/30GK103198161SQ20131015437

公开日2013年7月10日 申请日期2013年4月28日 优先权日2013年4月28日

发明者张国清, 边建功, 傅川, 李彦君 申请人:中国科学院计算技术研究所

聪少爱学堂聪少
聪少爱学堂创始人,梅州市鹏鑫网络科技有限公司CEO,09年开始踏入互联网,10年互联网行业经验,资深自媒体人,自媒体优秀导师,咪挺微商团对营销引流顾问,业务包含:精准引流技术/代引流精准粉,专业小红书,知乎,微博代运营。
  • 38988文章总数
  • 1491136访问次数
  • 建站天数
  • 合作伙伴