新浪微博CTO:使用阿里云让新浪微博至少节省了1400台服务器
在6月29日的云栖大会·成都峰会上,新浪微博首席技术官刘子正分享道:“今年春节,微博使用了阿里云的计算服务,至少减少了对1400台服务器的购买,支撑了用户182亿次阅读量和8亿次红包领取。”
猴年除夕,微博通过阿里云的VPC服务,搭建起了一个社交媒体云混合架构。运用到这一历经双11全球规模考验的混合云,微博可以结合实时数据对预估峰值进行动态调整。除夕当晚,微博利用云服务器ECS和CDN,实现了从提前扩容到实时扩容的服务器升级,大幅度提升图片和视频的打开速度。此外,在除夕流量高峰过去后,又将计算资源快速释放掉,避免了高峰期后的闲置浪费。
刘子正介绍道:“作为中国最大的社会化媒体平台,微博具有用户数据大、数据类型多、用户数据流动快的三大特点。”一条Papi酱的短视频甚至可以在两个小时内达到一千万用户的播放量。
数据统计显示,在过去一年中,微博的用户正从一线城市向三、四线城市下沉,而95后用户的大量加入也为微博内容提供了更年轻的基因。以Papi酱为代表的网红崛起和短视频内容的升温,带来了微博用户类型的丰富性,用户关注的内容也随着群体的不同特征出现了更明显的垂直化和细分化。
“早期微博以名人和大V为主,然而随着用户眼球的逐渐分散,网红吸引了各自指向的目标用户。” 刘子正说,“微博已经成为了网红孵化的第一平台,网红的商业价值比肩娱乐明星,经济体量也不断攀升。”
随着微博信息量的不断爆发和信息类型的不断丰富,阿里云正在为微博提供扎实的基础设施服务。
刘子正介绍,目前微博采用了阿里云的CDN内容分发服务,占微博CDN总服务的一半,极大改善了用户图片视频的访问体验。微博还采用了阿里云的对象存储OSS,降低了存储成本,提供了丰富的图片处理能力。而阿里云的大数据计算服务MaxCompute也为微博提供了海量日志的存储能力。
除此之外,随着微博上图片和文字内容的爆发式增长,阿里云的内容检测服务也保障了微博的业务安全。本文转自d1net(转载)
文章
存储 · CDN · 对象存储 · 云栖大会 · BI · 弹性计算 · 分布式计算 · MaxCompute · 安全 · 双11
2017-07-03
云场景实践研究第64期:新浪微博
更多云场景实践研究案例,点击这里:【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
在6月29日的云栖大会·成都峰会上,新浪微博首席技术官刘子正分享道:“今年春节,微博使用了阿里云的计算服务,至少减少了对1400台服务器的购买,支撑了用户182亿次阅读量和8亿次红包领取。” 猴年除夕,微博通过阿里云的VPC服务,搭建起了一个社交媒体云混合架构。?
“今年春节,微博使用了阿里云的计算服务,至少减少了对1400台服务器的购买,支撑了用户182亿次阅读量和8亿次红包领取。”
——刘子正
新浪微博首席技术官
采用的阿里云产品
阿里云专有网络 VPC
阿里云云服务器 ECS
阿里云 CDN
阿里云对象存储 OSS
阿里云 MaxCompute
为什么使用阿里云
避免了高峰期后的闲置浪费;为微博提供扎实的基础设施服务;降低了存储成本,提供了丰富的图片处理能力;为微博提供了海量日志的存储能力;阿里云的内容检测服务也保障了微博的业务安全
关于?新浪微博
微博是一个由新浪网推出,提供微型博客服务类的社交网站。用户可以通过网页、WAP页面、手机客户端、手机短信、彩信发布消息或上传图片。新浪可以把微博理解为“微型博客”或者“一句话博客”。用户可以将看到的、听到的、想到的事情写成一句话,或发一张图片,通过电脑或者手机随时随地分享给朋友,一起分享、讨论;还可以关注朋友,即时看到朋友们发布的信息。
为什么选择阿里云?
猴年除夕,微博通过阿里云的VPC服务,搭建起了一个社交媒体云混合架构。运用到这一历经双11全球规模考验的混合云,微博可以结合实时数据对预估峰值进行动态调整。
数据统计显示,在过去一年中,微博的用户正从一线城市向三、四线城市下沉,而95后用户的大量加入也为微博内容提供了更年轻的基因。以Papi酱为代表的网红崛起和短视频内容的升温,带来了微博用户类型的丰富性,用户关注的内容也随着群体的不同特征出现了更明显的垂直化和细分化。
“早期微博以名人和大V为主,然而随着用户眼球的逐渐分散,网红吸引了各自指向的目标用户。” 刘子正说,“微博已经成为了网红孵化的第一平台,网红的商业价值比肩娱乐明星,经济体量也不断攀升。”
刘子正介绍,目前微博采用了阿里云的CDN内容分发服务,占微博CDN总服务的一半,极大改善了用户图片视频的访问体验。微博还采用了阿里云的对象存储OSS,降低了存储成本,提供了丰富的图片处理能力。而阿里云的大数据计算服务MaxCompute也为微博提供了海量日志的存储能力。
除此之外,随着微博上图片和文字内容的爆发式增长,阿里云的内容检测服务也保障了微博的业务安全。
拥抱阿里云所带来的成效
除夕当晚,微博利用云服务器ECS和CDN,实现了从提前扩容到实时扩容的服务器升级,大幅度提升图片和视频的打开速度。此外,在除夕流量高峰过去后,又将计算资源快速释放掉,避免了高峰期后的闲置浪费。
随着微博信息量的不断爆发和信息类型的不断丰富,阿里云正在为微博提供扎实的基础设施服务。
微博还采用了阿里云的对象存储OSS,降低了存储成本,提供了丰富的图片处理能力。而阿里云的大数据计算服务MaxCompute也为微博提供了海量日志的存储能力。
除此之外,随着微博上图片和文字内容的爆发式增长,阿里云的内容检测服务也保障了微博的业务安全。
关于新浪微博的更多实践详情:新浪微博CTO:使用阿里云让新浪微博至少节省了1400台服务器
原文发布日期:2017-07-03
云栖社区场景研究小组成员:沈金凤,仲浩。
文章
存储 · 监控 · 大数据 · 对象存储 · CDN
2018-02-08
2014年微博用户发展报告(44PPT)
据2014年微博发布的第三季度财报中显示,截止2014年9月30日,微博月活跃用户数(MAU)已经达到1.67亿人,较上年同期增长36%;9月的日均活跃用户数(DAU)为7660万,较上年同期增长30%;
根据《第 34 次中国互联网络収展状况统计报告》中数据显示,截至 2014 年 6 月,我国网民规模达 6.32 亿,我国手机网民规模达 5.27 亿。国内互联网网民数量,特别是手机网民数量得到了进一步增长。对比网民整体数据增长水平来看,微博平台下的用户增长率保持了较高的水平;
随着微博V6版本的推出,构建在微博平台上的各类应用功能以及应用场景不断丰富,微博用户的社交需求得到了进一步的满足。同时,随着移劢端的迅猛収展,各种信息在微博平台下得以迅速传播扩散,微博的媒体价值得到了极大的凸显;鉴于此,微博数据中心特整理2014年微博用户发展报告,诠释微博用户整体収展状况,从宏观上解读微博用户的行为特性。
名词解释
影响力:影响力来源于新浪微博数据中心的“微数据”产品,是根据活跃粉丝数、収布博文数、被转収数、被评论数等关键指标经过一系列计算得出的数值,是用来反映单个账号运营水平及用户反响的指标。
关于更详细的影响力指标请点击: http://mydata.weibo.com/
短链分享量:某一网站的短链分享量是指,包含该网站域名短链的博文数量。
短链点击量:某一网站的短链点击量指,用户点击该网站短链的次数。
回流比:某一网站的回流比计算斱法为 回流比=该网站的短链点击量/该网站的短链分享量。
提及度:提及度是指某个关键词在博文和转収博文中的提及次数。
搜索数:搜索量指微博用户在微博搜索中检索关键词的次数。
数据产品地址
微数据访问地址:http://mydata.weibo.com
风云榜访问地址:http://top.weibo.com
微指数访问地址:http://index.weibo.com
微报告访问地址:http://data.weibo.com/report
补充《艾瑞咨询:2013年中国微博用户行为研究》供大家参考
微博App端女性用户比重更高,25-30岁的年轻人更青睐于App端
用户使用的网络服务中,微博占比达70%
微博相对其他网络服务,更具时效性和便捷性,用户能够随时随地分享与获取信息,并且可以和好友进行很好地互动,因此更受用户青睐。
超六成用户参与过微博热门话题讨论
微博平台向普通用户开放话题申请与主持权,提高了用户积极参与话题讨论的热情;热门电视节目宣传与企业营销活动常常采用话题形式,引导用户积极参与话题讨论;另外,社会热点事件成为微博的重要话题内容,吸引大批用户进行讨论。
优惠抽奖活动成为用户点击图片广告的主要原因
因此,为了更好地吸引用户,微博图片广告投放时可以增加优惠、抽奖活动,提高广告投放的精准性以及采用优质图片来吸引用户。
近半数微博用户会通过微博链接进入网购网站
2013年,有近半数微博用户会通过微博链接进入网购网站进行网购,可见,微博已经成为电商网站(尤其淘宝)的导流入口之一。
原文发布时间为:2015-01-28
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
文章
新零售 · 大数据 · 数据中心
2017-05-02
新浪微博+央视索福瑞:传媒界内部的大数据合作
2014年1月,新浪微博与央视-索福瑞媒介研究有限公司(CSM)达成战略合作,将共同推出微博收视指数,为电视媒体从社会化传播的维度开展节目评估、营销传播提供标准化分析工具。
本次“新浪”和“央视”的携手,被看作传媒行业内部以大数据为桥梁达成的首次合作。
CSM与新浪微博的战略合作将基于双方的优势资源,围绕新浪微博讨论数据,推出微博收视指数等标准化产品,结合电视节目收视数据,为电视媒体业界全面、深入地分析电视节目的社交化传播效果及全媒体传播整合效果提供定量的数据支持。
这是国内数据研究机构第一次从收视率和社会化媒体传播的角度来重新评估电视节目。社交与电视为什么能够走到一起?新浪微博和CSM此举将开拓出怎样一番新天地?
首先把社交和电视融合在一起的是观众
电视节目与新浪微博这样的社交网络的交融,根源在于观众行为习惯的变迁。
智能手机迅速普及,边看电视边微博已成常态。业内人士调侃“观众一边看电视,一边拿着手机刷微博,就算给面子了!”央视-索福瑞2013年在北上广深四城市开展的基础研究数据证明了这一趋势,在社交平台上发表对电视节目见解的观众中,过半观众使用的是微博。
另外,电视节目收视渠道开始复杂化,普通用户越来越多地通过PC、手机/平板等非电视渠道观看节目。
观众 “发现节目”方式也越发多样,传统的口碑传播日渐让位于微博上的社交传播。越来越多观众是因为看到微博上好友和大V对节目的讨论和评价,因而才打开电视。社交网络上话题的火热度不只是电视节目受欢迎度的被动反映,它同样能够带动收视率。
国外最新的研究已经证明了这种相关性:
Twitter信息量与收视率显著正相关,在18-34岁观众中, Twitter 上的讨论增长8.5%意味着收视率1%聚集,二轮剧集Twitter讨论量4.2%收视率1%增长。
新浪微博、央视-索福瑞联合发布的《2013季播型电视综艺节目收视与微博讨论研究白皮书》中显示,《快乐男声》的微博讨论量在“V神计划”(促进社交媒体讨论为主的传播方案)启动后的一周内飙升近一倍,收视率也随之迎来开播后的第一个高峰。
在这种电视节目观众行为习惯急剧变迁的时代,在收视率之外,需要补充新的指标以实现全面评估电视节目的传播效果以及与之相关的广告传播效果,对社交数据的挖掘势在必行。
电视方越来越重视社交化媒体,却苦于数据缺失
对于电视节目制作和推广来说,社交网络成为必争之地。不管是凤凰女主播低头查看微博播新闻,还是13年快乐男声和中国好声音的“微博战”。 中央台总编室市场评估部主任徐立军表示,互联网元素、可以分享的社会话题和广泛互动应该成中国电视节目制作的标配,节目从设计之初就要考虑社交化媒体。
微博正在变成电视节目最重要的推广渠道之一,并且它深化并丰富了电视节目。新浪微博运营总监董文俊先生表示,电视节目其实变成了社交网络媒体新话题制造点。播出期间是边看边聊,播出之后变成用户自发寻找一些亮点,展开讨论。好电视会拉动整个微博上用户积极参与讨论。《爸爸去哪儿》就是典型,像张亮在微博制造很多新的话题,这些是电视节目本身所不具备的,是节目发生之后延展出来的,他变成节目一部分,也在催化节目的火爆,同时纳入整个微博用户活跃。
然而目前电视节目制作/传播方的实践,依然有很大的局限性。
一方面是团队局限,节目组有自己负责微博传播的小团队,更高的层面,上升到全台却没有相应的组织架构。
更尴尬的则是数据缺失。过去一年的确产生了一些精彩的台网联动案例,可是案例背后却缺乏权威、有效、连续性的数据支撑。更多的电视节目在做社交媒体上的传播,可是效果却无法量化反馈,定量分析尚且缺失,更遑论对微博上的用户舆论风向进行定性分析。
这时候就需要专业机构提供专业支持,新浪微博和CSM就是最合适做这件事情的机构。
为什么是微博?为什么是央视-索福瑞?
为什么是微博?
答案非常简单:微博是国内最热的公共社交平台,观众在微博讨论、节目在微博推广、数据在微博产生。
微博与电视有天然的亲和性。电视节目是其内容重要的组成部分,电视观众与微博用户群体之间存在高度重合。某种程度上来说,互联网公司都是想让更多人不看电视。新浪高级副总裁、微博事业部总经理王高飞先生却直呼:微博希望越来越多人打开电视机看电视。
为什么是央视-索福瑞(CSM)?
CSM是国内最具权威性的广播电视视听率专业调查机构。自1997年成立以来,CSM视听率数据一直被公认为广播电视市场的通用货币。
半年前,央视-索福瑞的外方母公司Kantar Media与Twitter在欧洲已开展了社交电视数据挖掘的战略合作。
微博拥有海量的数据金矿,CSM具备电视业界强大的调研和分析能力。社交与电视,必须在一起!
2014,循序渐进的产品演化
官方介绍称CSM与新浪微博基本产品分三个方向。
2014年的重点是微博收视指数。该指数参照国际通行标准,对新浪微博上关于电视节目的讨论量及用户规模等进行规范化统计分析,为电视节目在微博上的传播、营销与评估提供更有效的、系统化、标准化数据支持。微博整理切分大数据,提交给CSM进一步分析。目前双方已经成立联合的项目组。2014年除发表季度白皮书之外,还会由CSM落实到高可用性的商业化产品层面来服务电视制作方和广告主。
除此之外,第二合作点就是一个统一化的软件分析平台,其中包括微博收视指数查询分析软件,该软件能够容纳现有收视率指标,又能每天持续为各电视台提供栏目前一天的微博量,在指标上与现有的电视收视数据能够有接口,同时导出来的所有微博数据能够与电视收视率数据很容易地结合起来,便电视台分析。
第三就是微博和CSM双方会持续、深入的研究电视节目之间相互影响的机制,我们现有的数据够得出结论,电视节目的播出和微博讨论行为之间穿在互动性。这种互动关系什么样,通过什么样机制来产生,需要进一步的研究。
社交电视是微博潜力巨大的商业化方向
2013年最受瞩目的科技动态莫过于Twitter超高估值上市,就在Twitter IPO招股书中,“电视”一次被提起不下40次。投资人看好Twitter 在社交化电视方面的前景,构成了Twitter高股价的支柱之一。有趣的是,虽然在整体社交市场上,Twitter 不如Facebook,但在社交电视领域,Twitter 却是十足的霸主。Facebook 只能苦苦追赶。
微博和Twitter 作为孪生兄弟,虽有国情差别,但双方之间的产品演进具备高度相似性。Twitter大约一年前在北美开始发展电视社交,半年前在欧洲起步。而微博现在已经迅速跟上。
Twitter电视社交的盈利前景,主要还是依靠广告。收视排行数据分析,不仅能服务电视制作方,更能服务于广告主。定量与定性分析相结合,广告主第一次能够在如此短的时间内看到广告的效果。Twitter也在通过Twitter Amplify 补足原有的 Promoted Account/Promoted Tweets/Promoted Trend三位一体的广告体系外,探讨社交电视更科学的广告盈利方向。
对于社交电视,新浪微博也有着自己的思考,接受采访时,新浪微博运营总监董文俊表示:“我们一直在探索台网联动模式, 2014年会有更多的尝试。微博指数是一个服务的体系,服务体系除了面向观众、电视方,还有广告主。如果微博平台上,传播效果很好,用户也很具像,投电视广告的广告主为什么不去微博平台上扩张影响力?”
原文发布时间为:2014-01-18
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
文章
大数据
2017-04-03
专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访(关注“云栖大会”社区公众号了解更多大会信息)。本期我们采访的是新浪微博机器学习平台负责人、资深架构师黄波,他将在10月的云栖大会上分享微博信息流产品中机器学习和深度学习的实战解读、最新进展,以及搭建微博机器学习平台和深度学习平台的经验总结。
2017杭州云栖大会详情请戳这里!
黄波,微博机器学习平台技术负责人、资深架构师,负责微博机器学习平台和Feed算法系统。他毕业于中科院计算所,参与研究了高性能计算和算法优化;并曾供职于百度,参与开发了分布式文件系统。2010年加入新浪微博,目前专注于机器学习、深度学习、高性能计算、大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流、推荐、反垃圾等业务场景。
跬步千里,微博深入应用新兴技术
新浪对于大数据和人工智能技术的应用,最早可以追溯到2008年,并且随着技术的深度应用在不断发展完善。
2008年左右,新浪开始搭建Hadoop集群,建立信息系统收集公司级的基本数据,奠定了大数据系统的基础。2009年起,随着微博的兴起和壮大,越来越多的用户、内容和行为等业务数据沉淀下来,奠定了大数据的业务数据和业务场景基础。2011至2012年,微博开放平台让微博数据和第三方数据能够互通。2013至2014年,成功构建了大数据Darwin平台,用于梳理和挖掘用户数据及行为数据,刻画了微博用户的用户画像,并对微博短文本进行分析理解,形成了内容标签等内容理解体系;同时在技术上,以分布式离线处理为基础,成功引入了实时流计算,让数据能更快发挥价值,从而更好地服务于业务。2015年起,微博大数据和Feed、热门微博等业务充分结合;2016年,开始强调机器学习和人工智能挖掘数据价值的能力在业务中的作用,并开发搭建微博的机器学习平台和深度学习平台。
毋庸置疑,大数据、机器学习、人工智能已经逐渐渗透到了微博的各大业务中。然而,这一过程中不可避免地遇到了一些技术挑战。黄波表示,分布式离线计算技术的挑战就是其一,因此微博紧跟业界Hadoop生态的发展,由Hadoop 1.0升级到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等组件,解决了大数据离线处理的问题。其次是实时流计算技术的挑战,基于此微博选择了依靠开源社区的发展,包括Storm、Spark Streaming等技术的发展和成熟。“目前遇到的最大问题是大规模机器学习和深度学习技术”,为了从容应对这一难题,微博一方面持续深入和阿里云的合作,引入数加、EMR、HPC、PAI等成熟系统来加快技术发展速度,另外一方面还依靠了开源社区的Glint、Angel、Spark、Tensorflow等机器学习技术,自研和完善参数服务器WeiPS、机器学习编程框架WeiFlow来满足微博机器学习和深度学习平台的业务需要。
千人千面,人工智能助力亿级规模的用户画像
数据是人工智能的基础。微博充分发挥了作为社交媒体的先天优势,以其平台所拥有的亿万级图片、视频和文本数据,刻画出了微博庞大的业务体系和用户画像。
黄波介绍,微博数据有内容数据和用户数据这两类。内容数据包括图片、视频和文本等。对于这类数据的处理方法,一是将内容数据映射到微博内容标签体系(微博内容标签体系分为三级内容标签,例如:一级的体育;二级的篮球;三级的金州勇士等),可解释性强,但存在一定歧义,准确性有待提高。另一种处理方式是对内容做embedding,通过embedding向量做匹配或推荐,能够对内容更深入地理解,但是解释性较差。内容数据还有一个独特的点是内容发布人,即发博者。在长期的实践中可以发现,社交网络和社交媒体中的发博者有着相对稳定的特征,在业务场景下简单有效。用户数据包括用户静态数据和用户行为数据,通过挖掘用户性别、年龄、地域、注册时间、账号类型、是否橙V等静态特征构建用户静态画像,通过分析用户在业务产品中的特定行为来构建用户行为画像,例如用户一级兴趣标签、用户实时兴趣标签等。
以上所述的内容数据和用户数据就是业界常说的特征,通过与模型的结合,能为微博Feed信息流、热门微博等场景带来显著的效果提升。在这其中,人工智能技术的部署应用,也为微博的整体技术架构带来了深刻的变化。
人工智能技术的引入,让微博的离线系统、实时系统、在线系统融合得更加紧密。在线系统的业务数据化为机器学习提供了最基础的业务样本数据;离线系统的模型训练充分利用了分布式计算能力,加强了对大数据的处理和理解;离线训练出的模型加载到在线系统并应用于业务系统中,能够为业务发挥作用;同时,实时系统不仅可以提供实时特征,而且还能提供机器学习在线训练服务,有效保障了特征和模型的时效性,从而良好保障了业务效果。以微博Feed信息流为例,基于对内容数据的充分理解和对用户画像的精确刻画,利用大规模机器学习模型排序能够有效控制大量低质内容,深入挖掘出用户感兴趣的个性化内容,从而改善微博Feed信息流的用户体验。
此外,微博特别设立的机器学习实验室也在深入研究人工智能技术潜在的应用价值。“追踪前沿技术,保持技术领先;落地微博业务,体现技术价值”,这是微博机器学习实验室的初衷和使命,其主要的研究方案包括机器学习算法、推荐算法、自然语言理解、计算机视觉、语音识别、机器学习系统、分布式计算系统、高性能计算系统、大数据技术等。黄波提到,目前在大规模机器学习排序算法、深度学习排序、深度学习推荐、文本处理、图片识别、机器学习平台、深度学习平台等方面都已经取得了不错的进展,特别是微博大规模机器学习排序算法在微博Feed信息流、热门微博中的应用和全量上线,取得了显著的效果。
返璞归真,技术落地创造实践价值
时下的社交媒体大趋势,都在致力于通过大数据、人工智能来更全面地了解用户画像、更深刻地理解内容、更细致地结合业务场景,从而提高信息分发效率,为用户提供更好的内容消费体验。
微博实践表明,人工智能技术能够更好地促进产品和业务的发展。在微博,大数据、人工智能等新兴技术广泛地应用到微博Feed信息流、热门微博、Push消息推送、图片推荐、反垃圾等业务中,并取得了不俗的效果。产品和业务目标的理解是基础,在目标理解的基础上再将产品场景、业务目标、用户行为、内容数据等数据化。数据化之后,技术人员利用大数据策略、机器学习模型等方法拟合或逼近业务数据目标,这个过程通常需要借助大规模分布式计算和高性能计算来迭代逼近。同时也要求尽可能早地将这些策略或模型灰度上线到线上系统中,便于收集灰度测试数据,对比评估业务线上效果。数据化是指产品全流程的数据化,包括机器学习模型上线灰度对比的数据,用数据来说明效果。
在本次云栖大会上,黄波将分享微博机器学习平台、深度学习平台的架构和实践,介绍其在微博信息流产品中的实战解读,同时介绍平台搭建中的经验教训,向业界分享微博在机器学习和深度学习方面的最新进展。同时,黄波也希望可以借助这次机会和业界深入交流,获得更多业界经验来完善内部系统及平台,更好地为微博业务服务。(购票请戳这里!)。
欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”!
专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄
专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流
专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下
专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远
专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索
云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
文章
机器学习/深度学习 · 人工智能 · 算法 · 搜索推荐 · 大数据
2017-09-21
微博python爬虫,每日百万级数据
新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。
比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。
再比如,最近火热的明星鹿晗,可以抓取鹿晗的粉丝信息,分析这些粉丝处于什么年龄段,有什么标签,爱好,性别分布等等。这种对人群的分析,还可以同理应用到商业品牌上,用用户市场调研。
当然例子还有很多,那么,首先,要有微博数据!
所以,就产生了众多的微博爬虫项目。后来,新浪微博也开放了微博的API接口,但是官方的东西,限制还是很多的。
准备工作
User-Agent池
爬微博,这种大项目,必要充分的伪装是必须的,所以需要一个User-Agent池,每次,随机选择一个User-Agent。
我整理的在这里:User-Agent池
充足的微博账号
微博爬虫,必须登录以后,才能抓取。而一直使用一个账号,是很容易被封号的!
所以,需要多准备几个账号,每次随机选择一个账号登录,进行抓取。(实际是随机选择一个cookie)。
至于买微博账号的地方,某宝就有:
充足的IP代理
如果你想很快的进行抓取,延迟为0的话,IP很快就会被封,返回403 Forbidden。这时候就需要换代理,所以需要有一个IP代理池。
当然,经测试,每次访问延迟为0.5s,并发量为32,这个参数是不会被封的!
一个服务器其实,如果IP代理,是免费抓取来的,通常质量并不好,通过代理访问延迟会很大!所以,不如不用代理,加一个0.5秒的延迟,慢慢爬。
这时候,就需要一个勤劳的爬虫,24小时不间断的爬数据!
所以当然是需要部署在服务器上!
爬虫策略登录微博登录一直是一个很复杂的问题,不过,我们可以通过selenium来简化这个问题。 直接通过selenium编写浏览器的脚本,自动打开微博的手机站,点击登录,在输入框中填充账号,密码,再点击登录。最后返回cookie即可。
获取cookie以后,可以保存到数据库中。以后每次request请求,随机从数据库中选一个cookie加上,就免登录了。
抓取方案
首先选择一个(或多个)种子用户,作为最初抓取的对象。对于每个抓取对象,依次抓取个人信息,所有的微博,还有粉丝列表和关注列表。将对象的粉丝列表和关注列表中的用户,再加入到抓取对象中去。以此循环。这样就可以形成以种子用户为核心,逐层向外扩散的爬虫辐射。
理论上,只要一小批种子用户启动,就可以爬取全网的微博!
大V的过滤
事实上,有很多微博的信息是没有营养的,比如一些恶俗的营销号,或者一些明星的微博账号。所以,我们可以给抓取的对象,加一个比较正常的阈值,也就是一个普通用户的情况:微博数量<5000,粉丝<5000,关注<5000.
Scrapy配置
MiddleWare:随机User-Agent和随机CookieMongodb:网络爬虫,数据项进场会出现不全,格式不统一的状况,所以采用Mongodb较为合适DOWNLOAD_DELAY=0.5 下载间隔时间设置为0.5CONCURRENT_REQUESTS=32 并发下载量为32LOG_FILE=weibo.log 采用日志文件记录日志
运行环境为:Python3
需要依赖包括:pymogo,scrapy
部署服务器,Run!服务器安装Mongodb,并开放外网访问权限
这样配置以后,在本地Pycharm中,配置远端数据库,就实现可视化操作与管理。
运行爬虫
克隆代码到服务器中,安装依赖,并执行
nohup python run.py
就已经开始不停的爬取微博了!
通过命令:tail -10 weibo.log 查看最新的日志。
在日志中,查看爬取速度:
可以看到一分钟,可以抓取848个item(数据项),这样一天下来:
8486024=1221120 可以抓取120万的微博数据!!
而且是在服务器上运行,可以源源不断的抓取!
同时在本地,通过Mongodb可视化工具,连接并查看数据库。
通过简单的count统计,抓取数量:
可以看到至此已经抓取1.8k用户信息,2.7w微博语料,8.2w分析关系信息。
原文发布时间为:2018-07-08本文来自云栖社区合作伙伴“大数据挖掘DT机器学习”,了解相关信息可以关注“大数据挖掘DT机器学习”
文章
数据采集 · 大数据 · 数据库 · Python · NoSQL · MongoDB · 数据可视化 · 机器学习/深度学习 · 自然语言处理 · 数据安全/隐私保护
2018-07-09
摩根士丹利保持微博增持评级 目标价24美元
?北京时间4月19日上午消息,摩根士丹利今天发布研究报告,维持对微博(Nasdaq:WB)股票的“增持”评级,目标价调整至24美元。
以下为报告全文:
微博用户数据提升,视频趋势强劲,广告产品升级,基础数据方面利好。
用户数据正在提升
基于各方的用户量和互动量数据源,我们确认微博的用户数据有提升的趋势。
在最近发布的CNNIC报告中,微博的数据显示公司于2014年启动的垂直化策略已经开始显现出成果,各垂直频道用户使用量均有提升。此外,基于地理位置的餐厅、酒店与景点的推荐服务使用量提升了37%。在CNNIC报告中,每天使用微博的用户数从2014年的41%提升到2015年的48%,每天使用微博超三十分钟的用户从2014年的26%提升到2015年的45%。
视频的新动态
我们认为微博将在2016年在视频领域的发力,特别是微博将视频在WiFi环境下自动播放的设定扩展至全国范围。我们相信,随着微博视频消费量的提升,将有效提升用户在平台上的停留时间和黏度。基于艾瑞数据,2016年前两个月,用户在微博平台上的停留时间上升了50%。公司也提到将为大V用户开放视频直播功能,我们认为视频直播即将成为主流现象。
信息流广告升级
微博在三月初升级了信息流广告产品,将行业标签纳入推荐体系,提升了潜在的受众数量。目前,微博开放了十个行业标签,并为每一个标签设定了固定的价格。我们认为,行业标签将有效提升信息流广告的精准度,广告主将获益。
继续保持增持评级,新目标价为24美元
我们将2016至2018年的营收增长分别设定为5%、7%和10%,主要原因在于月活用户(MAU)增长与每MAU的广告营收预期。我们将2016至2018年的非美国会计准则的利润增长分别设定为5%、5%和5%,主要原因是视频消费提升带来的增长与整体毛利率的提升。
本文转自d1net(转载)
文章
视频直播 · 定位技术
2017-07-03
独家 | 数据分析@爱可可-爱生活是否在用机器学习算法运营微博
爱可可老师的微博账号创建于2010年底,初期的微博内容充满了人情味,分享了爱女出生的喜悦、行业资讯、学习资料,以及人生工作感悟。
热词分析显示,爱可可微博是从2014年底开始热度变高,此时该账号已是每日凌晨四五点起分享大量的学习资料。
在分享资料的间隙,爱可可老师也会发布一些个人见解,其中有一条微博内容值得玩味。
一个机器人账号,连微博昵称带内容一起转发了某位它的关注人的微博,被该博主发现了,评价它“此机器人有点二”,然后爱可可老师评论道:“有点调皮,有点任性,有自己一套标准的小机器人,不是挺好吗?”
由此可见,爱可可老师觉得微博机器人是很有趣的,同时,他也经常分享该机器人转发的内容。
从2015年1月以后,爱可可老师的微博内容基本为学术资料,且不带任何感情色彩,让人不禁猜测,这些资料是否全由机器人挖掘并转发呢?
我们采集了该账号从2017年10月30号——2017年11月30号所有微博的信息做了如下统计:
?
这个月以来,他一共发布了1952条微博,平均每天发布61条,时间集中在凌晨四点半至晚上十点半以前,平均每天凌晨4点44分开始发布第一条微博。由统计图看出,爱可可老师发微博最集中的时间段为每日凌晨四点半到六点半,在这两个小时之内,他平均发布25条,占每天总数的近一半。
具体统计每日4点—6点半的数据可以发现,爱可可在该时间段发微博的频次非常高,特点为连续两、三分钟内发送一条或多条带6-9张图的微博。
根据词频分析微博内容,出现最多的词语全部与数据科学相关。
根据微博来源可以看出,爱可可老师最常使用的是Mac客户端和微博网页版。在前几年充满人情味的微博里,尚且有Android客户端的来源显示,而现在的内容全部发自于电脑。
我们还对爱可可老师的粉丝进行了分析,发现最活跃的用户画像为北京IT男青年,而且还是严谨细致内敛腹黑的摩羯座。粉丝对爱可可老师的留言,多半是保存资料和表达感谢,然而爱可可老师很少与他们互动。
那么,爱可可老师的微博内容究竟是否由机器人产出呢?下面我们将盘点出机器人写作的特点,并与之进行比较。
机器写作效率VS爱可可老师写作效率
从工作方式和步骤来看,机器写作与人工写作相像,都是三步走的工作模式:围绕报道主题采集信息——分析信息,联系背景解读意义——按照新闻格式和语法规则写出文章。不同的是,写稿机器人是一套执行命令的程序,能够快速抓取、处理海量的文献资料数据;而人类作为生物,先天具有生理和行动局限,在处理数据方面与机器人相形见绌,比速度自然落后。九寨沟发生7级地震后,地震信息播报机器人在21个小时的时间内,连续自动推送了15条地震速报,字数均在110-634字之间,最快的一条耗时5秒成稿为126字。
对比爱可可老师,该账号在7年内发布近45000条微博,日均18条左右,只是现阶段活跃度远高于其早期阶段,近一个月日均在60条左右。此前,微博大V“@任志强”在5年多时间内发出9万余条微博,日均50条左右,属于典型的活跃性微博用户,所以日均五六十条微博的频次也不足以对@爱可可-爱生活的运营者做出准确判断。然而,爱可可老师发送微博的特点为特别时间段非常密集,一到三分钟发一条、甚至几条微博是常有之事。这样的高效率背后,是难以做到从浏览文章到分享文章的流程的。
此外,机器运作的微博可以实现实时推送的功能,而爱可可老师虽然推送频率高,但并不是实时进行分享,而是集中性分享,所以,爱可可老师应该是通过集中性的浏览文章,或者是利用机器学习自动抓取信息结合自己空闲时间手动进行高频率的集中性推送。
机器写作内容VS爱可可微博内容
机器人写作本质上是一种程序化运作,这套程序在规则作用下进行逻辑推理,处理数据量丰富、时效性强的工作,因此,写稿机器人从基因上决定了其自动化生产偏向以数据为基础的内容。具体就是擅长财经、体育、自然灾害等模式化领域。如今年年初,南方都市报社上线的写稿机器人“小南”,基于机器学习算法,融合领域知识,能够对数据进行深度分析,发掘重要的消息和事件,并用自然语言进行表达。
而爱可可老师微博高频更新的内容绝大多数属数据科学领域,又倾向于机器学习这一分支。制定以“机器学习”“算法”等为关键词的规则,连接并抓取学科资源库数据,是方便高效可操作性强的选择,猜想@爱可可-爱生活由机器运营也并不奇怪。不过,目前出现微博上的机器人账号,程序大都比较简陋,在人类看来有些“愚笨”,如果爱可可老师用机器发微博,想必此套程序更加智能巧妙。
机器写作风格VS爱可可微博风格
引入机器写作的目的就是解放人力、服务社会,归根结底,机器写作服务人就要模仿人。例如,在编辑团队的指引下,“小南”就会学习人类的写作方式,以人类特有的生活化语言表述某一事实的现实影响,如“小南”在判断出列车剩余票数不足后,小南会使用“票数紧张”提醒读者。随着用户社交数据的接入,机器将不断发掘洞察用户习惯,越来越有人情味,以精准化的服务提升用户体验,人工和机器作业的界限将越来越模糊。另外,据英国《每日邮报》3月10日报道,南加利福尼亚大学进行的一项最新研究发现,推特中的机器人数量达4800万,占15%,它们能发出“点赞”、“转发”、“关注”等社交行为。
反观爱可可老师的微博,涉及个人观点和情感的内容几乎为零,而微博评论以网友内部交流为主,博主参与较少,且回复语句较短,互动活跃度不高,有可能是机器运营的结果。
通过以上分析,@爱可可-爱生活发布的微博内容很可能有机器学习算法的参与,参与环节在信息收集、筛选方面的可能性较大。
原文发布时间为:2017-12-9
本文作者:数据派
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号
文章
机器学习/深度学习 · 算法 · 数据挖掘 · 机器人 · UED
2017-12-11
历时两年的微博与脉脉数据之争落幕,互联网公司请看好你家的爬虫!
历时两年的微博与脉脉之争终于有了结果:法院认定脉脉非法抓取、使用微博用户信息行为构成不正当竞争,一审判决脉脉停止不正当竞争行为,并赔偿原告经济损失等220余万元。两年前我有关注到微博与脉脉的数据之争,这在口水战每天都发生的互联网圈本来不算什么大事。但这次法院判决结果,还是挺出人意料的。毫不夸张地说,这一事件给互联网公司敲响了关于用户数据保护的警钟。
一个常规的数据抓取纠纷
先简单说一下微博和脉脉之争的来龙去脉。
2014年8月公开闹掰:微博宣布停止脉脉使用的微博开放平台所有接口,理由是“脉脉通过恶意抓取行为获得并使用了未经微博用户授权的档案数据,违反微博开放平台的开发者协议”。与此同时,脉脉宣布终止支持微博登录,并通过一些邮件截图曝光微博此举,是因其投资脉脉不成,索要脉脉用户关系数据受阻后的报复。就像所有口水战一样,双方各执一词、真相扑朔迷离。
2015年3月对簿公堂:微博主体公司于2015年3月将脉脉主体公司告上法庭,微博脉脉之争升级。
微博起诉理由主要有脉脉非法获取和使用微博信息,商业诋毁等。
在用户微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,这些信息并不在微博OPEN API之中,并且在微博停止脉脉所有接口权限之后,脉脉依然进行了相关数据抓取,微博认为脉脉通过非法手段获取信息。除此之外,微博认为在双方“闹掰”之后脉脉发表的公开言论对微博商誉构成了诋毁,脉脉采取了类似于微博加V认证的机制和界面设计,构成不正当竞争。
法院认定,脉脉绕过OPEN API抓取数据的行为,危害到微博用户信息安全,损害了微博合法竞争利益,对其构成不正当竞争,商业诋毁成立,判决脉脉停止不正当竞争行为,并赔偿原告经济损失等220余万元。
类似诉讼在互联网行业屡见不鲜。
2013年,百度因奇虎360违背Robots协议抓取复制百科等内容构成不正当竞争,起诉后者并索赔1亿元。
2016年2月,因认为百度视频通过抓取播放窗口的方式,嵌套乐视网视频资源到百度视频客户端,屏蔽了乐视网网页、网址、广告,造成公众混淆,构成不正当竞争,乐视起诉百度并索赔100万元。
2016年4月,大众点评诉百度旗下的百度地图及百度知道大量复制其用户点评等信息,构成不正当竞争,提出9000万元索赔要求。
这些案例均是某平台因内容被抓取起诉抓取方,在数据为核心资产之一的互联网产业,“数据纠纷”只会越来越多。
平台用户数据受法律保护
从法院一审的判决逻辑来看,是否保护用户信息已成数据纠纷中的法律准绳。
海淀法院在“世界知识产权日”公开宣判这一案件,或许不是巧合。其明确表示,“大数据时代,保护用户信息是衡量经营者行为正当性的重要依据,也是反不正当竞争法意义上尊重消费者权益的重要内容。”这表明,用户权益被摆在最优先位置。
在“人肉”这类网络暴力频发、用户资料屡屡泄露的大环境下,这一判决具有示范意义。平台在业务设计上必须充分考虑用户信息保护,确保用户信息不被滥用,隐私数据不遭泄露,同时确保用户对个人信息的使用有知情权。
在保护用户利益之后,才是平台利益。
值得注意的是,用户信息与用户数据并不是一回事,比如你在微信公众账号发的文章,算是用户数据,但你个人微信昵称、头像这些资料,才算是用户信息。但究竟哪些属于用户隐私则很难说,你上传到平台的照片肯定是隐私数据,但你发的公开微博就不一定了。那么,不具备“个人隐私”属性的数据是否受法律保护呢?如果有人绕过接口,抓取用户发的微博而不是个人信息,会有不同的结果吗?
这里有一个案例:百度起诉360违反Robots协议抓取知道、百科等数据的纠纷就是这样的情况,法院尊重Robots协议和平台对UGC数据的权益,360被判赔偿百度70万元。就是说,UGC内容的创建者是谁并不重要,搭建平台网站投入运营、技术和人力成本,拥有对数据的使用权和分发权。如果第三方网站违背意愿进行抓取,就可能被判为不正当竞争。
数据是互联网公司的核心资产,不论是个人信息还是UGC数据(微博、文章、点评等),所有这些平台数据都将受到法律保护,平台对这些数据拥有所有权、使用权和分发权。
互联网公司应提防数据纠纷
互联网公司想要利用别家平台的数据时,必须遵循对方的公共API协议,或Robots爬虫协议,抑或通过正式协议合作。数据受法律保护。互联网公司不能违背某平台意愿抓取其数据——在技术上或许并不难,可通过爬虫等手段绕过限制,实现数据抓取,但这样做很可能会吃官司,并且败诉几率相当高。
因为数据抓取纠纷而对簿公堂的案例还不算多,但数据抓取行为在互联网行业却很常见,比如许多平台都能看到豆瓣电影评分数据,再比如一些导购网站聚合了电商平台的评论,还有平台将微信公众账号所有文章都聚集起来…这些行为理论上来说都有数据纠纷的风险,如果你做得不够大平台一般也没这个精力理你,但万一你某天做到了呢?况且,很多大公司也这样干。
对于数据的获取和使用,不再是一个技术问题、商业问题、道德问题,而是一个法律问题,所以,请看好你家的爬虫。
文章
数据采集 · API
2016-04-29
物理学博士教你怎样分析微博数据,怎样涨粉
网上已经有太多关于怎么增加微博粉丝数,以及怎样让我们发的微博获得更多转发的建议了。我们并不知道这些建议是否有效,因为它们大都是建立在个人感觉上,而缺乏真正有说服力的证据。实际上微博是一个非常适合进行数据分析的东西,所以想谈微博心得,你得用数据说话。
一个普通用户的微博数据
从 2012 年 8 月 24 日开始,我像个自恋者一样,每天都看看自己的粉丝数涨了多少——不但看,而且还顺手把数字记录下来。这样坚持到写作本文的时候一共过去了 86 天。这个数据的可贵之处并不在于它是人工测量的,而在于它是独一无二的:由于不管是新浪微博还是 Twitter 都不记录,或者至少是不提供“关注”这个动作的发生时间。现有的任何微博相关数据研究也都没有精确的粉丝数随时间变化记录。如果能得到更多像这样的数据,我们完全可以写一篇像本文后面要介绍的那两篇一样重要的论文。
下面这张图就是我在这86天中粉丝的增长情况。上图是总的粉丝数,下图是每天增加的粉丝数。
我曾经设想,一个人粉丝的增加应该是指数增长的:关注你的人越多,你的影响力就越大,那么就会使得有更多人来关注你。这样的微分方程是 df/dt=cf,所以 f=ect 。然而实际上的增长却大致是线性的,df/dt=常数!除了几次突然爆发之外,我大概每天增加 10 个粉丝。图中用数字标记了 4 个突然增长事件,其中 9 月 15 日 和 10 月 22 日这两次比较大。不算突发事件,我的增长速度相当稳定:图中两段近似直线中,第一段平均每天增加粉丝 9.2 个,第二段平均每天 10.5 个,这还包括了(2)和(3)两次小跳跃。如果真有指数增长,那么或者发生在账户开通的初期,或者要等到账户已经相当有知名度之后,或者本身是个极大尺度的现象难以在这么短的时间内表现。
所以如果你认为增加粉丝的最好办法是多发好的微博,结果可能会让你失望。事实是只有出现爆发事件才能让你的粉丝数上个台阶 。在图中标记的四个爆发事件中:
(1)是我在果壳网发表了 近亲不如远邻:最关键的人脉是不熟的朋友 。我 9 月 15 日的相关微博被转发超过一千次,而更重要的是 @果壳网(粉丝 60 万)在微博对此文进行了介绍,结果是一天之内增长了 300 多个粉丝。
(2)这个小波动发生在 9 月 23 日,而我从 9 月 16 日到 24 日间一条微博都没发过。我不知道这是什么原因,很可能是(1)的一个余波。
(3)是我在博客发了《一个关于转世的流行病学研究》一文。从粉丝的增长情况来看这篇文章的影响力不大。此后在《上海书评》发表《四万年来谁著史》,仍然没有带来多少粉丝。
(4)是 @cnsns (粉丝3万多)在微博对我进行了 推荐 ,而这条推荐又被 @经纬张颖 (粉丝342万)转发,导致粉丝数在 33 分钟内增加了 321 个,两天增加了 800 多。
我在三个月内发了大概上百条微博。发微博对当天增加粉丝有一定的影响,但是在绝大多数情况下不会带来什么爆发。由此可见增加微博粉丝数的最好办根本不是发微博,发微博还不如少发几条微博写篇正经文章。当然最有效的办法也不是写文章,而是被大V推荐。这里没有记录到的是在我微博账号建立的初期也曾有过一次爆发,是媒体人土摩托(粉丝14万)和松鼠科学会成员等科学作者的推荐导致。
来自名人的大数据
没有多少人会像我一样每天记录自己的粉丝数,这使得大规模研究微博账户的成长过程非常困难。但是卡耐基梅隆大学和微软的研究人员仍然 想了一个没有办法的办法 。Twitter跟新浪微博一样,虽然不记录每个“关注动作”的发生时间,但它把你所有的粉丝按照关注你的先后顺序排列。同时,Twitter还提供每个账号的首次注册时间。这样对其中任何一个粉丝,研究人员找到他的注册时间,并且找到在他之前关注你的所有粉丝的注册时间,然后把所有这些时间中最晚的那个,就当成他这次关注发生的时间。可以想象这是一个非常不精确的估计,但只要数据量足够大,仍然是可以接受的。
这篇文章发现, 哪怕对于具有相当量级的名人来说 ,“被推荐”仍然是最重要的增长粉丝办法。下面这张图表现了技术博客 Anil Dash,娱乐界女星 Kim Kardashian 和纽约时报的 Twitter 账户被关注的时间曲线。他们粉丝的增长充满了突变,而其中最大的几次突变,正是因为 Twitter 对他们进行了系统推荐。
图中事件(1)是 Twitter 引入了一个系统推荐名单,而纽约时报在这张名单上。我们看到这个名单一出来,纽约时报每天增加的粉丝数立即提升了一个层次。到 2009 年 4 月,Kardashian也被加入到这份名单之中,于是她的粉丝数也开始暴涨。没进推荐名单之前,Dash的粉丝数每天增加 50 个,等到十月份被加进推荐名单之后,他的粉丝数每天增加 2500 个!一个有意思的现象是 Dash 进来之后纽约时报和 Kardashian 的成长开始放缓,研究者也不确定这是怎么回事。根据后面的变化推断,对纽约时报来说,很可能是因为 Twitter 在十月份扩大了推荐名单上的人数,使得它的重要性被稀释。而对 Kardashian 来说,则可能是她被从推荐名单上移除了。
事件(2)是 Twitter 改变了推荐方式,把推荐账户分类,让用户自己根据兴趣选择。这个变化对 Dash 和纽约时报带来了一个打击,二者每天增加粉丝数都显著减少。但 Kardashian 因为早已不在推荐名单上,她的成长没有受到影响,仍然逐步增加,甚至有点指数增长的意思。
事件(3)是 Twitter 再次改变推荐方式,变成根据每个用户的兴趣来定制推荐。这一次纽约时报和 Kardashian 都受益了,而 Dash 受到的影响不大,仍然每天增加200左右的粉丝。
仅从这张图而论,系统推荐的作用实在是太大了。技术博客 Dash 和纽约时报的粉丝层长几乎完全由系统决定,只有像 Kardashian 这样的女明星才能跑出一段不顾大盘的强势增长—— 据说 请她发一条广告微博的价格是一万美元。那这些明星们的增长靠的又是什么?得看下面这张图:
像 Oprah Winfrey 这样的大佬一在 Twitter 现身(事件1),马上就有了众多粉丝,但是最初的高潮之后加粉的速度却越来越放缓,变成跟 Ashton Kutcher 差不多的趋势。真正能做到加粉速度越来越快,好像指数增长一样的是 Lady Gaga 和 Justin Bieber 这样的偶像派!他们的粉丝是怎么来的?是因为他们发了高质量微博吗?当然不是。
这两人的粉丝成长,是他们在现实生活中事业成长的反应 。Justin Bieber 在2009年初还是个无名之辈,Lady Gaga 2010 年后才大红大紫。我们看 Lady Gaga 的几个关键事件,(2)是她得了 MTV 的音乐奖,(3)是她参演了艾美奖,(4)是她出了新MV“Telephone”。图中事件(5)很有意思,是明星 Soulja Boy 突然删除自己原有的Twitter账号又建了个新的,粉丝们忙着关注他的新账号,一时之间产生了大量的关注动作,以至于我们图上这几位明星的 relative popularity 都被抢了风头。
这样看来非常明显,哪怕是对名人而言,也是系统推荐的力量最强,其次则是看你在现实世界干了什么。明星们微博粉丝的变化很可能与他们发什么微博关系不大。在新浪微博姚晨的粉丝最多(现在已经是谢娜了),但姚晨却未必是中国最火的女明星,据此可以推测是新浪的推荐帮了大忙。
而对于我们普通人来说,既没机会被系统看上,也没机会在真实世界兴风作浪,想要涨粉丝也许只能靠发几条有意思的微博。我们期待这些微博能被广泛转发,因为只有这样才能被更多人看到,引来新粉丝。但是怎样获得更多转发?更重要的是,转发真有用么?
什么样的微博转发量惊人
Palo Alto Research Center 的几位研究者 专门研究 了Twitter上的转发。一条微博被转发的平均次数应该跟两个因素有关:微博本身的内容,以及发帖者的粉丝数。粉丝数容易测量,可是微博内容好坏很难测量,这项研究只能采用最简单的办法。
一个办法是看微博中是否包含网址链接(URL)。包含 URL 的微博至少言之有物,总比发条在哪吃饭的状态有可读性。这个研究总共统计了 7400 万条微博(对 Twitter 来说这叫 tweets),统计发现全部其中 21.1% 包含 URL,而那些纯转发的微博中则有 28.4% 含URL。这个结果似乎不怎么明显,但此文引用的另一项研究的两个数字则分别是 18.96% 和 56.69%。不论如何,介绍一个从别处看到的信息的确能够增加微博的转发几率。
获得更多转发的另一个办法是参与话题,也就我们经常看到的两个“#”,这样别人只要点击这段话就能找到所有写了这段话的微博。统计表明全部 tweet 中的 10.1% 含有话题,而那些转发的tweet含话题的比例则是 20.8%。
这两个数据都平淡无奇,完全符合我们的预期。我们真正想发的是那种一出来就被迅速广为传播,乃至一层一层传出去引发爆炸式增长的微博。但正如我以前曾经在 别用“常识”理解复杂世界 中介绍过的那样,引发这种“twitter瀑布”具有极大的偶然性,就算是粉丝众多的人也未必能经常做到。
这项研究并没有明确指出,但是据我观察更为关键的一个事实是,偶尔发几条被广为转发的微博并不能给你显著增加多少粉丝。@Yaoyao521 今年四月发了一条关于出租车司机不收盲人车费的 微博 ,这条微博讲了一个很好的正能量故事,被转发次数超过一万三千,甚至还被媒体报道。作者目前为止一共发过五千多条微博,可是她的粉丝仍然只有 3608 个。像这样的例子并不罕见,很多情况下并不多——而且我一次都没有因为这个原因关注他们。换句话说,除非你能持续不断地发高质量微博,证明自己是靠能力而不是运气,粉丝才会因转发而增加。
这种人有多少?肯定非常少。下面这张图是前面提到的研究统计出来的转发数跟粉丝数的关系。二者几乎就是个线性关系!一个有 5000 粉丝的人和一个有 1000 粉丝的人,微博平均被转发次数差不多也是五倍关系。这说明平均而言,粉丝多的人发的微博质量并不比粉丝少的人更高,他们仅仅因为粉丝多而获得更多转发!这个统计还表明平均每一千粉丝带来的转发数是每条微博 1.5 次,如果你的成绩比这个好,那么你属于水平比较高的。
有人认为多发微博可以涨粉丝,有人认为微博贵精不贵多,而这项研究告诉我们的就是你的转发几率跟你发微数量根本没关系。下图是被转发几率与发微总数的关系:
如图所示,不管你已经发过 500 条还是 5000 条,你下一条微博被转发的几率,平均而言,都是差不多一次。而发微频率高的人累积的条数也多,这说明 发微薄频率完全不影响被转发几率 ,因此也就不影响通过被转发而涨粉丝。
结论
总而言之,逆天靠系统,名人靠事件,普通人没事件只能靠推荐,没人推荐则靠转发,而转发靠内容。以上获得粉丝手段的有效性是直线下降的,后面的远远不如前面。而最没用的,就是你的发微数量。这些性质说明我们之所以会关注某个人物,在大多数情况下是因为对这个人本身的关注,而绝不只是想看他发些什么。
本文只讨论了个人综合微博,以上所有分析未必适用于各种专业微博,比如专门搜集笑话的微博。也许只发某一方面内容的账号更容易获得粉丝,因为别人对你的内容有固定的期待。这种账号对读者来说虽然很重要,对写的人来说却未必有多大乐趣,相当于是微博世界里的NPC(非玩家控制角色)。
总而言之,想涨粉丝?功夫在微博之外。既然如此,索性别计较什么粉丝数了。也许我们写微博的真正乐趣不是为了吸引粉丝,而是图个说话痛快!
原文发布时间为:2015-04-03
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
文章
大数据
2017-05-02