作者:套路编辑部来源:运营研究社(ID:U_quan)本文为作者授权鸟哥笔记发布,转载请联系作者并注明出处。2018 年,中国移动互联网用户增长放缓,上半年仅增长 2 千万。但是有一匹黑马,硬是在这种恶劣的情况下,逆流而上。今日头条系独立 App 用户使用时长占比,从 3.9% 猛增到 10.1%,增长了1 .6 倍,超过百度系、阿里系稳居总使用时长第 2 名。更牛逼的是,头条系产品这种突飞猛进的增长速度还在持续,单今日头条资讯 App 每天还在保持 100万+ 的新增。在头条系如何做到这般“丧心病狂”的用户增长的背后,其实有一些不为认知的小秘密。头条内部会创新(或者抄袭)孵化产品,并且为每款产品设置留存生死线(RIO),超过生死线的产品就可以头条系站内流量扶持,快速让它达到千万级日活。今日头条涉足近60个产品头条内部有非常强大的数据监控系统(花大价钱买数据),任何产品的日活和增长数据都在它们的监控之下。另外,为了帮助提升创新产品的成功率,头条内部甚至研发出了一套增长引擎,在咱们还在纠结功能按钮排序时,他们就在同时进行几十组甚至上百组的 A/B 测试,帮助产品经理和运营们找到最优的方案。头条强大的生死线和数据监控系统我们模仿不来,他们的增长引擎我们也暂时研发不出来。但是帮助筛选最优方案的 A/B 测试,我们还是可以进行借鉴学习的。虽然 A/B 测试过去更多的是在产品领域,通过它来判断功能的价值。其实到现在 A/B 测试已经渗入到运营,哪天公众号能推出小流量打开率测试功能,我想你会开心坏了!01 什么是 A/B 测试A/B 测试,也叫对照实验和随机实验。简单说,就是为同一个目标设计 A 方案和 B 方案,让一部分用户使用 A 方案,一部分用户使用 B 方案。记录用户的使用情况,根据用户反馈,比较得出哪个方案更佳。千万不要以为这里的“A/B测试”真的只会有 A 方案和 B 方案,“A/B 测试”只是习惯性叫法,你还可以有 C、D、E 多种供测试的方案。看完定义,你可能会觉得“A/B 测试”这个概念已经烂大街了,不就是提出多种方案供选择,然后选择效果最好的哪一种吗?其实理论讲起来很简单,实际做起来还是需要很多技巧的。我们先来看一看,今日头条是如何开展 A/B 测试的?今日头条的头条号具有“双标题”功能,这其实就是 A/B 测试的一种实践。也许你会说,这难道不是为了让用户有更广阔的起标题空间吗?一篇内容可以起两个标题,那么一个标题废了,还有另一个标题撑腰。不像微信公众号,只有一个标题,一旦标题废了,阅读量基本上就完蛋了。事实上,今日头条设置“双标题”功能是为了更精准地了解用户对于标题的反馈,从而掌握用户的行为数据。当然,今日头条在 A/B 测试上最牛逼的玩法不是“双标题”功能,因为只测试标题,就会造成“标题党”泛滥横行。基于此,今日头条 A/B 有一套“动态”的内容推荐机制,这里的”动态“指的是根据反馈结果,实时更新调整。 这套“动态”内容推荐机制是如何运转的呢?同样的方案,今日头条会先推荐给小范围的人群:比如 100 人,如果这 100 人对标题、内容的反馈均不错,那就把方案推荐给更大范围的人群,比如 500 人,如果这 500 人对标题、内容的反馈效果很好,再推荐给更大范围的人群,比如 2000 人,以此类推。用户的行为动作会被搜集,据《今日头条推荐系统原理》介绍,基本上每小时都可以看到用户对内容的反馈。但因为每小时都有数据上的波动,今日头条通常以天为时间节点,来查看用户的行为数据。将用户的行为动作进行搜集后,今日头条会有日志处理、分布式统计,写入数据库。今日头条系统就可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。这样看来,是不是觉得 A/B 测试的威力真的很强大,不仅完成了方案调研,还能通过测试掌握用户口味,实现精细化内容推荐,从而更好地留住用户。02 A/B 测试的应用可能你会觉得 A/B 测试只有大公司才玩得起,和我们并没有什么关系。可能你也会觉得这只是产品的事,和我们运营没什么关系。那你误解可就大了。不仅小玩家也能玩,而且和我们运营大大的相关。如果你是一个会做增长的运营,那你很可能就会成为你们公司的扛把子。举个例子:我们之前邀请了「深夜发媸」的主编阿芙,来给我们做微课分享。既然谈到微课,那肯定是要打磨微课海报,提升宣传效果的。于是我们请我司首席设计师做了一版,结果一出来,编辑部的小姐姐们意见不合吵了起来。一个人认为“如何写出用户喜欢的营销文案”,这个主题没有吸引力,应该改成“10 招写出让用户喜欢的营销文案”。还有一个人表示赞同,但是应该进一步优化,改为“10 招写出让用户疯传的转化文案”。 这个时候,贤哥很机智的说了一句,你们就不能做 3 版海报嘛?每版海报只让一个宝宝号,在同一个时间转发(所有宝宝号均拥有 5000 人好友),这样不就测出来哪版效果好了嘛?当时我们没有想到,其实这就是 A/B 测试的思维。后来我们实施了贤哥的想法,测试出了 3 个海报的转发率(转发海报用户/新增用户),分别为:30%,35%,44%,效果最好的一张是:10 招写出用户疯传的转化文案。接下来,就发动所有宝宝号,公司的全体员工分享海报,最终吸引了 3000 人来听课,这也是我们目前效果最好的一次微课分享。除了微课的应用,还有很多地方也可以用到 A/B 测试。比如 App 的 push 可以做 A/B 测试。饿了么想要测试,不同的促销活动,对用户的留存有多大作用,所以就发生了以下场景。昨天,小松果兴冲冲和我说,饿了么给她发了一条推送:“你有一张 15 元大额券待领取”,结果点进去发现是“满 40 减 15 ”。尽管这样,她还是凑单点了很多东西。根据以往经验来看,饿了么喜欢在我们吃饭前推送。所以我看了看自己的饿了么推送:“订单满 45 可享七五折优惠”。一看我就没有兴趣,起点那么高。其实这就是饿了么运营给我们做的 A/B 测试。通过这次测试,他们可以通过订单率发现,同样都是优惠 15 元(都花 40 块的前提下),直接突出数字 “优惠 15 元”,就比“满 40 减 15”效果好。总之,通过 A/B 测试,确确实实能够试出最佳增长方法。除了 App 的推送,微课主题,还有很多场景可以用 A/B 测试,比如付费广告,应用商店,着陆页,新用户引导流程等等。03 A/B 测试容易踩的坑A/B 测试看似简单,实则隐藏着许多沟沟坎坎,稍不注意就会导致试验结果偏离科学轨道。1)忽略测试环境差异如果真的有一天公众号开发的标题 A/B 测试的功能,你会用下列哪个方案去测试的你的标题?a. 将上海地区用户分成 3 个组,并在同一时间分别推送 3 个不同的标题。b. 将上海地区用户分成 3 个组,并在不同时间点分别推送 3 个不同的标题。如果你的是选择 b 方案的话,恭喜你翻车了!举个不太恰当的例子,b 方案的测试方法就好比在电视上投放广告,分别选取了工作日的下午 3 点钟和晚间黄金时段进行测试收集。由于轮流展示时的测试环境不尽相同,所面向的受众群体更是千差万别,因此最终试验结束后的数据结果必然会存在一定偏差,也就更不具有说服性了。2)容易「以全概偏」在测试结果没有表现出理想状态下的数据提升时,如果你直接放弃的话,有可能你又踩坑了。国际短租平台,搜索是 Airbnb 生态系统中很基础的一个组成部分。Airbnb 曾经做过一个关于搜索页优化的 A/B 测试,新的版本更加强调了列出的图片,以及房屋所在位置(如下图所示)。在等待了足够长的时间之后,试验结果显示新老版本的整体数据相差无几,似乎这次优化没有很好的效果。如果此时,Airbnb 直接根据整体的数据表现放弃了这次优化,那么这个花费了很多精力设计的项目就会前功尽弃。相反,经过仔细研究,他们发现除了 IE 浏览器之外,新版在其他不同浏览器中的表现都很不错。当意识到新的设计制约了使用老版本 IE 的操作点击后(而这个明显为全局的结果造成了很消极的影响),Airbnb 当即对其进行了修补。至此以后,IE恢复了和其他浏览器一样的展示结果,试验的整体数据增长了 2% 以上。通过 Airbnb 的例子,我们能学到正确的做法是:在整体效果不太好的时候,不要一竿子打死,而需要从多个维度细分观察个体的情况,以避免区群谬误带来的决策偏差。3)只做到了局部最优避开了上面的 2 个坑之后,你可能得到一个相对不错的测试结果,在你欣喜若狂时,正准备对外宣布战果时,可能已经踩入了另外一个坑——“局部最优”以某金融平台提升新用户的注册率的 A/B 测试为例,运营通过不断进行注册按钮的文案优化,发现相比于“立即注册”、“免费注册”等文案而言,“领取 100 元新人红包”的注册率是最高的。但是,如果只是沉迷在文案上做测试,其实他可能就错过了提升用户注册率的其他更效假设。正确的做法是可以进行用户调研,了解用户不注册的原因在哪,通常情况下金融平台让用户放弃注册的原因还在于,注册流程繁杂、信任问题、无匹配的理财产品等,所以在完成了注册按钮的文案测试时,我们还需要在这些方面也进行想要的实验。04 总结今天的文章,我们通过分析今日头条,向大家展示了 A/B 测试的强大功效,采用 A/B 测试不仅能够在众多方案中选择出最佳方案,其实更能对产品进行不断的迭代优化,实现用户留存。如今,A/B 测试已经渗透到运营工作中,运营社也在实际工作中感觉到这个理论真的很好用。1)当有多种方案供选择,但又产生意见分歧时,可以通过 A/B 测试找出找出最优解。比如文章起标题、裂变海报文案、以及 App 的 Push ?等。2)看似简单的 A/B 测试,其实有很多坑: 忽略测试环境差异,没有进行变量控制(只能有一个变量),造成数据偏差; 以偏概全,在测试结果没有实现理想状态下的数据提升时,就放弃对产品优化,会导致项目前功尽弃; 只进行局部优化就忽略对其他部分的调整更新,无法查找出其他方面的漏洞。