下面内容来自首席增长官年会上,小红书增长技术负责人占雪亮「精细化运营在小红书的实践」的演讲,通过这个内容,我们学习在实际工作面对数据如何去分析。其中,红色字体是我标注的,方便大家对应之前学过的分析问题套路去理解。
1.关于小红书增长之路
在开始分享之前,想先给大家介绍一下小红书,小红书是一个泛品类的生活方式分享平台。
截止到2018年 6 月 6 日,我们的用户数过亿了,昨天我又拉了一下数据,现在是 1 亿 8 千万了,这个增长相对而言还是比较快的了。
回想 2014 年年底、 2015 年年初我刚加入小红书的时候,当时小红书只有 20 人左右的规模,而现在我们用 1644 天完成了用户数过亿。
好,接下来我们进入分享的主题。这是两周前我们公司内部做的一次关于低龄用户留存差的数据分析。
2.为什么低龄用户的留存比较差?(观察数据图表后,提出的问题)
刚刚很多嘉宾都讲到现在获客成本在不断的提高,在 AARRR 的模型里,当 A(获取用户) 越来越贵的时候,我们该如何保证最后的利润 R (增长收入)?如何在利润 R 和越来越贵的A 之间寻找一个平衡点呢?
就比如说以前 1000 元可以拉来 100 个用户,留存率 10 %,结果有 10 个人留下来了(新增用户100人*留存率10 %=10个人留下来);
现在 1000 元只能拉来 50 个人了,如果还想留下 10个人,那怎么办?我们只能把我们的留存增加到 20 %,这样最终还是 10 个人留下来了。在流量越来越贵的今天,我们要更加重视留存问题。
(次日留存率:(当天新增的用户中,在第2天使用过产品的用户数)/第一天新增总用户数
这里的意思是在获取渠道越来越贵的前提下,要想办法去提高留存率)
我们的分析团队在研究不同用户群留存率的时候,发现来自信息流等渠道的用户留存率很低,他们有一个特性,就是低龄,大多是看一篇或者点过一篇笔记就走了,留存很差。
我们当时做了一个假设:觉得低龄用户可能还在上初中或者高中,而很多学校上课是不能带手机的,只能周末玩手机,所以可能低龄用户留存比较差。这个假设听起来很合理,也符合逻辑,但真实情况是不是这样呢?我们看看数据是怎么显示的。
(这里先提出一个假设/猜测的原因,后面用实际数据来分析原因到底是什么)
根据问题,我们提出来了三个分析的维度:
(这三个维度其实是从分析方法AARRR展开的)
第一、不同的低龄用户表现是否有差异?
(对应AARRR的获取用户环节:用户从哪些渠道来,来了以后留存如何)
在此之前,我们内部对年龄段的划分是 18 岁以下算低龄,但我们觉得这个划分有点太笼统,因为 18 岁以下包含了小学生,初中生和高中生 3 个学龄,不同的学生阶段,我们觉得是差异比较大的,所以年龄维度本身需要更加细分。
第二、他们来小红书想要看到什么内容?能看到他们喜欢的内容吗?
(对应AARRR的激活用户环节:用户的首次体验如何?)
每个用户对一个新产品,新平台都是有所期待的。当他们去下载了这个 APP 激活并注册的时候,总会希望在这个平台能找到对自己有价值的东西。如果没找到,那用户流失的概率就很高了。
第三、他们的 Feed 流推得是他们想看的内容吗?
(对应AARRR的激活用户环节:用户的首次体验如何?)
小红书产品的首页是我们的推荐系统生成的双列笔记 Feed 流,新用户注册的时候会选择一些自己的兴趣点,然后我们根据用户选择的兴趣点,给用户推荐相关主题的笔记。
推荐是否准确,直接影响用户的体验。举个最简单的例子,我挑选兴趣的时候选了健身,结果你给我推荐了个旅行,那跟我的预期就会差很远,用户会觉得这个平台没有我想看的信息,自然就会离开。
(这块对应分析过程的第1步提出问题,然后应用某个分析方法从不同维度来分析原因
这里可以用脑图来绘制出分析思路会更清晰,指导后面如何去分析)
我觉得一定是这三个问题里的一个导致留存差。接下来我们分别来看看针对这三个维度的具体分析。
3.分析问题的原因
1)不同低龄用户表现是否有差异?(这就是分析目标)
第一个维度是不同低龄用户表现是否有所差异,我们拉了一张表「不同年龄段用户的留存分布」(根据分析目标,去找到对应的数据)。
我们将 18 岁以下的用户按学龄重新划分为三类: 12 岁及以下的小学生、 13 - 15 岁的初中生、 16 - 18 岁的高中生,同时,我们看了下这三类用户的次日留存和周末留存(对用户分组,去对比不同组的指标)。
我们很惊讶的发现了两个现象:
第一个现象叫做真正次日留存差的其实是 12 岁及以下的小学生和 13 - 15 岁的初中生,高中生群体的留存率和我们大盘用户留存率其实并没有太大的区别;
第二个叫做次日留存差的用户,在周末的留存同样很差,并不会出现周末反弹的情况。
因此我们得出了两点结论(根据数据得出结论):
前面我们关于低龄用户留存差是因为工作日上学不能使用手机的假设并不成立,即使到了周末能使用手机的时间段,他们也没有回来。
低龄用户不能单纯按照年龄来划分,要按照学龄来划分。所以之后所有的数据分析,当需要按年龄划分的时候,我们都会考虑这一点。
我们又拉了第二个表格,是「不同年龄段拉新渠道分布」(根据分析目标,去找到对应的数据),做这个分析的原因很简单,很多低龄用户都是我们花了很多钱买进来的,如果留不住那就是在浪费钱,投放部门可以针对低龄用户特别多的渠道做一些优化,比如增加针对年龄的定向。
从数据中我们发现,百度 SEM 和广点通的信息流是低龄用户拉新特别多的渠道,占比甚至超过了 6 成,因此在百度 SEM 和信息流的投放上要设定更严格的年龄定向。暂时不要再给小学生初中生推广告了,因为目前他们来了也留不下来了。(根据分析结论给出了建议)
2)他们来小红书想看什么?(这是分析目标)
第二个问题是这些低龄用户看到广告后过来了,他们过来是想看什么?
解决这个问题有两种方法:
一个是用户访谈,可以抓一百个或者一千个用户问一问,了解他们来到小红书的目的,但是这个样本量是有限的,可能得出的结果也不能代表所有用户的想法,而且执行起来很麻烦,要花费很多的人力成本;
另外一个比较好的方式就是看用户的搜索,搜索是一个主动并且强有力行为,他搜什么意味着他想看什么。所以我们做了一个不同年龄用户的搜索画像,分别是 15 岁以下、 16 - 18 岁、 19 - 23 岁以及 29 - 33 岁。
这个表格(不同年龄用户的搜索画像)一出来,我们基本就能知道每个阶段的人关心的是什么了。我们发现 15 岁以下的用户主要搜索简笔画、动漫、头像、还有很多明星;16 岁就开始关注穿搭护肤减肥了;19 岁就增加了彩妆。(对用户分组后,看不同用户的兴趣爱好是什么)
这个数据其实也是很符合用户使用场景的。小学生初中生在学校里也不能化妆,大多也都是穿校服,所以会搜索动漫,壁纸这类东西。
我们甚至发现,很多低龄的用户来小红书就是为了下载壁纸和精美的图片当头像的, 就这种需求,作为我这种中年人,如果不看数据的话,可能永远都不会知道。
而初中生长到 16 岁上了高中了,就会慢慢开始注意穿衣打扮,也会画一些淡妆。等再年长一点,结婚了就会关心结婚,食谱,装修等等。
好,我们现在已经知道我们的低龄用户来小红书是想看什么的了,那他们有没有在这里看到他们想看的内容呢?用什么指标来衡量这个信息呢?做过搜索的同学都知道,搜索点击率(业务指标)是最直白的方式,用户有没有点击搜索结果,当然最大程度上代表了对搜索出来的内容的满意度。
因此,我们又拉了两个表:「无点击超过 40 %的高频搜索词」和「无点击低于 20 %的高频搜索词」。
从这两张表里我们发现:
范冰冰,迪丽热巴这样的明星名字、搜索的点击率不高,而且年轻用户没点击的比例相对比较高;
搜索之后的高点击词,主要集中在减肥、护肤、美甲上。
我们对这个结果还蛮意外的,低龄的用户来小红书想看关于明星的什么内容呢?难道是想看八卦传闻?还是寻找粉丝团?这些的确是我们没有的内容,小红书提供给用户的是明星工作之外的一些更关于明星自身真实的信息,比如在工作外他们用什么化妆品,喜欢吃什么零食等等,但看起来这些东西未必是现在年轻小朋友想看的。
3)他们的 Feed 流推的是他们想看的内容吗?(这是分析目标)
前面的两个问题让我们了解了低龄用户对什么感兴趣、搜索什么以及小红书在哪些内容上不能满足他们。第三个问题想了解的是,当他们在 Feed 流上被动接受信息时,这些内容是不是他们想看的?
我又拉了三个表。
第一个是「用户兴趣特征」分布表,玩过小红书的同学都知道,新注册的用户刚进 APP 时,系统会让你选择一些感兴趣的标签作为你的启动数据。刚开始我们给你推送的内容,都是基于这些你选的兴趣标签。
那我们想看一下, 13 - 15 岁的用户选择是什么? 30 岁的用户选的是什么?从这张表中很明显发现不同年龄段的用户,在标签选择上有这么几个不同:
头部不集中: 13 - 15 岁用户前四名标签占比只有 20 %,而 30 岁以上用户达到 30 % ;
尾部不长尾:相对排在后面的 4-5 个标签,总量加起来也只有 2 % 以上,但年长用户最少需按照的 4-5 个标签,总量加起来低于 1.5 %;
年轻用户的兴趣选择相对多种多样,这更符合小红书标记我的生活这个思路。
我们知道了我们的年轻用户选了什么标签,那我们该如何衡量推荐给年轻用户这些内容是不是他们关心的呢?我们通过两个维度来衡量:内容丰满度和分发匹配度(业务指标)。
内容丰满度是指当用户选了感兴趣的标签,那能不能看到足够的这个品类的笔记。我们发现最多人选的「时尚穿搭」,笔记曝光也最多,这就是合理的;但音乐,游戏等品类,选的人也挺多,但曝光却很少,这说明在音乐这个品类上用户看不到足够他喜欢的内容。
第三个表我们叫分发匹配度,我选了我们平台上一些内容比较多的品类,用热力图的方式展示出来,接下来我会从曝光分布和喜好分布两个维度来对分析。
所谓的曝光发布,就比如说穿搭这个品类,平台分发曝光的内容,在 13 - 15 岁、 19 - 23 岁、 34 岁以上用户的曝光是差不多的。
而喜好分布,就是用户对平台分发曝光出去内容的喜好程度。衡量用户喜欢程度的标准就是,用户有没有点赞、有没有评论、有没有收藏。
这个数字就很明显,同样是穿搭品类,在分发曝光上是没有太大区别的,但用户喜好程度分别很大。如果热力图中每一块的颜色对比很明显,那就说明分发机制有问题。
这个数据给我们一些启发(给出建议):
头部笔记的曝光几乎是一样的,但是喜好度却差别非常大;
在分发的时候,即使同一品类,在不同的年龄维度上,也需要有不同的分发策略;
这其实也论证了我们在流量分配的时候就需要做精细化运营。
4.分析总结
好,我们来总结一下,看一下前面提出的三个问题。(对提出的问题进行回复)
问题1:不同的低龄用户表现是否有差异?
回答:真正留存低的是 15 岁以下的初中生和小学生,且这些用户大多数是通过 SEM 和信息流购买来的用户,市场部门在投放侧需要更精准的定位年龄信息。(建议这里写分析报告的可以更详细些,比如不同的年龄投放策略是什么)
问题2::他们来小红书想要看到什么内容?能看到他们喜欢看的内容吗?
回答:
1)很大部分的年轻人想来小红书看动漫,头像,明星或学习相关的内容。
2)从搜索表现来看,我们的明星内容并不能很好满足他们的需求,需要调研团队针对这个问题做用户调研,搞清楚他们想看的关于明星的内容是什么?
3)市场部门投放(特别 SEM )还是可以多尝试减肥、祛痘、护肤、粉底液这种题材。因为这些题材的内容在小红书搜索点击率还比较高。广告投放要和产品属性要一脉相承。
(对提出问题的回答,要有分析结论,和建议)
问题3:他们的 Feed 流推的是他们想看的内容吗?
回答:
1)在多个年轻人更偏好的类目上,内容曝光过少,他们并没有很好的被满足,未来运营团队需要重点补充这些类目的内容。当然,内容不足的品类也可以暂时拿走,避免新用户注册选择后期望过高,进而流失。
2)在分发侧, global popular (全面大众)的内容对不同的年龄段需要有所区分,算法团队需要调整当前的分发策略。
5、其他分析维度
这是一个很简单的案例,这样从各种维度做数据分析的案例我们每周都会发生几次。
今天因为时间有限,分享的也不是很完整。其实我们还可以从用户的角度去分析,比如说用户用的是 iOS 还是安卓?如果是安卓,那是 OPPO 、 VIVO 、华为、小米?如果是这些,可以看是高端机还是低端机?
我们可以切换不同角度来做数据分析。而这些数据分析,就可以用来指导企业的下一步的行为,具体到是调整还是落地。
下面我简单介绍下在小红书,我们常用的数据分析维度
(可以用第3关分析方法教的面试题回答套路里的维度去展开)。
性别(男,女)
新老用户(新注册, 7 天内注册, 28 天内注册,一个月后还会来的存量用户 existing )
年龄段(?=15 , 16 ~ 18 , 18 ~ 23 , 23 ~ 28 , 28 +)
平台( iOS , Android )
机型( iPhone , OPPO , VIVO ,华为,小米,其他,各 Android 设备再 break down 到中高低端)
地域(一二线城市,三到五线城市,其他)
获客来源( Organic , SEO , SEM ,信息流,小程序, Branding ,应用市场等等,SEM,信息流等渠道还可以 break down 到具体是什么投放词拉进来的用户)
6、数据分析师在公司的日常工作是怎样的?
我们在小红书里面会用到两个工具,第一个叫数据平台。数据驱动增长,这句话已经说过很多次了,那怎么样才能真正的驱动增长?那就是从数据中看到问题找到方向。
小红书对所有的产品经理都一视同仁,入职就送一本教你怎么写 SQL 的书,跑数据的平台也给你,大家自己动手丰衣足食。
(就是公司会把数据给你,然后你自己去分析数据,看看能发现什么问题,如何用你的分析方法去展开分析,找到问题的原因是什么,并给出建议,这个步骤就是第3关分析方法教的面试题回答套路)
第二个是实验平台,这是小红书内部的实验平台。做实验是一种意识。
我给大家讲个很久之前的事,关于手机 APP 引导用户上传头像的那个头像框的事情。
当时做这个功能的工程师把自己的微信头像贴上去,后面大家在分析上传头像的用户比例不高时,开玩笑说是不是那个工程师的头像太难看了,然后大家为了证明是不是这样,就做了个实验。
我们把所有参与这个功能开发的所有工程师、 产品经理 、数据分析师的头像分别上传上去测试了一遍,看看谁的头像做用户引导会提升上传头像的比例。
这个故事也是个小事情。但其实在小红书内部是有这样一种文化的,所有的问题在没拿到数据之前没有人知道对错,那就做个实验呗。
上面案例的学习总结:
这个案例分析切入点很小,开始仅是由于一份留存数据图表发现到低龄用户留存低的问题,由此提出假设,再去建立模型,再去拉新的表,建立新的维度,每一步的行为都因上一步的需求产生。