3、如何评估推荐质量
一个信息流产品,不会仅仅使用一种算法模型,通常会进行分流。占大比重的是经过验证的稳定模型,同时,会有多个占小比重的实验模型。
要评估这些实验算法模型的效果,采用的评测指标主要为以下三项:
准确率:推荐列表里,多少比例的文章,是用户读过的
召回率:推荐列表中,用户读过的文章,占用户阅读记录的比例
覆盖率:推荐列表里的文章,占文章库总数的比例
举例来说,文章总量为 100,用户实际看了 10 篇文章。最终实验模型推荐了20篇文章,用户看过的有 8 篇。准确率为 40%,召回率为 80%,覆盖率为 20%。
除此以外,还需关注的核心业务指标:
UV 转化率:阅读 UV / 曝光 UV,反映多少比例的曝光用户转化为阅读用户
PV 转化率:阅读 PV / 曝光 PV,反映文章的平均转化情况
人均篇数:阅读 PV / 阅读 UV,反映内容消费深度
人均阅读时长:阅读总时长 / 阅读 UV,反映内容消费深度
为什么要看多个指标,不能只关注点击率呢?是因为一味追求点击率,会鼓励「标题党」,导致用户文章阅读完成度降低,最终影响产品调性,造成深度用户流失。
4、影响推荐效果的因素
影响信息流推荐效果的因素,并不仅仅只有算法模型。事实上,由于自建模型的难度很高,造成差异的往往是算法外的因素。
首先,强大的内容库是一个信息流产品的基础。内容的多样性、数量、质量、时效如果得不到保障,推荐效果根本无从谈起。譬如,今日头条、网易新闻这种量级的产品,内容每日入库量至少超过 500k,可推荐集要超过 200k。
其次,一些交互细节及业务参数的调优,也会对最终的效果产生非常大的影响。