今日头条首席算法架构师曹欢欢
打开今日头条,我们看到的是满屏的新闻资讯。从内容上看,今日头条很像其他新闻客户端;从功能上看,今日头条又特别像互联网媒体。但在今日头条CEO张一鸣眼中,今日头条却是一款个性化推荐引擎产品。
百度是专注信息搜索的大引擎,今日头条是专注信息推荐的垂直引擎。从这个角度讲,今日头条跟百度十分相似。曾经百度新闻也是靠机器算法来筛选新闻,但后来被今日头条甩出几条街。
个性化推荐算法
今日头条由张一鸣于2012年3月创建,在不到四年的时间里便轻松超过包括百度新闻在内的其他新闻客户端,一跃成为互联网媒体的后起之秀。今天头条的成功崛起,主要得益于背后的个性化推荐算法。
在张一鸣看来,算法是今日头条的核心。
今日头条没有任何采编人员,本身不生产任何内容,完全靠机器算法来运转。今日头条搭建的算法模型会记录注册用户的每一次阅读行为,并基于此计算用户的喜好,推送用户可能感兴趣的内容。
当用户使用微博、QQ等社交账号登陆今日头条时,它也能在5秒钟内通过算法解读使用者的兴趣DNA,用户每次动作后,10秒更新用户模型,越用越懂用户,从而进行精准的阅读内容推荐。
正是由于这套算法,使得今日头条在短短两年多的时间内便拥有了2.2亿用户,每天有超过2000万用户在今日头条上阅读自己感兴趣的文章。
基于用户投票和标签实现个性化推荐
基于精心设计的机器学习引擎和大数据处理架构,今日头条能实现特定用户的个性化推荐。据官方描述,今日头条可以在0.1秒内计算出推荐结果,3秒完成文章提取、挖掘、消重、分类,5秒计算出新用户兴趣分配,10秒内更新用户模型。
算法听起来很厉害,但基本原理很简单。其核心理念就是投票,每个用户一票,喜欢哪一篇文章就把票投给这篇文章,经过统计,最后得到结果很可能是在这个人群下最好的文章,并把这篇文章推荐给同人群用户。实际上个性化推荐并不是机器给用户推荐,而是用户之间在互相推荐,看起来似乎很简单,但实际上这需要基于海量的用户行为数据挖掘与分析。
具体而言,今日头条会给每位用户打上各种标签,比如科技、小米、足球、NBA等。当文章包含标签关键词时,系统会自动推荐给具有这些标签的用户,即实现所谓的个性化推荐。个性化推荐其实就是不断匹配标签的过程,只是实现过程比较复杂而已。
真正关心的内容上不了头条
虽然今日头条的个性化推荐算法实现了海量用户的精准送达,但因流量至上带来的低俗化也饱受社会质疑。
在今日头条网站,排在首页的内容很大一部分是娱乐八卦和负面的社会新闻。该类内容吸引读者,流量大,可以理解,但这并不代表用户真正关心的就是这些内容。
人性中天然存在猎奇、惰性等特点,给算法提供了可乘之机。只根据数据勘测某条资讯阅读量、转发量高,就粗暴地推荐给用户,或根据用户过往点击行为,猜测喜欢看因一时好奇而点击的低俗内容,就不断给用户推荐类似内容,与其说算法跌入人性陷阱,不如说算法利用人性弱点将用户局限在信息的茧房里。
有时候,很多用户阅读娱乐八卦只是为了短暂的放松,并不代表用户真正关心的内容是娱乐八卦。有时候偶尔点击一些低俗内容,也只是一种好奇心理在作怪。单纯根据用户点击来判断用户的兴趣,其实是非常片面的,也是不合理的。正是在这种算法下,越来越多的娱乐八卦甚至低俗内容充斥其中,许多高质量内容则逐渐被边缘化,最终造成媒体劣币驱逐良币、用户被低俗内容吞噬等后果。
人民日报也曾经发文怒怼今日头条,直言新闻莫被算法”绑架”。
搭上所谓算法的“便车”,一些原本信息量丰富的新闻客户端推荐的内容越来越单一,一些原本客观公正的内容生产者变得越来越偏激,一些新闻媒体原本宏大的格局变得越来越狭小。
算法不是万能的
任何一种算法都有本身的局限性,今日头条更不例外。很多时候,你没点击过的内容可能才是你真正感兴趣的内容,但这些内容在今日头条上根本找不到。在没有选择的情况下,你只能点击娱乐八卦等内容。所以,算法也要及时做出改进,适当推荐用户没点击过的内容。
此外,算法推荐和人工干预相结合也是大势所趋。最重要的新闻不一定是点击率最高的新闻,时政、财经等严肃新闻需要人工进行强干预,以修正机器的错觉。在这方面,今日头条可以学学一点资讯和天天快报。
成也算法,败也算法。算法给今日头条带来了巨大的流量和收益,但也给今日头条带来了饱受质疑的负面影响。如何抵住流量诱惑,真正赢得用户口碑才是今日头条目前需要真正考虑的问题。