消重就是指对重复、相似、相关的文章进行分类和比对,使其不会同时或重复出现在用户信息流中的过程。头条号平台首先会通过消重机制来决定同样主题或内容的文章是否有机会被推荐给更多用户。
头条号算法中的消重过程
如何判断两个内容是否相同呢?如果让人来判断,可能就要逐字逐句地把文章读完才能判断得出来。通过计算机这样去判断当然也是可以的,不过,当每天需要处理的内容达到十多万篇次的时候,这么做即使对于计算机来也太麻烦了。
有没有更简单的方法呢?
有的,通过系统的计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。
站在读者的角度,读者不希望看到两篇重复的文章,浪费一个位置,应该最高效率的推荐读者感兴趣的文章,大多数的头条文章,都是值得被推荐的,在头条的推荐机制下,支持原创,不做标题党,在面对热点的时候,虽然热度比较高,但是竞争也大,要谨慎追逐。
机器为避免在同一时间段用户看到太多同一事件的文章,就会启动对「相似主题」的消重。
不难想到,对于主题的消重原理和对内容的消重其实原理是一样的,如果能对文章中全部的关键词进行统计并计算信息指纹,当然也可以对其中部分与话题相关的关键词进行统计并计算信息指纹。
我相信,身边很多做自媒体的朋友,都遇到发布不成功,提示疑似旧闻的通知!
希望以上的消重功能知识讲解,对你带来帮助!
有不清楚的地方,可以加E客先生微信(eke2006)交流!!