脸谱网

新闻是怎么来的?

2004年,facebook问世,两年后的9月,newsfeed和minifeed一起问世。今年是 newsfeed发布十周年。在过去的10年里,facebook是如何把newsfeed 变成每天收入几千万美元的现金的?不管你对这个充满铜臭味的问题感兴趣与否,反正我对它感兴趣。

今天,我们都习惯于主动与朋友分享照片、短信等内容,但当facebook 推出这一功能时,却引起了广泛的争议,焦点是“隐私”。用户怎么会认为我发的东西别人能看到?用户不断质疑和抗议,却忍不住继续使用。facebook 只是在争议中加入了最初的隐私控制,比如隐藏自己的动态,而newsfeed 只是坚持。看来小扎真的是泡妞高手,看透了“说不,但老实”的内在。

[时尚人物]Facebook 如何将NewsFeed打造成日收入千万美金?看看创始人怎么说

随着用户逐渐喜欢上了浏览好友分享(yao),2009年,facebook增加了like功能(friendfeed在2007年 发明了like按钮,friendfeed后来在2009年被facebook收购,这个功能被整合),开始根据人气匹配feed

有这么多争议,为什么脸谱网一直做兴趣饲料?从数据来看,平均每个用户每天有多达1500个新东西可以看,但平均每个用户每天只能看300个新东西;从商业角度来说,向上帝订购饲料 的做法非常不利于商业化,不利于用户体验。公共主页可以使用许多技巧来吸引用户的注意力,然后肆无忌惮地做广告。

在过去的10年里,newsfeed有了无数的改进,甚至每天都有很多算法版本部署在网上进行ab测试。但edgerank 是优化迭代道路上的标志性建筑。按照edgerank的说法,我们可以把新闻提要排序策略分为predegrank时代、inedgerank 时代和postedgerank时代。

Edgerank算法

Edgerank顾名思义就是给边排序[2]。

每个朋友的每一个动作都可以以新闻的形式呈现给用户,例如,一个朋友发布了一个新的东西,一个朋友表扬了一个朋友的朋友的一个新的东西,一个朋友评论了一个朋友的朋友的一个新的东西,一个朋友在他的照片上添加了标签,等等。用脚后跟稍微想一想,你就知道如果这样列的话每个用户要看多少新东西了。所以, fb想在呈现给用户之前,估计一下用户对这个新事物的兴趣。在fb的定义下,一个动作就是一个 边,所以这个量化兴趣的算法叫做edgerank。

[时尚人物]Facebook 如何将NewsFeed打造成日收入千万美金?看看创始人怎么说

不要看今天的脸书,它既是深度学习,也是人工智能。要知道,在edgerank提出之前,fb也有过刀耕火种的时代。fb 的首席产品官chris cox谈到了早期的新闻提要。[3]:

“开始时,新闻提要的排名有些混乱。把照片放大一点,把平台故事缩小一点。”(本来newsfeed 排名是主观拍头像,给照片加一些权重,给平台动态消息减一些权重)

“一张照片可能值5分,而加入一个小组值1分” (将照片权重设置为5,将小组权重设置为1)

算法工程师的人听到这里,一定会意地笑了:fb也是从这个时代来的。但facebook 与众不同,它只是一个暂时的情况,他们已经达到了一个更高的阶段。

Serkan piantino在2010年左右领导并开发了edgerank算法的第一版[4]。再来说说著名的edgerank 。

Edgerank有三个主要因素在起作用:

亲密度得分(亲密度得分)

边缘的重量(边缘重量)

新鲜度(时间衰减)

想象一下,一段内容诞生后,是以什么样的路径流向你的。

首先,你的一个朋友(或者你关注的来源)的手里发生了一件新的事情(他发表了,表扬了,并标记了这些东西);

然后在介绍完你的朋友(或者你关注的来源)之后,你可能一开门就看到了(登录);

内容不多的时候,一个个开门可能就可以了,他们也买得起。内容太多没关系,你得考虑一个先来先服务。

这三个步骤大致描述了edgerank的思想,但实际上非常简单直接。

亲密关系对应的是第二步背后的想法,所以很多人都介绍过,所以当然要优先考虑更喜欢的人。要量化亲密度,要考虑你和这个朋友是否经常“走动”,联系紧密。主要考虑以下几点:

你们联系的力度,赞的交流,评论的交流,或者私信的交流,连接方式不同,力度也不同;

你连接的频率,一天一百赞,或者一天一百赞,也是很不一样的;

你多久没有建立联系了?如果一年没有建立联系,关系自然会变弱;

亲密是单向的,也就是说你和朋友的亲密可能和朋友和你的亲密不一样。

你看,看似神秘的edgerank算法,其实和大家不喜欢的鸡汤有着相同的含义。你觉得它这么平易近人吗?

边的权重也很直接,其实反映的是生产一个新东西的成本。成本越高,重量越大。赞,评论,发一条短信,发一张照片,发一个链接,后面的用户付出的代价不一样,侧面反应的权重也不一样。很明显,你的赞的成本和发表一个新故事的成本是很不一样的。

最后,新鲜感也是一个直观的自然假设:新闻提要总是偏爱新提要,新的和新的东西更有可能是用户的幸运。Fb 使用类似于指数衰减的函数来量化新的和旧的动态程度。

三个分数,最终通过乘法作用于每个新项目的分数,用于排序和筛选。

这个排名方法真的很简单,基本上只考虑社会因素,而没有考虑太多内容对用户的吸引力。

根据公开信息,edgerank并不是一个高级算法,它只是将三个主要因素量化后主观相乘,背后没有任何目标优化思想。根据facebook 披露的信息,早期的edgerank并没有引入机器学习,所以根本不是智能算法。

为什么edgerank这么出名?因为是在f8开发者大会上公开介绍的,被一知半解的媒体渲染后成为一个神秘而深刻的存在。

后edgerank时代

2011年后,facebook不再提edgerank算法,因为用户和广告商数量迅速增加,所以newsfeed 的排名算法不得不通过上一段楼梯。如今,每月有超过10亿的用户和大约2000万的公共主页活跃,移动设备贡献了大部分流量。由于复杂的语境因素,必须引入机器学习来持有 整个场景。

在原有edgerank 的基础上,更详细的定义了不同层次的亲密度。利用深度神经网络理解图片内容和文字内容[5],可以知道照片中的物体是否是用户感兴趣的,可以知道新的讨论话题。随着产品的迭代,增加了更多的产品特性,比如阅读时间、视频内容、链接内容等。,并且隐藏了一个源。 100,000+的变量被反复考虑(空模型的特征应该更高)。按照原来的方式调整体重,显然是不科学的,也是低效的。

[时尚人物]Facebook 如何将NewsFeed打造成日收入千万美金?看看创始人怎么说

从脸书的机器学习应用博客页面,我们可以看到自2010年以来就有关于机器学习的文章[5]。

相关数据显示[6],2011年以后,newsfeed 的排序算法全面转向机器学习,利用最优化理论确定各因素的权重,从而将人们从复杂的策略量化中解放出来。

被机器学习接管后,newsfeed在很多地方都比较详细。

利用机器学习预测新事物的质量[7]。通过构建问卷调查,访问多个用户收集数据,并利用收集的数据构建机器学习模型,用于预测新闻提要 h/]排序时的动态质量,并将预测的质量分数作为最终排序的一个特征。树模型用于构建离散特征,最常见的lr模型用于估计广告的点击率[8]。

除了转向机器学习,newsfeed 团队正在重新思考人和算法之间的关系。他们需要关心的是“如何找出用户真正最关心的东西”,而不仅仅是“提高点击率”。Facebook 一直是数据驱动的,这也是他们相信自己可以在争议中坚持新闻feed的来源,而不是被数据牵着鼻子走,团队内部有很多想法和变化。

仅举几个例子:

研究小组发现,85%的隐藏新事物的操作来自5%的人。与这些用户交流后发现,有5%的用户在邮件中将“隐藏”视为“标记阅读”,无论是否阅读自己喜欢的新事物,都会点击“隐藏”。

对于悲伤的事情,用户可能会在意但不会喜欢。

对于某些赞,用户可能并不是真的感兴趣,只是“像疯狂的魔鬼”一样疯狂。

一个用户看了一篇很长的帖子,中间没看,不代表他对它不感兴趣。

这些案例使他们注意到机器学习和数据的局限性[9]。

因此,除了算法团队,脸书还在世界各地建立了一个人肉评估团队。人肉评估团队不会简单的将算法筛选结果标注为自己喜欢/ ,而是会深入解释自己喜欢/ 和不喜欢算法筛选结果的原因,并将评估结果与工程师进行详细沟通,因为这种人肉评估方式可以有效的突破数据和谎言,让产品远离盲目寻求提高数据指标的怪圈。

此外,产品还加强了过滤功能:你可以选择谁展示你的动态,谁隐藏,谁先看到。当然,你可以取消关注某些人或者公共主页,把这些控制权交给用户。一方面安抚了用户被算法接管的不安,另一方面也是很重要的一件事。事实上,今天的过滤器非常复杂,大多数用户都不会使用这些控件。

“如何衡量用户的真实兴趣”这个问题可能离最终答案还很远。为什么?因为人的非理性占据了大部分时间,“不一致”是非理性最重要的表现形式,用户根据不同的心情有不同的兴趣标准,这些标准可能还是矛盾的。

新闻订阅的配套设施

新闻订阅源存在的前提是依靠用户建立大量的社会联系,这样就会出现信息过载。因此,newsfeed 的一个重要支撑设施就是“你可能喜欢的人”推荐系统。

这是一个我们熟悉的产品形式的推荐系统。它是一个大规模的矩阵分解算法[10],利用已有的协作矩阵推荐你可能想要建立联系的新 项,包括用户、应用、公共主页等。

Newsfeed还有一个配套设施,也是它每天能吸引几千万美元的原因:广告系统。Facebook的广告形式多样[11]:

建议页面(您可能喜欢的公共页面)

页面贴吧(微信官方账号贴吧推广)

建议的应用程序(您可能喜欢的应用程序)

视频广告(视频广告)

现在,新闻提要的每一个调整算法都会引起广告商的抗议,他们是在fb上有公共主页的商业组织。

过去,fb鼓励这些商业机构花钱做广告来增加粉丝。当时newsfeed算法允许免费广告(以原创新鲜感的形式)。现在fb 严格限制商业广告和普通用户的触及范围。商业机构觉得自己被骗了,花钱买粉也发不出原创广告。同样,根据微博 ceo(@来来去去)在微博上的披露,微博企业号现在仅限于到达粉丝订阅源的博文数量[12]。

据一家专门从事newsfeed推广的外国公司称,1000个公共主页中的5万篇文章以原生方式到达用户的比例从2012年的16%下降到2014年的6.51%,增长了一倍多。这当然可能是由于用户平均关注的公共主页的增加[13]。

世界上最遥远的距离是拥有更多的粉丝,但你不能随意暴露你的产品。

当然,所有公众主页,不要灰心,不是没有出路。newsfeed的广告系统永远对你开放。

新闻提要展望

无法预测具体的新闻提要将如何发展,但有三点是肯定的:

新闻提要的算法将继续进化。

新闻馈送团队更好地处理了人和算法之间的关系,从数据驱动到数据知情。

越来越多的饲料产品将效仿新闻饲料,加入兴趣饲料的趋势。


标题:[时尚人物]Facebook 如何将NewsFeed打造成日收入千万美金?看看创始人怎么说

地址:http://www.shangjian5.cn/sh/9591.html