21CTO社区导读:
月活跃用户达数亿的 Pinterest 越来越依赖机器学习,以帮助发现新的互联网洞见。
世界各地的用户访问 Pinterest 是为了探索、保存和分享照片及文章。帮助用户找到自己喜欢的内容,用户自然会被留住:Pinterest 上 30% 的互动和 25% 的 Pinterest 内购来自于 Pinterest 推荐的相关美图和内容。为了推荐合适的内容,Pinterest 使用了由数据驱动的顶尖技术,还进行了大量试验。
推荐系统价值&现状
在实践中不断测试。
在看推荐系统的基础开发,实践演进之前,我们先看一下Pinterest推荐系统目前的状态和目标,以及它在系统中的价值。
Pinterest 首席发现科学工程师(lead discovery science engineer) Mohammad Shahangian 这样说:“我的主要工作是找到解决内容发现问题的方向。我们会对算法做非常小的改变进行试验,每一次尝试都有其改进或不好的地方。”
Pinterset 是围绕用户的兴趣而建立的社区,用户会将自己从互联网上找到的产品、文章和图片按兴趣分类。 这意味着 Pinterest 不用像其他社交网站一样,通过点击模式或在某个页面上花费的时间来猜测用户的兴趣,而是可以直接用算法来衡量其数据库中 750 亿个条目之间的关系,因为这些条目很可能被归在同一个兴趣之下。
Mohammad Shahangian 指南:“许多公司试图通过输入或信号来推导用户兴趣。但在 Pinterest,用户明确地给出了自己对什么感兴趣的信号。”
访问 Pinterest 的用户们在不断为这个由用户、搜集到的条目以及收藏板所组成的社交图景添砖加瓦。这些数据又可以让 Pinterest 更精确地为用户主页消息流、搜索结果以及相关内容推荐提供内容。单纯根据用户关注的内容向用户推荐并不理想,而推荐相似内容又很容易重复。
在 Mohammad Shahangian 看来,“如果你收集了一个厨房水槽的条目,我们应该给你推荐更多水槽呢,还是推荐可以让你的厨房焕然一新的条目?”
为了作出这些决策,Pinterest 的工程师们试验了多种机器学习算法。他们研究了这些算法在相关和不相关条目上的效果,以及它们如何影响真实用户的活跃度。
Mohammad Shahangian 说道:“我们确实会直接在 Pinterest 上做试验,但很多时候我们都会先做很多准备工作再试验。”
当然,如果不进行实际测试,就根本没办法知道某个用户是否会喜欢新的推荐内容。“我没法花钱请人告诉我,某个用户是否会喜欢新的推荐内容,”Mohammad Shahangian 表示。但通过研究算法推荐的内容是否会被真实用户归为某个兴趣下,这就能得到相对靠谱的答案了。
此前,Pinterest 将用户主页的消息流从纯粹的按时间排列关注用户的消息,改成了由算法生成的消息流,这一举措让用户的活跃度提高了五分之一到十分之一,后续算法改进还会带来额外提升。
Shahangian 表示:“在整个改进过程中,Pinterest 得到了长足发展。个性化极大地提高了用户活跃度。”
Pinterest 一直在改进图片搜索,以帮助用户更好地找到相似图片。Pinterest 的工程师们与加州大学伯克利分校视觉与研究中心的研究人员们合作开发了这一技术。现在它已经能通过深度学习算法来自动识别图片中的物体了。这样,用户就可以点击这些物体来找到 Pinterest 中的相关条目。
Pinterest 视觉搜索工程师 Dmitry Kislyuk 这样说道 :“这不是区分猫狗的分类算法。我们是想实时找到图片间的相似性。”
他表示,这一视觉搜索工具在发现 Pinterest 中的家庭装饰品和时尚用品上效果很好。未来 Pinterest 希望能改进其自动分类功能,以更好地满足其他搜索需求,比如帮助用户找到相似的新食谱。
在谈到用深度学习来更有效地进行图片分类时,Pinterest 视觉搜索工程师 Andrew Zhai 说道:“我觉得我们的模型会变得更语义化,也会变得更好。”
Pinterest 的工程师们在专注于完善物体识别和搜索的同时,还打算开发一款应用,让智能手机用户可以拍摄现实世界的物体,然后获得 Pinterest 上的相关条目推荐。
Dmitry Kislyuk 表示道:“现如今的深度学习、计算机视觉领域令人激动人心。世界变化太快,顶尖技术每两个月就会变一次。”
接下来我们来看Pinterest原工程师王栋详细介绍它的演进过程。
加入推荐算法团队
诸法由因缘而起。
就在今年的4月份,WWW大会上有一篇论文,题目是《Related Pins at Pinterest: The Evolution of a Real-World Recommender System》。它主要介绍了Pinterest推荐系统四年的进化之路。
2013年,也就是四年前,我加入了Pinterest的Discovery Team。
那时候大半个Discovery Team(推荐算法团队),都在忙着搭建一个被称为“Related Pins”的新功能,我也便见证了Related Pins到现在这四年的发展。
Related Pins如何从两三个人的项目发展到十几个人的团队的?我们不妨一起看看Related Pins的进化史。
推荐系统结构与进化
道生一,一生二,二生三,三生万物。
我们先了解Pinterest推荐系统的产品与数据特征。
用户在Pinterest上可以点击一个Pin看大图,可以再次点击跳转到Pin背后的网页上去。如果在网页上待很长时间,我们则称这次点击是“长点击”。另外用户可以把Pin保存在自己的Board里。这个用户“保存”操作的比例是Pinterest最关心的产品指标。
在Pinterest的数据模型中,每一个Pin都有自己的图片,链接和描述。每个Pin都存在一个Board当中,但是不同的Pin可能有相同的图片,被保存在不同的Board里。
接下来的内容中,我们提到的Pin通常指包含相同图片的Pin集合。
Pinterest的推荐系统进化大概经历了四个阶段:
第一阶段,也就是从我2013年刚加入公司的时期,推荐系统主要是基于Pin-Board的关联图,两个Pin的相关性与他们在同一个Board中出现的概率成正比。属于基础阶段。
第二阶段,在有了最基本的推荐系统后,我们对Related Pin的排序进行了初步的手调,手调信号包括但不局限于相同Board中出现的概率,两个Pin之间的主题相似度,描述相似度以及click over expected clicks的得分。
第三阶段,随着产品不断迭代,渐渐发我们发现,单一的推荐算法很难满足产品想要优化的不同目标,所以引入了针对不同产品需求生成的候选集(Local Cands),将排序分为两部分:机器粗排和手调。
第四阶段,接下来我们又引入了更多的候选集,并且提高了排序部分的性能,用机器学习实现了实时的个性化推荐排序。
候选集进化
兵来将挡,新需求来,新候选集挡。
最开始Related Pin系统只能生成一种候选集算法,直接把生成的候选集推荐给用户。后来我们又引入了Memboost和基于机器学习的排序算法,候选集的生成更加注意 Recall 以及结果的开放性,所以产生的候选集越来越多。
Board Co-occurrence: 主要的候选集生成算法还是基于用户的 Pin 和 Board 关联图,最初是Map/Reduce离线算法。对于每个Board,输出这个Board里面所有的Pin Pairs,然后在Reducer里面计算每组Pin Pair出现频率。
由于数据量太大,我们又进行了随机取样。在排序过程中还引入了 Pin 的描述和主题相似度等特征进行手调,取得了很好的效果。
后来,我们发现基于Map/Reduce取样的算法得到的相关度还有提升空间,对于罕见的Pin常常不能生成足够多的候选集,所以开始使用online的随机游走生成候选集。这个随机游走算法被称为Pixie,通过对Pin和Board关联图进行几十万步的模拟随机游走产生候选集,能够很好地解决上面提到的两个问题。
Session Co-occurrence: 基于Pin和Board关联图的算法有很好的Recall,但是有时候他们不能理解Pin里面很细微的主题,一个Board也容易随着用户兴趣的转移而转换主题。
这些问题可以通过挖掘有时效性的用户行为得到更好的解决,所以Pinterest又搭建了一套Pin2Vec系统来弥补co-occurence算法的不足。
Pin2Vec通过学习用户在一定时间内的保存行为,得出N个最流行的Pin的嵌入向量。通过一个Pin的向量和学习网络,既可以预测用户接下来想保存什么Pin,也可以找到与用户询问Pin最为相似的几个Pin。
Supplement Candidates: 除了以上提到的基础的候选集,Pinterest还采用了另外两种算法来对结果进行发散,并且解决冷启动的问题。
每一个Pin会有相应的描述,主题等文字信息,由此可以产生基于搜索的候选集。这个候选集里的Pin比以上两种算法生成的相关度要差,结果相对发散,但是能给用户带来更好的探索体验。
另一种是基于图片相似度产生的候选集,可以直接借用极度相似的图片生成的推荐结果,也可以把类似的图片Pin再推荐给用户。
Segmented Candidates: 最后为了优化产品的生态系统,Related Pin引入了针对新鲜内容的推荐集合。
在Pinterest开始走向国际化的道路上,又针对不同的市场做了不同的推荐集合。
排序过程
从拍脑袋到机器半自动。
对于基本的搜索引擎和推荐系统,在有了大量数据之后,最容易实现的排序方式就是记住用户在每一个Related Pin页面与哪些Pin进行过互动。
由于用户在使用不同客户端时,对不同位置的同一个Pin互动存在一定的偏差,所以我们在生成这个记忆的时候采用了clicks over expected clicks算法。一个Pin的Expected Click是这个Pin在不同位置上的impression数量与该位置的期望点击率的乘积。
我们设一个Pin的Memboost得分是clicks over expected clicks:
然后将Memboost得分和原始基于Pin和Board的关联图,还有主题相似度和文字相似度得分线性结合在一起:
这种简单的排序被实验证明是非常有效的。
这个通过手调和记忆进行排序的过程在Pinterest使用了超过三年的时间。在引入了越来越多的候选集后,人们逐渐意识到下一个大的提升可能来自于learning-to-rank。
Related Pins设计了ranker对候选集根据query pin,当前用户,以及当前用户的上下文进行重新排序。在排序的时候采用了四类不同的特征:
Pin的特征: 包括文字信息,图片信息,文字向量,主题类别信息以及Pin的人口信息,比如不同性别,不同国家和语言的统计信息。
历史特征: 包括上面提到的Memboost,用户过去进行的不同类别的动作信息,点击,长点击,保存等行为。
用户特征: 用户的性别,国家和语言。用户过去保存过的Pin,文字信息,主题信息等。
用户实时特征: Query Pin是来源于主页,搜索还是哪一个Board。最近搜索过的问题,特征向量,最近保存过的,点击过的,长点击过的Pin。
在最初推荐系统的版本中,我们从Memboost得分中生成训练目标。
通常认为一个拥有高Memboost得分的Pin好于一个低Memboost得分的Pin,有Memboost得分的Pin好于一个随机的Pin,然后采用pairwise loss训练一个RankSVM模型。
但是上面的版本很难模拟不同用户对结果不同的反应,所以我们转移到一个基于Session的训练模型。每一个Session都包含一个Query Pin,当前用户,动作以及一系列的推荐pin。当用户保存一个pin时,我们把这个pin和之前的pin取出,做pairwise的学习。
(我认为: 在这个实践过程中应该还引入了周边的pin,以及一些不相关的popular pin作为反例,不然学出来的结果有可能会反转原先的排序)
版本三采用了RankNet loss和GBDT模型来模拟用户非线性的行为。新的模型也更好的考虑“如果Query Pin的类别是艺术,那么视觉相似度是一个很强的信号”这样一类的组合特征。
版本四则由pairwise loss回归到pointwise loss。虽然学术界一直认为排序问题listwise优于pairwise,pairwise优于pointwise,但实践中pointwise常常能达到与pairwise一样好的推荐效果。从人理解角度来看,其实用pointwise来预测用户的点击率,保存率更容易解释,从而用得分作为一个参考,在排序过程中引入其他信号,全面的优化产品的生态系统。
小结
路漫漫其修远兮。
推荐系统在学术界已经有很多年的研究,但是行业应用中使用的往往还是最简单的算法,有大量的数据就能够很好地弥补算法上的不完美。
我们看Pinterest这篇文章,它很好的描述了推荐系统这几年是如何跟随一个创业公司从两三个人就能搭建的简单系统成长到一个十几个人的团队,维护和提高的包含3-4个级件的大推荐系统。
在演进和生成过程中,这个团队经历了“cold-start”(冷启动), “rich get richer”(富有且更丰富), “engagement is not always correlated to relevance”(参与并不总是和相关性相关)等挑战。
虽然不是每一个问题都能完美解决,但是提出有效的方案去减小问题影响正是业界所需要的。
我为能见证这一功能的完善和队伍的成长感到荣幸,预祝Pinterest早日上市。
作者:王栋
清华大学姚班07级,信息学竞赛国际金牌。目前任职于硅谷电商网站Wish,专注搜索推荐算法及系统设计。曾任独角兽公司Pinterest搜索排名负责人,带领团队设计和实现了高度可扩展的搜索平台,以及机器学习搜索结果排名算法。
本文为 @ 21CTO 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。