个性化保举背地的生成机制
本文摘要:我们都记得塔吉特的案例:2012年,美国一名男人闯入他家邻近的一家零售连锁超市塔吉特内抗议:你们竟然给我17岁的女儿发婴儿尿片和童车优惠券。店肆主管立刻向来者招认过错,可是该主管其实不知道这一行为是总公司运转数据发掘和个性化引荐的成果。一个月后,

我们都记得塔吉特的案例:2012年,美国一名男人闯入他家邻近的一家零售连锁超市塔吉特内抗议:你们竟然给我17岁的女儿发婴儿尿片和童车优惠券。店肆主管立刻向来者招认过错,可是该主管其实不知道这一行为是总公司运转数据发掘和个性化引荐的成果。一个月后,这位父亲前来道歉,因为这时候他知道自己的女儿确实怀孕了。塔吉特比这位父亲知道自己女儿怀孕足足早了一个月。

塔吉特的案例是基于数据发掘所做的用户行为分析的成果,通过分析之后,体系对用户进行了个性化引荐,以至于他们有掌握给客户提供的商品是他们所喜欢和需要的。

个性化引荐的背后原理

要了解个性化引荐,先得了解互联网发掘和协同过滤这两个概念。

精确地说,互联网的发掘(WEB发掘)指的是,使用数据发掘技能从互联网上的文档中及互联网效劳上主动发现并提取人们感爱好的信息。

Web发掘是对现代电子商务战略的一个重要支撑,尤其是web发掘中的用户拜访模式发掘主要用于对客户在网上行为的分析以及潜在的顾客信息的发现。Web发掘的一个完成方法是对效劳器日志、过错信息日志和本地终端数据日志等日志文件进行分析,发掘出用户的拜访行为、拜访频率和阅读内容等信息,从而找出一定的模式和规则。

这就引出了协同过滤的概念。协同过滤是信息检索的一种技能,方针是为了帮用户在海量的互联网信息(商品)中找出感爱好的内容。

在电子商务的应用中,我们通常使用协同过滤技能来找出关联商品引荐。这种商品引荐方法被称为引荐体系或个性化引荐体系。用通俗的话来说,协同过滤算法可以协助找到和你喜好类似的那群人,看他们买了什么东西,然后引荐给你。

协同过滤的主要方法有以下三种:

基于用户的:收集用户的信息属性。关于每个用户A,找到和他比较挨近(或者类似)的几个用户。使用这些类似的用户对用户A的爱好点进行猜测,而把那些潜在的并没有被开掘出的爱好点引荐给用户A。

基于项意图:收集项意图信息属性。关于一个用户,假如他对项目X有很高的爱好,那么他很有可能也对与X类似的项目有潜在的爱好。

基于内容的:除了用户和项目属性之外,基于内容的协同过滤还要进一步分析用户的评价内容和反馈。比如用户A对项目X感爱好,可是他对X的爱好是“仇恨”,这样就不能把他和“喜欢”项目X的用户归类在一同了。

找到类似点

当然,在电子商务领域,项目主要指的是商品。协同过滤引荐是基于这样的假设:假如一些用户对一些项的评分比较类似,则和这些用户类似的其他用户对这些项的评分也比较类似,而这些用户关于和这些项类似的其他项所做的评分也是类似的。

我们来举例说明:你在电子商城里买了电影碟片《指环王》和《星球大战》,协同过滤算法可以协助你找到买了类似产品的其别人。假如算法发现他们还买了《哈利·波特》,就会把《哈利·波特》引荐给你。假如你买了余华的《兄弟》和《活着》、苏童的《大红灯笼》,体系找到了其他买这些书的人,发现这些人都买了莫言的《檀香刑》,于是就会把这本书引荐给你。

当我们找到和客户A“类似”的那些其他客户之后,就能够对商品列表进行排序了,越多和客户A类似的客户买了商品X,就说明商品X越可能吸引客户A。

简略地说,我们假如认为有1000个客户是和客户A“类似”的,那么可以把这些客户购买的前史数据调出来依照多寡排序。假如其间有100个客户都购买了商品X,有90个顾客购买了商品Y,那么我们会优先对客户A引荐商品X,然后再引荐商品Y。

大数据下的个性化引荐

引荐体系,或者称为个性化引荐体系,是建立在数据发掘基础上的一套体系,认为顾客购物提供完全个性化的决策支撑和信息效劳为意图。简直所有的海外大型电子商务网站,包括亚马逊和eBay,都不同程度地使用了各种形式的引荐体系。

我们来看一个基于协同过滤规则的引荐体系施行案例。

如左下表所示,Chris、Jenny、Mark和Peter等都是体系中的用户,而商品A、B、C等都是用户购买过的商品,打钩表明对应的用户购买了对应的商品。

?

我们先来看基于用户的引荐。假设通过引荐体系,我们发现Chris和Peter两位用户的类似度对错常高的,其间Peter现已购买了商品A、C、E,而和他很“类似”的Chris只买了商品A,引荐体系就会把商品C和E引荐给Chris。

我们再来看基于项意图引荐。假设通过引荐体系,我们发现商品B和商品D是“类似”的。在体系的众多用户中,Jenny购买了商品B和D,Tina购买了商品D,而Venessa购买了商品B。我们的引荐体系依据商品B和D的类似规则,会把商品B引荐给Tina,并把商品D引荐给Venessa。

在协同过滤引荐体系中,一个需要考虑的因素是被引荐的商品X和商品Y本身的购买频率。假如在悉数的用户中有10%的客户都购买了商品X,而只有1%的客户购买了商品Y,那么这时候我们可能应该引荐的商品是Y而不是X。我们可以在排序的时分加上一个系数,而这个系数的数值是和该商品全体的热度成反比的。因为商品X在悉数客户中被购买的比例是商品Y的10倍,而在和客户A“类似”的人群中被购买的比例只多了10%,那么我们在排序时需要把Y排在X的前面。

需要补充的是,协同过滤引荐体系是依赖于很多数据的。假如数据量不行充沛,引荐的成果可能会令人哭笑不得。在新用户、新项目或者整个体系是全新开始的状况下,个性化引荐引擎是无法工作的。


人人都是产品主管(woshipm)是以产品主管、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位效劳产品人和运营人,建立9年举行在线讲座500+期,线下分享会300+场,产品主管大会、运营大会20+场,掩盖北上广深杭成都等15个城市,内行业有较高的影响力和知名度。平台集合了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一同生长。