6个要点,打造有用的A/B 测试
本文摘要: 订阅专栏取消订阅 公号: SDResearch 个人:Rachel9519655162019-04-17431229管理者十分看重市场营销的价值,花费大量的精力投入到A/B测试的研究中,但是收效甚微。究竟是什么原因导致了一场垃圾A/B测试,我们又该如何改进呢,看看笔者是怎么说的吧。在这个以
订阅专栏撤销订阅 公号: SDResearch 小我私家:Rachel951965516

2019-04-17

4312

29

治理者非常垂青市场营销的代价,破费很多的精神投入到A/B测试的研讨中,可是见效甚微。到底是什么缘故原由导致了一场废物A/B测试,大家又该怎么改善呢,看看笔者是如何说的吧。

在这个以数字为先的广告世界,许多领导者都巴望将营销、市场当做一门科学来治理。于是,他们用准确、丈量、数据这些科学的字眼来说话,他们延聘专业人士,他们教团队用结构化的试验来验证他们的假设……

然而,除了非常专业的产物主管以外,大大都人其实不认识怎么用科学、正面的办法论去研讨A/B测试的问题,虽然他们进行了所有“成功”的A/B测试,但关于详细的事务指标并无多大改进。

为什么会这样呢?相关人员究竟在A/B测试中学到什么?

我以为,从市场营销的角度来谈,在设计一轮A/B测试时,有必要要记住以下六个要点:

一、统计显著性

尽管这几个字看上去毫无乐趣,但大大都营销人员不克不及正定夺义统计的含义。

当大家初步一个A/B测试——“我正在测试的广告之间没有性能区别。”

而后,大家运转测试并搜集数据,大家盼望这些数据将反馈给大家信息,并得出相反的论断,即存在性能区别。

但从技能上讲,问题是——“假设开头的假设建立,任何性能上的区别都是由随机因素形成的,那么能观察到实践区别的可能性有多大?”

以是,核算p值很辣手,但需要明白的重要一点是:p值越低,大家就越有自信心得出大家测试的广告之间存在真正区别的论断。详细地说,p值为0.05意味着有5%的可能性,观察到的性能区别将因为纯正的随机因素而发生。

然而重要的是,要学会明白这只是一个社会常规所利用的标签而已。在一个数据贫乏、没有电脑的年代,这能够说是一个正当的规范,但在今天的世界,它可能现已被突破了。

二、统计显著性≠实践显著性

统计显著性分析尽管能够协助市场人员评价广告之间是否存在性能区别,但它并无讲解这种区别在实践应用中有多大或有多重要。有了充足的数据,无关紧要的区别可被视为“具有统计含义”。

例如:假设你用两个略微差别的广告运转一个A/B测试。

你为每一个广告投放了1,000,000个展现,而后你发现版本A取得1,000个展现,而版本B取得1,100个展现。利用相关的A/B测试核算办法,你将看到这是一个“具有统计含义”的结果——p值为0.01,远远超过通常的0.05阈值。

但这一结果是否具有实践含义?

数字代表着一个前进,但在大大都营销环境中很难扭转游戏规定。记住,有时分需要成千上万次的投放才能得出这个论断,而这个论断自身就很费钱。

我对营销领导者的实践倡议是,要学会承受这样的属实——市场与产物差别,A/B测试中细微的调整可能很难会发生高大影响。

要学会从头界说测试在市场营销中所表演的人物,使你的团队成员将重要性分析明白为一种比拟有含义的理念与办法,而不是界说成功。

三、严防“成见”

怎么明白那些大家读过的、并与大家的团队分享过的、看起来微乎其微的A/B测试带来的高大性能收益的文章呢?

好比:“怎么增加逗号提高30%的收入”“这个表情符号扭转了我的买卖”等等。

尽管绝对会产生这样的状况,但它们的数量和间隔都比互联网查找所能让你置信的要少得不幸。

在市场营销范畴,这个问题被一些因素杂乱化了:人们总是很容易地以为经过一些A/B测试,轻松得胜就在眼前。以是,他们固然不会公布那些没有发生有趣结果的试验,也就轻易造成一种散布成见。大家不会看到或议论所有A/B测试的结果,更况且一些测试运转的结果基本就是无关紧要的。

以是,请记住,一些看起来好得令人难以相信的结果极可能是真的。但你需要这样问本人:他们进行了多少次试验才得出云云惊人的结果?

不要由于要复制有代价的结果而感到压力。相反,要把注意力集中在不有目共睹但更重要的事件上,测试有含义的差别策略,并寻觅具有实践含义的重大结果——这才是真实的代价所在。

四、当心p-hacking

数据是营销人员最好的朋友,但它同时还带着一个正告标签,由于你领有的数据维度越多,你就越有可能以某种方式堕入被称为“p-hacking”的反模式。p-hacking指的是数据分析可以从纯噪声中发生看似“具有统计含义”的结果的某些方式。

最明目惊心的p-hacking情势,不外是不断地进行试验,直到得到你想要的结果。记住,p值为0.05意味着观察到的区别有5%的几率是随机发生的,如果你将同一个试验进行20次,你应该期望仅凭偶合就可以得到一个“显著”的结果。如果你有充足的工夫和能源,你能够有用地保证在某一时刻获得显著的后果。众所周知,制药公司为了让一种药物取得FDA的同意会做这样的事情,但这可不是什么好事。

大大都营销团队永远不会做这么愚昧的事情,但有一些更奥秘的p-hacking情势需要注意。

例如:你针对受众运转两个差别的广告。可是,当高档次的结果被证实不显著时,通常会产生的状况是——大家对数据进行更深刻的挖掘,以寻觅更有趣的发现。

也许如果大家只看女性,大家会发现差别?大家看看差别年纪段的人呢?看看iPhone和Android用户……

这种方式很轻易切割数据,但通常被以为是一种很好的实际办法。

在科学范畴,这个问题现已经过一种叫做“预注册”的实际得到了解决。在这种实际中,研讨人员公布他们的研讨打算,包含他们盼望进行的数据分析,以便他们研讨的消费者可以置信,结果不是在电子表格中组成的。而在市场营销中,大家通常不会公布大家的结果,可是大家应该应用这些最佳实际。

五、在ROI 中包括试验本钱

日子中一个常常被忽视的属实是——A/B是免费的。但其实,它们需要花工夫、精神和钱财来设计和执行。

大大都A/B测试重视的是发明性,由于广告性能在很大程度上是由发明性驱动的。大大都写在A/B测试上的工具就像从天上掉下来的创意一样,你所需要做的就是测试,以定夺哪一种效果最好。

例如:假设你的总营销估算为25,000美元,而你正在尝试抉择是在个别广告上破费2千美元,仍是在5种差别的变体广告上破费5万美元。如果大家假设你需要在每一个广告变体上破费1美元,来测试其性能当做A/B测试的一局部,那么你需要获胜的广告比A/B测试的基线性能至少高出20%才是值得的。

20%可能听起来其实不多,可是任何做过重要A/B测试的人都认识,这样的收益其实不轻易取得,特别是如果你在一个相对于成熟的环境中进行操作。以是,请记住,你的方针是最大化广告投资回报率,而不只仅是为了试验而试验。预先运转ROI核算,以定夺你需要多大程度的改善,才能使你的A/B测试物有所值。

六、写在最后

科学的营销办法对该范畴具有难以想象的代价。但营销人员常常利用的一些办法和东西,可能只是浅薄的明白,最终糟蹋了很多的工夫、精神和钱财。为了防止反复这些过错,并在相关问题上获得一些有代价的前进,相关人员有必要学会从杂乱或司空见惯的过错中,不断汲取教导,改进并晋升。

 

原文