培训所需的确切人数量化的可用性测试可能是不同的。显然相互矛盾的建议(范围从2030到40岁或以上)经常让新的定量UX研究者感到困惑。(事实上,多年来我们推荐的数字有所不同。)

这些建议从何而来你真正需要多少参与者?这是一个重要的问题。如果你用太少了,你的结果可能不是统计可靠的.如果你测试太多,你基本上是在浪费你的钱。我们希望达到完美的平衡——收集足够多的数据点,对我们的结果有信心,但又不能太多,以免浪费宝贵的研究资金。

在大多数情况下,我们建议40名与会者用于定量研究。如果你真的不关心这个数字背后的原因,你可以停止阅读这里。如果你想知道这个数字来自哪里,什么时候使用不同的数字,以及为什么你可能看到不同的建议,请继续阅读。

由于这是一个常见的混淆,让我们澄清:有两种研究,定性和定量。Qual的目标是洞察,而不是数字,所以统计意义并不起作用。相比之下,quant专注于收集用户体验指标,所以我们需要确保这些数字是正确的。重点是:这篇文章是关于量化的,不是关于等号的.(定性研究只需要少数用户,但这不是我们在这里讨论的。)

40人指导原则背后的直觉:为什么你需要40个参与者

当我们进行量化可用性研究时,我们是在收集用户体验指标-代表用户体验的某些方面的数字。

例如,我们可能想知道有多少用户能够在旅行预订网站Expedia上预订酒店房间。我们无法要求每个Expedia用户预订酒店房间。相反,我们将进行一项研究,要求Expedia目标用户的子集进行预订。

例如,假设我们想知道能够在Expedia.com上成功预订酒店房间的用户百分比。

然后,我们将计算该研究中有多少参与者能够完成这项任务,我们将使用该百分比来估计我们人口的百分比。当然,我们从这项研究中得到的结果不会与我们的人口成功率完全相同(总是会有一定的测量误差),但我们希望它足够接近。

当我们纳入研究的人数很少时,研究的百分比将不太可能预测整个人群的成功率——这个数字将只是太吵了。

另一个例子,你想要计算出德国柏林夏季的平均日温度。你决定只通过观察三个随机的每日温度来估计平均值。这三天可能不会给你一个非常准确的数字,不是吗?这就是定量研究中小样本的问题。

在一个定量的可用性研究中,为了对总体用户的行为做出合理可信的预测,您需要大约40个数据点。这取决于你愿意承担多大的风险,以及你到底想要衡量什么。

这个40位参与者的建议来自计算. 该计算估计了根据一项研究合理预测人口行为所需的最小用户数量。它有具体的假设,但是将用于许多定量可用性研究

如果你不关心统计数据,你可以在这里停止阅读(或者直接跳到结论).否则,如果你对本建议背后的细微差别感到好奇,请继续阅读。

40人参与指南的假设

从统计角度来看,40名参与者的指导原则来自一个非常具体的情况,可能适用于也可能不适用于您的特定场景。它假设您有相当多的用户(超过500人),并且以下情况是正确的:

  • 您希望根据对用户群体样本的研究来估计一个二进制指标,例如成功率或转换率。
  • 你的目标是有15%的误差-也就是说,你想要你的真实分数(例如,整个人群的成功率或转化率)应在观察得分(您从研究中获得的百分比)的15%以内。
  • 您希望在这个预测中冒很小的错误风险(也就是说,您将使用置信水平用于计算误差幅度的95%)。

如果以上都是真的,那么结果是你可以计算你的研究需要多少参与者,现在是39岁。我们将其四舍五入至40,因此提出上述建议。(这些估计值通常由几个参与者进行四舍五入。首先,四舍五入会让数字更令人难忘。其次,如果一个或两个参与者出现问题,并且必须删除他们的数据,轻微的高估会有所帮助。例如,在研究期间,你可能会发现你无意中招募了一名不具代表性的用户或作弊者。)

当参与者较少时,你可能会侥幸逃脱

如果上述最后两个假设不成立,就可能需要更少的参与者。具体来说,如果你是:

  • 愿意让误差幅度大于15%
  • 愿意冒更大的风险

愿意有大于15%的误差幅度

误差幅度告诉你,作为观察分数的函数,你可以期望你的总体比率有多大的变化。无论何时收集度量,都应该计算误差范围(或者,等价地,置信区间)。Expedia换句话说,如果在你的研究中,70%的参与者都能订一个房间,你的误差为15%,这意味着你的所有人口完成率(真正的得分)70%±15%——也就是说,它可以在任何地方从55%降至85%。

如果研究的成功率为70%,错误率为15%,那么整个人群的成功率在55%(70%-15%)到85%(70%+ 15%)之间;这个范围表示95%置信区间。

如果研究的成功率为70%,错误率为15%,那么整个人群的成功率在55%(70%-15%)到85%(70%+ 15%)之间;这个范围表示95%置信区间。

这个范围是30%它代表你估计的准确性;然而,在某些情况下,你可能不在乎它是否更宽,你的误差范围是否更大(例如,如果你想说大多数人都可以使用你UI的某个功能)。我们不建议误差幅度大于20%,因为您对真实分数的置信区间很宽,不太可能有用。

愿意承担更大的风险

95%的置信水平意味着您的误差幅度计算只有5%的时间是错误的。这是发表学术研究的金标准。然而,大多数用户体验研究人员从事的是应用研究,而不是学术研究。出于实际目的,您可能愿意承担更多的风险。

(冒更大的风险成本更低,如果不太可靠的结果不会带来灾难性的风险,那么冒更大的风险是个好主意。然而,请记住,UX团队经常使用定量的可用性测试来确定优先级和资源分配,所以不可靠的数据可能会产生很大的问题。)

如果你愿意把信心降到90%,那么a15%的误差幅度需要28个用户和一个20%的误差幅度需要15个用户.同样,您可以考虑出于许多好的原因(例如,在清理数据时,您可能最终不得不删除一些试验)将这些数据进行汇总。这是30个用户指南的起源,你可能在其他地方遇到过这种建议风险更大。

二元指标研究的参与者数量(成功,转换)

置信水平

期望误差幅度

所需参加人数

低风险,良好的精度

95%

15%

39

低风险,精确度适中

95%

20%

21

中等风险,精度高

90%

15%

28

中等风险,相当精确

90%

20%

15

这个表显示了二元度量的不同置信水平和期望的误差范围所需的参与者数量。自信水平越低,研究的风险越大。误差幅度越大,精度就越低,这些数字的用处就越小。

如果你的指标是连续的呢?

如果你的指标是连续的或可以被视为连续的(例如,任务时间、满意度或其他类型的评级),SUS分数),参与者人数的公式将取决于一个额外的因素:目标人群的可变性。(和二进制度量一样,它也取决于期望的误差幅度和使用的置信度)。这是你可以通过试点研究对你的人群进行单独估计的。

当然,预估标准差的试点研究是相当昂贵的,而且它本身将涉及相当多的参与者。另一方面,在大多数可用性量化研究中,都涉及到几个指标,通常至少有一个是二元的。因此,我们建议使用这个二进制度量作为决定用户数量的约束。换句话说,如果你正在收集成功、任务时间和满意度,那么你就可以简单地说,我希望在90%或95%的置信水平上有15%的误差(并分别招募30或40名用户)。这通常会为所涉及的其他指标带来良好的误差幅度。

但是,如果您只收集连续的度量(这是不寻常的),并且您无法估计总体的标准偏差,那么您必须首先确定您的误差幅度的期望值。当然,您期望的值将取决于您正在测量的内容和任务的范围。我们通常建议使用平均值的15%或20%——换句话说,如果你的任务时间大约是1分钟,你希望误差幅度不大于0.15-0.20分钟(9到12秒);如果你的任务时间在10分钟左右,你的误差幅度应该不超过1.5-2分钟。

接下来,您可以使用Jakob Nielsen对网站和内部网相关连续度量的可变性的估计.,估计是平均值的52%.换句话说,如果平均任务时间是1分钟,那么估计的标准偏差是0.52 x 1分钟= 0.52分钟。如果平均任务时间是10分钟,那么估计的标准偏差将是0.52 x 10分钟= 5.2分钟。补充假设,需要47用户15%的误差在95%置信水平,33个用户15%的误差在90%置信水平,26日用户20%的误差在95%置信水平和19个用户20%的误差在90%置信水平。(请注意,1分钟的15%误差等于0.15分钟,也就是9秒。)

只涉及连续指标(满意度,任务时间)的研究的参与者人数

置信水平

期望误差幅度(以平均值的百分比表示)

所需参加人数

风险低,精度高

95%

15%

47

低风险,精确度适中

95%

20%

26

中等风险,精度高

90%

15%

33

中等风险,相当精确

90%

20%

19

该表显示了涉及连续指标(如任务时间或满意度)的研究所需的参与者数量。不同数量的参与者适合于不同的置信水平和期望的误差范围。

一般情况下,用户数量可通过以下公式确定:

N是k的平方乘以s的平方除以m的平方。

该公式中的变量为:

  • K为常数(95%置信水平为1.96,90%置信水平为1.645)
  • 你的标准偏差是平均值的一部分吗
  • m是你想要的误差幅度,也表示为平均值的比例(0.15对应15%或0.20对应20%)

如果你估计你的标准差是平均值的52%(或0.52),那么你可以使用以下公式:

N等于k方乘以0.27除以m方

结论

尽管在定量可用性测试中有许多不同的样本大小建议,但它们都是一致的——它们只是做出了略有不同的假设。我们认为,40用户指南是最简单、最有可能产生良好结果的指南-即相对较小的误差幅度和较高的置信度。

然而,如果你想冒更大的风险,即你的发现不能代表用户群体的行为,从而将你的置信水平降低到90%,你可能会满足于较低的用户数量(大约30个)。此外,如果您还能够容忍较大的误差幅度,则可以将用户数量降至20甚至更少,但这通常风险更大。

一个可接受的策略(尤其是当你预算紧张,并且对任务时间和满意度等连续指标感兴趣时)是,从你能够负担的尽可能多的用户开始——比如20-25个(RB3)用户。一旦你从这些用户那里收集了你的数据,计算你的误差范围,并确定它们是否对你的目的足够严格。如果它们太宽,那么考虑添加更多的用户。然而,这种方法要求您工作迅速:您需要在几天内完成分析,以便能够在第一批参与者之后很快运行额外的参与者。否则,您将面临影响研究有效性的风险。

根据你的情况选择合适的样本量,以确保你能优化定量研究:收集足够的数据,但不要太多。

要学习如何正确分析和解释你的定量数据,请查看我们的全天研讨会,如何解读用户体验数据:用户体验的统计数据。

参考

杰夫·索罗,詹姆斯·刘易斯,2016。量化用户体验:用户研究的实用统计. 爱思唯尔。