所需参与者的确切人数定量可用性测试可能是不同的。显然相互矛盾的建议(范围从20.30到40岁或以上)经常让新的定量UX研究者感到困惑。(事实上,多年来我们推荐的数字有所不同。)

这些建议从何而来你真的需要多少个参与者?这是一个重要的问题。如果你用太少了,你的结果可能不是统计可靠的.如果你用太多测试,你基本上就把你的钱扔掉了。我们希望攻击完美的平衡 - 收集足够的数据点对我们的结果充满信心,但我们不太多,我们浪费了珍贵的研究资金。

在大多数情况下,我们建议40名学员为定量研究。如果你真的不关心这个数字背后的原因,你可以在这里停止阅读。如果你想知道这个数字来自哪里,什么时候使用不同的数字,以及为什么你可能会看到不同的推荐,请继续读下去。

由于这是一个常见的混淆,让我们澄清:有两种研究,定性和定量。Qual的目标是洞察,而不是数字,所以统计意义并不起作用。相比之下,quant专注于收集UX指标,所以我们需要确保这些数字是正确的。重点是:这篇文章是关于量化的,不是关于等号的.(定性研究只需要少量的用户,但这不是我们在这里讨论的。)

40人指导原则背后的直觉:为什么你需要40个参与者

当我们进行量化可用性研究时,我们是在收集UX指标- 代表用户体验的某些方面的数字。

例如,我们可能想知道有多少用户能够在旅行预订网站Expedia上预订酒店房间。我们无法要求每个Expedia用户预订酒店房间。相反,我们将进行一项研究,要求Expedia目标用户的子集进行预订。

例如,假设我们想知道能够在Expedia.com上成功预订酒店房间的用户比例。

然后,我们将计算有多少参与者能够完成这项任务,我们将使用这个百分比来估计我们人口的百分比。当然,我们从这项研究中得到的结果不会与我们的总体成功率完全相同(总会有一些测量误差),但我们希望它会足够接近。

当我们在研究中包含的人数很小时,研究中的百分比将不太可能预测整个人口的成功率 - 这是数字将无法太吵。

另一个例子,你想要计算出德国柏林夏季的平均日温度。你决定只通过观察三个随机的每日温度来估计平均值。这三天可能不会给你一个非常准确的数字,不是吗?这就是定量研究中小样本的问题。

在定量可用性研究中,为了获得对整个人口的行为的合理值得信赖的预测,您需要大约40个数据点。取决于您愿意采取多少风险以及您究竟在努力衡量的风险。

40位参与者的建议来自计算.该计算估计了基于一项研究产生合理的人口行为预测所需的最小用户数量。它有特定的假设,但是将对许多量化可用性研究有效吗

如果您不关心统计数据,您可以在此时停止阅读(或直接跳转到结论).否则,如果你对这条建议背后的微妙之处感到好奇,请继续阅读。

40-参与者指南背后的假设

从统计学的角度来看,40个参与者的指导方针来自一个非常具体的情况,可能适用于也可能不适用于您的特定情况。它假设你有一个相当大的用户群体(超过500人),并且以下是真实的:

  • 你需要基于对用户群体样本的研究来估计成功率或转换率等二元指标。
  • 你的目标是15%的误差幅度,也就是说,你想要你的真实的分数(例如,您的整个人口的成功率或转换率)在观察到得分的15%以内(从您的研究中获得的百分比)。
  • 您希望在这个预测中冒很小的错误风险(也就是说,您将使用置信水平95%的计算误差)。

如果以上都是真的,那么结果是你可以计算你的研究需要多少参与者,它是39。我们将其四舍五入至40——因此有上述建议。(这些估计通常由少数参与者汇总。首先,四舍五入让数字更容易记住。其次,如果有一两个参与者出了问题,他们的数据必须被删除,稍微的过度招聘会有所帮助。例如,你可能会在研究中发现你不小心招募了一个不具代表性的用户或作弊者。)

当参与者较少时,你可能会侥幸逃脱

如果上述假设中的最后两个假设不是真的,则可以需要更少的参与者。特别是,如果你是:

  • 愿意有一个大于15%的错误裕度
  • 愿意冒更大的风险

愿意误差幅度大于15%

误差幅度告诉你,作为观察分数的函数,你可以期望你的总体比率有多大的变化。无论何时收集度量,都应该计算误差范围(或者,等价地,置信区间)。Expedia换句话说,如果在你的研究中,70%的参与者都能订一个房间,你的误差为15%,这意味着你的所有人口完成率(真正的得分)70%±15%——也就是说,它可以在任何地方从55%降至85%。

如果研究的成功率为70%,错误率为15%,那么整个人群的成功率在55%(70%-15%)到85%(70%+ 15%)之间;这个范围表示95%置信区间。

如果研究的成功率为70%,错误率为15%,那么整个人群的成功率在55%(70%-15%)到85%(70%+ 15%)之间;这个范围表示95%置信区间。

该范围宽30%,它代表着你估计的准确性;然而,在某些情况下,你可能并不关心它是否更宽,你的误差幅度是否更大(例如,如果你想说大多数人都可以使用你的UI的某个特性)。我们不建议误差幅度大于20%,因为你的真实分数的置信区间会非常宽,不太可能有用。

愿意承担更大的风险

95%的置信水平意味着你的误差幅度计算只有5%的时间是错误的。这是发表学术研究的黄金标准。然而,大多数用户体验研究人员从事的是应用研究,而不是学术研究。为了实际的目的,你可能愿意冒更大的风险。

(冒更大的风险成本更低,如果不太可靠的结果不会带来灾难性的风险,那么冒更大的风险是个好主意。然而,请记住,UX团队经常使用定量的可用性测试来确定优先级和资源分配,所以不可靠的数据可能会产生很大的问题。)

如果你愿意将置信水平放到90%,那么一个15%的误差幅度需要28个用户和一个20%的误差幅度需要15个用户.同样,您可以考虑出于许多好的原因(例如,在清理数据时,您可能最终不得不删除一些试验)将这些数据进行汇总。这是30个用户指南的起源,你可能在其他地方遇到过这种建议风险更大。

二元指标研究的参与者数量(成功,转换)

置信水平

期望误差幅度

所需参加人数

低风险,良好的精度

95%

15%

39

低风险,精确度适中

95%

20%

21

中等风险,良好的精度

90%

15%

28

中等风险,相当精确

90%

20%

15

这个表显示了二元度量的不同置信水平和期望的误差范围所需的参与者数量。自信水平越低,研究的风险越大。误差幅度越大,精度就越低,这些数字的用处就越小。

如果你的指标是连续的呢?

如果你的指标是连续的或可以被视为连续的(例如,任务时间、满意度或其他类型的评级),SUS得分),参与者人数的公式将取决于一个额外的因素:目标人群的可变性。(和二进制度量一样,它也取决于期望的误差幅度和使用的置信度)。这是你可以通过试点研究对你的人群进行单独估计的。

当然,预估标准差的试点研究是相当昂贵的,而且它本身将涉及相当多的参与者。另一方面,在大多数可用性量化研究中,都涉及到几个指标,通常至少有一个是二元的。因此,我们建议使用这个二进制度量作为决定用户数量的约束。换句话说,如果你正在收集成功、任务时间和满意度,那么你就可以简单地说,我希望在90%或95%的置信水平上有15%的误差(分别招募30或40个用户)。这通常会导致所涉及的其他指标的错误边缘。

但是,如果您只收集连续度量(这是不寻常的),并且您无法估计您的人口的标准偏差,您必须先满足所需的值为您的错误边际。当然,您所需的值将取决于您测量的内容以及任务的范围。我们通常建议使用作为均值的15%或20%的平均值 - 换句话说,如果您的任务时间约为1分钟,则您希望错误的错误余量没有大于0.15-0.20分钟(9到12秒);如果您的任务时间约为10分钟,则您的误差幅度不应大于1.5-2分钟。

接下来,你可以使用Jakob Nielsen对网站和内部网相关连续度量的可变性的估计.估计是平均值的52%.换句话说,如果平均任务时间为1分钟,则估计的标准偏差为0.52×1分钟= 0.52分钟。如果平均任务时间为10分钟,则估计的标准偏差将是0.52×10分钟= 5.2分钟。通过该补充假设,您需要47个用户在95%的置信水平下误差为15%,33个用户,误差33个用户,误差率为90%,26个用户误差为95%置信水平和19个用户在90%的置信水平下误差20%。(请注意,15%的误差幅度为1分钟转化为0.15分钟 - 即9秒钟。)

只涉及连续指标(满意度,任务时间)的研究的参与者人数

置信水平

期望误差幅度(与平均值的百分比)

所需参加人数

低风险,精度良好

95%

15%

47

低风险,精确度适中

95%

20%

26

风险中等,精确度高

90%

15%

33

中等风险,相当精确

90%

20%

19

该表显示了涉及连续指标(如任务时间或满意度)的研究所需的参与者数量。不同数量的参与者适合于不同的置信水平和期望的误差范围。

通常,可以使用以下公式确定用户数:

N等于k方乘以s方除以m方。

该公式中的变量是:

  • K为常数(95%置信水平为1.96,90%置信水平为1.645)
  • 年代你的标准差是均值的比例吗
  • 是你想要的误差幅度,也表示为平均值的比例(0.15对应15%或0.20对应20%)

如果你估计你的标准差是平均值的52%(或0.52),那么你可以使用以下公式:

N等于k方乘以0.27除以m方

结论

尽管在定量可用性测试中有许多不同的样本大小建议,但它们都是一致的——它们只是做出了略有不同的假设。我们认为,40用户指南是最简单的,并且最有可能带来好的结果- 即,具有高置信水平的误差幅度相对较小。

然而,如果你想冒更大的风险,即你的发现不能代表用户群体的行为,从而将你的置信水平降低到90%,你可能会满足于较低的用户数量(大约30个)。此外,如果您还能够容忍较大的误差幅度,则可以将用户数量降至20甚至更少,但这通常风险更大。

一个可接受的策略(尤其是当你预算紧张,并且对任务时间和满意度等连续指标感兴趣时)是,从你能够负担的尽可能多的用户开始——比如20-25个(RB3)用户。一旦你从这些用户那里收集了你的数据,计算你的误差范围,并确定它们是否对你的目的足够严格。如果它们太宽,那么考虑添加更多的用户。然而,这种方法要求您工作迅速:您需要在几天内完成分析,以便能够在第一批参与者之后很快运行额外的参与者。否则,您将面临影响研究有效性的风险。

根据你的情况选择合适的样本量,以确保你能优化定量研究:收集足够的数据,但不要太多。

要学习如何正确分析和解释你的定量数据,请查看我们的全天研讨会,如何解读用户体验数据:用户体验的统计数据。

参考

Jeff Sauro,詹姆斯刘易斯。2016年。量化用户体验:用户研究的实用统计.爱思唯尔。