所需参与者的确切人数量化的可用性测试可能会有所不同。显然相互矛盾的建议(从20.30到40岁或更多)经常会让新的定量用户体验研究人员感到困惑。(事实上,多年来我们推荐了不同的数字。)

这些建议从何而来你真正需要多少参与者?这是一个重要的问题。如果你用太少,你的结果可能不是统计可靠的.如果你测试太多,你基本上是在浪费你的钱。我们希望达到完美的平衡——收集足够多的数据点,对我们的结果有信心,但又不能太多,以免浪费宝贵的研究资金。

在大多数情况下,我们建议40名学员为定量研究。如果你真的不关心这个数字背后的原因,你可以在这里停止阅读。如果你想知道这个数字来自哪里,什么时候使用不同的数字,以及为什么你可能会看到不同的推荐,请继续读下去。

由于这是一个常见的困惑,让我们澄清一下:有两种研究,定性和定量。Qual的目标是洞察力,而不是数字,所以统计意义并不起作用。相比之下,quant专注于收集用户体验指标,所以我们需要确保这些数字是正确的。重点是:这篇文章是关于量化的,不是关于等号的. (定性研究只需要少量的用户,但这不是我们在这里讨论的。)

40人指导原则背后的直觉:为什么你需要40个参与者

当我们进行量化可用性研究时,我们是在收集用户体验指标-代表用户体验的某些方面的数字。

例如,我们可能想知道有多少用户能够在旅行预订网站Expedia上预订酒店房间。我们无法要求每个Expedia用户预订酒店房间。相反,我们将进行一项研究,要求Expedia目标用户的子集进行预订。

例如,假设我们想知道能够在Expedia.com上成功预订酒店房间的用户比例。

然后,我们将计算有多少参与者能够完成这项任务,我们将使用这个百分比来估计我们人口的百分比。当然,我们从这项研究中得到的结果不会与我们的总体成功率完全相同(总会有一些测量误差),但我们希望它会足够接近。

当我们纳入研究的人数很少时,研究的百分比将不太可能预测整个人群的成功率——这个数字将只是太吵了。

另一个例子,你想要计算出德国柏林夏季的平均日温度。你决定只通过观察三个随机的每日温度来估计平均值。这三天可能不会给你一个非常准确的数字,不是吗?这就是定量研究中小样本的问题。

在一个定量的可用性研究中,为了对总体用户的行为做出合理可信的预测,您需要大约40个数据点。这取决于你愿意承担多大的风险,以及你到底想要衡量什么。

40参与者建议来自计算.该计算估计了基于一项研究产生合理的人口行为预测所需的最小用户数量。它有特定的假设,但是将对许多量化可用性研究有效吗

如果你不关心统计数据,你可以在这里停止阅读(或者直接跳到结论).否则,如果你对这条建议背后的微妙之处感到好奇,请继续阅读。

40人参与指南的假设

从统计学的角度来看,40个参与者的指导方针来自一个非常具体的情况,可能适用于也可能不适用于您的特定情况。它假设你有一个相当大的用户群体(超过500人),并且以下是真实的:

  • 你需要基于对用户群体样本的研究来估计成功率或转换率等二元指标。
  • 你的目标是15%的误差幅度,也就是说,你想要你的真实的分数(例如,整个人群的成功率或转化率)应在观察得分(您从研究中获得的百分比)的15%以内。
  • 您希望在这个预测中冒很小的错误风险(也就是说,您将使用置信水平95%的计算误差)。

如果以上都是真的,那么事实证明你可以计算你的研究需要多少参与者,它是39。我们将其四舍五入至40——因此有上述建议。(这些估计通常由少数参与者汇总。首先,四舍五入让数字更容易记住。其次,如果有一两个参与者出了问题,他们的数据必须被删除,稍微的过度招聘会有所帮助。例如,你可能会在研究中发现你不小心招募了一个不具代表性的用户或骗子。)

当参与者较少时,你可能会侥幸逃脱

如果上述最后两个假设不成立,就可能需要更少的参与者。具体来说,如果你是:

  • 愿意让误差幅度大于15%
  • 愿意冒更大的风险

愿意有大于15%的误差幅度

误差幅度告诉你,你可以期望你的总体人口比率随着观察到的分数变化的程度。任何时候你收集一个指标,你都应该计算误差幅度(或者,相当于一个置信区间)换句话说,如果在您的Expedia研究中,70%的受试者能够预订房间,而您的误差幅度为15%,这意味着您的总体完成率(真实分数)为70%±15%——也就是说,可能在55%到85%之间。

如果研究的成功率为70%,误差范围为15%,那么整个人群的成功率可能在55%(70%-15%)到85%(70%+15%)之间;该范围代表95%的置信区间。

如果研究的成功率为70%,误差范围为15%,那么整个人群的成功率可能在55%(70%-15%)到85%(70%+15%)之间;该范围代表95%的置信区间。

这个范围是30%它代表你估计的准确度;然而,在某些情况下,你可能并不关心它是否更宽,你的误差幅度是否更大(例如,如果你想说大多数人都可以使用你的UI的某个特性)。我们不建议误差幅度大于20%,因为你的真实分数的置信区间会非常宽,不太可能有用。

愿意冒更大的风险

95%的置信水平意味着你的误差幅度计算只有5%的时间是错误的。这是发表学术研究的黄金标准。然而,大多数用户体验研究人员从事的是应用研究,而不是学术研究。为了实际的目的,你可能愿意冒更大的风险。

(冒更大的风险成本更低,如果不太可靠的结果不会带来灾难性的风险,那么冒更大的风险是个好主意。然而,请记住,UX团队经常使用定量的可用性测试来确定优先级和资源分配,所以不可靠的数据可能会产生很大的问题。)

如果你愿意把信心降到90%,那么a15%的误差幅度需要28个用户和一个20%的误差幅度将需要15个用户.同样,您可以考虑出于许多好的原因(例如,在清理数据时,您可能最终不得不删除一些试验)将这些数据进行汇总。这是30个用户指南的起源,你可能在其他地方遇到过这种建议风险更大。

涉及二进制指标的研究的参与者人数(成功、转换)

置信水平

期望误差幅度

所需参加人数

低风险,高精度

95%

15%

39

风险低,精度高

95%

20%

21

中等风险,良好的精度

90%

15%

28

中等风险,相当精确

90%

20%

15

此表显示了不同置信水平所需的参与者人数以及二进制指标的期望误差幅度。置信水平越低,研究的风险越大。误差幅度越大,精度越低,数字就越不有用。

如果你的指标是连续的呢?

如果您的指标是连续的或可以被视为连续的(例如,任务时间、满意度或其他类型的评分,SUS得分),参与者人数的公式将取决于一个额外的因素:目标人群的可变性。(和二进制度量一样,它也取决于期望的误差幅度和使用的置信度)。这是你可以通过试点研究对你的人群进行单独估计的。

当然,预估标准差的试点研究是相当昂贵的,而且它本身将涉及相当多的参与者。另一方面,在大多数可用性量化研究中,都涉及到几个指标,通常至少有一个是二元的。因此,我们建议使用这个二进制度量作为决定用户数量的约束。换句话说,如果你正在收集成功、任务时间和满意度,那么你就可以简单地说,我希望在90%或95%的置信水平上有15%的误差(并分别招募30或40名用户)。这通常会为所涉及的其他指标带来良好的误差幅度。

但是,如果您只收集连续的度量(这是不寻常的),并且您无法估计总体的标准偏差,那么您必须首先确定您的误差幅度的期望值。当然,您期望的值将取决于您正在测量的内容和任务的范围。我们通常建议使用平均值的15%或20%——换句话说,如果你的任务时间大约是1分钟,你希望误差幅度不大于0.15-0.20分钟(9到12秒);如果你的任务时间在10分钟左右,你的误差幅度应该不超过1.5-2分钟。

接下来,你可以使用Jakob Nielsen对网站和内部网相关连续指标可变性的估计.,估计是平均值的52%.换句话说,如果平均任务时间是1分钟,那么估计的标准偏差是0.52 x 1分钟= 0.52分钟。如果平均任务时间是10分钟,那么估计的标准偏差将是0.52 x 10分钟= 5.2分钟。补充假设,需要47用户15%的误差在95%置信水平,33个用户15%的误差在90%置信水平,26日用户20%的误差在95%置信水平和19个用户20%的误差在90%置信水平。(请注意,1分钟的15%误差等于0.15分钟,也就是9秒。)

仅涉及连续指标(满意度、任务时间)的研究参与者人数

置信水平

期望误差幅度(与平均值的百分比)

所需参加人数

风险低,精度高

95%

15%

47

风险低,精度高

95%

20%

26

风险中等,精确度高

90%

15%

33

中等风险,相当精确

90%

20%

19

此表显示了涉及持续指标(如任务时间或满意度)的研究所需的参与者人数。不同数量的参与者适用于不同的置信水平和期望的误差幅度。

一般情况下,用户数量可通过以下公式确定:

N等于k方乘以s方除以m方。

该公式中的变量为:

  • K为常数(95%置信水平为1.96,90%置信水平为1.645)
  • 年代你的标准差是均值的比例吗
  • 是你想要的误差幅度,也表示为平均值的比例(0.15对应15%或0.20对应20%)

如果你估计你的标准差是平均值的52%(或0.52),那么你可以使用以下公式:

N等于k方乘以0.27除以m方

结论

尽管在定量可用性测试中有许多不同的样本大小建议,但它们都是一致的——它们只是做出了稍微不同的假设40用户指南是最简单、最有可能产生良好结果的指南-即相对较小的误差幅度和较高的置信度。

然而,如果你想冒更大的风险,即你的发现不能代表用户群体的行为,从而将你的置信水平降低到90%,你可能会满足于较低的用户数量(大约30个)。此外,如果您还能够容忍较大的误差幅度,则可以将用户数量降至20甚至更少,但这通常风险更大。

一个可接受的策略(尤其是当你预算紧张,并且对任务时间和满意度等连续指标感兴趣时)是,从你能够负担的尽可能多的用户开始——比如20-25个[RB3]用户。一旦你从这些用户那里收集了数据,计算错误的边缘,并确定它们是否足够适合你的目的。如果它们太宽,那么考虑增加更多的用户。但是,这种方法要求你快速工作:你需要在几天内做你的分析,以便能够运行E。xtra参与者在第一批之后很快就会参加。否则,你就有可能影响研究的有效性。

根据你的情况选择合适的样本量,以确保你能优化定量研究:收集足够的数据,但不要太多。

要了解如何正确分析和解释您的定量数据,请查看我们的全天研讨会,如何解释用户体验数字:用户体验统计。

参考

杰夫·索罗,詹姆斯·刘易斯,2016。量化用户体验:用户研究的实用统计.爱思唯尔。