在我们的量化可用性课程(测量用户体验和ROI统计数据为用户体验),我们通常推荐相当数量的参与者进行定量研究——通常超过30人。我们说再一次再一次定性可用性测试中收集的度量标准往往具有误导性,不能推广到一般人群。(可能会有例外,但您总是需要通过计算进行检查置信区间统计显著性).而且,几乎不可避免地,反驳回来了——Jakob Nielsen不是推荐了5个可用性研究的用户吗?如果你因为统计原因需要更多用户,那么这就意味着5个用户所获得的结果是无效的,不是吗?

这个问题太频繁了,我们需要解决这个误解。

量化可用性研究:超过5个参与者

定量可用性研究通常是总结性在本质上:他们的目标是衡量系统的可用性(站点、应用程序或其他产品),达到一个或多个数字。这些研究试图了解多好一个接口是用户通过查看各种指标:从一般人群有多少用户可以完成一个或多个任务,需要多长时间,多少错误,以及如何满足他们与他们的经验。它们通常包括为每个参与者收集值,将这些值聚集在汇总统计数据中,如平均值或成功率,计算这些聚集值的置信区间,并报告整个人群真实得分的可能范围。这样的研究结果可能表明,对于整个人群来说,top任务的成功率在75%到90%之间,95%的置信水平,任务时间在2.3到2.6分钟之间。这些范围(实际上是置信区间)应该相当窄,以便传达任何有趣的信息(知道成功率在5%至95%之间并不是很有帮助,不是吗?),而且通常只有当你包含大量参与者(40或更多)时,这些范围才会很窄。因此,建议为收集的所有指标计算置信区间当研究只包含少数用户时,不要依赖总结统计。

定性可用性研究:5用户指南背后的假设

相比之下,定性的用户研究大多是造型的:他们的目标是找出设计中不可行的地方,修正它,然后推出一个新的、更好的版本。新版本通常也会进行测试、改进等等。虽然有可能有总总性目标的定性研究(让我们看看我们当前网站的所有错误!),但很多时候它们只是旨在完善现有的网站设计迭代.定性研究(即使是总结性研究)也不会试图预测有多少用户会完成一项任务,也不会试图计算出有多少人会遇到任何特定的可用性问题。它们是用来识别可用性问题的。

Jakob Nielsen的文章推荐用5个用户进行定性测试。这一建议背后有三个主要假设:

  1. 你试图在设计中识别问题.根据定义,问题是用户在使用设计时遇到的可用性问题。
  2. 人们遇到的任何问题都是值得解决的。让一个这个假设的类比:如果一个人掉进坑里,你知道你需要修理它。你不需要100个人来决定它是否需要修复。
  3. 人们遇到问题的概率是31%

基于这些假设,Jakob Nielsen和Tom Landauer建立了一个数学模型,该模型表明,通过对5个参与者进行定性测试,您将识别出界面中85%的问题。Jakob Nielsen反复强调(而且很有道理)好的投资是由5个人开始,找到85%的问题,修复它们,然后再让另外5个人进行测试,以此类推。在一次测试中找出所有问题是不值得的因为你会花费太多的时间和金钱,然后你肯定会在重新设计中引入其他问题。

注意,在定量研究和定性研究中收集的“指标”是非常不同的:在定量研究中,你感兴趣的是你的一般人群在任务成功、错误、满意度和任务时间等度量上的表现.在定性研究中,你只是简单地计算可用性问题.虽然从定量研究中获得的任何数字在统计上都存在不确定性(从我的研究中获得的平均值如何与一般人口的平均值相比较),在定性研究中绝对没有不确定性——任何发现的错误都是需要解决的合法问题。

质疑5用户指南背后的假设

我给了你一个5用户指南所基于的假设列表。然而,你可能不同意(一些)他们。我认为对于第一个假设没有什么可争论的,但你可能会对第二个和第三个假设提出一些有效的反对意见。

有人遇到的任何错误需要修复吗?有人可能会说,如果每1000个人中有1000人掉进坑里,你就需要修理它,但如果每1000个人中只有一个人掉进坑里,你就不需要修理了。对于定性的可用性研究,您不能保证(仅基于研究)一个确定的问题可能会被更多的用户遇到,而不是碰巧出现在您的研究中的用户。因此,从这个意义上说,结果不能推广到所有人。

是的,如果你愿意,你可以进行定量研究来预测在一般人群中有多少人可能遇到特定的错误。然后,是的,你可以根据出错的可能性对错误进行优先排序,并以最高优先级修复错误。虽然这种方法肯定是非常合理的,但它也可能是非常浪费的——您将需要与相当多的用户一起测试您的设计,以确定其主要问题,然后修复它们,并引入另一个需要确定和优先级的问题。

相反,定性方法假设设计师会使用其他方法优先考虑不同的问题-可能其中一些太贵了,无法修复,或者其他的功能,只有少数用户可能使用。定性用户测试只是给你一个问题列表.研究人员的工作是对不同的问题进行优先排序,然后继续前进。

在界面中遇到问题的概率是31%吗?31%的数据是基于90年代早期几个项目的平均数据。从那时起,遇到问题的机会可能已经改变了。还有一种可能是,当您进行更多的设计迭代并修复越来越多的错误时,您的产品的可用性本质上更好了,事实上,遇到新问题也更困难了。

好消息是,在界面中遇到错误的几率只是Nielsen和Landauer模型中的一个参数。如果你知道你的界面很好,你可以简单地插入你想要的概率到那个模型中。用户数量由公式表示:

N = log (0.15)/log (1-L)

在哪里l是你在一个界面中遇到错误的估计概率,用小数表示(例如,31%被输入为。31)

例如,如果l是20%,你需要9个用户才能找到界面中85%的问题。如果l是10%,那么你需要18个用户。界面的可用性越高,您需要在测试中包含的用户就越多,以确定85%的可用性问题。

然而,您的真正目标不是找到特定比例的问题,而是最大化您的用户研究程序的业务价值.事实证明峰ROI对模型参数的变化相当不敏感。如果你是第一次测试一个糟糕的设计,你的费用会很低(很容易发现可用性问题),你的收益会很高(产品会得到极大的改进)。相反,如果你在研究一个难题,你的花费会更高,收益会更低。然而,问题是最大化收益与支出的比率(即ROI)通常仍然是5个测试用户左右,即使你的学习盈利性对于简单的学习来说更高而对于困难的学习来说更低。

总的来说,这是一个好主意从5个用户开始,修复您发现的错误,然后在进一步的迭代中慢慢增加用户数量如果你认为你已经取得了很大的进步。但是,在实践中,您可以很容易地感受到您在5个用户中发现了多少洞察力。如果您觉得这并不多,那么无论如何,添加一些额外的用户。相反,你可以使用少于5个用户进行测试在其他情况下,例如当您可以非常快速地继续测试下一个迭代时。但如果你有很多问题需要解决,首先解决这些问题,然后继续前进。

结论

定性用户测试的5用户指南和你的想法之间没有矛盾不能相信从小型研究中获得的指标,因为你不会在定性研究中收集指标。定量和定性用户研究有不同的目标

  • 定量研究的目的是发现指标预测整个种群的行为;如果这些数字是基于较小的样本量,那么它们将是不精确的,因此也是无用的。
  • 定性研究的目标的见解:识别界面中的可用性问题。研究人员必须用判断而不是数字来确定这些问题的优先次序。(而且,强调一点:5人指南只适用于定性研究,不适用于定量研究。)

如果您的界面已经经过了许多轮测试,那么即使是在定性测试中,您也可能需要包括更多的人,因为遇到问题的机会可能比模型的原始假设要小。尽管如此,最好还是从5个用户开始,如果发现的重要结果太少,就增加这个数字。