在我们的量化可用性课程(测量用户体验和ROI统计数据为用户体验)我们经常推荐相当数量的参与者进行定量研究——通常超过30人。我们说过再一次再一次定性可用性测试中收集的度量标准往往具有误导性,不能推广到一般人群。(可能会有例外,但您总是需要通过计算进行检查置信区间统计显著性).而且,几乎不可避免地,反驳又回来了-Jakob Nielsen不是推荐了5个可用性研究的用户吗? 如果出于统计原因需要更多用户,那么这肯定意味着使用5个用户获得的结果无效,不是吗?

这个问题如此频繁,我们需要消除误解。

量化可用性研究:超过5个参与者

定量可用性研究通常是总结性在本质上:他们的目标是衡量系统的可用性(站点、应用程序或其他产品),达到一个或多个数字。这些研究试图了解多好一个接口是用户通过查看各种指标:从一般人群有多少用户可以完成一个或多个任务,需要多长时间,多少错误,以及如何满足他们与他们的经验。它们通常包括为每个参与者收集值,将这些值聚集在汇总统计数据中,如平均值或成功率,计算这些聚集值的置信区间,并报告整个人群真实得分的可能范围。这样的研究结果可能表明,对于整个人群来说,top任务的成功率在75%到90%之间,95%的置信水平,任务时间在2.3到2.6分钟之间。这些范围(实际上是置信区间)应该相当窄,以便传达任何有趣的信息(知道成功率在5%至95%之间并不是很有帮助,不是吗?),而且通常只有当你包含大量参与者(40或更多)时,这些范围才会很窄。因此,建议为收集的所有指标计算置信区间当研究只包含少数用户时,不要依赖汇总统计数据。

定性可用性研究:5用户指南背后的假设

相比之下,定性的用户研究大多是有持续重大影响的:他们的目标是找出设计中不可行的地方,修正它,然后推出一个新的、更好的版本。新版本通常也会进行测试、改进等等。虽然有可能有总总性目标的定性研究(让我们看看我们当前网站的所有错误!),但很多时候它们只是旨在完善现有的网站设计迭代. 定性研究(即使是总结性的)并不试图预测有多少用户将完成一项任务,也不试图找出有多少人将遇到任何特定的可用性问题。它们旨在识别可用性问题。

Jakob Nielsen的文章推荐用5个用户进行定性测试。这一建议背后有三个主要假设:

  1. 你试图在设计中识别问题.根据定义,问题是用户在使用设计时遇到的可用性问题。
  2. 人们遇到的任何问题都是值得解决的。作出决定这个假设的类比:如果一个人掉进坑里,你知道你需要修理它。你不需要100个人来决定它是否需要修复。
  3. 人们遇到问题的概率是31%

基于这些假设,Jakob Nielsen和Tom Landauer建立了一个数学模型,该模型表明,通过对5个参与者进行定性测试,您将识别出界面中85%的问题。Jakob Nielsen反复强调(而且很有道理)好的投资是由5个人开始,找到85%的问题,修复它们,然后再让另外5个人进行测试,以此类推。在一次测试中找出所有问题是不值得的因为你会花费太多的时间和金钱,然后你肯定会在重新设计中引入其他问题。

请注意,定量研究和定性研究中收集的“指标”非常不同:在定量研究中,您感兴趣的是您的普通人群在任务成功、错误、满意度和任务时间等指标上的表现. 在定性研究中,你只是简单地计算可用性问题.虽然从定量研究中获得的任何数字在统计上都存在不确定性(从我的研究中获得的平均值如何与一般人口的平均值相比较),定性研究中绝对没有不确定性——任何识别出的错误都是需要纠正的合法问题。

质疑五用户指南背后的假设

我给了你一个假设列表,5用户指南是基于这些假设的。然而,你可能不同意(其中一些)。我认为对于第一个假设没有太多争议,但是你可能会对第二个和第三个假设提出一些有效的反对意见。

是否有人遇到任何错误需要修复?有人可能会说,如果1000人中有1000人掉进坑里,你确实需要修复,但如果1000人中只有一人掉进坑里,就不需要了。通过定性可用性研究,您无法保证(仅基于该研究)确定的问题可能会遇到比您研究中碰巧遇到的用户更多的用户。因此,从这个意义上说,结果不能推广到整个人群。

是的,如果你愿意,你可以进行定量研究来预测在一般人群中有多少人可能遇到特定的错误。然后,是的,你可以根据出错的可能性对错误进行优先排序,并以最高优先级修复错误。虽然这种方法肯定是非常合理的,但它也可能是非常浪费的——您将需要与相当多的用户一起测试您的设计,以确定其主要问题,然后修复它们,并引入另一个需要确定和优先级的问题。

相反,定性方法假设设计师会使用其他方法在不同问题之间确定优先顺序-可能其中一些太贵而无法修复,或者其他与只有少数用户可能使用的功能相关。定性用户测试只是给你一个问题列表.研究人员的工作是对不同的问题进行优先排序,然后继续前进。

在界面中遇到问题的概率是31%吗?这31%的数字是基于90年代初运行的几个项目的平均值。从那时起,遇到问题的机会可能已经改变。也有可能,当你进行更多的设计迭代和修复越来越多的错误时,你的产品的可用性会大大提高,事实上,遇到新的问题也会变得更加困难。

好消息是,在接口中遇到错误的机会只是尼尔森和兰道尔模型中的一个参数。所以,如果您知道您的接口非常好,您可以简单地在该模型中插入所需的概率。用户数量将由以下等式给出:

N=对数(0.15)/对数(1-L)

哪里L是您在接口中遇到错误的估计概率,用十进制表示(即31%输入为.31)

例如,如果L是20%,您需要9个用户才能找到界面中85%的问题。如果L是10%,那么你需要18个用户。界面的可用性越高,您需要在测试中包含的用户就越多,以确定85%的可用性问题。

然而,你真正的目标不是找出某个特定百分比的问题,而是最大化你的用户研究项目的商业价值.事实证明峰值投资回报率对模型参数的变化相当不敏感。如果你第一次测试一个糟糕的设计,你的花费会很低(很容易发现可用性问题),而你的收获会很高(产品会得到极大的改进)。相反,如果你正在研究一个困难的问题,你的花费就会更高,而你的收益就会更低。然而,重点是最大化收益和支出之间的比率(即投资回报率)通常仍在5个测试用户左右,即使您的学习收益率在简单学习时较高,而在较难学习时较低。

总的来说,这是一个好主意从5个用户开始,修复您发现的错误,然后在进一步的迭代中慢慢增加用户数量如果你认为你已经取得了很大的进步。但是,在实践中,您可以很容易地感受到您在5个用户中发现了多少洞察力。如果您觉得这并不多,那么无论如何,添加一些额外的用户。相反,你可以使用少于5个用户进行测试在其他情况下,例如当您可以非常快速地继续测试下一个迭代时。但如果你有很多问题需要解决,首先解决这些问题,然后继续前进。

结论

定性用户测试的5用户指南与您认为不能相信从小型研究中获得的指标,因为你不会在定性研究中收集指标。定量和定性用户研究有不同的目标:

  • 定量性的研究的目的是发现韵律学预测整个种群的行为;如果这些数字是基于较小的样本量,那么它们将是不精确的,因此也是无用的。
  • 定性研究的目标的见解:识别界面中的可用性问题。研究人员必须用判断而不是数字来确定这些问题的优先次序。(而且,强调一点:5人指南只适用于定性研究,不适用于定量研究。)

如果您的界面已经经过了许多轮测试,那么即使是在定性测试中,您也可能需要包括更多的人,因为遇到问题的机会可能比模型的原始假设要小。尽管如此,最好还是从5个用户开始,如果发现的重要结果太少,就增加这个数字。