如果你想要一个数字,答案很简单:在可用性研究中测试5个用户.使用5个人进行测试可以让你发现与使用更多测试参与者一样多的可用性问题。

这个答案从我开始推广起就一直是一样的"折扣可用性工程”在1989年。不管你是测试网站、内部网、PC应用程序还是移动应用程序。与5个用户,您几乎总是能够接近用户测试的最大收益-成本比。

然而,与任何人为因素一样,确实存在问题异常

  • 定量研究(针对统计数据,而不是见解):至少要测试20.用户获得统计上有意义的数字;严格的置信区间需要更多的用户。
  • 卡片分类:至少测试一下15每个用户组的用户。
  • 眼动:测试39用户如果你想要稳定的热图。

然而,这些异常不应该让您太担心:巨大的你的大部分用户研究应该是定性的-即旨在收集推动你的设计的洞察力,而不是用数字来给人留下深刻印象。

小型测试的主要理由很简单投资回报:每增加一个研究参与者,测试成本就会增加,但发现的数量很快就会达到收益递减的点。在同一项研究中,超过5个人参加实验并没有什么额外的好处;ROI像石头一样掉落N

如果你有很大的预算呢?耶!把钱花在额外的研究上,而不是在每个研究中增加更多的用户。

遗憾的是,大多数公司坚持进行更大规模的测试。在用户体验会议我调查了217名参与者,了解他们公司的做法。平均反应是他们使用的11个试验参与者每轮用户测试-超过推荐尺寸的两倍。显然,我需要更好地解释小-的好处N可用性测试。

(弱)更多测试参与者的理由

“一个大网站有数百万用户。”这与样本大小无关,即使是做统计。一项民意调查需要同样数量的受访者来决定谁将当选匹兹堡市长或法国总统。统计抽样的方差是由样本量决定的,而不是抽样的整个总体的大小。在用户测试中,我们关注网站的功能,看看哪些设计元素易于使用,哪些难于使用。设计元素的质量评估与有多少人使用它无关。(相反地,关于是否修复设计缺陷的决定应该考虑它将获得多少用户:可能不值得努力去完善一个用户很少的功能;最好是花精力与数百万用户一起重新编写内容。)

“一个大网站有数百种功能。”这是运行几个的理由不同的测试-每个测试集中在更小的功能集-不是为了在每个测试中有更多的用户。在可怜的用户筋疲力尽之前,您不能要求任何人测试多个任务。是的,对于一个功能丰富的设计,你需要更多的用户,但你需要将这些用户分散到许多研究中,每个研究集中在你的研究议程的一个子集上。

“我们有几个不同的目标受众。”这实际上是测试更大的用户集的合理理由,因为您需要每个目标组的代表。然而,这个参数只有在不同的用户将以完全不同的方式进行操作时才成立。我们项目中的一些例子包括

  • 一个针对医生和病人的医疗网站
  • 一个你可以卖东西或买东西的拍卖网站。

当用户和他们的任务如此不同时,你需要针对每个目标用户运行一个新测试,每组需要接近5个用户。通常情况下,你可以在每个群组中设置3-4个用户,因为这两个群组的用户体验会有所重叠。例如,一个金融网站的目标是新手、中级和有经验的投资者,你可以测试每个用户中的3个,总共9个用户——你不需要总共15个用户来评估网站的可用性。

“这个网站赚了这么多钱,连最小的可用性问题都是不可接受的。”有钱的公司当然有在可用性上投入更多的ROI案例.即使他们在每次质量改进上花费了“太多”钱,他们也会获得更多回报,因为大量的金钱会通过用户界面流动。然而,即使是最高价值的设计项目仍然会通过保持每个研究的规模较小,并进行比低价值项目所能承受的更多的研究来优化ROI。

最基本的一点是,在任何一个设计版本中留下可用性问题都是可以的,只要你使用的是迭代设计过程在这里,您将设计和测试其他版本。任何现在没有解决的问题,下次都会解决。如果您有许多事情需要修复,那么只需计划大量的迭代即可。与每次测试更多的用户相比,由于额外的迭代,最终的结果将是更高的质量(因此也更高的业务价值)。

83年的案例研究

下表总结了83份尼尔森诺曼集团最近的报告必威在线娱乐可用性的咨询项目必威棋牌.每个点都是一个可用性研究,显示了我们测试了多少用户,以及我们向客户报告了多少可用性研究结果。(图表只包括正常的定性研究;我们也进行竞争性研究和基准测量,并进行其他类型的研究,这里没有显示。)

83个可用性测试案例研究的散点图,显示每个研究中测试的用户数量以及报告的可用性发现数量。
两者之间有很小的关联,但真的很小。在这些众多的项目中,测试更多的用户并没有得到更多的见解。

既然我确信我自己的研究结果显示了小用户的优越性,为什么我们一开始会运行更多的用户N测试?三个原因:

  • 一些客户希望进行更大规模的内部可信度研究。当研究发起者向不了解可用性的高管们展示研究结果时,当更多的用户接受测试时,这些建议更容易被接受。(如果管理层信任自己的员工,可以节省很多钱。)
  • 有些设计项目有多个目标受众,并且在预期方面存在差异(至少是这样)怀疑)用户的行为足够大,足以证明取样额外用户的花费是合理的。
  • 最后,这些咨询项目需要包含更多的用户,这也是为什么我们经常使用8个用户进行研究必威棋牌。ROI是收益与费用之间的比率。当聘请顾问时,真正的费用要比费用高,因为客户还必须花时间寻找顾问和谈判项目。投资越多,收益越大。

最后一点也解释了为什么“有多少用户”的真实答案有时会比5个小得多。如果你有Agile-style用户体验过程在开销非常低的情况下,您在每个研究中的投资是如此微不足道,以至于成本效益比被较小的效益优化。(从每项研究中获益更少,投资回报就更高,这似乎有违直觉,但这是因为每项研究的开销更小,可以让你进行更多的研究,众多小收益的总和就变成了一个大数字。)

对于真正低开销的项目,通常最理想的测试次数是每个研究2个用户.对于其他一些项目,8个用户——有时甚至更多——可能更好。然而,对于大多数项目来说,您应该坚持经过验证的原则:每个可用性测试5个用户。