在可用性测试期间,UX研究人员通常要求参与者使用产品或网站提供其经验的主观评估(通常以评级的形式)。诸如SUS,NPS或任务难度问题之类的仪器是最受欢迎的选择之一。但是,对于许多新的UX从业者,这些工具的精确目的(以及管理和分析它们的正确方法)通常是神秘的。他们真正评估了什么,以及使用它们的适当方法是什么?什么时候应该在会议结束时管理 - 在会议结束时,为什么这么物质?为什么你会使用其中一个标准问卷而不是创造自己的?

所有这些问卷都是自我报告定量数据;它们本身很少有意义,没有性能数据(如成功率或任务时间)来补充它们。所有这些调查问卷的格式通常是评级规模:参与者被问及一个问题,并被要求选择一个答案,一般分为5分或7分(我们不建议使用超过7个选项的天平)。收集数据的实际方法很简单:问题可以由测试协调员在纸上管理,或者使用数字调查工具(这是远程无调节测试中使用的典型方法)。然而,对于许多初出茅台的测试指导人员来说,知道何时以及为什么要使用哪一份问卷是非常困难的。

任务后VS测试后问卷

可用性测试中使用的问卷分为两类:

  1. 任务后的调查问卷完成任务后立即完成捕捉参与者对任务的印象.当每个任务之后都有一个这样的问卷时,通常会从每个用户那里收集到许多主观答案,因为通常是这样的许多个人任务在可用性研究阶段。
  2. 测试后的调查问卷在会话结束时(或在参与者完成与站点相关的所有任务后)进行管理。他们反映您的用户如何将网站或应用程序的可用性视为整体(例如,他们的持久、整体印象是什么)。用户对整体体验的印象受制于peak-end效应(也就是说,经历中最强烈的部分和最后的部分,无论是积极的还是消极的,对参与者的回忆和评价影响最大)。

任务后和测试后的调查问卷并不是不相容的;事实上,在大多数定量研究中,两者都收集是有用的。(但要小心让你的参与者筋疲力尽!)虽然这些指标确实存在相当强的相关性,但它并不是完美的关系;一种类型的定量数据为我们提供了系统总体可用性的一个相当有限的图景,而指标越多,我们可以开发的图景就越清晰。

这两种类型的仪器都是主观用户体验的当前状态的指标;您可以使用它们来比较您当前的设计,以防止未来的迭代(或已知的行业基准)。这些指标呢不是告诉你为什么用户纠结于你的设计,他们也没有提供关于如何改进的直接见解.它们只是一种跟踪您的用户如何了解使用产品的体验的方式。

需要注意的是,这些调查问卷是定量工具,因此它们需要更大的样本大小(通常至少有20-30个用户)确信他们的结果是普遍的。在小样本容量下收集定量数据(如我们通常推荐5个用户在形成性的、定性的可用性测试期间),几乎肯定不会产生统计上有意义的发现。然而,如果你把主观评分量表和后续问题结合起来,你为什么给[网站X]打[Y]分?即使只测试少数用户,你也可以从定性的角度了解人们对设计的感受。(只是不要太在意平均分数。)

在大多数情况下,我们建议使用标准问卷而不是本地问卷,因为前者得到了大量研究的支持证明他们的有效性(他们实际上测量的是他们想测量的东西),可靠性(用户会以相同的方式回答问题),以及灵敏度(他们可以发现有意义的差异)。

系统可用性量表(SUS):测试后可用性评估

在用户体验研究中使用的最著名的问卷是系统可用性量表(SUS)。SUS从20世纪80年代的命令行界面时代就已经出现了,并且已经多次被实验证明是有效和可靠的。它是由数字设备公司的约翰·布鲁克发明的。SUS是一个测试后工具,在整个可用性测试会议结束后(或者,当测试多个站点时,比如竞争力评价,在参与者曾在与网站相关的所有任务中工作之后)。

SUS问卷显示所有10个李克特量表问题
系统可用性量表是一个测试后问卷,包含10个不同的问题,以解决一个系统的可用性和学习性。如果您想将您的分数与其他设计的分数进行比较,请不要改变SUS问题的顺序或措辞。

SUS是由10个李克特量表(Likert-scale)问题组成,评分范围从0到100。然而,0-100的分数是不是等价的到一个百分比分数,比如在考试中-杰夫索罗做了广泛的SUS分数的基准在许多不同的系统上,在500项研究中发现了68分的平均SUS得分。为了您的网站可用性在所有网站的前10%中,您需要得分为80或更高,而73分为73分会将您放入前30%。

使用SUS最大的优势之一是,这是一个古老的规模,大量行业数据基准可以帮助你的分数和你的同行和竞争对手在上下文中理解它——少一些广泛使用的调查工具不能提供。要注意SUS关系非常密切具有更简单的指标,单一问题净推荐值.它们确实提供了不同的数据,但对许多组织来说,NPS可能总体上更有用,因为它是一个更简单的收集指标(一个问题相对于SUS的10个问题),而且是公司公认的通用指标(即使它对ux关注的问题不那么敏感)。

单轻松问题(SEQ):任务后满意度

与SUS相比,后任务问卷在测试会议中的每项任务结束时进行。它们有用两个大的原因:

  1. 它们允许您比较您的接口(或工作流)的哪些部分被认为是最有问题的,因为您在之后收集了这些数据每一个的任务。
  2. 由于任务本身刚刚结束,参与者的脑海中还记忆犹新,因此她更能清楚地表明自己对这段经历的态度,而不会有后续任务影响她的记忆。

任务结束后的问卷需要很短(1-3个问题),以尽可能少地干扰测试过程中使用网站的流程。

在使用中有几份被广泛使用的问卷;在大多数情况下一个问题仪器适合于定量可用性测试,因为参与者在完成任务后只需花费很少的时间和精力来回答它,并且破坏性最小。自与用户相处的时间是宝贵的,最好使用高效的测量仪器。更多的评分问题只会比你从单个问题中得到的信息稍微多一点,所以最好把你的时间预算投资在其他活动上,比如额外的测试任务,而不是问更多的主观评分问题。

“简单的问题”(SEQ)是这一想法的一个有用而简单的版本,已通过实验验证并证明其可靠、有效和敏感。SEQ要求用户评估他们刚刚完成的活动的难度非常容易非常困难的在7点额定尺度上。

单一简易问题评分量表
单一易用性问题(SEQ)是一个单问题的任务后问卷,测量用户对最近尝试的任务的可用性感知。由于这个任务在参与者的脑海中仍然是新鲜的,他们的答案提供了一个关于这个特定任务的经验的有用评估。

更细粒度的任务后问卷调查可能表明,比起通过测试后工具粗略地发现用户总体印象,它们可以为设计团队产生更有可操作性的结果。然而,用于将您的SEQ结果与其他公司的结果进行比较的数据较少(而且被比较的任务需要具有可比性),所以您主要局限于找出在您自己的系统中哪些任务相对较容易或较难。

NASA-TLX:任务后工作负载

NASA-TLX(任务负载索引)是另一种post-任务用于研究医疗保健、航空航天、军事和其他高后果环境中的复杂产品和任务的问卷。它在用户体验工作中使用的频率较低,但它是许多人因和工效学研究中使用的标准问卷。NASA- tlx出现于20世纪80年代,这是NASA努力开发一种仪器的结果,用于测量宇航员复杂、高技术任务所需的感知工作量。

NASA-TLX包含6个问题,用户必须回答,评分标准为21分,范围从非常低非常高。每个问题都解决了一维的工作量:心理需求,身体需求,时间压力,在任务,整体努力水平和挫折水平中感知成功。在此初步评估之后,用户称重他们刚刚完成的六个类别中的每一个,表明哪个类别对他们所做的事情最重要。这是一个复杂的评分仪器,但谢天谢地,美国宇航局已经释放了TLX作为一个免费的iOS应用程序

NASA TLX仪器,显示了6个未编号的评级量表
NASA-TLX仪器要求参与者在这6个尺度上对他们所完成的每项任务打分,每一项增加21分。它提供了关于任务在多个不同领域对用户的需求的丰富数据,但在研究过程中需要时间和专业知识来收集。图片来自nasa官方tlx纸和铅笔的工作表

虽然NASA-TLX经常被用作关于复杂、关键任务系统的人为因素研究的关键指标,但它也可以用于其他类型的用户体验研究,但需要注意的是:

  1. 这是一个相对复杂的问卷,需要在每个关键任务后得到回答,因此将增加大量时间(以及潜在的参与者疲劳)到整体测试过程。
  2. 它会扰乱学习流程,让参与者的体验比顺利通过测试场景的体验更不自然。
  3. 它通常需要促进者多次解释仪器(特别是与差异之间的东西努力心理需求,例如)。
  4. 在研究人类错误是高度不受欢迎的(医疗保健,运输,复杂的金融域等)的情况下,这主要有助于。

由于这个工具的复杂性,它通常不适合消费产品的用户体验研究或简单的工作流程。为了高度复杂的过程,由训练有素的工人执行,用户无法选择应用程序他们的使用和错误有很高的后果,NASA-TLX是问卷的选择。像SUS一样,NASA-TLX发布了许多研究和行业基准,以帮助您了解上下文中的分数,并能够将它们与竞争对手的分数进行有意义的比较。

这些指标的局限性

本文中讨论的所有各种满意度指标都存在以下局限性:

  1. 它们是自我报告的数据不可靠的
  2. 它们衡量的是用户的主观感知,而不是客观表现。虽然有一些满足与客观性能之间的相关性指标(如任务完成率、任务时间或错误),满意度指标在与性能指标结合时通常能说明更清楚的情况。
  3. 这些指标告诉您用户的满意度水平是什么,但不会确定经验的任何弱点或优势(或者您可以改变以改善它)。此外,每个参与者可能具有较差不同的意义,例如,例如,其中的5个是一种意义。
  4. 与所有量化指标一样,低样本规模(如我们通常在每一轮定性可用性测试中推荐的5个用户)不太可能提供统计上显著或有意义的结果。数字数据来自5个用户不应该为设计决策提供信息,而且用如此小的样本收集的数据报告是非常具有误导性的。

总结

解决用户满意度和可用性感知的自我报告的数据通常在定量研究中与其他类型的性能措施一起收集。三种流行的仪器是:测试后系统可用性规模(SUS),提供有关用户的外卖和整体体验的有用信息;任务后单个缓解问题(SEQ),提供有关不同任务流动的可用性的信息;和任务后NASA-TLX,这适合测量复杂,任务关键任务的工作量。由于所有这些都是定量措施,因此它们需要合理大的样品大小以提供有效的测量。

为了大多数在实际用户体验研究中,我们推荐简单的满意度调查问卷,问题越少越好。问的问题取决于你的研究目标:

  1. 在大多数形成性,定性研究:
    • 你对这个网站有多满意?加上接下来的问题你为什么给[X]分?这会给你的见解用户体验中对用户满意度最重要的方面,这是要从主观用户反馈中学习的主要内容。
    • 如果你特别感兴趣单个组件的可用性,在每个任务后使用Single Ease Question,并要求用户解释他们的分数。(然而,通常通过直接观察来判断设计元素的可用性比主观评分更准确。)
  2. 用于总结定量研究旨在衡量网站的可用性(通过与其他设计迭代或竞争对手进行比较):
    • 在大多数情况下,在测试之后使用SUS,在每个任务之后使用SEQ,作为满足度量来补充其他性能度量,如成功率和任务时间。
    • 如果您有复杂的关键任务工作流的特殊情况,请使用NASA-TLX替换SEQ。
  3. 如果你想评估业务对你的用户体验的影响,问NPS问题,你向朋友推荐这个网站的可能性有多大?

在我们全天的研讨会上了解更多信息测量用户体验