在可用性测试期间,用户体验研究人员经常要求参与者对他们使用产品或网站的体验进行主观评估(通常以评级的形式)。SUS、NPS或任务难度问题等工具是最受欢迎的选择。然而,对于许多新的UX实践者来说,这些工具的确切目的(以及管理和分析它们的正确方法)往往是神秘的。它们真正评估的是什么?使用它们的正确方法是什么?应该在什么时候管理它们——在任务之间还是在会话结束时,为什么这很重要?为什么你要使用标准问卷而不是自己做一个呢?

所有这些问卷都是自我报告的定量数据; 它们本身很少有意义,没有性能数据(如成功率或任务时间)来补充它们。所有这些问卷的格式通常是评分规模:给参与者一个问题,并要求其选择答案,通常采用5分或7分制(我们不建议使用超过7个选项的比例)。收集数据的实际方法很简单:问题可以通过测试促进者或使用数字调查工具(这是远程未经检测中使用的典型方法)在纸上进行。但是,了解何时以及为什么要使用哪种调查问卷更令人难以实现许多崭露头角的测试促进者。

任务后vs测试后问卷

可用性测试期间使用的问卷分为两类:

  1. 任务后问卷是否在完成任务后立即完成捕捉参与者对任务的印象. 当每项任务之后都有一份这样的调查问卷时,通常会从每个用户那里收集到许多主观答案,因为通常有许多个人的任务在可用性 - 学习会议中。
  2. 测试后问卷在会话结束时(或者参与者完成了与网站有关的所有任务)进行管理。他们从整体上反映你的用户对网站或应用的可用性的看法(即他们持久的总体印象是什么)。用户对整个体验的印象取决于峰端效应(也就是说,体验的最激烈和最后部分,无论是积极的还是消极的,对参与者的回忆和评价影响最大)。

任务后和测试后问卷不兼容;事实上,在大多数定量研究中,收集两者都很有用。(但要小心疲惫不堪!)虽然这些指标确实相当强烈地关联,但这不是一个完美的关系;一种类型的定量数据给我们一个相当有限的系统图像的整体可用性,以及我们可以开发的图片更清晰。

这两种类型的工具都是当前主观用户体验状态的指示器;您可以使用它们将当前的设计与未来的迭代(或已知的行业基准)进行比较。这些指标做告诉你为什么用户与您的设计斗争,他们也没有提供关于如何改进的直接见解.它们只是一种跟踪用户使用产品时的感受的方法。

必须注意的是,这些问卷是定量工具,因此需要较大样本量(通常至少20-30个用户)确信其结果概括。用小样本尺寸收集定量数据(如5用户通常推荐在形成性的、定性的可用性测试中,几乎肯定不会产生具有统计意义的结果。但是,如果将主观评分量表与后续问题结合起来,为什么你给出了[网站x]的分数[Y]?即使你只测试了少数用户,你也可以从定性的角度深入了解人们对设计的感受。(只是不要对平均分数太在意。)

在大多数情况下,我们建议在本土中使用标准问卷,因为前者由大量研究支持演示他们的有效性(他们实际上测量的是他们想测量的东西),可靠性(用户将始终以相同的方式回答问题),以及体贴(他们可以发现有意义的差异)。

系统可用性量表(SUS):测试后可用性评估

UX研究中使用的最着名的问卷是系统可用性规模(SUS)。自20世纪80年代的命令行界面日以来,SUS已经存在,并且一再通过实验证明是有效和可靠的。它是由John Brooke在数字设备公司的发明中发明的。SUS是测试后仪器,在整个可用性测试会话结束后给予参与者(或者在测试多个站点时,如此竞争性评价,在参与者完成所有与站点相关的任务之后)。

显示所有10个Likert量表问题的SUS问卷
系统可用性量表是一份包含10个不同问题的测试后问卷,这些问题涉及系统的可用性和可学习性。如果您想将您的分数与从其他设计中收集的分数进行比较,请不要更改SUS问题的顺序或措辞。

SUS是由10个Likert量表问题组成的一系列问题,其得分范围为0-100。但是,0-100分是不相等在某个百分比的分数上,比如在一次考试中,杰夫·索罗(Jeff Sauro)做了大量的测试对SUS分数进行基准分析在500项研究中发现,SUS的平均得分为68分。如果你的网站的可用性要排在所有网站的前10%,你需要80分或更高的分数,而73分只会让你排在前30%。

使用SUS的最大优势之一是,它是一个如此古老的量表,有大量行业范围的数据可用于帮助您在同行和竞争对手的背景下对您的分数进行基准测试和理解,这是使用较少的调查工具无法提供的。请注意苏强烈地关联用一个更简单的指标,一个问题净发起人得分。它们确实提供了不同的数据,但对于许多组织来说,NPS总体上可能更有用,因为它是一个更简单的指标(一个问题与SUS的10个相比),并且是公司公认的总体指标(即使它对用户体验关注点不那么敏感)。

单一简易问题(SEQ):任务后满意度

与SUS相比,post-任务在测试阶段的每个任务结束时都会发放问卷。它们之所以有用有两个主要原因:

  1. 它们允许您比较界面(或工作流)的哪些部分被认为是最有问题的,因为您是在之后收集这些数据的每一个任务。
  2. 由于任务本身刚刚结束,参与者的脑海中充满了新鲜感,因此她能够更清楚地表明自己对体验的态度,而不会因为后续任务而影响记忆。

任务后问卷需要短(1-3个问题),以便在测试会话中使用该网站的流程来干扰。

使用中使用了几种广泛的问卷;在大多数情况下单问题文书是否适合定量可用性测试,因为参与者在任务之后需要几乎没有时间和努力,并且是最严重的破坏性的。自从与用户的时间珍贵,最好使用高效的调查仪器。更多的评级问题只能给您略微介绍,而不是您从一个问题中获取的洞察力,因此更好地在其他活动中投入时间预算,例如额外的测试任务,而不是提出更多主观评级问题。

“单一问题”(序号)这是一个有用而简单的版本,它已经通过实验验证和证明可靠,有效和敏感。SEQ要求用户评价他们刚刚完成的活动的难度,从很容易非常困难在7分的评分范围内。

单一缓解问题评定量表
单一易用性问题(SEQ)任务后的单一问题问卷根据上次尝试的任务测量用户对可用性的感知。由于任务在参与者的头脑中仍然是新鲜的,他们的回答提供了对特定任务经验的有用评估。

任务后调查问卷的更细粒度可能表明,与通过测试后工具对用户总体印象的更粗发现相比,它们可以为设计团队产生更多可操作的发现。但是,用于将您的SEQ结果与其他公司的结果进行比较的数据较少(被比较的任务无论如何都需要具有可比性),因此您主要局限于找出在您自己的系统中哪些任务相对容易或更难。

NASA-TLX:任务后工作负载

这个NASA-TLX(任务负载索引)是另一种类型的帖子任务用于研究医疗保健、航空航天、军事和其他高后果环境中的复杂产品和任务的调查问卷。在用户体验工作中使用频率较低,但它是许多人类因素和人类工效学研究中使用的标准调查问卷。NASA-TLX出现于20世纪80年代,是NASA努力的结果ts将开发一种仪器,用于测量航空航天机组人员复杂、高技术任务所需的感知工作量。

NASA-TLX包含6个问题,用户必须在未标记的21分范围内回答,范围从非常低的非常高。每个问题都涉及感知工作量的一个维度:心理需求、身体需求、时间压力、感知任务的成功程度、总体努力程度和挫败程度。在初步评估之后,用户会对他们刚刚完成的六个类别中的每一个进行权衡,以表明哪个类别对他们正在做的事情最重要。这是一种复杂的乐器,但幸运的是,美国宇航局发布了TLX作为一个免费iOS应用程序

NASA TLX仪器,显示了6个未编号的评级量表
NASA-TLX仪器要求参与者在这6个等级上对他们完成的每项任务进行评分,每项评分以21分为增量。它提供了丰富的数据,说明任务在多个不同领域对用户有哪些要求,但在研究过程中需要时间和专业知识来收集。来自官方NASA-TLX的图像纸和铅笔工作表

虽然NASA-TLX通常被用作复杂任务关键系统人为因素研究的关键指标,但它也可用于其他类型的UX研究,但有几点需要注意:

  1. 这是一个相对复杂的问卷,需要在每个关键任务之后回答,因此会在整个测试过程中增加大量时间(和潜在的参与者疲劳)。
  2. 这可能会扰乱学习流程,并使参与者的体验比顺利通过测试场景时更不自然。
  3. 它通常需要主持人多次解释工具(特别是像之间的区别这样的事情)努力精神的需求,例如)。
  4. 在研究非常不希望出现人为错误的情况(医疗保健、运输、复杂金融领域等)时,它非常有帮助。

由于这种仪器的复杂性,对于消费产品或简单的工作流程来说,通常是一个很好的匹配。为高度复杂的过程,由经过培训的工人执行,用户无法选择应用程序它们的使用和错误会产生严重后果,NASA-TLX是首选的调查问卷。与SUS一样,NASA-TLX发布了许多研究和行业基准,以帮助您了解上下文中的分数,并能够有意义地将其与竞争对手的分数进行比较。

这些指标的局限性

本文中讨论的所有各种满意度指标都存在以下局限性:

  1. 它们是自我报告的数据,可以不可靠
  2. 它们衡量的是用户的主观感受,而不是客观表现满意度与客观绩效之间的相关性指标(如任务完成率,任务时间或错误),满意度指标通常在与性能指标结合时讲述更清晰的故事。
  3. 这些参数会告诉你用户的满意度,但却不能指出体验的弱点或优势(或者你可以改变什么来改善它)。此外,每个参与者可能对7分中的5分有非常不同的理解。
  4. 与所有量化指标一样,低样本规模(如我们通常在每一轮定性可用性测试中推荐的5个用户)不太可能提供统计上显著或有意义的结果。来自5个用户的数字数据不应告知设计决策,使用如此小的样本收集的报告数据具有高度误导性。

总结

在定量研究中,通常会收集关于用户满意度和可用性感知的自我报告数据,以及其他类型的性能度量。三种流行的工具是:测试后的系统可用性量表(SUS),它提供关于用户收获和整体体验的有用信息;任务后单易用性问题(SEQ),提供关于不同任务流可用性的信息;以及任务后的NASA-TLX,它适用于测量复杂、关键任务的工作量。由于所有这些都是定量测量,它们需要相当大的样本量来提供有效的测量。

最多在实际用户体验研究中,我们建议使用简单的满意度问卷,尽可能少的问题。要问的问题取决于您的研究目标:

  1. 大多数造型的,定性研究:
    • 您对本网站的满意度如何?加上后续问题你为什么给[X]分?这会给你洞察无论用户体验的哪个方面对用户的满意度最为重要,这是从用户的主观反馈中学习的主要内容。
    • 如果你特别感兴趣单个组件的可用性在UI的ui中,在每个任务之后使用单一的缓解问题并要求用户解释他们的分数。(然而,通常通过直接观察判断设计元素的可用性而不是从主观分数来判断设计元素的可用性更准确。)
  2. 用于总结性定量研究旨在对网站的可用性进行基准测试(通过与其他设计迭代或竞争对手进行比较):
    • 在大多数情况下,使用测试后的SUS和每个任务后的SEQ作为满意度指标,以补充其他绩效指标,如成功率和任务时间。
    • 如果您有复杂、关键任务工作流的特殊情况,请使用NASA-TLX替换SEQ。
  3. 如果你想评估商业影响您的用户体验,询问NPS问题,您向朋友推荐此网站的可能性有多大?

在我们的全天研讨会上了解更多衡量用户体验