介绍

所有可用性测试研究都涉及参与者在一个或多个设计上执行一些指定任务。然而,在用户测试研究中可以收集两种类型的数据:

  • 定性(8)数据,包括识别易于使用或难以使用的设计特征的观察结果
  • 定量(定量)数据,以一个或多个指标(如任务完成率或任务时间)的形式,反映任务是否易于执行

质量研究

定性数据提供系统可用性的直接评估:研究人员将观察参与者与特定UI元素的斗争,并推断设计的哪些方面有问题,哪些工作良好。他们可以随时向参与者提出后续问题,并改变研究过程,以深入了解参与者所经历的具体问题。然后,根据他们自己的用户体验知识,并可能通过观察其他参与者遇到(或没有)相同的困难,研究人员将确定相应的用户界面元素是否确实设计糟糕。

定量研究

定量数据提供设计可用性的间接评估。它们可以基于用户的表演在一个给定的任务(例如,任务完成时间,成功率,错误数量)或可以反映参与者的可用性感知(例如,满意度评分)。定量指标仅仅是数字,因此,在没有参考点的情况下,它们很难解释。例如,如果一项研究中60%的参与者能够完成一项任务,这是好还是坏?很难说是绝对的。这就是为什么许多定量研究的目标通常不是描述网站的可用性,而是将其与已知标准或竞争对手或以前设计的可用性进行比较。

虽然定量数据可以告诉我们,相对于参考点,我们的设计可能是不可用的,但它们并没有指出用户遇到了什么问题。更糟糕的是,他们并没有告诉我们为了获得更好的结果,需要在设计中做哪些改变。知道只有40%的参与者能够完成一项任务,并不能说明为什么用户在完成这项任务时会遇到麻烦,或者如何让它变得更容易。研究人员通常需要使用等量方法来补充定量数据,以了解界面中的特定可用性问题。

统计显著性

quant比qual的一个优势是统计显著性. 当量化数据以一种合理的方式呈现时,它们具有某种针对随机性的保护:通常,诸如置信区间和统计显著性等数学工具将告诉我们,数据反映真相的可能性有多大,或者它们是否仅仅是随机噪声的影响——可能是我们碰巧招募的特定参与者或研究运行条件的人为因素。虽然经验丰富的qual研究人员将部署一系列良好实践,以保护自己不受偶然性的影响,并确保其结果不存在偏见,但我们无法正式保证qual研究的结果确实客观且代表整个目标人群。

Qual与Quant的区别

定性和定量数据需要稍微不同的研究设置和非常不同的分析方法。它们很少同时收集-因此区分定性和定量用户研究。在迭代设计周期中,定性和定量测试都是必不可少的。虽然qual研究在我们的行业中更为常见,但quant研究是唯一能够让我们在重新设计时给出数字并清楚说明新版本比旧版本有多大改进的研究——它们是计算的基本工具投资回报率

下表总结了这两类研究之间的差异。在本文的其余部分中,我们将详细讨论这些差异。

质量研究 定量研究

问题回答

为什么?

多少,多少?

目标

形成性和总结性:

  • 通知设计决策
  • 识别可用性问题并找到解决方案

主要是总结性的:

  • 评估现有站点的可用性
  • 随着时间的推移跟踪可用性
  • 将网站与竞争对手进行比较
  • 计算投资回报率

使用时

任何时候:在重新设计期间,或当您拥有最终工作产品时

当您有一个工作产品时(在设计周期的开始或结束时)

结果

基于研究者的印象、解释和先前知识的发现

统计上有意义的结果很可能在另一项研究中被重复

方法论

  • 很少有参与者
  • 灵活的学习条件,可根据团队需要进行调整
  • 有声思考协议
  • 许多参与者
  • 明确的,严格控制的研究条件
  • 通常不会大声思考

迭代设计循环:质量与量化的目标

基本的以用户为中心的设计周期始于对现有设计的评估,然后是旨在解决当前系统可用性挑战的重新设计。新版本完成后,可以对其进行评估,并与初始版本进行比较。

迭代设计周期:步骤1和3涉及总结性研究(采用定量或定性方法),而步骤2涉及形成性研究(采用定性方法)。

迭代设计循环的第一个和第三个阶段是总结性-它们旨在提供设计的总体评估。在这些步骤中,qual和quant研究方法(或组合,如纯净的)可用于评估设计。然而,当目标是将整个重新设计工作与实际的财务节省联系起来,或明确地计算出重新设计改进了多少,就必须使用定量研究。拥有成熟用户体验的组织通常有这样一个量化可用性跟踪过程。(有时这种定量评估每个版本的设计并与以前的版本进行比较的过程被称为基准测试.)

在重新设计阶段,用户研究有一个有持续重大影响的作用:它的目的是通知设计并引导设计走上正确的道路。在这个阶段,设计师和研究人员需要相对快速和廉价地获取用户数据,以便能够在不同的设计方案中进行选择并创建可用的UI。现阶段,,质量研究通常是最合适的。我们知道,,对于5个用户,定性研究可能会发现85%的可用性问题在设计中(前提是设计尚未接近完美),因此,在重新设计步骤中,有必要对少数用户进行一次快速研究,确定重大问题,修复它们,然后与另一小部分用户再次测试新版本。

何时使用Qual vs.Quant

质量研究非常适合于确定设计中的主要问题:例如,我们可以很容易地进行定性研究,看看是什么(如果有的话)阻止用户提交类型根据该研究,我们可能会确定需要延长表单字段的长度密码要求,或使用字段外的标签而不是在里面。

相比之下,大多数定量研究是在网站的完整版本上进行的,目的是评估网站可用性的方法,而不是直接通知重新设计过程这并不是因为在重新设计迭代过程中不能使用定量方法,而是因为如果在设计过程的早期经常使用定量可用性研究,成本会太高。定量研究通常涉及大量用户,而且大多数组织都负担不起花费大量资金进行此类研究,以调查页面副本是否清晰或按钮是否可找到。然而,从定量测试中获得的数据在说服高层管理层您的站点需要完全重新设计时是非常宝贵的。

结果:质量与数量

质量数据通常由一组发现组成,这些发现确定(并根据严重程度划分优先级)设计的优点和缺点。这些发现是估计的——它们是基于促进任务的研究人员的知识和经验水平,并解释用户的行动的含义。不同的从业者通常会在相同的用户测试会议中识别不同的问题(这种现象称为评价者效应)。此外,即使我们在招募符合目标人口统计数据的参与者时非常谨慎,但当我们只招募少数人时,他们始终有可能无法真正代表整个用户群体,因此我们的调查结果可能存在偏差。

定量研究通常涉及相对大量的用户(通常超过30人),并使用统计技术来保护自己免受此类随机事件的影响。如果报告正确,定量研究将包括关于统计显著性的结果。例如,误差幅度将帮助您了解您可以在多大程度上信任研究结果。或者,如果站点之间完成任务时间的差异和竞争对手的网站是统计学意义,你会知道,即使你招募一组不同的用户并重新运行你的学习,你的结果会指向同一个方向,即使准确的平均可能略有不同。

因此,当定量研究被正确地进行和分析时,你可以确信他们的结果是可靠的。也就是说,它们不是由于掷骰子的运气或运气不好造成的。

这些类型的分析基于统计数据,通常涉及到qual可用性研究人员所不具备的其他类型的技能。这就是为什么许多公司对quant和qual UX研究人员有不同的工作要求。

方法:质量与数量

从表面上看,定量和定性用户测试看起来非常相似(即,它们都涉及用户执行设计任务)。这两种类型的研究都需要遵循良好实验设计的基本规则,确保它们具备:

  1. 外部效度:参与者代表目标受众,研究条件反映了任务是如何在野外完成的。例如,在桌面模拟器上测试移动站点缺乏外部有效性,因为人们通常在触摸屏手机上使用该站点。
  2. 内部有效性:实验设置不支持任何一种条件。例如,如果上午测试设计A,下午测试设计B,那么疲劳可能会影响参与者使用设计B的方式。

但是,由于定量研究力求获得有统计意义的结果,这两种研究之间存在一些重要差异:

  • 如上所述,定量研究比定量研究涉及更多的用户。
  • 由于会话设置和参与者背景的差异可能会增加测量噪声并导致更大的误差幅度,定量研究旨在尽可能减少可变性。因此:
    • 定量研究中的条件需要严格控制每次会议。也就是说,你需要确保你的参与者都尽可能在几乎相同的环境中运行:你不能亲自完成两次会议,远程完成三次会议。
    • 定量研究通常以实践任务开始,目的是让所有参与者熟悉研究设置和被评估的地点。通过这种方式,专家用户和新手用户之间可能存在的个体差异就被消除了,因为新手有机会学习界面。
    • 有声思考协议是qual研究中事实上的方法,但有时不推荐用于定量研究。研究人员对“有声思维”方案是否能在定量研究中得到合理应用存在分歧。在某种程度上,由于一些人比其他人更健谈,这可能会增加测量噪声。因此,许多定量研究并不要求参与者大声思考。
    • 姓名、地址或生日等个人信息会增加研究的可变性,因为不同的人有不同的数据。鉴于对于qual研究,你希望人们输入他们自己的真实信息,在定量研究中,每个人都应该有相同的经验,因此应该输入完全相同的字符串。这就是为什么应该向参与者提供一组他们都可以使用的虚构数据。(此约束有时会给实时系统造成后端困难。)
  • 相反,对于等量研究,可以在不同阶段改变研究条件。例如,如果您发现某个任务不能给您所需的洞察力,务必在运行下一个用户之前重写它。改变任务将使其无法对执行不同任务的用户进行平均测量,但在一项定性研究中,你的目标是深入了解,而不是数字,所以你可以随意破坏数字(反正这不是你的研究目标)。
  • 对于定量研究,任务需要有一个明确定义的答案。因此,虽然任务,比如“找到约翰·史密斯的电话号码和地址”可能适合于定性研究,定量研究是不好的,因为它很难代码成功:如果参与者发现电话号码而不是地址,应该被认为是失败的吗?

    此外,所有参与者在阅读任务时都应该理解相同的内容。对于定量用户研究来说,诸如“研究加利福尼亚州获得无人机飞行许可证的要求”这样的任务过于模糊,因为不同的人可能会用“研究”一词来理解不同的事情,但如果你试图找出人们可能感兴趣的信息类型,那么在定量研究中也可以。

  • 虽然在定性和定量实验中使用任务随机化是很好的做法,但通常质量研究不会完全随机化。在定量测试中,随机化确保任务的顺序不会以任何方式影响结果。

结论

定性和定量用户测试是服务于不同目标的补充方法。Qual测试涉及少量用户(5-8个),直接确定界面中的主要可用性问题。它通常以形成性的方式使用,用于通知设计过程并引导它朝正确的方向发展。定量可用性测试(或基准测试)基于大量参与者(通常超过30人);当正确分析和解释时,定量测试的结果具有更高的抗随机噪声能力。定量研究通过任务完成率、任务时间或满意度评级等指标对站点的可用性进行间接总结性评估,通常用于跟踪设计迭代过程中系统的可用性。

有关流行定量研究方法的概述、每种方法的使用指南以及如何计算投资回报率,请查看我们的课程测量用户体验和投资回报率