定量和定性可用性测试

介绍

所有的可用性测试研究都需要参与者在一个或多个设计上执行一些指定的任务。然而，在用户测试研究中有两种类型的数据可以收集:

定性(8)数据，包括识别易于使用或难以使用的设计特征的观察结果
定量(定量)数据，以一个或多个指标(如任务完成率或任务时间)的形式反映任务是否容易执行

定性研究

定性数据提供对系统可用性的直接评估:研究人员将观察参与者在特定的UI元素上的挣扎，并推断设计的哪些方面有问题，哪些方面运行良好。他们总是可以问参与者后续的问题，并改变研究的过程，以了解参与者所经历的具体问题。然后，基于他们自己的UX知识和可能观察其他参与者遇到(或没有)同样的困难，研究人员将确定各自的UI元素是否确实设计糟糕。

定量研究

定量数据提供对设计可用性的间接评估。它们可以基于用户的性能在一个给定的任务(例如，任务完成时间，成功率，错误数量)或可以反映参与者的可用性的看法(例如,满意度评级)。定量度量是简单的数字，因此，在没有参考点的情况下很难解释它们。例如，如果一项研究中60%的参与者能够完成一项任务，这是好还是坏?这很难说绝对。这就是为什么很多量化研究的目的不是描述网站的可用性，而是将其与已知的标准或竞争对手的可用性或以前的设计进行比较。

虽然定量数据可以告诉我们，相对于参考点，我们的设计可能是不可用的，但它们并没有指出用户遇到了什么问题。更糟糕的是，他们并没有告诉我们为了获得更好的结果，需要在设计中做哪些改变。知道只有40%的参与者能够完成一项任务，并不能说明为什么用户在完成这项任务时会遇到麻烦，或者如何让它变得更容易。研究人员通常需要使用等量方法来补充定量数据，以了解界面中的特定可用性问题。

统计显著性

quant比qual的一个优势是统计显著性．当量化数据以一种合理的方式呈现时，它们具有一定的防止随机性的保护:通常,置信区间等数学工具和统计学意义的可能性就会告诉我们如何数据反映真相或他们是否可能只是一个随机噪声的影响——也许一个工件的具体参与者,我们招募或发生的条件研究。虽然经验丰富的质量研究人员将部署良好的做法，以保护自己的机会，并确保他们的结果不存在偏见，但我们不能正式保证来自质量研究的结果确实是客观的，对整个目标人群具有代表性。

Quant和Quant的区别

定性和定量数据需要略有不同的研究设置和非常不同的分析方法。它们很少同时收集-因此定性和定量用户研究之间的区别。定性和定量测试在迭代设计周期中都是必不可少的。虽然定量研究在我们的行业中更为常见，但定量研究是唯一允许我们重新设计一个数字，并清楚地说明我们的新版本比旧版本改进了多少的研究——它们是计算的基本工具投资回报．

下表总结了两类研究的差异。在本文的其余部分中，我们将详细讨论这些差异。

	定性研究	定量研究
问题回答	为什么?	How many和How much?
目标	形成性和总结性: 通知设计决策识别可用性问题并找到解决方案	主要是总结的: 评估现有站点的可用性跟踪可用性与竞争对手比较网站计算投资回报率
使用的时候	任何时候:在重新设计期间，或当你有一个最终的工作产品	当您有一个工作产品时(在设计周期的开始或结束时)
结果	研究结果基于研究者的印象、解释和先前的知识	统计上有意义的结果很可能在另一项研究中被重复
方法	很少有参与者灵活的学习条件，可根据团队需要进行调整有声思考协议	许多参与者明确的，严格控制的研究条件通常不自言自语

迭代设计循环:质量与量化的目标

基本的以用户为中心的设计周期始于对现有设计的评估，然后是旨在解决当前系统可用性挑战的重新设计。一旦新版本完成，就可以对其进行评估并与初始版本进行比较。

*迭代设计循环:步骤1和步骤3涉及总结性研究(使用定量或定性方法)，而步骤2涉及形成性研究(使用定性方法)。*

迭代设计循环的第一个和第三个阶段是总结性-它们的目的是提供设计的总体评估。在这些步骤中，等量和定量的研究方法(或组合，如纯净的)可用于评估设计。然而，当目标是将整个重新设计工作与实际的财务节省联系起来，或明确地计算出重新设计改进了多少，就必须使用定量研究。拥有成熟用户体验的组织通常有这样一个量化可用性跟踪过程。(有时这种定量评估每个版本的设计并与以前的版本进行比较的过程被称为基准测试．)

在重新设计阶段，用户研究有一个造型的它的作用是:为设计提供信息，并引导设计走上正确的道路。在这个阶段，设计师和研究人员需要相对快速和廉价地获取用户数据，以便能够在不同的设计方案中进行选择，并创建一个可用的UI。在这个阶段,质量研究通常是最合适的。我们知道,对于5个用户，定性研究可能会发现85%的可用性问题在设计中（前提是设计尚未接近完美），因此，在重新设计步骤中，有必要对少数用户进行一次快速研究，确定重大问题，修复它们，然后与另一小部分用户再次测试新版本。

什么时候使用定量和定量

质量研究非常适合于识别设计中的主要问题:例如，我们可以很容易地进行定性研究，看看是什么(如果有的话)阻止用户提交类型成功地，并且，基于该研究，我们可以确定我们需要延长表单字段，present密码要求,或者使用字段外的标签而不是在里面。

相比之下，大多数量化研究是在网站的完整版本上完成的，目的是评估网站可用性的方法，而不是直接告知重新设计过程．这并不是因为在重新设计迭代过程中不能使用定量方法，而是因为如果在设计过程的早期经常使用定量可用性研究，成本会太高。定量研究通常包括大量用户，而且大多数组织都负担不起花费大量资金进行此类研究，以调查页面副本是否清晰或按钮是否可找到。然而，从定量测试中获得的数据在说服高层管理层您的站点需要完全重新设计时是非常宝贵的。

结果：质量与数量

质量数据通常由一组发现组成，这些发现确定(并根据严重程度划分优先级)设计的优点和缺点。这些发现是估计的——它们是基于促进任务的研究人员的知识和经验水平，并解释用户的行动的含义。不同的从业者通常会在相同的用户测试会议中识别不同的问题(这种现象称为评估者的影响）.此外，即使我们非常谨慎地招募符合我们目标人口统计的参与者，当我们只包括少数人时，他们总是有可能不能真正代表整个用户群体，所以我们的发现可能是扭曲的。

定量研究通常涉及相对大量的用户(通常超过30人)，并使用统计技术来保护自己免受此类随机事件的影响。如果报告正确，定量研究将包括关于统计显著性的结果。例如，误差幅度将帮助您了解您可以在多大程度上信任研究结果。或者,如果站点之间完成任务时间的差异和竞争对手的网站是统计学意义,你会知道,即使你招募一组不同的用户并重新运行你的学习,你的结果会指向同一个方向,即使准确的平均可能略有不同。

因此，当定量研究被正确地进行和分析时，你可以相信他们的结果是可靠的。也就是说，它们不是由于掷骰子的幸运或不幸。

这些类型的分析是基于统计数据的，并且通常涉及其他类型的技能，而不是你在一个合格的可用性研究者中所能找到的。这就是为什么许多公司对定量和平等的用户体验研究人员有不同的工作要求。

方法:定性与定量

从表面上看，定量和定性用户测试看起来非常相似（即，它们都涉及用户执行设计任务）。这两种类型的研究都需要遵循良好实验设计的基本规则，确保它们具备：

外部效度：参与者代表目标受众，研究条件反映了任务是如何在野外完成的。例如，在桌面模拟器上测试移动站点缺乏外部有效性，因为人们通常在触摸屏手机上使用该站点。
内部有效性：实验设置不支持任何一种条件。例如，如果上午测试设计A，下午测试设计B，那么疲劳可能会影响参与者使用设计B的方式。

但是，由于定量研究力求获得有统计意义的结果，这两种研究之间存在一些重要差异：

如上所述，定量研究比定量研究涉及更多的用户。
由于会话设置和参与者背景的差异可能会增加测量噪声并导致更大的误差幅度，定量研究旨在尽可能减少可变性。因此：
- 定量研究的条件需要从一个阶段到另一个阶段严格控制。也就是说，您需要确保您的参与者都在尽可能相同的环境中运行:您不可能亲自完成两个会话，而远程完成三个会话。
- 定量研究通常以实践任务开始，目的是让所有参与者熟悉研究设置和被评估的地点。通过这种方式，专家用户和新手用户之间可能存在的个体差异就被消除了，因为新手有机会学习界面。
- 的自言自语的协议是qual研究中事实上的方法，但有时不推荐用于定量研究。研究人员对“有声思维”方案是否能在定量研究中得到合理应用存在分歧。在某种程度上，由于一些人比其他人更健谈，这可能会增加测量噪声。因此，许多定量研究并不要求参与者大声思考。
- 姓名、地址或生日等个人信息会增加研究的可变性，因为不同的人拥有不同的数据。而在一项质量研究中，你希望人们输入他们自己的真实信息在量化研究中，每个人都应该有相同的经历，因此应该输入完全相同的字符串。这就是为什么应该为参与者提供一组他们都可以使用的虚构数据。(这个约束有时会给活动系统造成后端困难。)
相反，对于等量研究，可以在不同阶段改变研究条件。例如，如果您发现某个任务不能给您所需的洞察力，务必在运行下一个用户之前重写它。改变任务将使其无法对执行不同任务的用户进行平均测量，但在一项定性研究中，你的目标是深入了解，而不是数字，所以你可以随意破坏数字(反正这不是你的研究目标)。
对于定量研究，任务需要有一个明确定义的答案。因此,虽然任务,比如“找到约翰·史密斯的电话号码和地址”可能适合于定性研究,定量研究是不好的,因为它很难代码成功:如果参与者发现电话号码而不是地址,应该被认为是失败的吗?
此外，所有参与者在阅读任务时都应该理解相同的内容。对于定量用户研究来说，诸如“研究加利福尼亚州获得无人机飞行许可证的要求”这样的任务过于模糊，因为不同的人可能会用“研究”一词来理解不同的事情，但如果你试图找出人们可能感兴趣的信息类型，那么在定量研究中也可以。
虽然在定性和定量实验中使用任务随机化是很好的做法，但通常质量研究不会完全随机化。在定量测试中，随机化确保任务的顺序不会以任何方式影响结果。

结论

定性和定量用户测试是服务于不同目标的补充方法。Qual测试涉及少量用户（5-8个），直接确定界面中的主要可用性问题。它通常以形成性的方式使用，用于通知设计过程并引导它朝正确的方向发展。定量可用性测试（或基准测试）基于大量参与者（通常超过30人）；当正确分析和解释时，定量测试的结果具有更高的抗随机噪声能力。定量研究通过任务完成率、任务时间或满意度评级等指标对站点的可用性进行间接总结性评估，通常用于跟踪设计迭代过程中系统的可用性。

关于流行的定量研究方法的概述，使用每种方法的指导，以及如何计算投资回报，请查看我们的课程测量用户体验和投资回报率．

基于研究的用户体验的世界领导者

介绍

定性研究

定量研究

统计显著性

Quant和Quant的区别

迭代设计循环:质量与量化的目标

什么时候使用定量和定量

结果：质量与数量

方法:定性与定量

结论

了解更多

视频

定量和定性可用性测试

介绍

定性研究

定量研究

统计显著性

Quant和Quant的区别

迭代设计循环:质量与量化的目标

什么时候使用定量和定量

结果：质量与数量

方法:定性与定量

结论

了解更多

文章

UX会议培训课程

研究报告

小时的会谈

了解更多

文章

研究报告

UX会议培训课程

小时的会谈

文章

UX会议培训课程

研究报告

小时的会谈

视频