定量用户研究方法:概述

许多用户体验专业人员倾向于定性(质量)方法，这被广泛认为比定性方法更简单、更便宜定量(定量)的研究．他们回避与量化相关的更大样本量和统计数字的令人生畏的前景。

如果这听起来像你，你错过了!量化方法是任何有经验的用户体验研究人员工具包的重要组成部分。量化方法允许您:

放一个数量关于您的产品的可用性。数字有时比来自Qual Resistine的调查结果和视频更具说服力（特别是当您试图说服人们喜欢高管时）。
相比不同的设计(例如，你的新版本和旧版本，或者你的产品和竞争对手的产品)，并确定你观察到的差异是否统计学意义，而不是因为偶然。
改善UX权衡决定．例如，如果一个拟议的设计改进预计将是昂贵的实现，它值得做吗?如果您估计了更改将在多大程度上提高可用性，那么量化方法可以帮助您决定重新设计是否值得。
将用户体验改进带回组织目标和关键的绩效指标（从而展示你的投资回报并证明你的UX团队的存在)。

这篇文章可以帮助你开始——第一步是确定你需要哪种量化的UX研究方法。我们将涵盖一些最流行的量化研究类型:

量化可用性测试(基准测试)
Web分析(或应用分析)
A / B测试或多变量测试
卡片分类
树的测试
调查或问卷
聚类质量评价
合意性研究
眼动测试

每一种方法都产生有价值的定量数据，但技术在收集的数据类型以及所需的资源和努力的数量上有很大的不同。

本文列出了这些方法最常见的用例，并估计了每种方法的成本和难度。与任何研究方法一样，每一种方法都可以进行调整，以适应各种需求。根据你的具体情况，你的成本和困难可能与我们的粗略估计不同。此外，你应该知道每一种方法需要不同的最小样本量来确定统计显著性．

量化可用性测试(基准测试)

使用:
- 跟踪可用性随着时间的推移
- 与竞争对手比较
成本:中等的
收集的困难:中等的
困难的分析:中等的
方法类型：行为的(人们所做的)
使用环境:基于任务的

虽然不经常使用，但定量可用性测试(有时称为可用性基准测试)与定性可用性测试非常相似——用户被要求这样做执行实际的任务使用产品。两者之间的主要区别是，同等的可用性测试优先考虑观察结果，比如识别可用性问题。相比之下，量化可用性测试专注于收集指标，如任务的时间或成功．

一旦您使用相对较大的示例大小（约35名参与者或更多）收集这些指标，您可以使用它们来跟踪产品随着时间的推移的可用性的进度，或将其与竞争对手产品的可用性进行比较。

当您在一段时间内跟踪一个可用性指标，跨越产品的许多不同迭代时，您可以创建像这样的图表。这类信息可以帮助你关注产品的用户体验，并确保它随着时间的推移而改善。

您选择的可用性测试类型(亲自、远程审核或远程未审核)将影响与此方法相关的成本和难度。由于量化的可用性研究和等量的可用性研究的目标是不同的结构测试和任务使用的也需要不同。

对于您需要进行基本定量可用性测试学习的所有技能，请参阅我们的全日制课程测量用户体验．

Web分析(或应用分析)

用途:
- 检测或确定问题的优先级
- 监控性能
成本:低
收集的困难:低
困难的分析:高
方法类型：行为的(人们所做的)
使用环境:生活

分析数据描述人们对你的产品做了什么——他们去了哪里，他们点击了什么，他们使用了什么功能，他们来自哪里，他们决定离开网站或应用的哪个页面。这些信息可以支持各种各样的用户体验活动。特别是，它可以帮助您监视产品中各种内容、ui或特性的性能，并识别出哪些部分不起作用。

要了解分析和量化可用性测试之间的区别，请观看这个2分钟的视频．

想要了解更多关于分析和这些方法如何适合于用户体验的特别关注，请参阅我们的全天课程分析和用户体验．

A / B测试或多变量测试

使用:比较两种设计方案
成本:低
收集的困难:低
困难的分析:低
方法类型：行为的(人们所做的)
使用环境:生活

虽然你可以使用分析参数来监控产品的性能(如上所述)，但你也可以通过A/B测试或多元测试来检测不同的UI设计如何改变这些参数。

在A/B测试中，团队创建相同UI的两个不同的实时版本，然后将每个版本展示给不同的用户，看看哪个版本表现最好。例如，您可以创建相同的调用操作按钮标签的两个版本:得到价格vs。学习更多的．然后，您可以跟踪按钮在两个版本中接收的点击次数。多变量测试是类似的，但涉及一次测试多个设计元素（例如，测试可能涉及不同的按钮标签，排版和在页面上放置。）

这两种基于分析的实验对于在相同设计的不同变体中做出决定都是很好的，并且可以结束团队关于哪个版本最好的争论。

*A/B测试将你的网站流量(用户)分割开来，将一些用户引导到一个版本的UI，而另一些用户则引导到另一个版本的UI。*

这种方法的一个主要缺点是经常虐待．有些团队未能尽可能长时间地运行测试，并基于较小的数字做出风险决策。

更多关于用户体验的A/B和多元测试，请参阅我们的全天课程分析和用户体验．

卡片分类

使用:确定信息体系结构标签和结构
成本:低
收集的困难:低
困难的分析:中等的
方法类型：态度(人们说的话)
使用环境:不使用产品

在一个卡片分类研究，参与者被给予内容项目(有时字面上写在索引卡上)，并要求以他们认为有意义的方式对这些项目进行分组和标记。这个测试可以亲自进行，也可以使用物理卡片，或者远程使用像OptimalSort这样的卡片分类平台。

*当卡片排序测试亲自进行时，用户对物理卡片进行排序和分类。每张卡片都包含了它所代表的内容的描述。*

这种方法让你有机会进入用户的心智模式信息空间。他们用的是什么术语?他们是如何逻辑地将这些概念组合在一起的?

定量分析创建相似分组的参与者的百分比可以帮助确定哪种分类方法对大多数用户来说是可以理解的。

树的测试

使用:评估信息架构层次结构
成本:低
收集的困难:低
困难的分析:中等的
方法类型：行为的(人们所做的)
使用环境:基于任务，不使用产品

在一个树的测试，参与者尝试仅使用网站的类别结构来完成任务。它本质上是一种评估信息架构的方法，通过将其与UI的所有其他方面隔离开来。

例如，想象一下您的产品是宠物用品网站，这是您的顶级层次结构。

您的层次结构的可视化可能看起来像这样。树测试的参与者被要求在你的层次结构中找到一个特定的项目(例如，衣领)。他们首先只看到顶级类别(例如，狗、猫、鸟等)，一旦他们做出选择(狗)，他们就会看到选择的子类别。

你可以让你的参与者在一个任务中找到狗项圈。对树测试结果的定量分析将显示人们是否能够在信息层次结构中找到正确的路径。有多少参与者选错了类别?

这种方法在识别IA结构、标签和位置是否符合人们的期望时很有用。

有关如何设计和评估信息架构的更多信息，请参阅我们的全天课程信息架构．

调查和调查问卷

使用:收集有关您的用户，态度和行为的信息
成本:低
收集的困难:低
困难的分析:低
方法类型：态度(人们说的话)
使用环境:任何

调查是一种灵活的用户研究工具。您可以在各种情况下管理它们——在实时网站上的短截调查，在电子邮件中，或在可用性测试之后。

它们可以结合定量和定性数据——评分、多项选择题中每个选项的答案比例，以及开放式回答。您甚至可以将对调查的定性响应转换为数值数据(请参阅下面关于编写定性注释的部分)。

在像这样的语义差异评级量表中，每个单选按钮代表一个数值。受访者可以选择Easy to Use (1)， Difficult to Use(5)，或介于两者之间的值。对这个问题的平均回答可以衡量应用的可感知难度。

您可以创建自己的自定义调查，也可以使用其中的一个建立调查问卷可用(例如，系统可用性量表或净促进者评分)。这些问卷的一个优点是，你可以经常将你的结果与行业或竞争对手的分数进行比较，看看你做得如何。即使您创建了自己的定制问卷，您仍然可以跟踪您的平均分数随着时间的推移，以监测产品的改进。

更多关于设计调查，以及许多定性用户研究方法，请参阅我们的全天课程用户研究方法:从策略到需求再到设计．

集群定性数据

使用:在定性数据中确定重要主题
成本:低
收集的困难:中等的
困难的分析:中等的
方法类型：态度(人们说的话)
使用环境:任何

该技术的数据收集方法较少，更多的定性数据分析方法。它涉及根据共同主题，从定性研究（例如，日记研究，调查，焦点组或访谈）中分组观察。如果您有很多观察结果，则可以在提及特定主题时计算实例数。

例如，假设你经营一家日记研究要求参与者在一周的日常生活中每次使用你的产品都要汇报，目标是了解他们在什么情况下使用你的产品。你可以计算一下人们在工作、家里或路上使用该产品的情况。

该方法可以识别特定主题或情况的普及或频率 - 例如，用户投诉的频率或UI问题。

这种方法是从大量定性信息中挖掘数字数据的一种好方法，但它可能相当耗时。

合意性研究

使用:识别与你的产品或品牌相关的属性
成本:低
收集的困难:低
困难的分析:低
方法类型：态度(人们说的话)
使用环境:基于任务的

定量合意性研究尝试量化和衡量产品的某些品质——如美学吸引力、品牌实力、声音语调。这些研究可以根据您的研究问题进行定制，但它们通常包括首先让参与者接触您的产品(通过向他们展示静态图像或要求他们使用实时产品或原型)。然后让他们通过选择选项来描述设计描述性词汇表．有了能代表总体的大样本量，趋势就开始显现。例如，84%的受访者将设计描述为“新鲜”。

眼动测试

使用:确定哪些UI元素是分散注意力的、可找到的或可发现的
成本:高
收集的困难:高
困难的分析:高
方法类型：行为的(人们所做的)
使用环境:基于任务的

眼球追踪研究需要特殊的设备来跟踪用户在界面上移动的眼球。当许多参与者(30人以上)在同一个界面上执行相同的任务时，就会出现有意义的趋势，你就可以可靠地判断页面的哪些元素会吸引人们的注意力。眼球追踪可以帮助你识别哪些界面和内容元素需要强调或不强调，以帮助用户实现他们的目标。

*眼球追踪软件可以利用聚集的注视数据(用户在界面上看的地方，这里用绿点表示)创建各种可视化效果。*

进行眼球追踪研究的一个主要障碍是高度专业化、昂贵且有点不稳定的设备，需要大量的训练才能使用。

如果您正在考虑运行眼镜学习，请查看我们的免费报告如何进行眼动研究．

选择一个方法

方法	通常用于	成本	收藏难度	困难的分析	类型	使用上下文
定量可用性测试	跟踪可用性随着时间的推移比较竞争对手	中等的	中等的	中等的	行为	基于任务的
Web分析(或应用分析)	检测或确定问题的优先级监控性能	低	低	高	行为	生活
A / B测试	比较两种具体的设计方案	低	低	低	行为	生活
卡片分类	确定IA标签和结构	低	低	中等的	态度	不使用产品
树的测试	IA评估层次结构	低	低	中等的	行为	不使用产品
调查和调查问卷	收集有关您的用户，态度和行为的信息	低	低	低	态度	任何
聚类质量评价	在定性数据中确定重要主题	低	中等的	中等的	态度	任何
合意性研究	识别与你的产品或品牌相关的属性	低	低	低	态度	基于任务的
眼动测试	确定哪些UI元素是分散注意力的、可找到的或可发现的	高	高	高	行为	基于任务的

该表对上面讨论的方法进行了总结。

从你的研究问题开始

当你试图决定使用哪种量化方法时，先提出你的研究问题。你需要知道什么?其中一些方法最适合非常一般的研究问题．例如:

我们的产品可用性是如何随时间变化的?
和我们的竞争对手相比，我们做得怎么样?
我们的哪些问题产生了最大的影响？我们该如何优先考虑？

对于这类问题，你可能想用量化可用性测试、网络分析或调查．

当你有更多的方法时，其他方法很好地工作具体的问题你想要回答。例如:

我们应该如何解决我们的全球导航类别？
大多数用户对我们的视觉设计有什么看法?
我们应该为仪表板使用这两个设计替代品中的哪一个？

对于这些研究问题，您可能会想要使用A / B测试，卡分类，树测试，编码定性评论，可取性研究，或眼压．

然而，这些建议中也有一些灰色地带。例如，出于安全或技术原因，A/B测试可能不适合你的公司。如果是这种情况，并且你负担得起，你可以亲自做一个量化的可用性研究来比较两个原型。然而，这并不是量化可用性测试的典型用法，所以我不在这里讨论它。

考虑到成本

在研究问题之后，选择研究方法的第二大影响因素是成本。根据您如何执行研究，这些方法的成本会有很大的不同。您使用的工具、参与者的数量以及研究人员花费的时间都将影响最终成本。更复杂的是，许多团队的研究预算大相径庭。同样，这里的成本估算是相对的。

低预算团队将依赖数字方法 - 远程可用性测试，在线卡排序平台，如OptimalAort，A / B检测和Web或App Analytics。作为经验的规则，本人的方法（例如亲自可用性测试，个人卡片排序）往往更昂贵，因为它们需要更多的研究人员的时间。此外，他们还需要租赁旅行和设备。眼镜是这里列出的最昂贵的方法，只能由具有大预算的团队和使用它的研究问题所雇用的。