UX基准测试是通过使用指标来评估产品或服务的用户体验的过程,以衡量其相对性能的针对有意义的标准。这些指标通常使用定量可用性测试,分析或调查来收集。
如果你想:
- 跟踪产品或服务的整体进展
- 将您的UX与早期版本、竞争对手、行业基准或利益相关者确定的目标进行比较
- 展示用户体验和你的工作的价值
在一篇相关的文章中,我们将讨论当基准.在高水平,标杆管理是一种评估产品整体性能的方法(因此,是一种类型总结性评价).因此,基准研究往往发生在一个设计周期的结束,在下一个周期开始之前。
基准测试通常是一个程序,而不是一次性的活动:许多组织重复地收集度量标准,因为他们经历了设计的连续发布。标杆管理使团队负责,并以可衡量的方式记录进度。
过程概述
在本文中,我们介绍了创建基准测试程序的高级7步流程。当第一次建立这个程序时,会有一些额外的工作要做,以便弄清楚要度量什么和如何度量。然而,一旦你确定了学习结构,这个过程就会变得相当重复,涉及的工作也会少很多。
第1步:选择衡量的内容
关注最能反映你想要评估的用户体验质量的关键参数.寻找转化为用户体验和组织目标的量度.
也就是说,在你决定收集哪些指标之前,你必须定义你的研究的背景。换句话说,考虑一下:
- 你将专注于什么产品?(网站,应用等)
- 您将瞄准哪个用户组?
- 您想要度量哪些任务或特性?
任务
弄清楚了前任务用户在你的产品中完成。如果您的组织没有现有的顶级任务,您可以从在产品中记录(大多数)任务开始。然后,优先考虑任务列表并选择大约5-10对您的用户最重要的。
下表概述了多种可能的产品和任务场景。每个产品只包含一个任务,但在现实生活中,您可能会关注多个任务。
产品 |
可能的任务 |
智能的喇叭应用 |
设置一个新的智能扬声器 |
电子商务网站 |
通过点击1次购买进行购买 |
小山的网站 |
更新联系信息 |
B2B-agency网站 |
提交引荐表格 |
移动益智游戏 |
解决一个难题 |
下面的列表列出了多种可能的产品和任务场景。每个产品只包含一个任务,但在现实生活中,您可能会关注多个任务。
智能的喇叭应用
- 任务:安装一个新的智能音箱
电子商务网站
- 任务:用1-click购买进行购买
小山的网站
- 任务:更新联系方式
B2B-agency网站
- 任务:提交一份引导表格
Mobile-puzzle游戏
- 任务:解决一个难题
指标
现在,您已经专注于一组任务,如何度量它们呢?谷歌的HEART框架提供了您可能想要收集和跟踪的不同类型指标的简明概述。下表是对HEART框架的修改:
描述 |
示例度量标准 |
|
H幸福 |
用户态度或感知的度量 |
满意度评级 易用性评级 |
En |
用户参与程度 |
平均任务时间 功能的使用 |
一个doption |
初步摄取产品,服务或功能 |
新账户/游客 销售 转化率 |
Retention |
现有用户如何返回产品并保持活跃 |
返回用户 生产 更新率 |
T问效力和效率 |
效率、效力和错误 |
错误计数 成功率 时间的任务 |
现在,您已经专注于一组任务,如何度量它们呢?谷歌的HEART框架提供了您可能想要收集和跟踪的不同类型指标的简明概述。以下是对HEART框架的修改:
H幸福:衡量用户的态度或看法
- 指标示例:满意度评分、易用性评分、净推荐值
E用户粘性:用户参与程度
- 指标例子:平均任务时间,特性使用,转化率
一个DOPTON:初步吸收产品,服务或功能
- 度量例子:新客户/访客,销售额,转化率
R注意:现有用户如何回到产品中并保持活跃
- 度量标准示例:返回用户,流失,续订率
T问问效力和效率:效率、效力和错误
- 度量例子:错误计数,成功率,任务时间
请注意,作为参与度量,任务的时间应该是高(例如,花很长时间在报纸网站上阅读文章),而作为效率指标,任务时间应该是低的(例如,在电子商务网站上快速结账)。换句话说,同样的变化(比如,更长的时间)可能是或好或坏,取决于测量的使用类型。
选择长期有效的指标,因为理想情况下,您将在多年中反复收集这些指标。瞄准专注于用户体验不同方面的2-4个参数(例如,幸福和参与)。
下面是我们可以跟踪前面示例中的任务的一些可能的指标。
产品 |
任务或功能 |
指标 |
智能的喇叭应用 |
设置一个新的智能扬声器 |
时间的任务 成功率 单一简易问题(SEQ) |
电子商务网站 |
通过点击1次购买进行购买 |
每周点击一次的销量 1单击“功能采用 |
小山的网站 |
更新联系信息 |
完成率 错误页 #的支持调用相同的任务 |
B2B-agency网站 |
提交引荐表格 |
表单提交 放弃率 |
Mobile-puzzle游戏 |
解决一个难题 |
成功率 返回用户 |
智能的喇叭应用
- 任务:安装一个新的智能音箱
- 指标:任务时间,成功率,单轻松问题(SEQ)
电子商务网站
- 任务:用1-click购买进行购买
- 指标:1次点击的周销量,1次点击的功能采用
小山的网站
- 任务:更新联系方式
- 指标:完成速率,页面错误,同一任务上的支持电话#
B2B-agency网站
- 任务:提交一份引导表格
- 指标:表格提交,放弃率
Mobile-puzzle游戏
- 任务:解决一个难题
- 指标:成功率,回头客
基准测试用户体验不仅仅是关于跟踪指标,也是关于展示价值的。这何时更容易完成您可以选择与组织的关键性能指标(kpi)一致的指标.例如,在客户支持成本是KPI的银行中,您可以通过跟踪重新设计之前和之后的支持电话数量来显示重新设计的联系表单有助于降低支持成本。
第2步:决定如何衡量
当涉及到确定收集指标的方法时,您必须考虑时间研究方法所要求的承诺,成本这样的方法,技能参与研究的人员和研究工具适合您。如果您没有合适的技能,请不要做一些事情,因为不良数字比没有数字差。此外,不指定一个测量计划,其无法长期持续(因为基准测试的整个概念是一次又一次地重复测量)。
在你开始计划一项新研究之前,查看您的组织有哪些关于您想要度量的经验的现有数据。全面理解用户体验并将用户体验指标与更大的组织目标联系起来是非常有价值的。当从其他来源请求数据时,一定要解释为什么需要它以及如何使用它。
有3研究方法适用于UX基准测试:定量可用性测试,分析和调查数据.
量化的可用性测试.参与者在系统中执行最高任务,研究人员收集指标(例如在任务上的时间,成功率和满足时间),这些时间衡量用户对这些任务的性能。
- 分析.系统使用数据(例如放弃率和特性采用率)将自动收集。
- 调查。用户通过回答问题来报告他们的行为、背景或观点。任务轻松度、满意度评分、净推动者得分都是调查中收集的指标。
理想情况下,你可以将调查(获得自我报告的指标)与行为观察方法(定量可用性测试或分析)结合起来,以获得用户体验的整体视图。
在下文中,我们列出了针对前面场景的方法。
产品 |
任务或功能 |
指标 |
方法 |
智能的喇叭应用 |
设置一个新的智能扬声器 |
时间的任务 成功率 单一简易问题(SEQ) |
调查定量可用性测试 |
电子商务网站 |
通过点击1次购买进行购买 |
销售 采用 净推荐值 |
分析 民意调查 |
小山的网站 |
更新联系信息 |
完成率 错误页 #的支持调用相同的任务 |
分析 内部客户支持数据 |
B2B-agency网站 |
提交引荐表格 |
表单提交 放弃率 |
分析 |
Mobile-puzzle游戏 |
解决一个难题 |
平均时间花了 保留 |
分析 |
智能的喇叭应用
- 任务:安装一个新的智能音箱
- 指标:任务时间,成功率,单轻松问题(SEQ)
- 方法:定量可用性测试与调查
电子商务网站
- 任务:用1-click购买进行购买
- 指标:1次点击的周销量,1次点击的功能采用
- 方法:分析,调查
小山的网站
- 任务:更新联系方式
- 指标:完成速率,页面错误,同一任务上的支持电话#
- 方法论:分析学,内部客户支持数据
B2B-agency网站
- 任务:提交一份引导表格
- 指标:表格提交,放弃率
- 方法:分析
Mobile-puzzle游戏
- 任务:解决一个难题
- 指标:成功率,回头客
- 方法:分析
第三步:收集第一次测量:建立基线
既然您已经确定了要收集哪些指标以及如何收集它们,现在就该收集您的基线指标了。(但不要这么快——做一个试点研究首先要收集数据的初始数据并运行初步分析以确保您的方法是声音,并且数据可以回答您的问题。最有可能的是,飞行员将使您修改您的方法,这意味着应丢弃初始数据集。但这是值得的投资,以便从随后的数据收集工作中获得声音结果。)
当你收集第一组测量数据时,考虑可能影响数据的外部因素,并在可能的情况下围绕这些因素进行计划。例如,如果你是一个电子商务网站,使用分析来收集销售指标,以作为基准,要警惕广泛的营销活动或大规模的经济影响等因素,这些因素可能会打乱你的指标,使设计变化难以关联到结果。
您网站的一个测量本身并不可能是有意义的。即使您刚刚启动了基准计划,并且您没有先前的数据来比较,您仍然可以进行比较竞争者,行业基准,或利益相关者确定的目标.下面我们将分别提供一些例子。
- 你的竞争对手。例如,如果你的产品是一个智能音箱应用程序,你可以对你的产品和竞争产品的设置体验进行基准测试。(为了做到这一点,你可能需要收集你的产品和竞争对手的产品的数据,所以之前的步骤必须考虑到这一点。也就是说,你不能将分析作为你的方法论,因为你无法获得竞争对手的分析。)
- 行业基准。你可以获得与你的领域相关的外部统计数据。例如,如果你是一个酒店网站,你可能想把你的NPS与该行业平均净推动者得分(NPS),为13%.
- Stakeholder-determined目标。例如,你的利益相关者说他们希望提交一份领先表单的平均时间不超过3分钟,所以你可能想要将你目前的表现与这个阈值进行比较。
当你考虑如何解释这些比较的结果时,考虑步骤6中描述的建议。
第四步:重新设计产品
重新设计的过程超出了本文的范围,尽管它是一个非常重要的部分:如果没有重新设计,您将无法比较产品的多个版本。
当你重新设计你的产品时,保持10个可用性启发式用于交互设计。
第5步:收集额外的测量
在您的重新设计启动后,再次测量您的设计。并没有硬性规定,在设计推出后需要等待多长时间才能再次进行测量。如果你在跟踪分析,持续测量还有额外的好处。然而,对于基于任务的数据收集,如定量可用性测试和调查,您需要确定收集数据的正确时间。用户通常讨厌改变,所以在进行评估之前,给他们一点时间来适应重新设计。时间长短取决于用户访问产品的频率。对于每天使用的产品,也许2-3周就足够了。对于用户每周访问一次或两次的产品,在度量之前4-5周比较好。
当你考虑衡量新设计的合适时机时,再次记录任何可能影响你的发现的潜在外部影响因素。
第六步:解释调查结果
现在你已经收集了至少两个数据点,是时候解释了你的发现了。由于用于您的研究的样本可能比用户的整个人口小得多,因此您不应该以面值为您的指标。是因为,您将需要使用统计方法来查看数据中的任何可见差异是真实的还是由于随机噪声。在我们的课程中,如何解读用户体验数据:用户体验的统计数据,我们非常详细地讨论这个话题。
一般而言,解释您的指标对您的产品具有高度语境和您选择收集的指标。例如,费用报告应用程序的任务时间与移动游戏的任务的时间不同。在下文中,我们概述了先前讨论的场景之一和对结果的解释。
场景:设置智能扬声器
假设我们使用定量可用性测试和调查来收集任务的时间、成功率和SEQ。下表概述了我们的初始设计和重新设计的假设指标。
初始设计 |
重新设计 |
|
平均任务时间(分钟) |
6.28 |
6.32 |
平均成功率 |
70% |
95% |
平均SEQ (1题非常难,7题非常容易) |
5.4 |
6.2 |
总之,完成任务的时间几乎相同,成功率增加了,平均SEQ也增加了。让我们假设我们在这两对指标之间发现了统计学上显著的差异。因此,在重新设计中,用户对设置过程更加成功和满意。换句话说,重新设计是成功的!
步骤7:计算ROI(可选)
标杆管理可以让你跟踪你的成功,并展示你工作的价值。的一种方法演示UX的价值是将UX度量与组织的目标联系起来计算投资回报率(ROI).这些计算将UX指标连接到关键性能指标(KPI),例如利润,成本,员工生产力或客户满意度。
计算ROI是非常有益的,尽管用户体验专业人士并没有广泛地实践(也许是因为将用户体验指标与KPI关联起来已经足够令人信服了)。在任何情况下,如果你努力证明用户体验的影响,计算ROI是有说服力的。
提供基准测试结果
当你总结你的分析并与利益相关者分享你的发现时,你的目标是讲述一个故事使用数据。Just because some members of your leadership love numbers doesn’t mean you can’t incorporate some qualitative findings or quotes from previous studies that align with your findings — this can be a great way to build empathy for your users among that data-driven audience.
此外,在向利益相关者陈述时,一定要记录下你的所有假设和研究中可能的混淆变量。尽管您可能不需要直接对它们进行评论,但将它们放在演示文稿的附录中表明您对产品环境有了全面的了解,并允许您在出现任何关于度量的有效性的问题时轻松地引用它。
结论
基准测试是一个极好的工具,可以将用户体验的努力与整个组织的目标和结果联系起来。要进行基准研究,首先要关注产品中的重要任务或功能,并决定如何衡量它们。接下来,根据你的时间、预算和技能,选择一种能让你收集这些指标的研究方法。收集你的第一个度量值,重新设计你的产品,然后在相同的方法下再次收集这些度量值。最后,通过比较收集到的数据点,并利用你的产品和组织知识来解释你的发现。
然后,明年再来一次!(或者在下一个版本之后。)希望你的数据会更好,如果不是,你就会知道在接下来的重新设计中应该把精力集中在哪里。
参考文献
罗登,哈钦森,傅旭东。”大规模测量用户体验:Web应用的以用户为中心的指标”(2010)。来源:https://research.google/pubs/pub36299/
分享此文章: