可用性检验方法的技术转移(雅各布·尼尔森)

1995年6月27日，在挪威利勒哈默尔举行的IFIP INTERACT'95国际人机交互会议上，这一会议最初是作为主题发言提出的。

对可用性的需求

用户界面专业人士应该多吃点他们自己的药。我们是否经常听到UI人员抱怨“我们没有得到(开发经理的)尊重”?与此同时，我们对那些认为用户的程序有问题一定是用户的错的程序员嗤之以鼻。

如果我们认为可用性工程是一个系统、一个设计或一组开发管理者必须交互的接口，那么它显然成为可用性专家负责设计该系统以最大化其与用户的通信。我的主张是，在开发中更多地使用可用性结果时出现的任何问题，更多地是由于可用性方法和结果缺乏可用性，而不是因为恶意的开发经理故意折磨他们的用户。

为了使可用性方法在实际的开发项目中得到更多的应用，我们必须使可用性方法更容易使用，更有吸引力。这样做的一种方法是考虑当前可用性方法的使用方式，以及是什么原因导致一些方法被使用，而另一些方法仍然是“我们可以在下一个项目中尝试的好主意”。作为此类研究的一个例子，我将报告一项关于使用可用性检查方法的原因的研究。

可用性检查方法

可用性检查(Nielsen and Mack, 1994)是一组方法的通用名称，这些方法的基础是让评估者检查或检查用户界面的可用性相关方面。一些评估者可以是可用性专家，但他们也可以是具有特殊专业知识的软件开发顾问(例如，图形用户界面的特定界面风格的知识)，具有内容或任务知识的最终用户，或其他类型的专业人员。不同的检查方法有略微不同的目标，但通常可用性检查是一种评估用户界面设计以发现可用性问题的方法。在可用性检查中，对用户界面的评估是基于检查人员的考虑判断。个别的检查方法因判断是如何产生的和检查员期望以什么评价标准作为其判断的基础而有所不同。一般来说，可用性检查的定义特征是依赖判断作为对用户界面特定元素的评估反馈的来源。请参阅附录中对本文中讨论的个别可用性检查方法的简短总结。

可用性检查方法是在1990年的正式演讲中描述了在Chi'90会议上在发表论文上发表论文（Nielsen和Molich，1990）和认知演练（Lewis等，1990）。现在，只有四到五年后，可用性检验方法已成为业内最广泛使用的方法。作为一个例子，在1994年的可用性专业人士协会的年度会议上的闭幕度地址（UPA'94），KEN DYE，Microsoft的可用经理，列出了微软可用性方法的四个主要变化：

使用启发式评价
使用“折扣”用户测试样本量小的情况下
背景调查
使用纸张模拟作为低保真原型

近年来，许多其他公司和可用性顾问也采用了启发式评估和其他检查方法。以下是1994年8月我从一位顾问那里收到的一封电子邮件的例子:

“我正在[…]与一家航空公司的客户合作。到目前为止，我们已经进行了两次可用性迭代[…]，第一次是启发式评估。它为我们提供了大量信息，我们能够说服客户它的实用性[…]。我们为他们节省了很多钱，现在准备在两周内进行一次完整的实验室可用性测试。一旦我们完成了测试，我们可能还会对一些更细微的地方进行更多的启发性评估。”

在第一正式会议演示前几年开始，各种可用性检测方法的工作明显。即便如此，目前使用启发式评估和其他可用性检测方法仍然是从研究中练习的快速技术转移的卓越例子，在一段时间内练习。

技术转让

可用性检查方法有许多特征，这些特征似乎可以帮助它们在软件开发组织的“思想市场”中快速渗透:

许多公司最近才意识到迫切需要增加可用性活动来改进用户界面。由于可用性检查方法使用成本低，不需要特殊设备或实验室设施，它们可能是第一批尝试的方法。
界面设计师和可用性专家的知识和经验需要广泛应用;检查是一种有效的方法。因此,检查服务类似的函数风格指南的专业技能和知识传播一些更广泛的受众,也就是说,他们非常适合使用在许多公司数量小得多的可用性专家比需要为所有项目提供全方位服务。
可用性检查方法对想要使用它们的实践者来说是一个相当低的障碍。一般来说，在经过几个小时的培训后就可以开始使用简单的可用性检查。此外，检查方法可以在系统开发生命周期的许多不同阶段中使用。
可用性检查可以轻松集成到许多建立的系统开发实践中;没有必要更改计划或管理的基本方法，以便从可用性检查中获得大量利益。
可用性检查为使用者提供了即时的满足;可用性问题列表在检查后立即可用，从而提供了需要改进的界面方面的具体证据。

为了进一步研究新的可用性方法的吸收，我对可用性检查方法的技术转移进行了调查。

方法

下面报告的数据是通过对1993年4月教授的可用性检查课程的参与者进行调查收集的。在阿姆斯特丹召开的INTERCHI'93会议上，一份调查问卷被邮寄给了作者教授的教程中的所有85名常客。向学生发送调查的前提是，他们通常不会从事实际项目，因此无法对技术转让调查作出有代表性的答复。同样，没有向其他INTERCHI'93教程的讲师发送调查问卷，因为他们被认为不太能代表整个社区。

在85份邮寄的问卷中，有4份被邮局退回，认为无法送达，这意味着81名课程参与者实际收到了问卷。共收到42份完整的问卷，答复率为52%。

调查表于1993年11月中(辅导后6.5个月)寄出，并于1993年12月底(辅导后8个月)寄出一份提醒。第一次邮寄后收到了21条回复，第二次邮寄后又收到了21条回复。因此，答复反映了答复者在辅导后大约7或8个月的状况。

由于回答率为49%，因此不可能确切地知道，如果课程的另一半参与者返回了问卷，他们会回答什么。然而，来自两轮回应的数据允许我们根据非回应者比第一轮回应者更像第二轮回应者的假设，推测可能的差异。表1比较了这两组的一些相关参数。第一个结论是，两组之间的差异在统计学上没有差异，这意味着受访者很可能相当代表整个人群。即使如此，也可能有一种轻微的倾向，即受访者比非受访者与更大的项目相关，而且受访者可能比非受访者在可用性方法方面更有经验。因此，关于整个教程参与者群体的真实情况可能反映出可用性检查方法的使用比本文报告的要少一些，但可能不会少很多。

**表格1**
比较第一轮问卷与第二轮问卷的受访者。两组之间的差异均无统计学意义。
题	第一轮受访者	第二轮受访者	p
项目的可用性工作以员工年为单位	3．1	1．3	．2
在课程开始前使用过用户测试	89％	70％	．1
课程结束后用过启发式评价吗	65％	59%	．7
课程结束后使用的不同检验方法的数量	2．2	1．8	．5

受访者最新项目的可用性努力与项目的员工年规模之间的中位数比例为7%。考虑到样本大小，这相当于1993年1月进行的一项调查发现，在31个可用性工程项目中，可用性投入的开发预算的6%。这一结果进一步说明，我们的受访者具有合理的代表性。

问卷调查结果

答复者被问及他们在课程结束后(大约7-8个月)期间使用了课程所涵盖的哪些检查方法。他们还被问及是否在课程结束后进行了用户测试。这个问题的结果如表2所示。特定时期的使用频率可能是方法与项目需求之间匹配的最佳度量，因为它独立于方法的历史。显然，用户测试和启发式评价比其他方法使用得更多。

**表2.**
在课程结束后的7-8个月内使用每种检查方法和用户测试的受访者比例、受访者使用这些方法的次数以及他们对这些方法有用性的平均评分（1-5分）（最好5分）。课程结束后，按照使用频率对方法进行分类。
方法	受访者使用INTERCHI后的方法	时代受访者使用了这种方法（无论是之前还是在课程之后）	使用该方法的平均效益评级
用户测试	55％	９．３	4．8
启发式评价	50%	9．1	4.5
功能检查	31％	3．8	4．3
启发式评估	26％	8.3	4．4
一致性检查	26％	7．0	4．2
标准检验	26％	6．2	3．9
多元化的预排	21％	3．9	４．０
认知走查	19％	6．1	4.1

受访者还被问及到目前为止他们使用这些方法的次数，无论是在课程之前还是之后。表2显示了所有使用过该方法的受访者使用每种方法的平均次数。这个结果可能是一个有趣的方法有效性指标低于比例的受访者曾使用后的固定时间间隔的方法,因为它依赖于时间的方法发明:旧方法有时间多使用新方法。

最后，受访者被要求判断各种方法对他们的项目的好处，使用以下1-5量表:

1 =不全是
2=大部分是无用的
3 =中立
4 =有时是
5 =非常有用

这个问题的结果也显示在表2中。受访者只对他们有经验的方法进行评级，所以并非所有方法都由相同数量的人进行评级。从这个问题中得出的直接结论是，所有的方法都被认为是有用的，得到了至少3.9分的评分，其中3分是中性的。

图1
回归图显示了每一种方法的有用性与那些尝试过一种方法的受访者使用该方法的次数之间的关系。只有尝试过某种方法的受访者才会给出数据。

被调查者使用某一方法的比例、该方法的平均有用度、该方法的平均使用次数的统计数据均呈高度相关。这是意料之中的事，因为人们大概最倾向于使用最有用的方法。图1显示了有用性与使用方法的次数之间的关系(r = .71, p < .05)，图2显示了有用性与在课程之前或之后尝试过一种方法的受访者比例之间的关系(r = .85, p < .01)。我们发现了两个异常值:特征检查的有用度评分为4.3，在回归线上对应的是被使用了6.7次，尽管实际上使用过它的受访者平均只使用了3.8次。另外，启发式估计有一个有用性评级，在回归线上将对应有56%的尝试，即使它实际上只被38%使用。这两个异常值可以解释为，这两种方法是本课程所涵盖的检查方法中最新且记录最不完整的。

图2
回归图显示了每一种方法的评价有用性与尝试过该方法的受访者比例之间的关系。只有那些尝试过某种方法的受访者才会给出有用性评级。

这些数字表明，方法的使用取决于它们对项目的有用性。事实上，我们可以想象，为了避免认知失调，受访者将那些他们个人使用最多的方法评价得最高，这意味着因果关系朝着相反的方向工作，就像图中含蓄显示的那样。然而，受访者个人对一种方法有用性的评价与他们自己使用该方法的次数之间的相关性非常低(r=.05)，这表明受访者对该方法有用性的评价与他们个人使用该方法的次数无关。每一种方法的平均值之间的合计只有高度相关。因此，我们得出结论，这种高度相关性的原因可能是，如果可用性方法被认为对项目有好处，那么它们就会被更多地使用。这并不是一个令人惊讶的结论，但它确实意味着新的可用性方法的发明者需要说服可用性专家，他们的方法将有益于具体的开发项目。

表3
使用教学方法的受访者所占比例。对于每一种方法，计算的比例是相对于那些曾使用该方法至少一次的受访者。
方法	使用该方法的受访者正如所教的那样
多元化的预排	27％
启发式评估	25％
启发式评价	24%
标准检验	22%
认知走查	15％
功能检查	12%
一致性检查	0%

调查显示，只有18%的受访者使用了他们被教的方法。68%的人使用了稍加修改的方法，15%的人使用了稍加修改的方法(各个方法的平均数字)。总的来说，如表3所示，更简单的方法似乎有最大比例的受访者使用他们被教。当然，人们根据他们具体的项目需求和组织中的环境来修改方法是完全可以接受的。对于可用性方法论的研究，方法修改的高度确实提出了一个问题，即不能确定不同的项目是否以相同的方式使用“相同的”方法，这意味着在比较报告的结果时必须谨慎。

启发式评估的一般建议是使用3-5个评估器。然而，使用启发式评价的受访者中只有35%这样做了。38%的人使用两个评估者，15%的人只使用一个评估者。图3中的直方图显示了用于启发式评估的评估者数量的分布。

对于用户测试，即使35％的时间使用3-6测试参与者（通常将被称为折扣可用性测试），完全50％的受访者使用了10名参与者或更多。因此，“豪华可用性测试”仍然在很大程度上使用。图4中的直方图显示了用于测试的测试参与者数量的分布。


图3. 被调查者通常用于启发式评价的评价者数量的直方图。		图4. 被调查者通常用于用户测试的测试用户数量的直方图。

正如人们可能已经预料到的，参与者参加课程的动机对他们实际使用课程中所教的检查方法的程度有很大的影响。预期在当前项目中需要这些方法的人确实比预期在下一个项目中需要这些方法的人更多地使用这些方法，而那些预期下一个项目中不需要这些方法的人再次使用了更多的方法。表4显示了不同动机的参与者在课程结束后(7-8个月)期间使用的不同检查方法的数量。该表还显示了计划在今后六个月内使用的检查方法的数目。在这里，纯学术或学术兴趣的参与者有最雄心勃勃的计划，但我们仍然看到，那些在最初参加课程时有最迫切需求的人比那些没有迫切需求的人计划使用更多的方法。

**表4.**
人们选择这门课程的主要原因与他们所使用的不同方法的数量之间的关系。
学习课程的动机	受访者比例	从课程开始使用的不同检查方法的数量	计划在未来六个月内使用的不同检验方法的数量
当前项目的具体需求	31％	3．0	2．2
预计需要知道下一个项目	21％	1．4	1．7
期望这个话题将来会很重要，但不要期望有任何直接的需要	14％	1．2	1．3
纯粹的学术或知识兴趣	12%	2．0	３．４

除了表4中列出的原因，22％的受访者表示参加课程的其他原因。5％的受访者希望了解教师如何介绍材料，以便在自己的课程中获得材料，5％想要验证自己的可用性检查和/或正在开发新的检查方法。剩下的12％的受访者分布在各种各样的其他原因中，以便参加课程，每个受访者每次只由单一受访者提供。

自由的言论

在问卷的最后，受访者被要求陈述他们使用或不使用各种方法的原因。总共收集了186条评论，其中包括119条使用方法的原因和67条不使用方法的原因。

	认知走查	一致性检查	功能检查	启发式评价	启发式评估	多元化的预排	标准检验	用户测试	所有评论的比例
方法生成好/错误信息	9/1	5/0	5/0	3/1	4 / 2	5/0	6/0	20/0	３３％
资源和/或时间要求	1/3	1/3	4/1	8/1	1/2	0/11	1/0	0/2	21％
所需专业知识和/或技能	1/8	1/3	0/4	5/1	0/3		1/4		17％
个别项目的具体特点	2/0	2 / 4	1/2		2/1		0/6	1/0	11%
沟通、团队建设、宣传		2/0	1/0		3/0	5/0		4/0	8％
管理层规定的方法		1/0	1/0	1/0	1/0		1/0	2/0	4％
多方法交互				3/0	1/0	1/0	0/1		3％
其他原因	0/2			2/0					2%
正面评价的比例	48%	55％	63％	88％	60％	50%	45％	93％

表5.

受访者在被要求解释为什么使用（或不使用）方法时，受访者的分类。在每个单元格中，第一个数字表示使用方法和第二个数字（斜杠之后）指示不使用方法给出的原因（空单元格指示没有人在该类别中的方法发表评论）。将表滚动到右侧，以查看更多数据。

表5按下列类别总结了自由形式的评论:

方法产生良好/错误的信息：原因参考使用方法的结果通常是有用的程度。
资源和/或时间需求:与使用方法所需的费用和时间相关的原因。
所需的专业知识和/或技能:基于使用一种方法的容易或困难程度的原因。大多数情况下，积极的评论赞扬方法容易和平易近人，而消极的评论批评方法太难学。一个例外是一个注释，它把它列为使用启发式评估的理由，它允许可用性专家应用他们的专业知识。
个别项目的具体特征:指个别情况导致某一方法对特定项目有吸引力或有问题的原因。例如，有一条评论提到在项目中不需要一致性检查，因为它是公司的第一个GUI，因此不需要与任何东西保持一致。
沟通、团队建设、宣传:这些理由指的是使用一种方法有助于宣传可用性、产生认同或仅仅是安抚各种利益群体。
由管理层授权的方法：提到某项工作之所以完成是因为这是该组织的一项要求的原因。
多种方法之间的交互:原因是具体方法与其他可用性方法交互或补充的方式。

从表5中可以看出，可用性方法最重要的属性是它生成的数据的质量，用户测试在这方面被认为是更优秀的。换句话说，一个新的可用性方法要想获得成功，首先它必须能够生成有用的信息。

下表中的两个标准都与使用方法的方便性有关:资源和时间以及所需的专业知识和技能。受访者认为启发式评价在这方面优于启发式评价，并对认知走查和多元走查持保留态度。请记住，受访者来自已经决定使用可用性工程的项目，并且已经投资派遣员工参加国际会议。其他许多组织的情况可能使成本和专业知识问题在其他地方变得更加重要。

结论

在计划新的可用性方法的技术转移时，我们已经看到，第一个要求是确保该方法提供的信息对改进用户界面是有用的。然而，同样重要的是，要使这种方法便宜、快捷，而且易于学习。实际上，方法支持者应该确保他们的方法很容易学习，因为关于使用什么方法的决定通常是基于方法的声誉，而不是评估试点使用的实际经验。由于该方法的早期、复杂版本(Lewis et al.， 1990)，尽管最近的工作使其更易于使用(Wharton et al.， 1994)，认知漫游很可能受到图像问题的困扰。考虑到这些项目的可用性预算高于平均水平，一般的开发项目对廉价方法的需求可能比上述调查中的项目更强烈。

此外，方法应该是灵活的，能够适应不断变化的环境和个别项目的具体需要。表5中分析的自由形式的评论显示，项目需求占使用或不使用方法所列原因的11%，但更强烈的适应性需求的指示是，只有18%的受访者以他们被教的方式使用方法，而68%需要小修改，15%需要大修改。

灵活性的一个很好的例子是启发式评估可以与不同数量的评估者一起使用。该方法通常的教学方式（尼尔森，1994a）要求使用3-5名评估人员，他们最好是可用性专家。然而，如图3所示，许多项目能够使用较少数量的评估者进行启发式评估。当然，结果不会很好，但该方法表现出“优雅的退化”，即与推荐实践的微小偏差只会导致效益略微降低。

调查清楚地表明,让人们使用可用性方法的方式是让他们的时候他们有特定需求的方法当前项目(表4)。这一发现又让它更容易转移方法,已经广泛应用在各种各样的可用性生命周期的阶段。启发式评估是一个很好的例子,这样的方法,因为它可以应用到实物模型或早期论文规范以及后来的原型,上市的软件,甚至清理遗留大型机屏幕需要几年没有可用资金用于重大的重新设计。

技术转让的最后一个问题是需要积极的宣传。图1显示，使用启发式评估的次数略多于其额定效用所能证明的次数，并且使用的特征检查次数远少于其应有的次数。造成这种差异的最可能的原因是，启发式评估在过去几年中一直是许多讲座、座谈会、研讨会、书籍甚至卫星电视节目的主题（Shneiderman，1993），而功能检查在用户界面社区中并没有一个声音冠军。

致谢

我感谢Michael Muller在制定调查和许多匿名受访者时，您需要花时间回复。我感谢Robin Jeffries和Michael Muller在早期版本的这份手稿上有用的评论。

参考文献

贝尔,b(1992)。使用编程攻略来设计视觉语言。技术报告CU-CS-581-92(博士论文)，科罗拉多大学博尔德分校
Bias, r.g.(1994)。多元化的可用性演练:协调的同理心。Nielsen, J，和Mack, R. L. (Eds.)，可用性检查方法，John Wiley & Sons，纽约，65-78。
Kahn，M. J.和Proil，A.（1994）。正式可用性检查。在Nielsen，J和Mack，R.L.（EDS。），可用性检查方法，John Wiley＆Sons，纽约，141-172。
作者:刘易斯，波尔森，P.，沃顿，和黎曼(1990)。测试基于理论的步行和使用界面设计的步行方法。ACM CHI’90会议论文集(西雅图，WA, 4月1-5日)，235-242。
j·尼尔森(1993)。可用性工程(1994年修订平装本)。学术出版社,波士顿。
j·尼尔森(1994)。启发式评估。在Nielsen, J，和Mack, R. L. (Eds.)，可用性检查方法。John Wiley & Sons，纽约，25-62。
j·尼尔森(1994 b)。增强可用性启发式的解释力。ACM CHI'94会议论文集(波士顿，马萨诸塞州，4月24-28日)，152-158。
尼尔森，J，和麦克，R. L. (Eds.)(1994)。可用性检查方法．John Wiley & Sons，纽约。
Nielsen, J.，和Molich, R.(1990)。用户界面的启发式评价。美国ACM CHI’90(西雅图，WA, 4月1-5日)，249-256。
尼尔森，J.和菲利普斯，V. L.(1993)。评估两个界面的相对可用性:比较启发式、形式化和经验方法。1993年ACM/IFIP INTERCHI会议论文集(阿姆斯特丹，荷兰，4月24-29日)，214-221。
Shneiderman，B.（主办）（1993）。用户界面策略'94。马里兰大学教学电视系统，大学公园，MD生产的卫星电视节目和随后的录像带。
Wharton, C.， Rieman, J.， Lewis, C.， Polson, P.(1994)。认知演练法:从业者指南。Nielsen, J，和Mack, R. L.(编)，可用性检查方法，John Wiley & Sons，纽约，105-140。
韦克森，琼斯，S.，谢，L.和Casaday, G.(1994)。检查和设计审查:框架、历史和反思。Nielsen, J，和Mack, R.L. (Eds.)，可用性检查方法，John Wiley & Sons，纽约，79-104。

基于研究的用户体验的世界领导者

启发式评估和可用性检验的技术转移

对可用性的需求

可用性检查方法

技术转让

方法

问卷调查结果

自由的言论

结论

致谢

参考文献

了解更多

视频

启发式评估和可用性检验的技术转移

对可用性的需求

可用性检查方法

技术转让

方法

问卷调查结果

自由的言论

结论

致谢

参考文献

了解更多

文章

UX会议培训课程

研究报告

小时的会谈

了解更多

文章

研究报告

UX会议培训课程

小时的会谈

文章

UX会议培训课程

研究报告

小时的会谈

视频