启发式评估(尼尔森和莫里奇,1990;尼尔森1994)是可用性工程一种在用户界面设计中发现可用性问题的方法,以便作为迭代设计过程的一部分加以处理。启发式评估包括让一小部分评估人员检查界面并判断其是否符合公认的可用性原则(“启发式”)。

一般来说,启发式评估对于单个人来说是困难的,因为一个人永远无法找到界面中的所有可用性问题。幸运的是,许多不同项目的经验表明,不同的人发现不同的可用性问题。因此,有可能通过多个评价者的参与来显著提高该方法的有效性。图1显示了启发式评估案例研究中的一个例子,其中使用19个评估者在允许客户访问其银行账户的语音响应系统中找到16个可用性问题(Nielsen 1992)。图1中的每一个黑色方块都表示评估者发现的一个可用性问题。这张图清楚地表明,不同的评估者发现的可用性问题集之间存在大量的不重叠。确实,有些可用性问题很容易被发现,几乎每个人都能发现,但也有一些问题很少被评估者发现。此外,我们不能仅仅确定最好的评估者,然后仅仅依靠那个人的发现。首先,不一定每次都是同一个人是最好的评估者。其次,评估人员发现了一些最难发现的可用性问题(如图1中最左边的列所示),否则他们不会发现很多可用性问题。 Therefore, it is necessary to involve multiple evaluators in any heuristic evaluation (see below for a discussion of the best number of evaluators). My recommendation is normally to use three to five evaluators since one does not gain that much additional information by using larger numbers.

图1
图中显示了哪些评估人员在对银行系统进行启发式评估时发现了哪些可用性问题。每行代表19个评估者中的一个,每列代表16个可用性问题中的一个。每个方格显示由行表示的评估者是否发现了由列表示的可用性问题:如果是这种情况,则该方格为黑色,如果评估者未发现问题,则该方格为白色。行的排序方式是,最成功的评估者位于底部,最不成功的评估者位于顶部。列的排序方式是,最容易找到的可用性问题在右边,最难找到的可用性问题在左边。
可用性问题发现矩阵

启发式评估是通过让每个单独的评估器单独检查接口来执行的。只有在所有评估完成后,评价者才被允许交流并汇总他们的发现。这一程序是重要的,以确保独立和公正的评估从每个评估。评估的结果可以被记录下来,或者是每个评估者的书面报告,或者是让评估者在通过界面时向观察者口头陈述他们的意见。书面报告的优点是可以提供正式的评估记录,但是需要评估人员付出额外的努力,并且需要由评估经理阅读和汇总。使用观察者会增加每个评估会话的开销,但会减少评估者的工作负载。此外,评估结果在最后一次评估会议后很快就可以得到,因为观察员只需要理解和组织一套个人笔记,而不是一套别人写的报告。此外,观察者可以帮助评估者在出现问题的情况下操作接口,例如不稳定的原型,如果评估者有有限的领域专业知识,需要解释接口的某些方面时提供帮助。

在用户测试情况下,观察者(通常称为“实验者”)有责任解释用户的行为,以推断这些行为如何与界面设计中的可用性问题相关。这使得即使用户对用户界面设计一无所知,也可以进行用户测试。相反,分析用户界面的责任由评估者在启发式评估会话中承担,因此可能的观察者只需要记录评估者对界面的评论,而不需要解释评估者的操作。

启发式评估会话和传统用户测试之间的两个进一步区别是,观察者愿意在会话期间回答评估者的问题,以及评估者可以在多大程度上获得使用界面的提示。对于传统的用户测试,人们通常希望发现用户在使用界面时所犯的错误;因此,实验者不愿意提供比绝对必要的更多的帮助。此外,用户被要求通过使用系统而不是让实验者回答来发现问题的答案。对于特定领域应用程序的启发式评估,拒绝回答评估者关于该领域的问题是不合理的,特别是如果非领域专家担任评估者。相反,回答评估者的问题将使他们能够更好地评估用户界面在领域特征方面的可用性。类似地,当评估人员在使用界面时遇到问题时,可以向他们提供如何进行的提示,以避免浪费宝贵的评估时间与界面的机制进行斗争。然而,重要的是要注意,在评估人员明显陷入困境并对所讨论的可用性问题发表评论之前,不应向他们提供帮助。

通常,针对单个评估者的启发式评估会持续一到两个小时。对于包含大量对话内容的较大或非常复杂的界面,可能需要较长的评估会议,但最好将评估分为几个较小的会议,每个会议集中于界面的一部分。

在评估过程中,评价者多次通过界面,检查各种对话元素,并将它们与a进行比较公认的可用性原则列表(启发式)。这些启发式规则似乎描述了可用接口的公共属性。除了为所有对话元素考虑的一般启发式检查表之外,显然还允许评估者考虑任何附加的可用性原则或与任何特定对话元素相关的结果。此外,可以开发适用于特定产品类别的类别特定启发式,作为一般启发式的补充。建立特定类别启发式的补充列表的一种方法是对给定类别中的现有产品进行竞争性分析和用户测试,并尝试抽象原则来解释发现的可用性问题(Dykstra 1993)。

原则上,评估人员自行决定如何继续评估接口。不过,一般建议它们至少通过接口两次。第一个过程旨在了解交互流程和系统的一般范围。第二步允许评估者关注特定的接口元素,同时知道它们如何融入更大的整体。

因为评价者不是使用系统本身(为了执行实际任务),可以对仅存在于纸上且尚未实现的用户界面执行启发式评估(Nielsen 1990)。这使得启发式评估适合在可用性工程生命周期的早期使用。

如果系统的目的是作为普通人群的自动使用接口,或者评估者是领域专家,那么可以让评估者在没有进一步帮助的情况下使用系统。如果系统是依赖于域的,并且求值器对系统的域相当无知,那么有必要帮助求值器使它们能够使用接口。已经成功应用的一种方法是向评估者提供典型的用法场景,列出了用户执行一组实际任务时所采取的各种步骤。这样的场景应该在对实际用户及其工作的任务分析的基础上构建,以便尽可能地代表系统的最终使用。

使用启发式评估方法的结果是界面中的可用性问题列表,参考了评估者认为在每种情况下设计违反的可用性原则。评价者仅仅说他们不喜欢某样东西是不够的;他们应该解释为什么他们不喜欢它启发法或其他可用性结果。评估人员应尽可能具体,并应单独列出每个可用性问题。例如,如果某个对话元素有三个问题,则应参考各种可用性原则列出所有三个问题,这些原则解释了为什么界面的每个特定方面e元素是一个可用性问题。有两个主要原因需要分别说明每个问题:第一,有可能重复对话元素的某些有问题的方面,即使它将被一个新的设计完全取代,除非你知道它的所有问题。第二,可能不可能在一个int中修复所有可用性问题eFace元素或用新设计替换它,但如果它们都已知,仍然可以修复一些问题。

启发式评估并没有提供一种系统的方法来生成可用性问题的修复,也没有提供一种方法来评估任何重新设计的可能质量。然而,由于启发式评价的目的是根据已建立的可用性原则来解释每个观察到的可用性问题,因此通常很容易根据被违反的原则所提供的指导方针来生成经过修订的设计,以获得良好的交互系统。而且,许多可用性问题一经发现,就会得到相当明显的修复。

例如,如果问题是用户无法将信息从一个窗口复制到另一个窗口,那么解决方案显然是包含这样的复制功能。类似地,如果问题是以大写/小写格式和字体的形式使用不一致的排版,那么解决方案显然是为整个界面选择单一的排版格式。然而,即使对于这些简单的示例,设计师也没有信息来帮助设计对界面的确切更改(例如,如何使用户能够制作副本,或者两种字体格式中的哪一种要标准化)。

扩展启发式评估方法以提供一些设计建议的一种可能性是在最后一次评估会议之后进行一次汇报会议。汇报的参与者应该包括评价者,在评估过程中使用的任何观察者,以及设计团队的代表。汇报会议将主要以头脑风暴的方式进行,并将集中讨论可能的重新设计,以解决主要的可用性问题和设计的一般问题方面。任务汇报也是讨论设计积极方面的好机会,因为启发式评估不能解决这个重要问题。

启发式评估明确地作为一种方法“折扣可用性工程”方法独立研究(Jeffries et al.1991)确实证实了启发式评估是一种非常有效的可用性工程方法。我的一个案例研究发现,启发式评估项目的效益成本比为48:使用该方法的成本约为10500美元,预期效益约为500000美元(Nielsen 1994)。作为一种折价的可用性工程方法,启发式评估不能保证提供“完美”的结果或找到界面中的每一个可用性问题。

确定评估者的数量

原则上,单个评估者可以自己对用户界面进行启发式评估,但是来自几个项目的经验表明,当依赖单个评估者时,会得到相当差的结果。在我的六个项目中,平均每个评估者只发现了界面中35%的可用性问题。然而,由于不同的评价者往往会发现不同的问题,因此通过聚集几个评价者的评价,有可能获得更好的表现。图2显示了当越来越多的评估者加入时发现的可用性问题的比例。图中清楚地显示了使用多个评估器的好处。建议使用大约5个评估人员似乎是合理的,但肯定至少3个。使用评估人员的确切数量将取决于成本效益分析。显然,在可用性至关重要的情况下,或者由于系统的广泛使用或关键任务的使用,可以预期得到较大的回报时,应该使用更多的评估者。

图2
显示界面中可用性问题比例的曲线,通过使用不同数量的评估者进行启发式评估发现。该曲线表示启发式评估的六个案例研究的平均值。
随着更多的评估者加入,可用性问题的数量曲线

Nielsen和Landauer(1993)提出了这样一个模型,该模型基于以下关于启发式评估中发现的可用性问题数量的预测公式:

问题发现() = N(1 - (1-l)

哪里问题发现(指示通过聚合来自的报告发现的不同可用性问题的数量独立评估员,N表示界面中可用性问题的总数,l表示单个评估者发现的所有可用性问题的比例。在六个案例研究(Nielsen和Landauer 1993)中,价值L从19%到51%不等,平均值为34%N范围从16到50,平均33。使用此公式会产生与图2所示非常相似的曲线,尽管曲线的确切形状会随参数值而变化NL,这也将因项目的特点而有所不同。

为了确定评价者的最佳数量,需要一个启发式评价的成本效益模型。该模型的第一个要素是使用该方法的成本核算,同时考虑固定成本和可变成本。固定成本是指无论使用多少评估人员都需要支付的成本;其中包括计划评估、准备材料、撰写报告或以其他方式传达结果的时间。可变成本是指每次使用一名额外评估员时产生的额外成本;其中包括评估员的已加载工资、分析评估员报告的成本以及评估期间使用的任何计算机或其他资源的成本。根据几个项目公布的价值,启发式评估的固定成本估计在3700美元到4800美元之间,每个评估员的可变成本估计在410美元到900美元之间。

实际的固定成本和可变成本显然会因项目而异,并取决于每个公司的成本结构和被评估的接口的复杂性。举例说明,考虑一个示例项目,启发式评估的固定成本为4000美元,每个评估者的可变成本为600美元。在本项目中,采用启发式评价的成本为因此,评价者是有责任的(4000 + 600美元).

启发式评估的好处主要在于发现可用性问题,尽管一些继续教育的好处可能会实现,因为评估者可以通过将自己的评估报告与其他评估者的评估报告进行比较,从而提高他们对可用性的理解。对于这个示例项目,假设使用Nielsen和Landauer(1993)从几个已发表的研究中得出的值来发现每个可用性问题价值15000美元。对于实际项目,显然需要根据预期的用户群来估计发现可用性问题的价值。对于内部使用的软件,该值可根据用户生产力的预期增长进行估算;对于在公开市场上销售的软件,可以根据由于用户满意度更高或审查评级更好而导致的预期销售额增长进行估算。请注意,真正的价值只来源于那些在软件发布之前实际上已经修复的可用性问题。因为不可能解决所有可用性问题,所以发现的每个问题的价值只是固定问题价值的一部分。

图3
曲线显示了使用本文中讨论的假设对样本项目进行启发式评估的收益大于成本的多少倍。在本例中,评估人员的最佳数量为4人,其收益是成本的62倍。
随着评估人员的增加,收益与成本的比率曲线

图3显示了样例项目中不同数量的评估者的收益与成本的不同比率。曲线显示,在这个例子中,最优的评估器数量是4个,这证实了一般的观察,即启发式评估似乎在3到5个评估器中工作得最好。在这个例子中,由4个评估者进行的启发式评估将花费6400美元,发现的可用性问题价值395000美元。

工具书类

  • 戴克斯特拉,D.J.1993年。启发式评估和可用性测试的比较:领域特定启发式检查表的有效性. 博士。德克萨斯州A&M大学工业工程系,德克萨斯州学院站。
  • 杰弗里斯,R.,米勒,J.R.,沃顿,C.,和乌耶达,K.M.1991。真实世界中的用户界面评估:四种技术的比较。志同道合会议录(新奥尔良,洛杉矶,4月28日至5月2日),119-124。
  • Molich,R.和Nielsen,J.(1990年)。改善人机对话,ACM的通信33,3月3日,第338-348页。
  • 尼尔森,j . 1990。纸面与计算机实现作为启发式评估的模拟场景。过程。IFIP Interactive90第三种国际形态人机交互(剑桥,英国,八月27日至31日),315至320。
  • 尼尔森,J.和兰道尔,T.K.1993年。可用性问题发现的数学模型。ACM/IFIP INTERCHI'93会议记录(荷兰阿姆斯特丹,4月24日至29日),206-213。
  • Nielsen,J.和Molich,R.(1990年)。用户界面的启发式评估,过程。ACM CHI'90形态。(西雅图,华盛顿州,4月1-5日),249-256。
  • 通过启发式评估发现可用性问题。ACM-CHI'92会议记录(加利福尼亚州蒙特利,5月3-7日),373-380。
  • j·尼尔森(1994)。启发式评估。在尼尔森,J,和马克,R.L. (Eds.),可用性检查方法. 约翰·威利父子公司,纽约州纽约市。