任何用户体验研究都旨在回答有关我们的设计或用户的一般问题。我们的用户群体中有多大比例能够订阅我们的时事通讯?人们在我们的网站上会遇到哪些主要的可用性问题?对于我们的目标受众来说,设计A比设计B更有用?但任何时候我们进行用户体验研究时疗法定量还是定性,这项研究可能无法反映我们想要捕捉的现实,因为这项研究设计得很糟糕。

有两大类研究设计错误:

  1. 内部效度使参与者倾向于某种反应或行为的错误
  2. 外部效度错误捕捉的行为或情况不是我们的目标受众的特征

我们将分别讨论每一个。但在此之前,让我们注意一下有效性是独立于可靠性.一项研究的可靠性仅仅意味着,如果你重复这项研究,你将得到相同的结果。换句话说,研究结果不是随机的。计算研究信度的统计方法有很多,提高信度的主要方法是对更多的被试进行测试。但没有有效性,可靠性就不好:一项高信度低效度的研究,是指你对错误的东西做了很好的测量。

用户体验研究的内部效度

认为研究的比较两个站点,站点和站点B .你要决定哪两个是更好的,你总是首先显示参与你的研究设计,要求他们完成一些任务,然后设计B和给他们相同的任务。这个研究设计是否可能产生准确的,反映现实的结果?换句话说,这项研究能找出更好的设计吗?

不一定。本研究设置支持设计B,因为,当他们到达,参与者将已经使用的测试情况和任务域——如果他们测试汽车租赁网站,他们将已经知道LDW(灭失、损害动摇)是在site B和他们可能有一定的预期有关租赁过程的步骤。他们也会知道你希望他们做什么,以及他们应该如何完成任务。因此,本研究缺乏内部效度。(通常解决这个问题的方法是选择哪个站点先运行,让一半的用户先尝试站点B。)

定义:一项研究表明内部效度如果它不支持或鼓励任何特定的参与者反应或行为。

内部效度是定性和定量研究中的一个问题。在有节制的定性研究中,引导者可能会在不经意间偏见或引起某种反应的参与者。例如,即使是一个简单的问题,如“您发现结帐困难吗?”"可能会使研究结果无效,因为参与者启动考虑困难,所以他们可能会认同比正常情况更多的东西(就像理查德·尼克松(Richard Nixon)的“我不是骗子”声明)。

在定量研究中,缺乏内部效度可能会导致结果向一个方向倾斜,但不能反映现实。例如,你可以基准测试研究,发现你在重新设计的网站上的任务时间比在原来的网站上更好,你可能会推断你在重新设计上做得很好,而事实上,差异是由于不同的研究方案-最初的测试使用了有声思考协议,但重新设计的测试却没有。(自言自语确实需要额外的时间,所以它会导致更长的任务时间。)

在本例中,协议是a的示例混杂变量-一个可能影响研究结果的隐藏变量,但在设计研究时没有考虑到。

外部效度

外在有效性是关于你的研究是否自然。

如果你正在为老年人设计一个网站,并从普通人群中招募研究参与者,那么该研究有效吗?它会告诉你一些与你的真实受众相关的信息吗?可能不会,因为年轻参与者的行为可能与年长者不同。或者,如果你在桌面上测试一个移动设计,你的fin丁斯概括了设计在野外的使用?可能是,可能不是-不可能确定(除非你做另一项研究)。在这两种情况下,研究都缺少外部有效性。

定义:一项研究表明外部效度如果参与者和研究设置能够代表使用该设计的真实情况。

外在效度的概念也适用于定性和定量研究-原因很明显。

研究设计建议

这里有一些建议,可以帮助你建立内部和外部都有效的研究。

内部效度

随机化对于确保内部有效性至关重要。

  1. 使用任务的随机顺序。

任务顺序会影响任务的响应。在研究的开始阶段,人们通常对学习环境和测试系统都是陌生的。对于他们来说,在一个会话中执行第一个任务需要更长的时间是正常的,并且可能会比正常情况下出错。另一方面,在会议结束时显示的任务可能会看到参与者疲劳的影响。

这就是为什么我们强烈建议在任何测试中,无论是定性的还是定量的,尽可能地随机化任务的顺序。(然而,有时,遵循这一建议可能并不完全可行——例如,如果任务是:登录存款支票,这可能不可能存款支票遵循登录).

此外,为了减轻学习阶段在每个阶段的开始,我们建议你准备1-2热身的任务(心理学家称之为实践试验),与您的研究无关,旨在让参与者熟悉和适应研究环境和研究程序。我喜欢选择简单的任务,以增强参与者的信心,让他们感到放松。但是,如果您确实使用了热身任务,请确保您的分析中没有包含它们。

  1. 如果您的研究对比了两个或更多的条件(例如,您想要将您的站点与竞争对手的站点进行比较),并且每个参与者将暴露于所有条件(例如,试设计),你应该平衡或随机化每个参与者暴露在这些条件下的顺序(例如,他们看到你的网站和竞争对手的网站的顺序)。

这个建议与前面的建议——任务顺序的随机化有关。说,然而,如果你测试2电子商务站点,有时它可能是不切实际或不要求参与者车间现场,然后添加一个条目到现场意愿清单2,然后回到网站1和订阅通讯,然后在网站2 -商店如果你想要收集测试后的问卷,比如SUSNPS在课程结束时对两种设计进行测试。

在这种情况下,我们建议您将设计1的所有任务组合在一起,将设计2的所有任务组合在一起。然而,你应该随机安排参与者看到两种设计的顺序——一些参与者先看到设计1,其他人先看到设计2。在每个设计中,任务的顺序应该是随机的。

  1. 从一个疗程到下一个疗程的对照研究设置,并寻找混杂变量-可能影响结果的隐藏因素。

例如,假设一个研究人员对比较两个网站感兴趣,并使用了不同主题的设计。她决定和早上的参与者一起研究A点和下午的参与者一起研究B点。如果她最终发现参与者在A点表现更好,这可能是因为A点更好,也可能是因为人们在早上不那么累。

类似地,如果一个同事帮助你促进了一项研究,你划分了地点——你在a地点参加会议,她在B地点参加会议,主持者是一个隐藏变量。这可能是因为一个主持人的风格比另一个主持人更有偏见,或者一个主持人天生是一个更令人愉快的人,参与者和她在一起时感觉更健谈、更放松。

因此,如果您知道有任何因素需要在每一个阶段和下一个阶段有所不同,请确保它们在您的研究中的所有情况下有所不同。

当您为您的组织制定基准计划时,仔细规划内部有效性至关重要。您必须非常仔细地记录您的研究条件(任务措辞、研究方案、是否使用自言自语等),以便在您将进行的进一步研究中复制这些条件,以确定随着时间的推移设计的改进。否则,当前版本的系统与以前版本的系统之间的差异可能只是由于研究设置而不是可用性改进。

外部效度

  1. 招募能代表你的目标受众的参与者-在人口统计和用户目标方面。

总的来说,研究人员在创造时非常小心安检人员与用户的确切人口统计数据相匹配,但这可能不足以确保外部有效性。可能是您的参与者的人口统计数据正确,但目标与您的用户截然不同(或者他们根本没有足够的动机)。始终努力寻找可能与您的用户有相同目标的参与者。

  1. 尽你所能,复制自然环境参与者将在其中使用他们测试的UI。

您的参与者是否应该在他们的车库里使用您的汽车修理移动应用程序?那就别让他们在会议室里测试。环境——光线,脏手,手机的位置,可用的时间,可用的工具——都可能在这个应用程序的可用性方面发挥作用。

然而,有时一项研究可能不可能在外部有效。

外部有效性总是可能的吗?

从某种意义上说,任何研究都缺乏外部效度——我们很少在陌生人在我们身后注视、坐在桌子旁或在实验室时使用界面。(在某种程度上,人们甚至可以说一些远程学习外部效果比面对面的效果更有效,因为至少参与者可能处在他们的自然环境中。)我们也知道参与者在可用性测试的情况下比他们自己的行为会有轻微的不同——更顺从,更持久。

而且,有时在自然环境中测试设计的成本可能太高。例如,我们是纸上原型,但这些类型的测试总是缺乏外部效度。那么,我们应该怎么做呢?

在这些情况下,进行一些测试总比不进行测试要好。在纸上原型中,你的结果可能不是外在有效的,你需要稍后在自然条件下重新测试。但纸上原型的目标是确定任何大障碍,这样你就不会花钱执行完全错误的内容。所以,进行纸上原型研究,找出大问题,解决它们,然后继续高保真原型你可以在自然条件下,在参与者用来完成任务的设备上进行测试。

另一种缺乏外部有效性的常见情况是手机测试-大多数参与者不会不间断地使用移动设计,坐在办公桌前,连接wifi。但是,在这种设置中进行测试是可以接受的,以确定即使在连接良好且没有中断的最佳情况下也会遇到的问题。这些可能是许多手机网站需要解决的第一个问题——如果网站在理想情况下也存在问题,那么设计就需要修正。一旦你解决了这些问题,你仍然需要在更现实的条件下重新测试。

类似地,一些定量研究专家建议在某些定量研究中只包括专家参与者,以减少可变性(缺乏可变性意味着研究结果的误差幅度更低,可能允许研究人员减少参与者的数量)。专家用户会给你一个最好的方案,只要你不认为结果会推广到所有用户,你就应该没问题。

一般来说,如果你发现自己被迫牺牲一些外部效度,关键是你总是在背景下解释你的发现,并意识到如果研究在现实条件下被复制,它们可能不成立。

结论

计划不周的研究结果将是无效的。你可能浪费了大量的时间和金钱去进行一项并没有告诉你任何关于你的产品或你的用户的研究。注意你的研究的内部和外部的有效性,努力招募参与者代表的你的目标受众,并确保研究设置复制你的用户将如何使用该系统在现实生活中,这样的制度不鼓励任何一个行为或反应。