用户体验研究的内部有效性与外部有效性

任何ux研究的目的是回答关于我们的设计或我们的用户的一般问题。我们的用户中有多少人能够订阅我们的通讯?人们在我们的网站上会遇到哪些主要的可用性问题?对于我们的目标用户来说，设计A是否比设计B更有用?但任何时候我们进行ux研究，不管定量或定性在美国，有一种危险是，它不能反映我们想要捕捉的现实，因为这项研究设计得很差。

有两种主要的研究设计错误:

内部效度使参与者倾向于某种反应或行为的错误
外部效度捕捉目标受众不具备特征的行为或情况的错误

我们将分别讨论这些问题。但在此之前，让我们注意到有效性是分开可靠性. 一项研究的可靠性仅仅意味着，如果你重复这项研究，你会得到同样的结果。换句话说，调查结果不是随机的。有很多统计方法可以计算学习信度，提高信度的主要途径是测试更多的参与者。但是没有效度，可靠性就不好当前位置高可靠性和低有效性的研究是一个能很好地衡量错误事物的研究。

内部效度的UX研究

设想一项比较两个站点（站点a和站点B）的研究。你试图决定这两个站点中哪一个更好，你总是先向研究设计a中的参与者展示，让他们在上面完成一些任务，然后转到设计B并向他们展示相同的任务。这项研究设计有可能产生准确的结果，反映现实吗？换句话说，这项研究会确定更好的设计吗？

不必要。This study setup favors design B because, when they get to it, participants will be already used to the testing situation and with the task domain — if they’re testing car-rental sites, they will already know what a LDW (loss-damage waver) is when they get to site B and they may have certain expectations regarding the steps of the rental process. They will also know what you expect them to do and how they’re supposed to perform the task. Therefore, this study is missing internal validity. (The usual fix to this problem is to alternate which site goes first, and have half of the users try site B first.)

定义：一项研究内部效度如果它不支持或鼓励任何特定参与者的反应或行为。

内部效度是定性和定量研究中的一个问题。对于中度定性研究，建导师可能会无意中偏见或引起某种反应来自参与者。例如，即使是一个简单的问题，比如“你觉得结帐困难吗？”也可能会使研究结果无效，因为参与者是涂底漆想想困难，这样他们可能会发现比正常情况更多的东西（比如理查德·尼克松的“我不是骗子”声明）。

在定量研究中，缺乏内在有效性可能会导致结果向一个方向倾斜，但不能反映现实。例如，您可以在标杆管理研究发现，你在重新设计的网站上花费的时间比在原来的网站上花费的时间要多，你可能会推断你在重新设计的网站上做得很好，而事实上，差异是由于不同的研究方案——最初的测试使用的是自言自语的协议，但重新设计的测试没有。（大声思考确实需要一些额外的时间，因此可能会导致更长的任务时间。）

在此示例中，协议是一个的例子混杂变量-一个可以影响你的研究结果的隐藏变量，但你在设计研究时没有考虑到。

外部效度

外部有效性是指你的研究有多自然。

如果你正在为老年人设计一个网站，并从普通人群中招募研究参与者，那么该研究是否有效?它会告诉你一些与你真正的受众相关的信息吗?可能不会，因为年轻参与者的行为可能与年长参与者不同。或者，如果你在台式机上测试一个移动设计，你的发现是否适用于该设计的使用?也许是，也许不是——这是不可能确定的(除非你做另一个研究)。在这两种情况下，研究都缺少外部效度。

定义：一项研究外部效度如果参与者和研究设置能够代表使用设计的真实情况。

外部效度的概念也适用于定性和定量研究 - 原因很明显。

研究设计建议

以下是一些建议，可以帮助您建立内部和外部有效的研究。

内部效度

随机化对于确保内部有效性至关重要。

使用随机的任务顺序。

任务顺序会影响任务响应。在研究开始时，人们通常对研究环境和他们正在测试的系统都是新手。他们在一个会话中花费更长的时间来执行第一个任务是很正常的，并且可能会犯比正常情况更多的错误。另一方面，课程结束时显示的任务可能会看到参与者疲劳的影响。

这就是为什么我们强烈建议在任何测试中，无论是定性的还是定量的，你都要尽可能地随机化任务的顺序。(然而，有时候，遵循这个建议可能不是完全可行的——例如，如果任务是可行的登录和存款支票，这是不可能的存款支票追随登录).

此外，为了减少每次课程开始时的学习阶段，我们建议您准备1-2热身任务（心理学家称之为实践试验)这与您的研究无关，旨在让参与者熟悉并熟悉研究环境和研究程序。我喜欢选择一些简单的任务来增强参与者的信心，让他们感到放松。但是，如果您确实使用热身任务，请确保在分析中不包含这些任务。

如果你的研究对比两个或多个条件（例如，你想与竞争对手网站来比较你的网站），每位学员会被暴露在所有条件下（即，学科内设计),你应该平衡或随机分配每个参与者暴露在这些条件下的顺序（例如，他们查看您的站点和竞争对手站点的顺序）。

这一建议与前一个 - 随机任务顺序。However, if you’re testing, say, 2 ecommerce sites, sometimes it may be unrealistic or unfeasible to ask the participant to shop on site one, then add an item to a wishlist on site 2, then go back to site 1 and subscribe to the newsletter, then shop on site 2 — this would be a detrimental and possibly confusing setup, if you want, for instance, to collect post-test questionnaires such asSUS和核动力源为这两个设计在会议结束。

在这种情况下，我们建议您将design 1的所有任务分组在一起，将design 2的所有任务分组在一起。但是，您应该随机安排参与者看到这两个设计的顺序——一些参与者先看到设计1，其他人先看到设计2。而且，在每个设计本身中，任务的顺序应该是随机的。

对照研究设置从一个阶段到下一个阶段，并寻找混淆变量-可能影响结果的隐藏因素。

例如，假设一个研究者想要比较两个网站，并使用对象之间的设计。她决定学习站点A在与这些参与者来为下午的会议在上午的会议和站点B的参与者。如果她最终发现，参与者更好地执行，比如，站点A，可能是因为站点A是更好的，也可能是因为人们在早晨不那么累。

类似地，如果一位同事帮助你促进一项研究，你划分了研究地点——你与a地点进行了讨论，她与B地点进行了讨论，那么建导师是一个隐藏变量。这可能是因为一位主持人的风格比另一位主持人更具偏见，或者一位主持人天生就是一个更令人愉快的人，参与者与她在一起时会感到更健谈、更放松。

因此，如果你知道每节课都会有需要改变的因素，请确保它们在你研究的所有条件下都有所不同。

当您为您的组织组织一个基准测试程序时，为内部有效性仔细规划是至关重要的。您必须非常仔细地记录您的研究条件(任务措辞、研究方案、是否使用了“大声思考”，等等)，以便它们能够在您将进行的进一步研究中被复制，以确定随着时间的推移设计的改进。否则，系统的当前版本和之前的版本之间的差异可能只是由于研究设置而不是可用性的改进。

外部有效性

招募代表目标受众的参与者-在人口统计和用户目标方面。

总的来说，研究人员在创作时非常谨慎筛选者与人口统计数据相匹配，但这可能不足以确保外部有效性。可能你的参与者是正确的人口统计数据，但他们的目标与你的用户有很大的不同(或者他们只是没有足够的动力)。总是努力寻找那些与你的用户有相同目标的参与者。

尽你所能复制自然环境参与者将使用他们测试的UI。

在您的参与者应该在他们的车库使用您的汽车修理移动应用程序？那就不要让他们在会议室进行测试。环境 - 轻，脏手，地方，手机定位，可用时间，可用的工具 - 都可能发挥在此应用程序可怎么是一个角色。

然而，有时一项研究不可能在外部有效。

外部有效性总是可能的吗?

从某种意义上说，任何研究都缺乏外部有效性——我们很少与坐在书桌旁或实验室里的陌生人进行互动（在某种程度上，我们甚至可以说远程研究我们还知道，在可用性测试环境中，参与者的行为往往比自己稍有不同——更顺从、更持久。

此外，有时，在自然环境中测试设计可能成本过高。举例来说，我们是伟大的倡导者简易原型，但这些类型的测试总是缺乏外部效度。那么，我们该怎么做呢?

在这些情况下，一些测试比没有测试要好。使用纸质原型，可能是您的结果在外部无效，您以后必须在自然条件下重新测试。但是纸上原型的目标是确定任何大的障碍，这样你就不会花钱去实现完全失败的东西。因此，进行一次纸上原型研究，找出重大问题，解决它们，然后继续进行一项研究高保真原型你可以在自然条件下，在参与者用来完成任务的设备上进行测试。

另一种缺乏外部有效性的常见情况是移动测试-大多数参与者不会不间断地使用手机设计，坐在桌子旁，连接到wifi。但是，可以接受在该设置中进行测试，以确定即使在良好连接和无中断的最佳情况下也会遇到的问题。这些可能是许多移动网站需要解决的第一个问题——如果网站在理想条件下也存在问题，那么设计就需要修复。一旦你解决了这些问题，你仍然需要在更现实的条件下重新测试。

类似地，一些定量研究专业人士建议在某些定量研究中仅包括专家参与者，以减少可变性（缺乏可变性意味着研究结果的误差幅度较低，并可能允许研究人员减少参与者数量）。专家用户将为您提供一个最佳案例场景，只要您不假设结果将推广到所有用户，您就可以了。

总的来说，如果你发现自己被迫牺牲一些外部有效性，那么你必须始终在上下文中解释你的发现，并意识到如果要在现实条件下复制研究结果，这些发现可能不成立，这一点至关重要。

结论

计划不周的研究将在结果是无效的翻译。你可能已经潜在浪费时间和金钱上运行的研究，不告诉你关于你的产品或观众什么。Pay attention to your study’s internal and external validity — strive to recruit participants that are representative of your target audience and make sure that the study setup replicates how your users will use the system in real life and that it does not encourage any one behavior or response.

基于研究的用户体验的世界领导者

用户体验研究的内部有效性与外部有效性

内部效度的UX研究

外部效度

研究设计建议

内部效度

外部有效性

外部有效性总是可能的吗?

结论

了解更多

视频

用户体验研究的内部有效性与外部有效性

内部效度的UX研究

外部效度

研究设计建议

内部效度

外部有效性

外部有效性总是可能的吗?

结论

了解更多

文章

UX会议培训课程

研究报告

一小时会谈

了解更多

文章

研究报告

UX会议培训课程

一小时会谈

文章

UX会议培训课程

研究报告

一小时会谈

视频