任何UX-Research研究旨在回答关于我们的设计或关于我们用户的一般性问题。我们的用户人口的百分比将能够订阅我们的时事通讯?人们在我们的网站上遇到什么主要的可用性问题?设计比我们的目标受众更具可用性吗?但是,随时我们建立了一个ux研究的研究,是否量化或定性,有危险的危险是,它不会反映我们想要捕获的现实,因为该研究设计不佳。
有两种大类的学习设计错误:
- 内部效度使参与者倾向于某种反应或行为的错误
- 外部有效性错误捕捉的行为或情况不是我们的目标受众的特征
我们将分别讨论每一个。但在此之前,让我们注意一下有效性是独立于可靠性.一项研究的可靠性仅仅意味着,如果你重复这项研究,你将得到相同的结果。换句话说,研究结果不是随机的。计算研究信度的统计方法有很多,提高信度的主要方法是对更多的被试进行测试。但没有有效性,可靠性就不好:一项高信度低效度的研究,是指你对错误的东西做了很好的测量。
用户体验研究的内部效度
认为研究的比较两个站点,站点和站点B .你要决定哪两个是更好的,你总是首先显示参与你的研究设计,要求他们完成一些任务,然后设计B和给他们相同的任务。这个研究设计是否可能产生准确的,反映现实的结果?换句话说,这项研究能找出更好的设计吗?
不一定。本研究设置支持设计B,因为,当他们到达,参与者将已经使用的测试情况和任务域——如果他们测试汽车租赁网站,他们将已经知道LDW(灭失、损害动摇)是在site B和他们可能有一定的预期有关租赁过程的步骤。他们也会知道你希望他们做什么,以及他们应该如何完成任务。因此,本研究缺乏内部效度。(通常解决这个问题的方法是选择哪个站点先运行,让一半的用户先尝试站点B。)
定义:一项研究表明内部有效性如果它不赞成或鼓励任何特定的参与者的响应或行为。
内部效度是定性和定量研究中的一个问题。在有节制的定性研究中,引导者可能会在不经意间偏见或引起某种反应的参与者。例如,即使是一个简单的问题,如“您发现结帐困难吗?”"可能会使研究结果无效,因为参与者启动考虑困难,所以他们可能会认同比正常情况更多的东西(就像理查德·尼克松(Richard Nixon)的“我不是骗子”声明)。
在定量研究中,缺乏内部效度可能会导致结果向一个方向倾斜,但不能反映现实。例如,你可以基准测试研究,发现您的时间在任务上的时间更好地在网站上的重新设计版本而不是原始版本,并且您可以推断您与重新设计做得很好,事实上,差异是由于不同的研究协议 - 原始测试使用了思考 - 大声协议,但重新设计的测试却没有。(自言自语确实需要额外的时间,所以它会导致更长的任务时间。)
在本例中,协议是a的示例混杂变量- 一个可以影响您学习结果的隐藏变量,但在您设计的研究时,您没有考虑到。
外部效度
外在有效性是关于你的研究是否自然。
如果您正在为普通人群设计老年人和招聘学习参与者,那将有效吗?它会告诉你关于你真正的观众的内容吗?可能不是,因为年轻的参与者可能表现得比旧的参与者不同。或者,如果您在桌面上测试移动设计,您的发现会推广在野外使用设计吗?也许是的,也许不是 - 肯定是不可能的(除非你做另一个学习)。在这两种情况下,研究缺少外部有效性。
定义:一项研究表明外部效度如果参与者和研究设置能够代表使用该设计的真实情况。
外在效度的概念也适用于定性和定量研究-原因很明显。
研究设计建议
这里有一些建议,可以帮助你建立内部和外部都有效的研究。
内部效度
随机化对于确保内部有效性至关重要。
- 使用任务随机排序。
任务顺序会影响任务的响应。在研究的开始阶段,人们通常对学习环境和测试系统都是陌生的。对于他们来说,在一个会话中执行第一个任务需要更长的时间是正常的,并且可能会比正常情况下出错。另一方面,在会议结束时显示的任务可能会看到参与者疲劳的影响。
这就是为什么我们强烈建议在任何测试中,无论是定性还是定量,您都尽可能多地随机化任务的顺序。(但是,有时,在此建议之后可能并不完全可行 - 例如,如果任务是登录和存款支票,可能是不可能的存款支票遵循登录)。
此外,为了减轻学习阶段在每个阶段的开始,我们建议你准备1-2热身的任务(心理学家称之为实践试验),与您的研究无关,旨在让参与者熟悉和适应研究环境和研究程序。我喜欢选择简单的任务,以增强参与者的信心,让他们感到放松。但是,如果您确实使用了热身任务,请确保您的分析中没有包含它们。
- 如果您的研究对比了两个或更多的条件(例如,您想要将您的站点与竞争对手的站点进行比较),并且每个参与者将暴露于所有条件(例如,试设计),您应该抵消或随机化每个参与者接触到这些条件的顺序(例如,他们看到你的网站和竞争对手的网站的顺序)。
这个建议与前面的建议——任务顺序的随机化有关。说,然而,如果你测试2电子商务站点,有时它可能是不切实际或不要求参与者车间现场,然后添加一个条目到现场意愿清单2,然后回到网站1和订阅通讯,然后在网站2 -商店如果你想要收集测试后的问卷,比如SUS和NPS对于会话结束时的两个设计。
在这种情况下,我们建议您将设计1的所有任务组合在一起,将设计2的所有任务组合在一起。然而,你应该随机安排参与者看到两种设计的顺序——一些参与者先看到设计1,其他人先看到设计2。在每个设计中,任务的顺序应该是随机的。
- 控制研究设置从一个会话到下一个会话,寻找混淆变量 -可能影响结果的隐藏因素。
例如,假设一个研究人员对比较两个网站感兴趣,并使用了不同主题的设计。她决定和早上的参与者一起研究A点和下午的参与者一起研究B点。如果她最终发现参与者在A点表现更好,这可能是因为A点更好,也可能是因为人们在早上不那么累。
类似地,如果一个同事帮助你促进了一项研究,你划分了地点——你在a地点参加会议,她在B地点参加会议,主持者是一个隐藏变量。这可能是因为一个主持人的风格比另一个主持人更有偏见,或者一个主持人天生是一个更令人愉快的人,参与者和她在一起时感觉更健谈、更放松。
因此,如果您知道有任何因素需要在每一个阶段和下一个阶段有所不同,请确保它们在您的研究中的所有情况下有所不同。
当您为您的组织组成基准计划时,仔细规划内部有效性至关重要。您必须仔细记录您的学习条件(任务措辞,学习协议,无论是习惯的,等等),以便他们可以在进一步的研究中复制,以便随着时间的推移确定设计改进。否则,系统和先前安装的当前版本之间的差异可能只是由于研究设置而不是可用性改进。
外部效度
- 招募能代表你的目标受众的参与者-在人口统计和用户目标方面。
总的来说,研究人员在创造时非常小心安检人员与他们的人口的确切人口统计数据相匹配,但这可能不足以确保外部有效性。可能是您的参与者处于合适的人口统计学,但与您的用户有不同的目标(或者他们根本不够动力)。始终努力找到可能与您的用户具有相同目标的参与者。
- 尽你所能,复制自然环境其中参与者将使用他们测试的UI。
您的参与者是否应该在他们的车库里使用您的汽车修理移动应用程序?那就别让他们在会议室里测试。环境——光线,脏手,手机的位置,可用的时间,可用的工具——都可能在这个应用程序的可用性方面发挥作用。
但是,有时,研究可能是不可能的外部有效。
外部有效性总是可能吗?
从某种意义上说,任何研究都缺乏外部效度——我们很少在陌生人在我们身后注视、坐在桌子旁或在实验室时使用界面。(在某种程度上,人们甚至可以说一些远程学习外部效果比面对面的效果更有效,因为至少参与者可能处在他们的自然环境中。)我们也知道参与者在可用性测试的情况下比他们自己的行为会有轻微的不同——更顺从,更持久。
而且,有时在自然环境中测试设计的成本可能太高。例如,我们是纸上原型,但这些类型的测试将始终缺乏外部有效性。那么,我们该怎么办?
在这些情况下,进行一些测试总比不进行测试要好。在纸上原型中,你的结果可能不是外在有效的,你需要稍后在自然条件下重新测试。但纸上原型的目标是确定任何大障碍,这样你就不会花钱执行完全错误的内容。所以,进行纸上原型研究,找出大问题,解决它们,然后继续高保真原型你可以在自然条件下,在参与者用来完成任务的设备上进行测试。
另一种缺乏外部有效性的常见情况是手机测试-大多数参与者不会不间断地使用移动设计,坐在办公桌前,连接wifi。但是,在这种设置中进行测试是可以接受的,以确定即使在连接良好且没有中断的最佳情况下也会遇到的问题。这些可能是许多手机网站需要解决的第一个问题——如果网站在理想情况下也存在问题,那么设计就需要修正。一旦你解决了这些问题,你仍然需要在更现实的条件下重新测试。
类似地,一些定量研究专家建议在某些定量研究中只包括专家参与者,以减少可变性(缺乏可变性意味着研究结果的误差幅度更低,可能允许研究人员减少参与者的数量)。专家用户会给你一个最好的方案,只要你不认为结果会推广到所有用户,你就应该没问题。
一般来说,如果你发现自己被迫牺牲一些外部效度,关键是你总是在背景下解释你的发现,并意识到如果研究在现实条件下被复制,它们可能不成立。
结论
计划不周的研究结果将是无效的。你可能浪费了大量的时间和金钱去进行一项并没有告诉你任何关于你的产品或你的用户的研究。注意你的研究的内部和外部的有效性,努力招募参与者代表的你的目标受众,并确保研究设置复制你的用户将如何使用该系统在现实生活中,这样的制度不鼓励任何一个行为或反应。
分享此文章: