“不是所有能计数的东西都有价值,也不是所有能计数的东西都有价值。”
- (归因于)阿尔伯特爱因斯坦
一个相当普遍的反对定性的用户体验研究(尤其是从有统计知识的观众那里)小样本尺寸导致轶事证据或少数人的主观评估,而不是数据适当的。许多在医疗保健、自然科学、甚至只是“数据驱动”组织领域工作的uxer可能会发现,建立买入以进行小型交易是困难的n首先是研究;即使他们能够进行测试,通常也很难对结果得出的建议建立可信度。
常见的反对意见包括:
- 5个或10个用户研究中设计选项的比较没有统计学意义(这是真的)。
- 小样本量意味着我们不能自信地概括诸如完成任务的时间或小型研究的成功率(也是如此)。
- 因为我们没有测量因此,我们对事物的解释本质上是主观的(这确实是一种潜在的危险,但需要适当的方法和优秀的研究人员来解释)。
虽然有些反对意见是正确的(这也是为什么我们不推荐从定性研究中报告数据的原因),但断言定性研究是道听途说或缺乏严谨性是一个很大的飞跃。事实很简单定性研究是一种相当不同的模式调查。
如果您是一个面临这种推动的UXER,请考虑对您的同事进行以下几点。
定性方法是定量测量的必要补充
受过科学教育的人通常熟悉使用的实验精心控制的定量测量作为一种评估假设的方法;这通常被称为提议研究。对于有这种背景的人来说,与一小部分人交谈(甚至可能每次都稍微改变研究程序!)作为得出结论的手段,从本质上看似乎不科学,容易产生偏见,不太可能适用于所有人。
但定性研究的目标是不同的:我们不是试图证明一个假设是错误的,而是试图详细了解问题的本质。定性的研究并没有试图对整个目标受众做出量化的断言。例如,10人研究中的6人能够轻松使用应用中的某个功能,但这并不意味着60%的人都会有类似的体验。但是,在这项研究中,我们可以确定其他4个人遇到的问题(以及其他6个人努力克服的问题),并了解问题背后的原因,目标是解决这些问题。(这些问题是我们只能推测关于我们完全看的话定量研究或分析数据…)
不同的目标需要不同的调查方法:知道有多少人有问题需要大的样本大小来确信我们衡量的数量不是随机失真,但知道一个问题可能发生和为什么要求我们观察用户的行为,引出用户的想法。最重要的是,如何要重新设计UI来解决问题需要这些定性见解。
定性研究的目标是收集驱动决策的洞见,特别是当测量是不可行的或不可能的。当然,我们可以想出一些测量工具满意,情绪状态等我攻的现象这些工具不会告诉我们为什么用户此时此刻的感觉我们如何才能更好地支持他们的需求.
定性研究是严谨和系统的
然而,一个重要的问题是:我们如何知道定性研究是否严谨和可靠,给我们关于用户的真实见解?
定量研究的严谨性被视为由以下几个主要属性组成:
- 有效性- 是我们衡量我们关心的东西的好代表性的东西吗?我们的结论可以推广超越这个实验吗?
- 可靠性——如果我们重复研究,我们会得到相似的结果吗?
- 客观性 - 我们是否有一种方法可以确保我们的观察结果并没有被我们的偏见蒙蔽?
这些特征对于定量研究来说是相对直接的,但对于大多数样本量小的研究来说是不容易确定的。
社会科学家Yvonna Lincoln和Egon Guba为定性研究创造了一套平行的特征,这已经成为评估严重度的标准方法:
- 可信度:我们是否准确描述了我们所观察到的情况?
- 可移植性:我们的结论是否适用于其他情况?
- 可靠性:我们的发现是否一致和可重复?
- 确认能力:我们是否避免了我们的分析中的偏见了?
我们可以通过系统化来满足这些标准。这就是我们收集数据的原因数据,而不是偶然发生的轶事。如果首席执行官的聆讯来自公司的应用程序的看似过时的朋友,那就是一个轶事 - 没有一个系统的过程来聚集这个观察,它发生在偶然的,只是一个人的主观意见。如果UX研究人员系统地招募5名参与者和其中几个斗争以了解导航中的品牌术语,即数据。
优秀的定性研究人员会采取许多步骤来确保他们的工作是系统性的:
- 他们将自己的工作与基于证据的理论联系起来框架关于UIS如何设计和认知 - 心理学和人机互动的知识了解用户的知识感知世界,并在精神上处理它,的行为,并参与具体的互动用各种形式的技术。
- 他们制定具体的研究问题在选择合适的方法之前。
- 他们仔细地取样招募的参与者这代表了不同的视角,所以他们可以了解未知的未知。
- 他们促进了使用会话开放式的提示以最小的偏见,并跟进与参与者的不完全陈述有关的偏见和跟进参与者的思想和反应无意识地向他们暗示如何回应.
- 他们不只是拿走用户的表面观点-他们建立了一种理解为什么用户可以请求特征或为什么例如,某些东西可能看起来不起作用。
- 他们分析我们的数据系统地编码洞察力(再次利用启发式的总体理论框架,已知的最佳实践, 等等)。使用从接地理论方法借来的归解推理技术进行编码 - 主题从自下而上的分析中从数据中出现,而不是通过从一个代码列表开始,然后强制适合数据。然后,他们尝试在数据中的编码调查结果之间建立概念性连接寻找模式.
- 当他们遇到一些不寻常或非凡的东西时,他们使用三角测量以确保我们的结论得到支持(即,他们通过不同的方法调查相同的事情,或者他们让其他训练有素的研究人员独立分析相同的数据)。毕竟,非凡的主张需要非凡的证据。
小样本大小是可以的,这取决于你在看什么
但是,你可能会说,那么那些小样本呢?他们难道没有内在的对异常值的敏感性?也许你观察到的问题是真实存在的,但很罕见,你可能会由于样本少,夸大了它的重要性.
这些都是真正的担忧。又怎样做定性研究人员在我们的结论中防止对罕见事件的过度描述?
再一次,我们可以指出一个强健的理论框架我们在用户体验中充满了关于用户如何感知、思考、行为和与技术交互的基于证据的原则。如果我们观察到哪怕只有一个人有问题,这就是一个例子众所周知原则上,我们有理由相信这是一个真正的问题。当然,我们仍然不能准确地说有多少人会遇到这个问题。
If the number of people affected by a problem is a real factor that we need to consider (e.g., if the problem will be expensive to fix and will take a lot of resources), then yes, we may need to do some form of quantitative experiment to figure that out. On the other hand, it is often cheaper (and more sensible) to simply fix the design problem without quantifying just how bad it is,如果我们确认它在设计过程的早期.
例如,如果我设计了一个供消费者使用的炸油锅,我将(希望)在出售它之前进行一些安全测试。如果第一个测试者不小心在炒菜篮上烫伤了自己,因为手柄正好在加热元件上方,我可能不会用大样本继续测试,以弄清楚到底有多少用户也会烫伤自己,然后起诉我。在本例中,我发现了样本容量为1的一个主要问题。现在,这个例子显然是非常简化的,一个小的样本量将不适合每一个研究问题,但这种方法将经常最好使用资源尤其是当我们在寻找主要阻滞剂的时候。
这是我们一直坚持的主要原因之一推荐的小样本大小研究早做(和重复几次迭代的设计):它们是相对的廉价这是一种发现和解决主要可用性问题的方法,否则如果我们不进行测试就发布产品,我们就会从愤怒的客户那里了解到这些问题。在许多参与者中确认设计中的主要缺陷是浪费时间和资源的,特别是如果我们在一个快速发展的敏捷团队中工作。
一个合理的问题可能会被问到:为什么不简单地使用更大的样本量进行定性研究,以便更有信心,例如,我们的研究参与者表达的期望和需求是常见的,而不是异常的异常值?从根本上说,这归结为成本:招募更多的参与者,并主持研究会议。激发用户的内心想法通常需要熟练的主持人谁可能需要在每个会议期间进行一些即兴创作,以便调整每个研究参与者的细节。此外,由于会话协议每次都会有点不同,因此我们无法妥善比较并汇总所有会话的数据,因为每个“审判”都会有所不同。在实践中,定性研究人员经常降落在特定的sample size based on how many participants it takes to reach a saturation point in the findings (i.e., they continue the study in small batches until they’re unlikely to learn enough new core insights to be worth the added delay to the project). Especially for面试,领域的研究,以及其他形式的探索型研究,这是目标 - 而不是试图确定如何常见的核心调查结果是。
同理心和人性并不容易计算,但它们很重要
最后,但绝对重要的是,定性研究可以让我们建立一个真实的,移情作用的理解作为人类的使用者。当我们主要通过用户粘性、跳出率或任务执行时间等参数来看待人类与技术的互动时,我们并不太关心用户的福祉。(这可能是我们的潜意识,但肯定不是首要考虑的因素。)科技行业才刚刚开始考虑道德并意识到我们的产品设计对很多很多人的生活产生了真正的影响。
主持定性研究要求我们与其他人互动(甚至未修改研究仍然涉及观察人)。我们通常需要建立某种形式的融洽的关系让参与者能够自如地表达他们的内在思维过程。我们经常发现,他们对世界的体验与我们不同——有细微之处,也有巨大之处。这些研究提供了机会同情他们。
我不想在这里夸大定性研究的力量。它不会自动产生对用户的同情——我肯定看到过团队在看着用户挣扎时大笑。做定性研究并不能解决商业模式中的伦理问题。定性研究肯定不会取代你的团队对公正和包容的招聘实践的关键需求,以确保决策是由具有各种背景和生活经验的人做出的。
另一方面,我也不想抛售同理心的价值是通过这类研究建立起来的——例如,仅仅通过注意到一个用户有多么沮丧,并倾听他们不经意地质疑他们是否愚蠢因为他们无法想出一个令人困惑的设计。这种(不幸的是司空见惯的)反应告诉我,问题是真实存在的,需要优先解决它,即使我没有一个庞大的样本量。
总结
定性研究是严谨和系统的,但它的目标与定量测量不同。它用人类经验的数据——期望、心理模型、痛点、困惑、需求、目标和偏好——阐明了一个问题空间。样本规模通常小于定量实验,因为目标不是表明我们的样本参与者将按比例代表整个总体;相反,我们正在寻找问题,确定需求,并改进设计。用户体验研究是一门混合方法的学科,因为这两种方法是互补的:测量多少和理解为什么两者都可以帮助我们构建更好的产品,这是任何UX研究的主要目标.
参考文献
朱丽叶·柯尔宾和安塞姆·施特劳斯,1990。扎根理论研究:程序、准则和评价标准。定性的社会学,1990年第13卷第1期
Yvonna Lincoln和Egon Guba, 1985年。自然主义询问.Sage, Newbury Park, CA
Saunders, B., Sim, J., Kingstone, T。et al。2018.质性研究的饱和:探讨其概念化与运作化。定性定量52,1893 - 1907。https://doi.org/10.1007/s11135-017-0574-8
迈克·休斯》2011。可用性测试中的可靠性和可靠性,检索自:https://www.uxmatters.com/mt/archives/2011/06/reliability-and-dependability-in-usability-testing.php
分享这篇文章: