卡片分类:测试多少用户

网站和内部网设计的最大挑战之一是创建信息架构:什么去哪里?一个典型的错误是基于“如何”构造信息空间你视图的内容-这通常导致您公司的每个部门或信息提供者有不同的子站点。

与其简单地镜像组织结构图，还不如创建一个反映组织结构图的信息架构，从而更好地提高可用性用户视图的内容。在我们每个人内部网的研究在美国，我们已经发现了一些最大的生产率的提高发生在以下情况公司重组内部网反映员工的工作流程．而在电子商务在美国，当产品出现在用户希望找到它们的类别中时，销售就会增加。

很好，但是你怎么知道用户对信息空间的看法，以及他们认为每个条目应该放在哪里?为研究这种心智模式，主要的方法是卡片分类:

在索引卡上写下每一个主要项目的名字(或者简短的描述)。是的，不错的旧纸质卡片。小心不要使用术语的偏见用户)。
洗牌并把牌组给用户。(标准对招募测试参与者的建议应用:他们必须是有代表性的用户，等等)
要求每个用户将卡片分类成一堆，将属于同一堆的物品放在一起。用户可以根据自己的需要制作任意数量的堆;有些堆积如山，有些堆积如山。
可选的额外步骤包括要求用户将产生的堆排列成更大的组，并为不同的组和堆命名。后面的步骤可以让您了解用于导航标签、链接、标题和搜索引擎优化的单词和同义词。

因为卡片分类不需要任何技术一张1995年卡片的照片看起来和今天的一模一样。

研究

富达投资拥有世界上最好的可用性团队之一，由人机界面设计高级副总裁Thomas S. Tullis博士领导。Tullis和合作者Larry Wood最近报告了一项研究的结果，该研究测量了在卡片分类练习中测试不同数量用户的权衡曲线。

首先，他们测试了168个用户，产生了非常可靠的结果。然后，他们通过分析整个数据集的随机子集来模拟使用较小用户组进行卡片排序研究的结果。例如，为了查看20个用户的测试会产生什么结果，他们从168个用户中随机选择20个用户，只分析该子组的卡片排序数据。通过选择许多这样的样本，就有可能从测试不同数量的用户中估计平均结果。

从卡片分类研究中得到的主要定量数据是一套相似性得分它衡量不同商品对的用户评分的相似性。如果所有用户都将两张卡片归为同一摞，那么这两张卡片所代表的两个项目将具有100%的相似性。如果一半的用户将两张卡片放在一起，另一半将它们放在不同的堆里，这两张卡片的相似度将是50%。

我们可以通过询问其相似度得分与测试大量用户组得出的得分的相关性来评估较小卡片分类研究的结果。(提醒:相关性从-1到+1。相关性为1表明两个数据集完全对齐;0表示无关系;而负相关性则表明数据集是相互对立的。)

有多少用户?

对于大多数可用性研究，我建议测试5个用户，因为这些数据足够教你在考试中所学到的大部分内容。然而，对于卡片排序，来自5个用户的结果与最终结果之间只有0.75的相关性。这还不够好。

您必须测试15个用户才能达到0.90的相关性，这是一个更合适的停止位置。在15个用户之后，收益开始下降，相关性几乎没有增加:测试30个用户，相关性为0.95——当然更好，但通常不值两倍的钱。超过30名用户几乎不会有任何改善:你必须测试60名用户才能达到0.98，这样做绝对是浪费。

Tullis和Wood建议对20-30名用户进行卡片分类测试。根据他们的数据，我的建议是测试15个用户．

为什么我建议测试更少的用户?我认为0.90(对于15个用户)或者0.93(对于20个用户)的相关性对于大多数实际目的来说已经足够好了。我可以肯定地说，如果你有一个资金充足的大项目(比方说，一个拥有10万名员工的内部网，或者一个年收入5亿美元的电子商务网站)，那么测试30个人的成本将达到0.95。但大多数项目用于用户研究的资源非常有限;剩下的15个用户最好“花”在不同设计迭代的3个定性可用性测试上。

让用户来决定你的设计

我不建议设计一个完全基于卡片排序的数字相似性分数的信息架构．当决定具体的内容时，你应该更多地依赖于你在测试过程中获得的定性见解。卡片分类的大部分价值来自于倾听用户的意见当他们整理卡片的时候:知道为什么人们将特定的卡片放在一起，这比他们将卡片分类到同一堆更能洞察他们的心理模型。

为什么卡片分类的用户越来越多?

我们知道对于大多数可用性研究来说，5个用户就足够了，那么为什么我们需要3倍的参与者来达到卡片分类的相同洞察力呢?因为这些方法在两个关键方面有所不同:

用户测试是一种评价方法:我们已经有了一个设计，我们正在尝试找出它是否很好地符合人的本性和用户的需求。尽管人们的能力(领域知识、智能和计算机技能)存在很大差异，但如果某个设计元素导致了困难，我们将在测试一些用户后看到这一点。低端用户可能会比高端用户遇到更严重的困难，但是困难的程度不是问题，除非您正在进行度量研究(这需要更多用户)。你所需要知道的就是设计元素不起作用对人类而言，应该被改变。
卡片分类是一个生成方法:我们还没有一个设计，我们的目标是找出人们如何思考某些问题。不同的人的心理模式和他们用来描述相同概念的词汇有很大的可变性。我们必须从相当数量的用户那里收集数据，然后才能获得一个稳定的图像用户的偏好结构，并决定如何适应差异在用户。

如果您有一个现有的网站或内部网，测试一些用户将会告诉您人们是否对信息架构有问题。为了从头生成一个新的结构，您必须抽样更多的人。

幸运的是,你可以结合两种方法首先，使用生成研究为你的设计设定方向。第二，起草一份设计，最好是使用纸上原型，并进行评估研究以改进设计。因为可用性评估既快速又便宜，你可以承担多次测试;他们也为你最初的生殖发现提供了质量保证。这就是为什么你不应该浪费资源去压缩最后0.02点的卡片排序。你可以在随后的用户测试中发现任何小错误，这比加倍或三倍的卡片分类研究要便宜得多。

研究的缺点

富达的研究有两个明显的弱点:

这只是一项研究。拥有多家公司的数据总是更好。
该分析纯粹是定量的，专注于相似性得分的统计分析，忽略了用户评论和其他定性数据。

这两个弱点不是致命的。我认为这是一个开创性的研究，对我们的网络可用性知识做出了巨大的贡献。但是，由于这项研究的弱点，如果有人用不同的信息空间复制它，并在分析数字分数的同时分析定性数据，这将是有用的。对于一个想要研究具有现实影响的东西的研究生来说，这听起来像是一个不错的论文项目(提示，提示)。

尽管更多的数据会令人欣慰，但我对富达的研究结论仍有信心，因为它们与我多年来对众多信用卡研究的观察结果相吻合。我总是说，比起传统的可用性研究，有必要测试更多的用户来进行卡片分类。我通常推荐15名用户，但当预算紧张或用户特别难招时，我们也会推荐12名用户。

有无数种方式定量研究可能出错和误导你。因此，如果你看到一项与定性研究相矛盾的定量研究，那么谨慎的做法是忽略这项新研究，并假设它很可能是伪造的。但是，当定量研究证实了已知的情况时，它很可能是正确的，你可以使用新的数字作为体面的估计，即使它们基于的数据比你理想的更少。

因此，目前的建议是测试15个用户的卡片分类在大多数项目和30个用户在大项目与慷慨的资金。

参考

Tullis, Tom，和Wood, Larry。(2004)卡片分类研究需要多少用户?，可用性专业协会(UPA) 2004年会议，明尼阿波利斯，明尼苏达州，2004年6月7-11日。

基于研究的用户体验的世界领导者

研究

有多少用户?

让用户来决定你的设计

为什么卡片分类的用户越来越多?

研究的缺点

参考

了解更多

视频

卡片分类:测试多少用户

研究

有多少用户?

让用户来决定你的设计

为什么卡片分类的用户越来越多?

研究的缺点

参考

了解更多

文章

UX会议培训课程

研究报告

小时的会谈

了解更多

文章

研究报告

UX会议培训课程

小时的会谈

文章

UX会议培训课程

研究报告

小时的会谈

视频