我们生活在一个信息泛滥的世界。对我们来说,追踪它或手动为他人策划它变得越来越难;幸运的是,现代数据科学可以对大量的信息进行分类,并揭示那些与我们相关的项目。

机器学习算法依靠用户的知识和在数据中观察到的模式,对我们可能喜欢或感兴趣的东西做出推断和建议。随着开发人员越来越容易使用机器学习技术,一些公司开始利用这些算法来改善他们的产品和用户体验。

这类人工智能(AI)技术在用户体验方面的典型应用包括:

  • 推荐(例如,要看的电影清单或要购买的产品清单)
  • 选择展示哪些广告或内容(例如,新闻标题)
  • 优惠和特别优惠,个性化以吸引当前用户
  • 个性化的快捷方式,一键访问任何用户可能想要做的下一步

不幸的是,这些算法通常对最终用户不透明。人们不确定自己的哪些行为会被这些算法所考虑,他们的输出也不总是很容易理解。建议和推荐可能是对的,也可能是随机的和荒谬的。通常,这些算法根据不可见的标准对输出进行排序,或者将其分组到不互斥的特别类别中。虽然从算法的角度来看,这些决定是有意义的,但对于外行用户来说,它们往往过于模糊,并且与传统的内容结构化方法背道而驰。

在本文中,我们研究了在Facebook,Instagram,Google新闻,Netflix和Uber驱动程序上与机器学习算法交互时遇到的一些挑战。我们的讨论基于一周的时间日记研究其中14名现有用户用视频记录了他们与这些系统的互动。

黑盒模型

要成功地与任何系统交互,用户必须创建心智模型系统。大多数人不是计算机科学家,并且不知道如何实施软件,但它们可以根据关于软件工件,界面甚至世界甚至世界的先验知识形成体面的心理模型。在许多情况下,它们将系统视为黑匣子,并确定它们如何通过使用可能的输入来改变系统的输出。

对于用户来说,机器学习算法就是这样一种黑盒系统。他们知道算法使用他们的一些动作作为输入,并可以看到输出是什么。为了成功地与算法交互,用户必须形成一个关于算法如何工作的心理模型,并弄清楚如何更改输出以符合他们的需要。创建这种模式有两个大障碍:

  1. 不清楚输入:不清楚将考虑哪些用户操作以产生输出。
  2. 对输出缺乏控制即使人们知道自己的哪些行为被算法视为输入,也不清楚这些输入是否能有效地产生期望的输出。
黑盒是具有多个潜在输入和一个输出的机器学习算法。输入包括点击,比如,观看,保存。用户想知道“我的哪些操作有价值”和“我如何更改输出”?
黑盒模型

我们分别讨论每一个原因。

不清楚输入

输入的不清晰使得创建一个准确的黑盒心理模型变得非常困难。输入状态不明确的原因有以下几个:

  • 算法不透明-它没有明确告诉人们他们的哪些行为是重要的。
  • 用户并不知道所有可能的输入例如,因为它们并不局限于系统或平台内部的操作,而是来自其他行为数据(例如,访问第三方网站)。
  • 在输入和输出之间有一个延迟:某个操作可能不会立即影响用户在同一会话中看到的输出。

在我们研究的机器学习系统中,Netflix在帮助用户理解推荐系统考虑了他们的哪些行为方面做得最好。Netflix的主页(以及主要类别的登录页面)通常是一长串列表;许多这些列表都有标签来解释它们是如何创建的因为你看了《克里斯汀·麦康奈尔的奇妙创作》等等。

Netflix的两个榜单:“因为你看了《克里斯汀·麦康奈尔的奇妙创作》”和“因为你把7月22日加入了你的榜单”
Netflix解释了其推荐系统使用的一些输入。

人们非常欣赏这些类型的建议,不仅因为他们感觉可以控制,还因为他们提供了有关显示内容的有价值的信息。

然而,即使是Netflix也没有完全成功地创造了对用户的行动如何考虑到创建建议的良好理解 - 也是因为这些动作没有立即反映在算法的输出中。例如,一个参与者困惑她最佳选择似乎没有受到她上次用Netflix看的脱口秀节目的影响。她说:“首选改变了——我猜是根据我看的内容,但这和我看的内容无关,没有很多喜剧。”一位Facebook用户花时间在她的新闻推送中隐藏了一则广告,结果却看到同样的广告在页面下方重复出现。另一个人想知道为什么首选和她在Netflix上的观看名单有太多重合:最佳选择——我不知道他们如何得到它们,我相信有一些算法之类的,但我希望它是好一点因为很多东西,我看着年前,或东西,我已经在我的列表或东西,我完全不感兴趣,所以我想,嗯我想知道为什么他们推荐这些东西。”

Facebook和Instagram的用户很难理解他们的哪些行为对他们的新闻推送显示的内容真正重要。他们认为他们在新闻动态中接触的帖子(通过。就像按钮及其相关组件),以决定向它们显示什么内容。但是一些关于可能输入的理论显然是牵强附会的技术神话),反映出算法缺乏透明度。例如,一名用户写道:“这很有趣也很诡异——昨天我还在谈论我平时不吃的越南河粉,现在我看到了越南河粉玉米煎饼的广告;我想知道他们会不会只录下你们的谈话。”一名参与者看到夏威夷航空公司的广告,半开玩笑半认真地说:“也许他们知道我需要休假。”还有一条:“自从我怀孕后,我就收到关于怀孕、婴儿用品和人寿保险的广告。”因此,缺乏透明度的输入让用户怀疑——他们认为,几乎每一个他们的行为(无论是在网上还是在现实世界中)由算法和考虑他们最终相信系统更“恐怖”和侵入性比在现实。人们越来越担心隐私问题,也意识到谷歌和Facebook等公司控制着大量数据,这助长了这种看法。

谷歌News用户普遍对应用程序为他们提供的成功个性化服务感到满意,但他们也不确定它是基于哪种类型的数据。一名参与者表示:“谷歌新闻应用程序似乎迎合了我和我的兴趣……事实上,有三篇文章是关于汽车的,这正是我感兴趣的话题。”如果能知道为你生成页面。它有我当地的故事,所以它显然知道我的位置,这很方便。”

While Uber does not make recommendations per se, it reputedly uses machine learning to predict demand and create incentives for drivers in the form of price surges, promotions, and gamification (for example, Uber drivers can take advantage of ‘quests’ that give them an extra gain when they drive a certain number of rides within a designated timeframe). The Uber algorithm is not based on driver actions per se; instead, its inputs are likely mostly external data such as historical traffic patterns. Yet, even in this case, a clear understanding of the input had some say in whether drivers were persuaded by some of the promotions or not. For example, one driver was notified that he needed to drive 15 minutes to pick up a passenger located at 2.3 miles away and that a premium was possible. He said: “This is an irritating new feature. I think that in the past you used to get only 5 minutes rides [to pick up passengers], but this one says 15 minutes distance and premium is possible. I had that before and it didn’t happen. I am guessing it’s just a way to entice drivers to go a long distance without getting a fare.[…] I don’t like that possible premium.” Not understanding why the premium was offered and what it was based on made the driver suspicious about Uber’s intentions.

对输出缺乏控制

在我们研究的所有系统中,输出不仅取决于用户的行为,还取决于外部事件,如其他人的帖子、新闻故事、新电影发布或流量。各种各样的数据使我们更加难以理解如何控制算法,以及如何将用户自己的操作的影响与第三方操作的影响隔离开来。

当一组相关的项目根据一些自动化预测被确定时,这些项目显示的顺序以及是否显示它们通常是由一个相关性度量:相关性高的项目首先显示,其次是相关性较低的项目。如果相关性低于某个阈值,该项可能根本不会显示。(Netflix以比赛分数的形式明确展示了这个相关性指标。用户对指标本身并没有直接的兴趣——我们研究中的人完全忽略了这个分数)。

有人可能会说,一个好的相关性指标不应该把重要的项目放在列表的低端,但事实是,这些系统只收集了关于用户的零碎信息,用户是复杂的个体,他们的需求不仅取决于过去的习惯,还取决于上下文,甚至是情绪。(例如,一名参与者说:“我希望有一种方法可以隐藏Facebook上所有悲伤的帖子。”有些人可能很感兴趣,但频率很低,所以系统可能无法积累足够的数据来了解他们的相关性。)因此,即使是良好的相关性指标也很可能无法正确预测相关性——至少偶尔如此。

不完美的相关性参数带来了一些问题:

  • 一些感兴趣的项目被遗漏了。(在信息 - 检索条款中,这金额低召回

    忽略一个高相关性的条目可能会给用户带来很大的损失。在Facebook和Instagram这样的网站上,如果你最亲密的朋友错过了一个帖子,可能会导致烦恼,恶化这种体验。事实上,这些网站上的新闻订阅只包含新帖子的一个子集,这对我们的参与者来说是一个主要的麻烦。一名参与者表示:“我需要与算法进行斗争,才能让我想看到的账户出现。”人attempted to steer the algorithm according to their (often incorrect or fragmented) mental model of how the system worked. Some engaged (through the就像按钮)和他们感兴趣的页面的所有帖子,希望说服算法不会再错过这些帖子。的意思就像这样就超越了它最初的字面意义和社会意义(喜欢某物用来表示对内容或海报的欣赏),开始被理解为一种对算法施加某种控制的方式。

    即使是那些认为自己可以操纵算法的人,也常常怀疑其有效性。他们继续直接访问那些他们感兴趣的人或组织的新闻源,以确保他们不会错过内容。

    省略一个高度相关的项目并不总是代价高昂的。例如,在Netflix或Spotify上,有数千项内容可能会引起用户的高度兴趣;省略一个不太可能引起人们的抱怨。

  • 物品的顺序不可预测或容易理解。

    遗漏一个对用户很重要的项目不仅是因为算法没有将其包含在结果列表中,还因为它没有将其包含在列表的足够高的位置。最终,这种担忧与注意力经济有关:如果人们能够将有限数量的注意力投放到新闻或社交媒体上,那么对他们来说很重要的内容可能就会被忽略,因为它们在输出列表上的位置过低。

    我们看到的一些推荐系统,建议的顺序为用户没有意义:人们不理解为什么某一张贴在他们的Facebook饲料之前显示另一个,也不知道为什么之前电影展示了另一个一分之一Netflix旋转木马。

    Facebook、Instagram和谷歌News上一个常见的抱怨是,报道的顺序不是按时间顺序排列的。正因为如此,很难预测你是否看到了一个人的一切,或者你可能错过了一些帖子。同样,对于新闻,参与者担心他们感兴趣的不那么重要的故事(比如一篇与汽车有关的文章)可能会排在长长的列表的首位,这可能会让他们错过最近的普遍感兴趣的新闻。

    在Netflix的情况下,建议构造的ad-hoc类别(例如,因为你看过…,托普(选择)模糊了人们已经形成的领域的自然类别。例如,对于视频内容,一个常见的问题是时间(例如,用户可能知道他们只有1个小时可以看)或节目类型。然而,在netflix创建的类别中,电视节目与完整长度的电影混合在一起,并以无法识别的顺序呈现区分标记,人们没有简单的方法过滤掉它们。

  • 向用户提供一些低利率的推荐.(在信息 - 检索条款中,这金额低精度的.)

    糟糕的建议会让用户付出高昂的代价——这是必须的检查他们,识别它们无关紧要,而且跳过过去他们。然而,在不同类型的系统中,错误建议的成本并不总是相同的。在Netflix的旋转木马列表布局中,一个不好的建议相对容易被忽略——一部无意思的电影不会占用页面太多空间,人们可以轻松地在它周围移动

    Netflix主页
    Netflix:一个不好的建议在列表布局中取得比较小的空间;人们可以很容易地忽略它。

    在Spotify或StichFix(一种服装运输服务)这样的平台上,用户不能忽视一个糟糕的建议——他们不能只是坐着听一首自己不喜欢的歌,或者穿一条不符合自己风格的裤子。Facebook介于两者之间:无关的帖子或广告占据页面空间,需要用户滚动过去。

    Facebook上的巴塔哥尼亚广告
    Facebook上一个无关紧要的广告可能会占据整个视图,比Netflix上一个糟糕的电影建议更需要忽视它。

    忽略一个糟糕建议的代价将决定人们直接对该项目提供反馈的可能性。例如,在Spotify上,他们会与系统进行接触,并对糟糕的歌曲进行评级,这不仅是为了调整算法,也是为了避免自己坐着听完自己不喜欢的歌曲。在Facebook上,我们注意到用户偶尔会与隐藏的广告按钮,但因为它隐藏在菜单下,有些人认为这是不值得这样的。人们专注于喜欢-荷兰国际集团(ing)好的建议。

    Facebook有更多与广告相关的按钮
    Facebook:很少有用户利用这一优势隐藏选项隐藏在更多的按钮。

    推荐内容占用的空间(或处理时间)越多,反馈按钮就应该越突出。如果推荐内容很容易被忽略,那么提供反馈的方法就可以是次要的。

个性化不应该增加用户的努力

我们在上面看到,在用户体验中,最成功的推荐算法能够向用户传达他们所使用的输入的合理心智模型。我们的研究参与者特别喜欢Netflix因为你(看到/添加到列表/等等)……建议列表。

然而,这种方法的问题是相同的项目可能最终推荐多次。例如,包含在a中的电影因为你看列表也可以出现在我的列表或在首选当遇到这些重复的项目时,人们必须花费额外的努力因为,至少,他们必须认识到他们以前见过它们,然后移开。一名用户评论道:“为什么要有各种各样的列表,还要保留副本?我讨厌这些重复的列表。我看了一遍,又看到了以前看到过的东西,这让我很恼火,因为我觉得这是在浪费时间……”

Netflix:同一部电影(“西蒙妮小姐发生了什么?”)出现在了两个频道为你提供的建议和下爵士乐和易于倾听列表。

但重复的努力不限于重复的物品。Netflix承认超出内容个性化并创建个性化(甚至特定于会话)主页的布局个性化封面艺术的视频。

这两种类型的个性化都可以增加交互成本

  • 特定于会话的缩略图、描述和标题

    个性化内容呈现给特定用户的方式能够很好地吸引用户的注意力。我们的研究参与者看到大量的内容,他们快速浏览,浏览缩略图,阅读1-2个单词。一位脸书用户说:“我通常都不会读别人写的东西;一位Netflix用户评论道,“我寻找的是不同的、有趣的东西,封面吸引了我的注意力。”

    在Netflix上,两个不同的用户不仅会看到同一部电影的不同缩略图(如《帝国游戏》),而且同一个用户可能会在两个不同的会话中看到同一部电影的不同缩略图。

    Netflix:同一个用户在不同的会话中看到了电影《查帕奎迪克》的不同缩略图。

    从理论上讲,这种做法可能会增加人们喜欢并观看电影的机会——因为电影的不同方面将在不同的环节中被强调,其中一个方面可能会吸引用户的注意力。不幸的是,这种不一致性也会让电影不那么令人印象深刻,并浪费用户的时间:人们可能会访问电影细节页面并多次检查描述,结果却发现他们仍然不感兴趣,或者已经将该电影添加到观看列表中。

  • 那些布局

    Netflix还根据用户,会话和设备个性化主页的布局。因此,继续看在一个会话中可能会出现在一个用户页面的顶部,或者在下一个会话中出现在页面的较低位置。这个实践是自适应接口和限制的一个例子学习页面布局。因此,更喜欢用检查新增的浏览的用户可能需要主动寻找最近添加的列表,不会在以前的会话中找到该列表。因为Netflix是如此浏览沉重的接口,所以改变了不同建议列表的顺序对我们的用户池没有显着影响;然而,一般而言,这种做法已被证明可以显着降级用户体验。

建议

我们查看了一系列相当有限的系统,这些系统严重依赖于机器学习算法来向用户呈现内容。以下是一些经验教训:

  • 努力创建一个精确的算法心智模型.明确哪些人的行为会对算法的输出有贡献。
  • 给人们易于控制的输出机器学习算法。允许他们以熟悉或自然的方式对输出进行排序或重组。错误建议的成本越高,就越容易向系统提供反馈。
  • 重复内容如果它属于多个类别。
  • 个性化的个人用户然后坚持个性化设计;在会话级别上进行个性化和在每次访问时更改用户下的UI时要谨慎。
  • 选择视觉属性这很有可能吸引用户,因为当人们需要消费大量内容时,它们非常重要。
  • 承载的描述以及支持大量数据扫描的标题。

遵循这6条UX指导原则将增加AI超越花哨技术,积极支持用户并提高他们对体验质量的满意度的可能性