当代网站关注外部搜索引擎的优化,如谷歌、百度和Yandex。虽然搜索引擎优化(SEO)对于吸引访问者访问您的网站来说非常重要,但是内置的搜索经常被忽视。用户通过网站搜索找到产品、内容和其他关键资产;未能提供良好的搜索体验可能会导致失败转换,销售,最终是客户。

有一些标准做法可用于加强您的网站搜索。在讨论它们之前,我们定义了两个用于评估搜索引擎性能的关键信息检索术语:精确性和召回率。这些可以帮助您更好地理解以下技术的含义和优缺点。

搜索性能的两个指标:精确度和召回率

  • 精确百分比是多少检索到相关的搜索结果.
  • 回忆所有相关结果的百分比搜索系统实际检索的.

想象一下,在一个食谱网站上,我们有1000个食谱,其中300个是印度菜。假设我们搜索印度菜时,在搜索结果页面上会得到500个结果。在这500个搜索结果中,只有100个是真正的印度菜;剩下的400份实际上是非印度食谱,与我们的搜索无关。这意味着精确是100/500或20%的回忆起将是100/300或33%,因为搜索引擎在网站上只找到了300份印度食谱中的100份,这意味着200份印度食谱根本没有出现在我们的搜索结果页面上。一个完美的搜索引擎只会给我们总共300个结果,相当于网站上提供的300个印度食谱,因此它的准确率和召回率将达到300/300或100%。然而,在现实世界中,这种情况很少发生。下面我们讨论的不同技术在精确性和召回率之间进行权衡,反之亦然,因此理解概念上的差异很重要。

最初的谷歌团队的一个伟大见解是,对于大多数网络搜索来说,精确性比回忆更重要:互联网上的信息如此之多,以至于没有人会去了解希望查看所有相关结果。对于网络搜索来说,更重要的是专注于高精确度:确保所有的前10个点击都尽可能与用户当前的问题高度相关。

相比之下,对于单个网站或内部网的内部搜索,召回可能非常重要。例如,如果您搜索一家工程公司的内部网,以获取该公司过去咨询过的所有悬索桥的信息,那么很不幸会错过一两座桥,并将其排除在外参考文献新桥梁方案的一部分。或者,在电子商务网站上,如果搜索遗漏了相关产品,客户会认为该网站没有提供该产品,然后去其他地方购买。

改进网站搜索的7个技巧

1.手动改善常见查询的结果

许多可以与网站和内部网集成的典型商业搜索引擎都提供了手动改进常见搜索查询的功能。为了更好地利用这些特性,您需要定期检查搜索日志,并评估站点搜索对频繁用户查询返回的结果。当相关性算法无法返回您认为高度相关的项时,您可以手动指示这些项,并将它们显示到某些查询的搜索结果列表的顶部。然而,在呈现结果时,要谨慎地将手动推广的项目划分为“推广”或“最佳选择”列表,因为用户经常忽略这些,就像他们忽略了网络搜索引擎上的点击付费广告一样。相反,只需将手动点击与搜索引擎生成的点击进行集成,并向用户提供一个列表。

2.提供搜索建议

搜索词建议(也称为预测搜索)是指当用户输入时,在搜索框的正下方显示建议的查询。但是,搜索日志中未编辑的常见查询列表将不会有帮助。请记住,用户查询可能会产生误导、不恰当,或者包含没有结果的条款。相反,建议策划检索有用结果的查询术语。这些建议可以基于您的搜索日志或您的内容的描述性元数据(在我们的全天中有更多关于这方面的内容)信息架构研讨会).突出显示那些与输入查询匹配的建议查询术语也很重要,这样用户就可以轻松识别相似性(例如,如果输入的单词出现在建议查询的中间)。

Ebay使用粗体表示搜索建议
Ebay使用粗体表示用户输入的查询与查询建议之间的关系。

在电子商务网站上,预测框也应显示产品结果用照片帮助用户快速评估产品。(有关电子商务搜索的更多信息和额外指南,请参阅我们的报告电子商务用户体验:搜索.)

对于内部网来说,最有影响力的指导方针之一有着巨大的影响力ROI正在实施员工搜索建议:匹配员工姓名的查询显示用户输入的联系信息、照片和到员工特定页面的链接。将员工联系方式呈现为“零点击”结果(用户甚至不需要点击搜索结果就能找到他们想要的信息)可以节省大量员工时间和公司资金。(有关更多特定于内部网的注意事项,请参阅我们的内联网搜索指南报告.)

3.识别同义词和替代术语

用户通常不会提出完美的查询。也许他们不知道合适的短语或短语行业术语,或者也许他们还不清楚自己要找的是什么,于是开始使用模糊的搜索词。

百思买的搜索不允许使用同义词
在BestBuy.com上搜索“soundbar cable”会找到大量的soundbar,但没有找到将soundbar插入电视所需的实际电缆。BestBuy的搜索引擎只提供该电缆的技术名称“optical cable”,而没有帮助那些不是AV专家的用户。这种缺乏灵活性的情况可能会将用户送到具有更方便的网站搜索的竞争对手那里。

您的网站搜索应该适应现实的用户同义词和替代术语,尤其是如果您的内容是行话较多、行业特定或技术性的。记住,你的用户可能不知道办公室里每个人每天使用的精心编制的行话。查看搜索日志,查找内容中当前没有的同义词。然后,您可以在搜索引擎中创建同义词表,其中用户搜索术语映射到现有术语,并返回相应的结果。

4.使用词干分析适应不同的单词形式

下面是另一个常见场景:假设您在网站上搜索“营销自动化”一词。如果作者只使用诸如“自动营销解决方案”之类的术语,你的搜索将不会有任何结果,即使网站上的许多相关文章确实符合你的信息需求(但不符合你的确切查询)。你可能会认为该网站没有任何相关内容而离开。

这个问题可以通过使用一个名为steming.steming的过程来避免指去掉单词的词尾(如后缀),并将它们还原为它们的形态“词干”。例如,在英语中,单词减少,减少,减少都会被阻止吗增加. 如果搜索引擎使用词干分析,则搜索减少还将返回包含单词的结果减少.

许多商业搜索产品都有词干提取功能(比如黄金标准)波特抽梗机)。默认情况下,此功能通常未启用;启用此功能很容易,因此可以降低搜索成本。

虽然词干提取法可以提高召回率,但它也会由于返回不相关但恰好包含查询词的词干的结果而降低精度。例如,搜索“university”也可能返回“universal”,因为这两个词有相同的词干。通过分析搜索日志,检查有多少用户搜索词是你网站上使用的词的变体,来判断词干提取是否适合你的网站。

5.优雅地处理拼写错误

打字和拼写错误非常普遍,这就是为什么所有大型搜索引擎都提供一种形式的搜索你的意思是拼写更正。尽管拼写建议被认为是至关重要的,但许多网站搜索系统并不支持它们。尤其是当你的内容包含很多复杂的行话时(比如B2B网站),拼写建议是帮助你的用户找到他们需要的东西的关键。查询建议通常会帮助用户调整拼写错误虽然他们正在键入查询。然而,有时用户会继续进行拼写错误的查询,您需要通过提供你的意思是链接

如果原始查询没有任何结果,那么最好也继续并自动检索备选拼写建议的结果,而不需要用户单击你的意思是链接只需确保清楚您检索到的结果是用户拼写的变化

谷歌表示何时显示了拼写建议的结果
谷歌指出它何时选择检索用户查询的另一种拼写,并给出一个明确的选项,强制使用原始拼写进行搜索。

6.支持同音词

有时用户可能会输入一个同音字而不是他们真正想说的词。(同音异义词是发音相同,但拼写不同的词,比如“peace”和“piece”,或者“Stuart”和“Stewart”。)对于这些情况,Soundex是一个有用的工具,它是一种用于查找发音相似但拼写不同的单词的算法。Soundex将搜索词(以及来自索引内容的单词)转换为语音表示,并使您的站点搜索能够检索与查询词拼写完全不同但发音相同的结果。Soundex可以广泛使用,可以帮助搜索专有名称、术语、外语词等。它甚至内置到PHP等编程语言和MySQL数据库中,因此开发团队将其集成到搜索引擎中相对容易。

拼写建议和同音异义词的使用都提高了召回率,但它们可能会降低精度,因为返回的结果可能不相关,但碰巧听起来像查询词。

7.忽略停止语

即使是网络上最好的写作内容,大部分的文字也是如此停止词。停止词包括冠词(“a”、“the”)、介词(“of”、“for”)或连词(“but”、“and”)等虚词,但也包括出现在大多数文档中的其他高频词(“be”、“seem”),它们中的任何一个都不太可能与众不同。这些词会对搜索相关性产生负面影响。

处理这个问题最简单的方法就是让你网站的搜索引擎使用一个排除列表停止词,在用户的查询中被忽略。如果你的搜索引擎没有做很多复杂的语言建模来确定相关性排名,从用户的查询中删除停止词可以有两个好处:(1)它可以加快搜索性能,(2)它可以帮助抑制包含这些常见词的不相关结果。大多数语言都可以使用stop-word列表,但在使用之前,一定要确保它没有包含任何在你的行业或网站上非常重要的术语。

忽略停止词会提高准确率,但会降低召回率,特别是在边缘情况下,如著名的“未来”或“未来”,这是由完全是停止词。但是,如果您的搜索引擎已经完成了复杂的短语匹配和自然语言处理(就像谷歌做的那样),那么就做吧排除停止词,因为它们提供了可以改进搜索结果的附加上下文。

总结

虽然主要的网络搜索引擎变得越来越复杂,但许多网站的内置搜索一直被忽视。词干提取(排除停止词)、显示经过策划的查询建议以及使用同音异义词和拼写建议都可以修改搜索查询以适应这些情况用户错误或者解决单词选择中可能出现的变化,并且可以在不需要重大开发投资的情况下提高搜索结果的质量或数量。

参考文献

Dan Jurafsky,“斯坦福自然语言处理:单词规范化和词干分析”(链接)

W.Bruce Croft、Donald Metzler、Trevor Strohman、,搜索引擎:实践中的信息检索, addison - wesley, 2010。