当代网站专注于外部搜索引擎的优化,如谷歌,百度和Yandex。虽然搜索引擎优化(SEO)对把访问者带到你的网站是很重要的,但质量内置的搜索常常被忽视。用户确实参与了网站搜索,以找到产品、内容和其他关键资产;不能提供良好的搜索体验可能会失败转换,销售,最终是客户。

有一些标准的实践可以用来加强你的网站搜索。在讨论它们之前,我们定义两个用于评估搜索引擎性能的关键信息检索术语:精确度和召回率。这些可以帮助您更好地理解以下技术的含义和权衡。

搜索性能的两个指标:精确度和召回率

  • 精度检索相关的搜索结果
  • 回忆所有相关结果的百分比搜索系统实际检索到的信息

想象一下,在一个食谱网站上,我们有1000个食谱,其中300个是印度菜。假设当我们搜索印度菜时,我们在搜索结果页面上得到500个结果。在这500个搜索结果中,只有100个是印度菜;剩下的400个其实不是印度食谱,和我们的搜索没有关系。这意味着精度是100/500或20%的回忆将是100/300或33%,因为搜索引擎只找到了网站上300种印度食谱中的100种,这意味着200种印度食谱根本没有出现在我们的搜索结果页面上。一个完美的搜索引擎总共只会给我们300个结果,对应于网站上的300个印度食谱,所以它会有300/300或100%的精确度和召回率。然而,在现实世界中,这种情况很少发生。下面我们讨论的不同的技术会在精确和回忆之间做出取舍,反之亦然,所以理解概念上的差异是很重要的。

最初的谷歌团队的一个伟大的见解是,对于大多数网络搜索来说,精确度比回忆更重要:在互联网上有如此多的信息,甚至没有人会想要查看所有相关结果。对于网络搜索来说,更重要的是专注于高精确度:确保所有的前10个点击都尽可能与用户当前的问题高度相关。

相比之下,对于单个网站或内部网的内部搜索,召回可能相当重要。例如,如果你在一家工程公司的内部网中搜索有关该公司过去咨询过的所有悬索桥的信息,就会不幸地错过一两座桥,将它们排除在搜索结果之外参考文献新桥计划的一部分。或者,在一个电子商务网站,如果搜索丢失了一个相关的产品,客户会认为该网站没有提供该产品,然后去其他地方购买。

改进网站搜索的7个技巧

1.手动改善常见查询的结果

许多可以与网站和内部网集成的典型商业搜索引擎都提供了手动改进常见搜索查询的功能。为了更好地利用这些特性,您需要定期检查搜索日志,并评估站点搜索对频繁用户查询返回的结果。当相关性算法无法返回您认为高度相关的项时,您可以手动指示这些项,并将它们显示到某些查询的搜索结果列表的顶部。然而,在呈现结果时,要谨慎地将手动推广的项目划分为“推广”或“最佳选择”列表,因为用户经常会忽略这些比如他们会忽略网络搜索引擎上的点击付费广告。相反,只需将手动点击与搜索引擎生成的点击整合在一起,并向用户呈现一个列表。

2.提供搜索建议

搜索词建议(也称为预测搜索)是指当用户输入时,在搜索框的正下方显示建议的查询。但是,搜索日志中未编辑的常见查询列表将不会有帮助。请记住,用户查询可能会产生误导、不恰当,或者包含没有结果的条款。相反,建议策划检索有用结果的查询条件。建议可以基于您的搜索日志或您的内容的描述性元数据(在我们的全天信息架构研讨会).突出显示那些与输入查询匹配的建议查询术语也很重要,这样用户就可以轻松识别相似性(例如,如果输入的单词出现在建议查询的中间)。

Ebay使用粗体表示搜索建议
Ebay使用粗体表示用户输入的查询与查询建议之间的关系。

在电子商务网站,预测框也应该显示出来产品结果用照片帮助用户快速评估产品。(有关电子商务搜索的更多信息和额外指南,请参阅我们的报告电子商务用户体验:搜索.)

对于内部网来说,最有影响力的指导方针之一有着巨大的影响力ROI正在实施员工搜索建议:匹配员工姓名的查询显示用户输入的联系信息、照片和到员工特定页面的链接。将员工联系方式呈现为“零点击”结果(用户甚至不需要点击搜索结果就能找到他们想要的信息)可以节省大量员工时间和公司资金。(有关更多特定于内部网的注意事项,请参阅我们的内联网搜寻指引及报告.)

3.识别同义词和替代术语

用户通常不会制定完美的查询。也许他们不知道合适的短语或者行业术语,或者也许他们还不清楚自己要找的是什么,于是开始使用模糊的搜索词。

百思买的搜索不允许有同义词
在BestBuy.com上搜索“音箱电缆”会找到大量的条形音频,但找不到与实际连接电视所需的条形音频匹配的音频。百思买的搜索引擎只提供了这种电缆的技术名称“光缆”,对非AV专家的用户没有帮助。这种灵活性的缺乏可能会让用户选择更具适应性的网站搜索。

你的网站搜索应该适应真实的用户同义词和替代的术语,特别是当你的内容是专业术语,行业特定的,或技术性的。请记住,您的用户可能不知道您办公室里每个人日常使用的精心制作的行话。查看您的搜索日志,并查找当前内容中没有的同义词。然后,您可以在搜索引擎中创建同义词表,用户搜索术语映射到返回适当结果的现有术语。

4.根据词干调整不同的单词形式

下面是另一个常见的场景:假设您在一个网站上搜索术语“营销自动化”。如果作者只使用诸如“自动化营销解决方案”这样的术语,你的搜索将不会有任何结果,即使网站上的许多相关文章确实符合你的信息需求(但不符合你的确切查询)。你可能会认为这个网站没有任何相关的内容,然后离开。

这个问题可以通过使用一个称为词干处理的进程来避免。阻止指去掉单词的词尾(如后缀),并将它们还原为它们的形态“词干”。例如,在英语中,单词减少减少,减少所有的一切都会被阻止吗增加.如果搜索引擎使用词干提取法,搜索减少也将返回包含单词的结果减少

许多商业搜索产品都有词干提取功能(比如黄金标准)波特抽梗机).默认情况下,这个特性通常是不启用的;打开它很容易,因此是一个低成本的搜索改进。

虽然词干提取法可以提高召回率,但它也会由于返回不相关但恰好包含查询词的词干的结果而降低精度。例如,搜索“university”也可能返回“universal”,因为这两个词有相同的词干。通过分析搜索日志,检查有多少用户搜索词是你网站上使用的词的变体,来判断词干提取是否适合你的网站。

5.优雅地处理拼写错误

打字和拼写错误非常普遍,这就是为什么所有大型搜索引擎都提供一种形式的搜索你的意思是拼写纠正。尽管拼写建议被认为是非常重要的,但许多站点搜索系统并不支持它们。特别是当你的内容包含很多复杂的术语时(比如B2B网站),拼写建议是帮助用户找到他们需要的内容的关键。查询建议通常会帮助用户调整拼写错误他们正在输入查询。然而,有时用户会遇到拼写错误的查询,您需要优雅地处理搜索结果页面上的问题,方法是提供一个你的意思是链接。

如果原始查询没有任何结果,还可以继续执行并自动检索替代拼写建议的结果,而不需要用户单击你的意思是链接。只是要确保您检索的结果是用户拼写的变化

谷歌表示何时显示了拼写建议的结果
谷歌指示何时选择为用户的查询检索替代拼写,并提供一个明确的选项来强制使用原始拼写进行搜索。

6.支持同音异形异义词

有时用户可能会输入一个同音字而不是他们真正想说的词。(同音异义词是发音相同,但拼写不同的词,比如“peace”和“piece”,或者“Stuart”和“Stewart”。)对于这些情况,Soundex是一个有用的工具,它是一种用于查找发音相似但拼写不同的单词的算法。Soundex将搜索词(以及来自索引内容的单词)转换为语音表示,并使您的站点搜索能够检索与查询词拼写完全不同但发音相同的结果。Soundex可以广泛使用,可以帮助搜索专有名称、术语、外语词等。它甚至内置到PHP等编程语言和MySQL数据库中,因此开发团队将其集成到搜索引擎中相对容易。

拼写建议和同音异义词的使用都提高了召回率,但它们可能会降低精度,因为返回的结果可能不相关,但碰巧听起来像查询词。

7.忽略停止的话

即使是网络上最好的写作内容,大部分的文字也是如此停止词。停止词包括功能词,如冠词(“a”,“the”),介词(“of”,“for”)或连词(“but”,“and”),但也包括其他高频词(“be”,“seem”),它们出现在大多数文档中,不太可能有任何区别。这些词会对搜索相关性产生负面影响。

处理这个问题最简单的方法就是让你网站的搜索引擎使用一个排除列表停止词,在用户的查询中被忽略。如果你的搜索引擎没有做很多复杂的语言建模来确定相关性排名,从用户的查询中删除停止词可以有两个好处:(1)它可以加快搜索性能,(2)它可以帮助抑制包含这些常见词的不相关结果。大多数语言都可以使用stop-word列表,但在使用之前,一定要确保它没有包含任何在你的行业或网站上非常重要的术语。

忽略停顿词会提高精确度,但会降低召回率,特别是在边缘情况下,比如著名的“生存还是毁灭”的例子完全的停止词。但是,如果您的搜索引擎已经完成了复杂的短语匹配和自然语言处理(就像谷歌做的那样),那么就做吧排除停止词,因为它们提供了额外的上下文,可以改善搜索结果。

总结

虽然主要的网络搜索引擎变得越来越复杂,但许多网站的内置搜索一直被忽视。词干提取(排除停止词)、显示经过策划的查询建议以及使用同音异义词和拼写建议都可以修改搜索查询以适应这些情况用户错误或者解决在词汇选择上可能出现的差异,并可能在不需要重大开发投资的情况下提高搜索结果的质量或数量。

参考文献

Dan Jurafsky,《斯坦福自然语言处理:词的规范化和词干提取》(链接)

布鲁斯·克罗夫特,唐纳德·梅茨勒,特雷弗·斯特罗曼,搜索引擎:实践中的信息检索, addison - wesley, 2010。