当前未编入索引:覆盖率状态指南

谷歌的索引覆盖率报告非常棒,因为它让谷歌搜索引擎优化人员更清楚地了解谷歌的抓取和索引决策。自推出以来,我们在 Go Fish Digital 几乎每天都使用它来为我们的客户大规模诊断技术问题。

在报告中,有许多不同的“状态”可以为网站管理员提供有关 Google 如何处理其网站内容的信息。虽然许多状态提供了一些关于 Google 的抓取和索引决策的上下文,但仍然不清楚:“已抓取 – 当前未编入索引”。

自从看到报告的“已爬网 — 目前未编入索引”状态后,我们就收到了一些网站所有者的来信,询问其含义。在代理机构工作的好处之一是能够掌握大量数据,并且因为我们已经在多个帐户中看到了这条消息,所以我们已经开始从报告的 URL 中了解趋势。

谷歌的定义

让我们从官方定义开始。根据 Google 的官方文档,此状态表示:“该页面已被 Google 抓取,但未被编入索引。将来可能会或可能不会被索引;无需重新提交此 URL 进行抓取。”

所以,基本上我们知道的是:

  • Google 能够访问该页面
  • Google 花了一些时间来抓取该页面
  • 爬取后,谷歌决定不收录

理解这种状态的关键是想一想为什么谷歌会“有意识地”决定不索引化。我们知道 Google 在查找该页面时没有遇到问题,但出于某种原因,它认为用户不会从查找中受益。

这可能非常令人沮丧,因为您可能不知道为什么您的内容没有被编入索引。下面我将详细说明我们的团队发现的一些最常见原因,以解释为什么这种神秘状态可能会影响您的网站。

1.误报

优先级:低

我们的第一步是始终对“已爬网 – 当前未编入索引”部分中标记的 URL 进行一些抽查以进行索引。发现被报告为已排除的 URL 但最终却在 Google 的索引中的情况并不少见。

例如,这是一个在我们网站的报告中被标记的 URL:https://gofishdigital.com/meetup/

但是,当使用站点搜索运算符时,我们可以看到该 URL 实际上包含在 Google 的索引中。您可以通过在 URL 前附加文本“site:”来实现。

如果您看到在这种状态下报告的 URL,我建议首先使用网站搜索运算符来确定该 URL 是否已编入索引。有时,这些结果是误报。

解决方案:什么都不做!你很厉害。

2. RSS 提要 URL

优先级:低

这是我们看到的最常见的例子之一。如果您的站点使用 RSS 提要,您可能会发现 URL 出现在 Google 的“已抓取 — 当前未编入索引”报告中。很多时候,这些 URL 的末尾都会附加“/feed/”字符串。它们可以像这样出现在报告中:

Google 发现这些从主页链接的 RSS 提要 URL。它们通常会链接到使用“rel=alternate”元素。Yoast 等 WordPress 插件可以自动生成这些 URL。

解决方案:什么都不做!你很厉害。

谷歌可能有选择地选择不索引这些 URL,这是有充分理由的。如果导航到 RSS 提要 URL,您将看到如下所示的 XML 文档:

虽然此 XML 文档对 RSS 提要很有用,但 Google 没有必要将其包含在索引中。这将提供非常糟糕的体验,因为内容不是为用户准备的。

3.分页网址

优先级:低

“已爬网 – 当前未编入索引”排除的另一个极其常见的原因是分页。我们经常会看到大量分页 URL 出现在该报告中。在这里我们可以看到一些来自一个非常大的电子商务网站的分页 URL:

解决方案:什么都不做!你很厉害。

Google 需要抓取分页 URL 才能完整抓取网站。这是它通往内容的途径,例如更深层次的类别页面或产品描述页面。然而,虽然谷歌使用分页作为访问内容的途径,但它不一定需要自己索引分页 URL。

如果有的话,请确保您没有做任何事情来影响单个分页的抓取。确保您的所有分页都包含一个自我引用的规范标签,并且没有任何“nofollow”标签。此分页充当 Google 抓取您网站上其他关键页面的途径,因此您肯定希望 Google 继续抓取它。

4、过期产品

优先级:中

在对报告中列出的各个页面进行抽查时,我们在客户中看到的一个常见问题是 URL 中包含注明“已过期”或“缺货”产品的文本。尤其是在电子商务网站上,谷歌似乎会检查特定产品的可用性。如果它确定某个产品不可用,则会继续将该产品从索引中排除。从用户体验的角度来看,这是有道理的,因为谷歌可能不想在索引中包含用户无法购买的内容。

但是,如果这些产品实际上在您的网站上可用,这可能会导致错失很多谷歌 SEO 机会。通过从索引中排除页面,您的内容根本没有机会排名。

此外,Google 不仅仅检查页面上可见的内容。在某些情况下,我们在可见内容中没有发现该产品不可用的迹象。但是,在检查结构化数据时,我们可以看到“availability”属性设置为“OutOfStock”。

谷歌似乎正在从可见内容和结构化数据中获取有关特定产品可用性的线索。因此,检查内容和架构很重要。

解决方案:检查您的库存可用性。

如果您发现此报告中列出了实际可用的产品,您需要检查所有可能被错误地列为不可用的产品。对您的网站进行爬网,并使用 Screaming Frog 等自定义提取工具从您的产品页面中抓取数据。

例如,如果您想按比例查看架构设置为“OutOfStock”的所有 URL,您可以将“Regex”设置为:“availability”:“

这: “class=”redactor-autoparser-object”>http://schema.org/OutOfStock” 应该自动抓取所有具有此属性的 URL:

您可以使用 Excel 或商业智能工具导出此列表并与库存数据进行交叉引用。这应该可以让您快速找到网站上的结构化数据与实际可用产品之间的差异。可以重复相同的过程来查找您的可见内容表明产品已过期的实例。

5. 301重定向

优先级:中

我们看到出现在这种状态下的一个有趣示例是重定向页面的目标 URL。通常,我们会看到 Google 正在抓取目标 URL 但未将其包含在索引中。然而,在查看 SERP 时,我们发现 Google 正在索引一个重定向 URL。由于重定向 URL 是已编入索引的 URL,因此目标 URL 会被放入“已抓取 – 当前未编入索引”报告中。

这里的问题是谷歌可能还没有识别重定向。结果,它将目标 URL 视为“重复”,因为它仍在索引重定向 URL。

解决方案:创建一个临时的 sitemap.xml。

如果这种情况发生在大量 URL 上,则值得采取措施向 Google 发送更强的整合信号。此问题可能表明 Google 没有及时识别您的重定向,从而导致未整合的内容信号。

一种选择可能是设置“临时站点地图”。这是一个站点地图,您可以创建它来加快抓取这些重定向的 URL。这是 John Mueller 之前推荐的策略。

要创建一个,您需要对您过去创建的重定向进行反向工程:

  • 从“已爬网 – 当前未编入索引”报告中导出所有 URL。
  • 在 Excel 中将它们与之前设置的重定向相匹配。
  • 在“Crawled — currently not indexed”桶中找到所有具有目标 URL 的重定向。
  • 使用 Screaming Frog 创建这些 URL 的静态 sitemap.xml。 
  • 上传站点地图并监控 Search Console 中的“已抓取 – 当前未编入索引”报告。

此处的目标是让 Google 比其他方式更频繁地抓取临时 sitemap.xml 中的 URL。这将导致更快地合并这些重定向。

6.内容薄

优先级:中

有时我们会看到此报告中包含的 URL 内容非常少。这些页面可能已正确设置所有技术元素,甚至可能有正确的内部链接,但是,当 Google 遇到这些 URL 时,页面上的实际内容很少。下面是一个产品类别页面的示例,其中只有很少的唯一文本:

此产品列表页面被标记为“已抓取 – 目前未编入索引”。这可能是由于页面上的内容非常少。

此页面可能太薄以至于 Google 认为它没有用,或者内容太少以至于 Google 认为它与另一个页面重复。结果是谷歌从索引中删除了内容。

这是另一个示例:Google 能够抓取 Go Fish Digital 网站上的推荐组件页面(如上所示)。虽然此内容是我们网站独有的,但 Google 可能不认为单句推荐书应该单独作为可索引页面。

由于质量不佳,谷歌再次做出行政决定,将该页面从索引中排除。

解决方案:添加更多内容或调整索引信号。

接下来的步骤将取决于索引这些页面对您的重要性。

如果您认为该页面绝对应该包含在索引中,请考虑添加其他内容。这将有助于 Google 将该页面视为为用户提供更好的体验。 

如果您正在查找的内容不需要索引,那么更大的问题就是您是否应该采取额外的步骤来强烈表明该内容不应被索引。“已抓取——目前未编入索引”报告表明该内容有资格出现在谷歌的索引中,但谷歌选择不包括它。

也可能有其他低质量的页面,谷歌没有应用这个逻辑。您可以执行一般的“站点:”搜索以查找符合与上述示例相同标准的索引内容。如果您发现大量此类页面出现在索引中,您可能需要考虑采取更强有力的措施来确保将这些页面从索引中删除,例如“noindex”标签、404 错误,或将它们从您的网站中删除内部链接结构完整。

7.重复内容

优先级:高

在对大量客户端评估此排除时,这是我们见过的最高优先级。如果 Google 认为您的内容重复,它可能会抓取该内容但选择不将其包含在索引中。这是 Google 避免 SERP 重复的方法之一。通过从索引中删除重复内容,Google 确保用户可以与更多种类的独特页面进行交互。有时报告会将这些 URL 标记为“重复”状态(“重复,谷歌选择了与用户不同的规范”)。然而,这并非总是如此。

这是一个高度优先的问题,尤其是在许多电子商务网站上。产品描述页面等关键页面通常包含与 Web 上的许多其他结果相同或相似的产品描述。如果 Google 认为这些页面与内部或外部的其他页面过于相似,则可能会将它们一起从索引中排除。

解决方案:在重复的内容中添加独特的元素。

如果您认为这种情况适用于您的网站,请按以下方式进行测试:

  • 截取潜在的重复文本并将其粘贴到 Google 中。
  • 在 SERP URL 中,将以下字符串附加到末尾:“&num=100”。这将显示前 100 个结果。
  • 使用浏览器的“查找”功能查看您的结果是否出现在前 100 个结果中。如果没有,您的结果可能会被从索引中过滤掉。
  • 返回 SERP URL 并将以下字符串附加到末尾:“&filter=0”。这应该会向您显示 Google 的未过滤结果(感谢 Patrick Stox 提供的提示)。
  • 使用“查找”功能搜索您的网址。如果您看到您的页面现在出现,这很好地表明您的内容已从索引中过滤掉。
  • 对您在“已抓取 — 当前未编入索引”报告中看到的可能具有重复或非常相似内容的几个 URL 重复此过程。

如果您经常看到自己的 URL 从索引中被过滤掉,则需要采取措施使您的内容更加独特。

虽然实现这一目标没有放之四海而皆准的标准,但这里有一些选择:

  • 重写内容,使其在高优先级页面上更加独特。
  • 使用动态属性自动将独特的内容注入页面。
  • 删除大量不必要的样板文件内容。模板化文本多于唯一文本的页面可能会被视为重复页面。
  • 如果您的站点依赖于用户生成的内容,请告知贡献者所有提供的内容都应该是唯一的。这可能有助于防止贡献者跨多个页面或域使用相同内容的情况。

8. 面向隐私的内容

优先级:高

在某些情况下,Google 的抓取工具会访问它们不应访问的内容。如果 Google 正在寻找开发环境,它可能会在此报告中包含这些 URL。我们甚至看到过 Google 抓取为 JIRA 票证设置的特定客户端子域的示例。这导致了网站的爆炸式爬行,它专注于不应考虑索引的 URL。

这里的问题是谷歌对网站的抓取没有重点,它花时间抓取(并可能索引)不适合搜索者的 URL。这可能会对网站的抓取预算产生巨大影响。

解决方案:调整您的抓取和索引计划。

该解决方案将完全取决于具体情况以及 Google 能够访问的内容。通常,您要做的第一件事是确定 Google 如何能够发现这些面向私人的 URL,尤其是通过您的内部链接结构时。

从您的主要子域的主页开始爬行,看看是否有任何不需要的子域可以通过标准爬行被 Screaming Frog 访问。如果是这样,可以肯定地说 Googlebot 可能会找到那些完全相同的路径。您需要删除指向此内容的所有内部链接以切断 Google 的访问权限。

下一步是检查应排除的 URL 的索引状态。谷歌是否充分将它们全部排除在索引之外,或者是否有一些被索引?如果 Google 没有将大量此类内容编入索引,您可以考虑调整您的 robots.txt 文件以立即阻止抓取。如果没有,“noindex”标签、规范和受密码保护的页面都在桌面上。

案例研究:复制用户生成的内容

对于真实世界的示例,这是我们在客户端站点上诊断问题的实例。这个客户端类似于电子商务网站,因为他们的很多内容都是由产品描述页面组成的。但是,这些产品描述页面都是用户生成的内容。

本质上,允许第三方在此站点上创建列表。然而,第三方经常在他们的页面上添加非常简短的描述,导致内容稀少。经常出现的问题是这些用户生成的产品描述页面被捕获在“已抓取 – 当前未编入索引”报告中。这导致错过了谷歌 SEO 机会,因为能够产生有机流量的页面被完全排除在索引之外。

在执行上述过程时,我们发现客户的产品描述页面在独特内容方面非常单薄。被排除的页面似乎只有一段或更少的独特文本。此外,大部分页面内容是存在于所有这些页面类型中的模板化文本。由于页面上的独特内容非常少,模板化内容可能导致 Google 将这些页面视为重复页面。结果是谷歌将这些页面从索引中排除,理由是“已抓取——目前未编入索引”状态。

为了解决这些问题,我们与客户一起确定哪些模板化内容不需要存在于每个产品描述页面上。我们能够从数千个 URL 中删除不必要的模板化内容。随着 Google 开始将每个页面视为更独特的页面,这导致“已抓取 – 当前未编入索引”的页面显着减少。

结论

希望这有助于搜索营销人员更好地理解索引覆盖率报告中神秘的“已爬网 – 当前未编入索引”状态。当然,Google 选择这样对 URL 进行分类可能还有很多其他原因,但这些是我们迄今为止在客户中看到的最常见的情况。

总的来说,索引覆盖率报告是 Search Console 中最强大的工具之一。我强烈建议搜索营销人员熟悉数据和报告,因为我们经常会发现次优的爬网和索引行为,尤其是在大型网站上。如果您在“已爬网 — 当前未编入索引”报告中看到其他 URL 示例,请在评论中告诉我!

发表评论

立即获取出海数字营销方案

请输入您的资料

你也可以直接右下角客服直接跟我们联系
=

请输入您的资料

seo
你也可以直接右下角客服直接跟我们联系
=

request a quote