爬网预算

日期 2022-10-18
09:25
谷歌SEO

在今天的 Whiteboard Friday 一集中，Tom 介绍了一个更高级的 google SEO 概念：抓取预算。Google 愿意花在抓取您网站上的时间是有限的，因此，如果您在索引编制方面遇到问题，那么您应该关注这个话题。

单击上面的白板图像以在新选项卡中打开更大的版本！

视频转录

Moz 粉丝们，星期五快乐，今天的主题是抓取预算。我认为值得一提的是，这是一个更高级的主题，或者主要适用于大型网站的主题。我认为即使不是你，你仍然可以从谷歌搜索引擎优化理论方面学到很多东西，当你查看你可能采用的一些策略或你可能采用的一些诊断时抓取预算。

但是在 Google 自己的文档中，他们建议如果您每天更新的页面超过一百万或超过 10,000 个页面，您应该关心抓取预算。我认为这些显然是一种硬性或任意的阈值。我想说，如果您的网站被编入索引时遇到问题，并且您的网站上有一些页面没有进入您想要的索引，或者如果您的页面没有足够快地被编入索引，那么在在这些情况下，抓取预算是您应该关心的问题。

什么是抓取预算？

那么实际上什么是抓取预算？抓取预算是指 Google 愿意花在抓取给定网站上的时间。虽然看起来谷歌有点无所不能，但他们的资源有限，而且网络广阔。因此，他们必须以某种方式确定优先级并分配一定的时间或资源来抓取给定的网站。

现在他们的优先级基于——或者他们说他们基于网站在用户中的受欢迎程度和内容的新鲜度来进行优先级排序，因为 Googlebot 有点渴望新的、从未见过的 URL。

我们不会在此视频中真正讨论如何增加抓取预算。我们将专注于如何充分利用您拥有的抓取预算，这通常是一个更容易拉动的杠杆。

抓取预算问题的原因

那么抓取预算问题实际上是如何产生的呢？

刻面

现在我认为网站上可能导致抓取预算问题的主要问题首先是方面。

所以你可以想象在一个电子商务网站上，想象我们有一个笔记本电脑页面。我们也许可以按大小过滤。你有一个 15 英寸的屏幕和 16 GB 的 RAM。那里可能有很多不同的排列，可能会导致大量的 URL，而实际上我们只有一个页面或一个类别，因为我们认为它 – 笔记本电脑页面。

类似地，然后可以重新排序这些 URL，以创建执行完全相同但必须单独抓取的其他 URL。同样，它们的排序方式也可能不同。可能有分页等等。因此，您可以让一个类别页面生成大量 URL。

搜索结果页面

其他一些经常发生的事情是来自内部站点搜索的搜索结果页面通常可以，特别是如果它们是分页的，它们可能会生成许多不同的 URL。

列表页面

列表页面。如果你允许用户上传他们自己的列表或内容，那么随着时间的推移，如果你考虑一个工作板或类似 eBay 的东西，那么随着时间的推移，这可能会增加大量的 URL，并且它可能有大量的页面。

修复抓取预算问题

那么，您可以使用哪些工具来解决这些问题并充分利用爬网预算？

因此，作为基线，如果我们考虑正常 URL 在 Googlebot 中的行为方式，我们会说，是的，它可以被抓取，是的，它可以被索引，是的，它通过了 PageRank。所以像这样的 URL，如果我链接到我网站上的某个地方，然后 Google 跟随该链接并索引这些页面，这些可能仍然具有顶部导航和站点范围的导航。因此，实际上传递到这些页面的链接将是一种循环循环。当我们通过这么多不同的页面和这么多不同的过滤器进行链接时，由于稀释会造成一些损失。但最终，我们正在回收它。泄漏的 PageRank 没有任何黑洞损失。

机器人.txt

现在处于相反的极端，您可以采用的最极端的抓取预算的解决方案是 robots.txt 文件。

因此，如果您在 robots.txt 中屏蔽了某个页面，那么它就无法被抓取。太好了，问题解决了。好吧，不，因为这里有一些妥协。从技术上讲，robots.txt 中被阻止的站点和页面可以被编入索引。您有时会看到站点出现或出现在 SERP 中的页面无法显示，因为该页面在 robots.txt 或此类消息中被阻止。

所以从技术上讲，它们可以被索引，但从功能上讲，它们不会为任何东西或至少任何有效的东西排名。所以，是的，嗯，从技术上讲。他们没有通过 PageRank。当我们链接到这样的页面时，我们仍在传递 PageRank。但如果它随后在 robots.txt 中被阻止，则 PageRank 不会再进一步。

所以我们创造了一个泄漏和一个黑洞。所以这是一个相当严厉的解决方案，尽管它很容易实现。

链接级nofollow

链接级别的nofollow，所以我的意思是，如果我们将链接放在指向这些方面的主要笔记本电脑类别页面上，并且我们在这些链接内部放置了nofollow 属性，那将有一些优点和缺点。

我认为一个更好的用例实际上会更多地出现在列表案例中。所以想象一下，如果我们经营一个二手车网站，我们有数百万种不同的二手车产品列表。现在我们真的不希望谷歌在这些单独的列表上浪费时间，这可能取决于我们网站的规模。

但偶尔名人可能会上传他们的汽车或类似的东西，或者可能会上传一辆非常稀有的汽车，这将开始获得媒体链接。因此，我们不想在 robots.txt 中阻止该页面，因为在这种情况下，我们会浪费掉这些外部链接。因此，我们可能会在指向该页面的内部链接上做我们可能在内部不关注该链接的链接。所以这意味着它可以被抓取，但前提是它被找到，只有当谷歌以其他方式找到它，所以通过外部链接或类似的东西。

所以我们在这里有一个中途之家。现在从技术上讲，nofollow 这些天是一个提示。根据我的经验，Google 不会抓取仅通过内部 nofollow 链接到的页面。如果它以其他方式找到该页面，显然它仍然会抓取它。但一般来说，这可以有效地限制抓取预算，或者我应该说更有效地使用抓取预算。该页面仍然可以被索引。

这就是我们在该示例中试图实现的目标。它仍然可以通过 PageRank。这是我们试图实现的另一件事。尽管您仍然通过这个 nofollow 链接失去了一些 PageRank。这仍然算作一个链接，因此您会丢失一些 PageRank，否则这些 PageRank 会通过管道传输到该后续链接中。

无索引，无关注

Noindex 和 nofollow，因此对于 ecomm 网站上的此类页面，这显然是一种非常常见的解决方案。

现在，在这种情况下，可以抓取页面。但是一旦谷歌到达那个页面，它会发现它是noindex，并且随着时间的推移它会更少地抓取它，因为抓取noindex页面的意义不大。再说一次，我们在这里有一个中途之家。

显然，它不能被索引。没有索引。它不会向外传递 PageRank。PageRank 仍然被传递到这个页面，但是因为它在 head 部分有一个 nofollow，所以它不会向外传递 PageRank。这不是一个很好的解决方案。为了节省爬虫预算，我们必须在这里做出一些妥协。

无索引，关注

所以很多人曾经认为，哦，好吧，解决这个问题的方法是使用 noindex follow 作为两者中最好的一种。所以你在其中一个页面的头部放置了一个 noindex 跟随标签，哦，是的，每个人都是赢家，因为我们仍然获得了同样的爬取收益。我们仍然没有索引这种我们不想索引的新重复页面，但 PageRank 解决方案是固定的。

好吧，几年前，谷歌出来说，“哦，我们自己并没有意识到这一点，但实际上随着时间的推移，我们越来越少地抓取这个页面，我们将不再看到链接，然后它就不会了”算了。” 所以他们有点暗示这不再是传递 PageRank 的一种方式，最终它会被视为 noindex 和 nofollow。再说一次，我们在那里有一种稍微妥协的解决方案。

典范

现在，真正最好的世界可能是规范的。使用规范标签，随着时间的推移，它的抓取量仍然会减少一点，规范化的版本，很棒。它仍然不会被索引，规范化版本，很棒，它仍然通过 PageRank。

所以这看起来很棒。在很多情况下，这似乎是完美的。但这仅在页面足够接近重复项且 Google 愿意将其视为重复项并尊重规范的情况下才有效。如果他们不愿意将它们视为重复项，那么您可能不得不重新使用 noindex。或者，如果您认为实际上没有理由让这个 URL 存在，我不知道这个错误的顺序组合是如何产生的，但这似乎毫无意义。

301

我不会再链接到它了。但是如果有些人仍然以某种方式找到该 URL，我们可以使用 301 作为一种经济，最终会表现得相当好……我会说甚至比 canonical 和 noindex 更好地节省抓取预算，因为谷歌没有’ 甚至不必在极少数情况下查看页面，因为它只是遵循 301。

它会解决我们的索引问题，并且会通过 PageRank。但显然，这里的权衡是用户也不能访问这个 URL，所以我们必须接受它。

实施抓取预算策略

如此总结所有这些，我们将如何实际使用这些策略？那么，如果您想进行爬网预算项目，我会推荐哪些活动？

不太直观的一个是速度。就像我之前说的，谷歌在某种程度上分配了一定的时间或资源来抓取给定的网站。因此，如果您的网站非常快，如果您的服务器响应时间较短，如果您拥有轻量级 HTML，那么它们将在相同的时间内通过更多页面。

所以这违反直觉是解决这个问题的好方法。日志分析，这是一种更传统的方法。通常，您网站上的哪些页面或哪些参数实际上消耗了您的所有爬网预算，这是非常不直观的。大型站点上的日志分析通常会产生令人惊讶的结果，因此您可能会考虑这一点。然后实际使用其中一些工具。

因此，我们认为用户甚至不需要查看的冗余 URL，我们可以 301。用户确实需要查看的变体，我们可以查看规范或 noindex 标记。但我们也可能希望一开始就避免链接到它们，这样我们就不会因为稀释或死胡同而将某种程度的 PageRank 丢失到那些规范化或无索引的变体中。

Robots.txt 和 nofollow，正如我在经历它时所暗示的那样，这些是您希望非常谨慎地使用的策略，因为它们确实会造成这些 PageRank 死胡同。最后，我从 Ollie HG Mason 的一篇博客文章中得到了一个最近或更有趣的提示，我可能会链接到下面，事实证明，如果你的网站上有一个你只使用的站点地图对于新鲜或最近的 URL，您最近更改的 URL，然后因为 Googlebot 对新鲜内容如此渴望，就像我说的那样，他们会开始经常抓取此站点地图。因此，您可以使用这种策略将抓取预算引导到新的 URL，这样每个人都会获胜。

Googlebot 只想查看新的网址。您可能只想让 Googlebot 看到新的 URL。因此，如果您有一个仅用于该目的的站点地图，那么每个人都会获胜，这可能是一个很好且易于实施的技巧。仅此而已。我希望你觉得这很有用。如果没有，请随时在 Twitter 上告诉我您的提示或挑战。我很想知道其他人如何处理这个话题。

Speechpad.com 的视频转录。

爬网预算

视频转录

什么是抓取预算？

抓取预算问题的原因