Googlebot爬网和索引前15 MB HTML内容

Googlebot 抓取和索引前 15 MB HTML 内容

Googlebot 帮助文档的更新包含确认它将抓取网页的前 15 MB,并且此截止值之后的任何内容都不会包含在排名计算中。

Google优化

谷歌在帮助文档中指定:

“HTML 中引用的任何资源,例如图像、视频、CSS 和 JavaScript,都是单独获取的。

在文件的前 15 MB 之后,Googlebot 会停止抓取,并且只考虑将文件的前 15 MB 编入索引。

文件大小限制适用于未压缩的数据。”

这让 SEO 社区中的一些人想知道这是否意味着 Googlebot 会完全忽略 HTML 文件中位于图像下方的文本。

“它特定于 HTML 文件本身,就像它所写的一样,”谷歌搜索倡导者约翰·穆勒 (John Mueller) 通过 Twitter 澄清道。

“使用 IMG 标签引入的嵌入式资源/内容不是 HTML 文件的一部分。”

这对 SEO 意味着什么

为确保 Googlebot 对其进行加权,现在必须将重要内容包含在网页顶部附近。

这意味着代码的结构必须将前 15 MB 的 SEO 相关信息放在 HTML 或受支持的基于文本的文件中。

这也意味着尽可能压缩图像和视频,而不是直接编码到 HTML 中。

SEO 最佳实践目前建议将 HTML 页面保持在 100 KB 或更少,因此许多网站不会受到此更改的影响。可以使用多种工具检查页面大小,包括 Google Page Speed Insights。

从理论上讲,您可能会担心页面上的内容可能不会用于索引。然而,在实践中,15MB 是相当大的 HTML 量。

正如谷歌所说,图像和视频等资源是单独获取的。根据 Google 的措辞,听起来这个 15MB 的截止值仅适用于 HTML。

除非您在单个页面上发布整本书的文本,否则很难使用 HTML 超越该限制。

如果您有超过 15MB 的 HTML 页面,那么您很可能存在需要修复的潜在问题。

编者注:本文的早期版本指出,谷歌只是宣布这是一种新的做法。谷歌的约翰·穆勒在推文中澄清说:“这不是变化,只是以前没有正式记录……”这篇文章已经更新以反映这一点。

发表评论

您的电子邮箱地址不会被公开。

免费定制谷歌SEO方案

请输入您的资料

你也可以直接右下角客服直接跟我们联系
=

请输入您的资料

seo
你也可以直接右下角客服直接跟我们联系
=

request a quote