是谷歌用来收集所需信息并建立网络可搜索索引的网络爬虫。 拥有移动和桌面抓取工具,以及专门的新闻、图片和视频抓取工具。谷歌有更多的爬虫用于特定任务,每个爬虫都会用一个称为“用户代理”的不同文本字符串来标识自己。 是常青树,这意味着它可以像用户在最新的 浏览器中一样看待网站。 在数千台机器上运行。他们决定在网站上抓取的速度和内容。但它们会减慢爬行速度,以免网站不堪重负。让我们看看他们构建网络索引的过程。

 

如何抓取网络并将其编入索引?

 

谷歌过去曾分享过其管道的几个版本。以下是最新的。 从其从各种来源收集的 URL 列表开始,例如页面、站点地图、RSS 提要以及在 或索引 API 中提交的 URL。它优先考虑要抓取的内容,获取页面并存储页面的副本。

 

处理这些页面以查找更多链接,包括指向 呈现页面所需的 API 请求、 和 CSS 等内容的链接。所有这些额外的请求都会被抓取和缓存(存储)。谷歌利用渲染服务使用这些缓存的资源来查看类似于用户的页面。

 

它再次处理这个并寻找对页面或新链接的任何更改。呈现页面的内容是存储在 索引中并可搜索的内容。找到的任何新链接都会返回到 URL 存储桶以供其抓取。

 

如何控制 ?

 

为您提供了几种方法来控制抓取和编入索引的内容。

 

1. 控制爬行的方法

 

  • .txt – 您网站上的此文件允许您控制抓取的内容。

  • – 是一个链接属性或元机器人标签,它建议不应遵循链接。它只被认为是一个提示,所以它可以被忽略。

  • 改变你的抓取速度——谷歌搜索控制台中的这个工具可以让你减慢谷歌的抓取速度。

 

谷歌SEO:什么是Googlebot?2. 控制索引的方法

 

  • 删除你的内容——如果你删除了一个页面,那么就没有什么可以索引的了。这样做的缺点是没有其他人可以访问它。

  • 限制对内容的访问—— 不会登录网站,因此任何类型的密码保护或身份验证都会阻止它查看内容。

  • ——元机器人标签中的 告诉搜索引擎不要索引您的页面。

  • URL 删除工具——谷歌的这个工具的名称有点误导,因为它的工作方式是暂时隐藏内容。 仍会查看和抓取这些内容,但这些页面不会出现在搜索结果中。

  • .txt(仅限图片)——阻止 图片抓取意味着您的图片不会被编入索引。

 

如何验证 的真实性?

 

许多 SEO 工具和一些恶意机器人会伪装成 。这可能允许他们访问试图阻止他们的网站。过去,您需要运行 DNS 查找来验证 。但最近,谷歌让它变得更加容易,并提供了一个公共 IP 列表,您可以使用它来验证请求是否来自谷歌。您可以将其与服务器日志中的数据进行比较。

 

您还可以访问 中的“抓取统计信息”报告。如果您转到“设置”>“抓取统计信息”,该报告包含大量有关 如何抓取您的网站的信息。您可以查看哪个 正在抓取哪些文件以及它何时访问这些文件。

 

写在最后

 

网络是一个大而杂乱的地方。 必须浏览所有不同的设置以及停机时间和限制,以收集 需要其搜索引擎工作的数据。一个有趣的事实是, 通常被描述为机器人,并且被恰当地称为“”。还有一个蜘蛛吉祥物,名叫“克劳利()”。

 


数聚梨软件为您提供最专业的独立站建站,谷歌seo优化服务,1-3个月内网站权重以及关键词进入谷歌前10页数量显著增加。



立即扫描二维码微信咨询

相关搜索:



how to use

chat

user agent

bot app

如何使用谷歌机器人

谷歌机器人聊天

谷歌机器人旋转

谷歌机器人模拟器

用户代理

谷歌机器人饼干

谷歌机器人应用

 

阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。