并非所有网络机器人都遵循 robots.txt。不怀好意的人(例如,电子邮件地址抓取工具)构建不遵循此协议的机器人。事实上,一些不良行为者使用 robots.txt 文件来查找您的私人内容所在的位置。尽管阻止爬虫访问诸如登录和管理页面等私人页面似乎是合乎逻辑的,这样它们就不会出现在索引中,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着有恶意的人可以更轻松地找到它们。最好对这些页面进行 NoIndex 并将它们关在登录表单后面,而不是将它们放在您的 robots.txt 文件中。
您可以在我们学习中心的 robots.txt 部分中阅读有关此内容的更多详细信息。
在 GSC 中定义 URL 参数
一些网站(最常见于电子商务)通过将某些参数附加到 URL 来使相同的内容在多个不同的 URL 上可用。如果您曾经在网上购物,您可能已经通过过滤器缩小了搜索范围。例如,您可以在亚马逊上搜索“鞋子”,然后按尺码、颜色和款式细化您的搜索。每次优化时,URL 都会略有变化:
https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight=green+dress&cat_id=1&sessionid=123$affid=43
Google 如何知道向搜索者提供哪个版本的 URL?Google 在自己确定代表 URL 方面做得很好,但是您可以使用 Google Search Console 中的 URL 参数功能来告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不抓取带有____参数的 URL”,那么您实际上是在要求对 Googlebot 隐藏此内容,这可能会导致这些页面从搜索结果中删除。如果这些参数创建重复页面,这就是您想要的,但如果您希望这些页面被索引,则不理想。
爬虫能找到你所有的重要内容吗?
现在您已经了解了一些确保搜索引擎抓取工具远离您的不重要内容的策略,让我们了解可以帮助 Googlebot 找到您的重要页面的优化。
有时,搜索引擎将能够通过抓取找到您网站的某些部分,但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎能够发现您想要索引的所有内容,而不仅仅是您的主页,这一点很重要。
问问自己这个问题:机器人可以爬过你的网站,而不仅仅是爬到它上面吗?