在谷歌SEO优化中,网站收录是迈向排名与流量的重要环节。只有被搜索引擎收录的页面,才有资格参与搜索结果的排名竞争。因此,理解谷歌的收录逻辑,找出页面不被收录的原因,并通过科学方法解决问题,是每个SEO从业者的必备技能。

今天我将从下面这四个方向出发,希望通过这篇文章,让大家更好地理解“收录”并在实战中更好地提升SEO效果:

目录


一、什么是网站收录?

网站收录是指搜索引擎通过爬虫抓取页面内容,并将其存储到搜索引擎数据库(索引)中的过程。当用户搜索相关关键词时,只有已经被收录的页面才会有机会出现在搜索结果中。

收录的过程大致分为以下几个阶段:

  1. 抓取(Crawling):搜索引擎爬虫(搜索引擎用来爬行和访问页面的程序被称为蜘蛛spider 或者bot)通过链接发现网站上的新页面或更新的页面。
  2. 处理(Processing):爬虫分析页面内容的HTML结构、链接关系以及页面的技术配置。
  3. 索引(Indexing):将有价值的页面内容存储到谷歌的数据库中,同时为页面匹配相关关键词。
  4. 排名(Ranking):当用户搜索时,根据谷歌的算法对页面进行排序。

需要注意的是,页面被抓取≠页面被收录。某些页面可能被爬虫抓取但没有被索引,这可能与页面质量或技术设置有关。


二、谷歌的收录逻辑

谷歌的收录逻辑基于爬虫的抓取、内容的质量评估以及技术的可访问性。下面我们来一一介绍:

1. 爬虫抓取优先级

爬虫像一个蜘蛛爬行蛛网一样,它会跟踪页面上的链接,从一个链接爬到一个页面,最简单的爬行优先级一个是深度优先(可以理解成一条路走到黑,走到没有其他链接了再返回第一个页面,再沿着另一个链接继续爬行),另一个是广度优先(在一个页面发现所有链接,先爬所有链接的第一层页面,爬完再爬第二层,以次类推)。

如果给爬虫足够多的时间和抓取预算(Crawl Budget:抓取预算是谷歌为每个网站分配的爬虫资源,尤其对于大型网站来说,抓取预算直接影响页面是否能被及时抓取。),理论上是可以爬完所有页面的,但是由于时间和抓取预算的限制,爬虫只能爬行和收录其中一部分,深度和广度优先的策略基本上是混合使用。

谷歌会根据页面的重要性、网站的权威性以及抓取预算,决定是否抓取页面以及抓取频率。所以建议在网站优化的过程中,尽量避免孤页以及层级较多的页面结构。

2. 内容质量评估

谷歌在收录之前,会评估页面是否具备足够的价值。优质内容通常具备以下特征:

  • 原创性:从受众痛点出发,制作独特、有价值且未被大量重复使用的内容。
  • 相关性:内容与用户的搜索意图高度匹配。
  • 权威性:由可信来源提供,包含高质量的网站引荐。

3. 技术设置与页面可访问性

如果页面的技术设置存在问题,例如Robots.txt屏蔽、Meta标签禁止索引或URL状态错误,可能导致页面无法被爬虫抓取或索引。

4. 用户体验

谷歌越来越重视用户体验因素,如页面加载速度、移动端友好性和页面的可读性。这些因素在一定程度上也影响页面的收录。


三、页面不被收录的常见原因

一文让你搞懂谷歌收录逻辑,全面提升你的SEO表现

以下是可能导致页面不被收录的主要原因,涵盖技术、内容和链接等多个方面:

1. 技术性问题

User-agent: *
Disallow: /example-directory/
<meta name="robots" content="noindex">

2. 内容质量问题

  • 重复内容

    一直反复讲的话题,如果页面内容在站内或站外与其他页面重复,谷歌可能会认为没有必要索引,谷歌爬虫如果爬一半了发现重复率过高,可能会终止爬取,对于这个站点可能会降低爬取的频率或者不爬取。

  • 内容空洞

    页面内容过于简单,比如只有几句话或无实际信息,但是通过大段文字内容去表达阐述,这种内容既不受谷歌习惯,也会让用户没有兴趣继续了解网站或者品牌。

  • 低用户价值

    如果页面是纯广告、占位内容或自动生成的低质量内容,谷歌通常会选择忽略。

3. 页面权重不足

homepage > category > subcategory > sub-subcategory > target page

4. 用户体验问题

  • 页面加载速度慢

    页面加载时间过长可能导致爬虫放弃抓取。

  • 移动端不友好

    建议页面优化移动端体验,谷歌会优先索引移动端体验更好的页面。


四、页面不被收录的重要解决方案

针对不同原因,大家可以采取以下措施来尝试提升页面的收录:

1. 优先排查:排除技术原因

noindex

2. 着重花时间精力:提高内容质量

  • 增加原创内容

    提供具有独特性和深度的内容,避免重复复制和为了增加内容而强行拼凑。

  • 优化用户体验

    切实从用户痛点出发,思考定位合适的内容方向,同时融入EEAT的要求。

  • 更新过时内容

    对旧页面定期更新,保持内容的新鲜度和实用性,比如2023年的最新XXX可以随着年份修改并更新内容。

3. 日常优化:增强页面权重

  • 增加内部链接

    将核心页面嵌入到导航栏或推荐内容中,增加其被发现的机会。

  • 获取外部链接

    通过内容推广和合作获取高质量的外部链接,提升页面权威性。

  • 简化链接结构

    缩短页面链接层级,优化客户访问路径。

4. 基础设置:提升爬取效率

  • 创建并提交站点地图

    通过GSC提交更新的XML站点地图,确保爬虫能发现所有页面。

  • 优化加载速度

    压缩图片、启用缓存、优化代码,提高页面加载速度。

  • 避免动态内容

    为动态页面提供静态化URL或合理分页(这个涉及到URL的优化以及多页面判定重复问题,在之前的文章中有提过)。


网站收录是SEO优化的重要基石,没有收录便谈不了排名与流量。通过了解谷歌的收录逻辑,分析技术配置、内容质量和链接权重等问题,并采取针对性的解决措施,可以有效提高页面的收录率。另外,SEO是一个动态持续优化的过程,所以SEOers需要定期监控与调整策略,将帮助网站保持良好的搜索表现并且发现更多的优化空间。

阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。