Semalt:Google如何知道何时(以及为什么)停止爬网您的网站?

在营销网站时,Google蜘蛛与SEO广告系列本身一样重要。他们从可以找到的所有页面中检索网站并为其内容编制索引。它还在网站上更新的页面上执行重新索引。它基于几个因素定期执行此操作。它们包括但不限于PageRank,抓取约束以及在页面上找到的链接。 Google蜘蛛抓取网站的次数将取决于这些因素中的一个或多个。

访问者以及Google抓取工具都应易于浏览网站。这就是为什么拥有易于抓取的网站是其SEO广告系列的一项附加优势的原因。否则,Google将无法访问该内容,从而降低了网站在搜索引擎排名页面上的排名。

Semalt客户成功经理Ross Barber定义了连接时间和HTTP状态代码,这两个最重要的索引因素是Google用来影响其减慢或停止爬网速度的决定所依据的。其他包括disavow命令,“ no-follow”标记和robots.txt。

连接时间和HTTP状态代码

连接时间因素与Google抓取机器人到达网站服务器和网页所花费的时间有关。 Google高度重视速度,因为它高度表明了良好的用户体验。如果未对网页进行速度优化,则该网站的排名将很差。 Google蜘蛛会尝试访问该网站,如果建立连接所花费的时间较长,他们会退后并较不频繁地进行爬网。此外,如果Google尝试以当前速度为网站建立索引,那么它可能会大大降低其服务器速度,从而可能中断用户体验。

第二个索引因子是HTTP状态代码,它表示服务器对爬网站点的请求响应的程度。如果状态代码在5xx范围内,则Google会自行决定停止或延迟其抓取当前网站的速度。 5xx范围内的任何值都表明服务器可能存在问题,并且响应请求可能会出现问题。由于可能引起其他问题,因此Google漫游器会在服务器更易到达时退出并进行索引编制。

Google何时恢复对网站的爬网?

Google致力于为用户提供最佳体验,并将针对这些目标优化SEO元素的网站排名很高。但是,如果该网站当前出现上述问题,它将命令其Googlebot稍后尝试对其进行爬网。如果问题仍然存在,所有者将失去让Google浏览其内容并在搜索结果中为其赋予应有的排名的绝佳机会。除了这些问题之外,任何垃圾邮件迹象都会阻止该网站出现在搜索结果中。

像Google使用的所有其他算法一样,它的蜘蛛程序也是自动的。它们被开发为根据某些参数查找,爬网和索引内容。如果该网站不符合某些最佳做法,则不会进行索引。牵涉到许多其他因素,但是请始终牢记要密切注意站点的连接时间和HTTP状态代码。