在seo优化的过程中,经常会遇到日志中有很多无效抓取,或者同一页面收录多个等问题,那怎样引导蜘蛛正确抓取?避免造成一些不必要的收录和抓取?
无效抓取的原因
通过我们对搜索引擎抓取策略的了解,我们知道搜索引擎会通过互联网链接和目录等形式分布式抓取,那导致我们出现无效抓取的原因也不外乎是以下5点:
robots.txt未设置完善,导致无关路径被抓取;
程序规则适配未设置,导致单一页面重复收录;
网页链接布局重复,导致无关页面频繁被抓取;
css、js等相关文件未做合并,导致抓取资源占取较大;
404页面未配置,导致的无效页面抓取;
而这些文件和规则的配置,通常seo都会做,但做的还不够,必须正确配置才能将搜索引擎分配给我们的抓取资源合理利用,况且如果结构不合理或无效文件抓取过多也会给搜索引擎造成质量较差的印象。
正确配置的方式方法
关于robots配置
在robots中,除了对目录的屏蔽还有对链接的屏蔽规则。
我们不希望搜索url被抓取收录,便可以通过规则来进行屏蔽,找到规则中共有的 ?s= 然后在它的后面加上 * 便可以形成规则。
关于程序配置
关于程序配置需要注意的点便是避免产出重复url,如果无法在程序端修改,那一定要在服务器端适配好跳转规则,以免造成重复收录。典型的案例就是翻页重复问题,这个翻页重复问题一般来说都是程序导致的,例如:www.xxx.com/news/和www.xxx.com/news/list_1.html
本质上来说,这俩页面URL虽然不同,但内容缺是相同的,所以需要及时适配跳转规则,避免无效抓取和重复收录。
关于网页链接布局
合理使用 nofollow 属性,单一页面出现重复链接或者无需抓取链接均可以使用 nofollow 属性来解决。
关于css与js相关文件
对于搜索引擎来说,一切新的内容都可以是被重视抓取的,但众所周知网页中的css和js文件对于seo来说并不需要占取大量抓取资源,为了合理性考虑,相关配置文件数量可少便少,可按照类型和用途进行归类汇总。
另外我们之前也提到过,主域名的跳转适配也需要在建站过程中进行正确配置,否则很有可能造成www和不带www二者同时收录的情况,也是权重不集中的体现。