文档章节

如何避免蜘蛛陷阱让网站内容更容易被抓取?—金瑞帆高端建站

朱军seo网站优化
 朱军seo网站优化
发布于 2017/04/24 16:45
字数 1608
阅读 4
收藏 0

如何避免蜘蛛陷阱让网站内容更容易被抓取?—金瑞帆高端建站
 

   很多站长朋友每天起早贪黑的发外链,写原创就是为了网站排名收录能上去,网站内容只要被百度蜘蛛抓取收录才有可能获得更好的收录、排名和流量。所以我们要想办法让蜘蛛尽可能多的收录页面,也尽可能让蜘蛛吸引更重要的页面。今天青岛做网站就跟大家分享一下如何避免蜘蛛陷阱让网站内容更容易被抓取?

第一:首页我们要了解百度蜘蛛抓取规则

1、百度蜘蛛抓取优先级合理使用

    由于互联网信息量十分庞大,在这种情况下是无法使用一种策略规定哪些内容是要优先抓取的,这时候就要建立多种优先抓取策略,目前的策略主要有:深度优先、宽度优先、PR优先、反链优先,在我接触这么长时间里,PR优先是经常遇到的。

2、识别url重定向

    互联网信息数据量很庞大,涉及众多的链接,但是在这个过程中可能会因为各种原因页面链接进行重定向,在这个过程中就要求百度蜘蛛对url重定向进行识别。

3、对网站抓取的友好性

    百度蜘蛛在抓取互联网上的信息时为了更多、更准确的获取信息,会制定一个规则最大限度的利用带宽和一切资源获取信息,同时也会仅最大限度降低对所抓取网站的压力。

4、无法抓取数据的获取

    在互联网中可能会出现各种问题导致百度蜘蛛无法抓取信息,在这种情况下百度开通了手动提交数据。

5、对作弊信息的抓取

    在抓取页面的时候经常会遇到低质量页面、买卖链接等问题,百度出台了绿萝、石榴等算法进行过滤,据说内部还有一些其他方法进行判断,这些方法没有对外透露。

第二:如何有效避免蜘蛛陷阱,让网站内容更容易被抓取?

1、提高网站和页面的权重

    网站和页面的权重越高的话,蜘蛛一般会爬行的越深,被蜘蛛收录的页面也更多一些。但是一个新的网站,权重达到1的话是相对容易的,但是如果想要把权重再网上增加则会越来越难。

2、尽量避免Flash蜘蛛陷阱

    如果你的网站某个广告或图标是用Flash做的,用来增强视觉效果起点缀效果,那是没有多大问题的。但如果你的网站整站都是用大的Flash文件,就构成了蜘蛛陷阱,页面效果可能看起来很绚丽,但搜索引擎可能看不懂,没办法收录。所以,用CSS效果已经可以做的很好看啦,尽量不要采用Flash做网站;如果非要用Flash,那么就在首页加上一个通往html版本的页面,比如首页的导航栏用html版本,下面网页中再用Flash。

3、注意页面的更新度和更新频率

    实际上,蜘蛛每次爬行网站的时候都会把这些页面的数据保存在数据库中,下次蜘蛛再次爬行此网站的时候则会与上次爬行的数据进行对比,如果页面与上次的页面是一样的,这就说明网页没有更新,这样的页面蜘蛛会减少抓取的频率,甚至不抓取。相反的,如果页面有更新,或者有新的链接的话,蜘蛛会根据新的链接爬向新的页面,这样就很容易增加收录量了。

4、避免各种跳转的蜘蛛陷阱

    只有301转向是搜索引擎最喜欢的,其他转向都是使搜索引擎警惕,比如302跳转、JavaScript跳转,Flash跳转等。尽量不要使用301之外的转向,当然比如基于地理位置的跳转还是可以的,但前提是你的网站在搜索引擎心目中权重比较高。

5、避免外链和友情链接陷阱

    很多所谓的SEO人员认为做网站优化就是不断的发外链,发大量的外链排名固然会好,我们可以肯定的是外链对网站的排名和收录是有好处的,但是并不是说SEO就是发外链,实际上真正的网站优化SEO,即使不发外链也是会有很好的排名的。

    所以,不管是发布外链和友情链接都要适可而止,在网站外链建设时要侧重友情链接建设,因为友情链接实际上比外链的效果更佳。

第三:什么情况下会造成百度蜘蛛抓取失败等异常情况?

1、IP封禁:IP封禁就是限制该IP,只有在特定情况下才会进行此操作,所以如果希望网站百度蜘蛛正常访问您的网站最好不要进行此操作。

2、服务器连接异常:出现异常有两种情况,一是网站不稳定,造成百度蜘蛛无法抓取,二是百度蜘蛛一直无法连接到服务器,这时候您就要仔细检查了。

3、网络运营商异常:目前国内网络运营商分电信和联通,如果百度蜘蛛通过其中一种无法访问您的网站,还是赶快联系网络运营商解决问题吧。

4、死链:表示页面无效,无法提供有效的信息,这个时候可以通过百度站长平台提交死链。

5、无法解析IP造成dns异常:当百度蜘蛛无法解析您网站IP时就会出现dns异常,可以使用WHOIS查询自己网站IP是否能被解析,如果不能需要联系域名注册商解决。

© 著作权归作者所有

共有 人打赏支持
朱军seo网站优化
粉丝 0
博文 205
码字总数 128494
作品 0
朝阳
前端工程师
爬虫抓取效率:让百度蜘蛛更容易抓取

爬虫抓取效率:让百度蜘蛛更容易抓取 搜索引擎抓取您的网站以将内容放入其索引中。您的网站越大,抓取时间越长。抓取您网站所花费的时间非常重要。如果您的网站有1,000页或更少,那么这不是您...

优惠码领取
今天
0
0
移动互联网不单单只是用户体验度

  移动互联网不单单只是用户体验度,优化也很重要2014-05-19 18:55:04归档在 我的博文 | 浏览 2 次 | 评论 0 条 相信有很多做互联网行业的老板已经不单单的只想利用网上销售来盈利。网上的...

霍晓杰214
2014/05/19
0
0
如何使用robots.txt及其详解

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件...

yunwei001
06/27
0
0
谈谈以前端角度出发做好SEO需要考虑什么?

大家好,我是IT修真院北京总院第24期的学员,一枚正直纯洁善良的web程序员 今天给大家分享一下,修真院官网css任务15,深度思考中的知识点——谈谈以前端角度出发做好SEO需要考虑什么? 1.背...

我是一只北极熊啊
2017/11/10
0
0
网站建设最容易出现的误区?——强烈建议新手必看

误区一:贪图便宜,追求廉价域名和主机 有些新手站长,为了图一时便宜和省钱,选用一些二级或三级的域名代理商和廉价的虚拟主机及云主机等。岂不知,这样到最后会带来很多问题和麻烦。比如域...

致峰网络
02/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

centos7安装rsync及两台机器进行文件同步

centos7安装rsync及两台机器进行文件同步 2017年12月21日 11:17:46 码农下的天桥 阅读数:2210 标签: centosrsync同步 更多 个人分类: 后端 所属专栏: 研发模式及运维 版权声明:本文为博...

linjin200
51分钟前
2
0
jpg、jpeg、png... 的区别

jpg、jpeg、png... 的区别 对于做设计这一行的人来说,这几个图片格式是最常用的,也是最常见的,几乎每一天都要与他们打交道。 刚刚入门的新人通常不知道在什么地方如何使用他们或者说如何更...

DemonsI
今天
6
0
白话SpringCloud | 第十章:路由网关(Zuul)进阶:过滤器、异常处理

前言 简单介绍了关于Zuul的一些简单使用以及一些路由规则的简单说明。而对于一个统一网关而言,需要处理各种各类的请求,对不同的url进行拦截,或者对调用服务的异常进行二次处理等等。今天,...

oKong
今天
4
0
Character的static方法

基本类型char的包装类是Character,使用的比较多,大家是比较熟悉的。 我只是觉得里面有很多static方法,平时不怎么用,学习一下怎么实现的,或许日后就用到了。 static int compare(char x,...

woshixin
今天
2
0
正则介绍_sed

10月17日任务 9.4/9.5 sed sed工具 匹配打印 -n 只打印匹配行,不然其他行也会打印出来 p 打印(配合-n使用) [root@centos7 tmp]# sed -n '/root/'p passwd root:x:0:0:root:/root:/bin/ba...

robertt15
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部