文档章节

如何避免蜘蛛陷阱让网站内容更容易被抓取?—金瑞帆高端建站

朱军seo网站优化
 朱军seo网站优化
发布于 2017/04/24 16:45
字数 1608
阅读 4
收藏 0
点赞 0
评论 0

如何避免蜘蛛陷阱让网站内容更容易被抓取?—金瑞帆高端建站
 

   很多站长朋友每天起早贪黑的发外链,写原创就是为了网站排名收录能上去,网站内容只要被百度蜘蛛抓取收录才有可能获得更好的收录、排名和流量。所以我们要想办法让蜘蛛尽可能多的收录页面,也尽可能让蜘蛛吸引更重要的页面。今天青岛做网站就跟大家分享一下如何避免蜘蛛陷阱让网站内容更容易被抓取?

第一:首页我们要了解百度蜘蛛抓取规则

1、百度蜘蛛抓取优先级合理使用

    由于互联网信息量十分庞大,在这种情况下是无法使用一种策略规定哪些内容是要优先抓取的,这时候就要建立多种优先抓取策略,目前的策略主要有:深度优先、宽度优先、PR优先、反链优先,在我接触这么长时间里,PR优先是经常遇到的。

2、识别url重定向

    互联网信息数据量很庞大,涉及众多的链接,但是在这个过程中可能会因为各种原因页面链接进行重定向,在这个过程中就要求百度蜘蛛对url重定向进行识别。

3、对网站抓取的友好性

    百度蜘蛛在抓取互联网上的信息时为了更多、更准确的获取信息,会制定一个规则最大限度的利用带宽和一切资源获取信息,同时也会仅最大限度降低对所抓取网站的压力。

4、无法抓取数据的获取

    在互联网中可能会出现各种问题导致百度蜘蛛无法抓取信息,在这种情况下百度开通了手动提交数据。

5、对作弊信息的抓取

    在抓取页面的时候经常会遇到低质量页面、买卖链接等问题,百度出台了绿萝、石榴等算法进行过滤,据说内部还有一些其他方法进行判断,这些方法没有对外透露。

第二:如何有效避免蜘蛛陷阱,让网站内容更容易被抓取?

1、提高网站和页面的权重

    网站和页面的权重越高的话,蜘蛛一般会爬行的越深,被蜘蛛收录的页面也更多一些。但是一个新的网站,权重达到1的话是相对容易的,但是如果想要把权重再网上增加则会越来越难。

2、尽量避免Flash蜘蛛陷阱

    如果你的网站某个广告或图标是用Flash做的,用来增强视觉效果起点缀效果,那是没有多大问题的。但如果你的网站整站都是用大的Flash文件,就构成了蜘蛛陷阱,页面效果可能看起来很绚丽,但搜索引擎可能看不懂,没办法收录。所以,用CSS效果已经可以做的很好看啦,尽量不要采用Flash做网站;如果非要用Flash,那么就在首页加上一个通往html版本的页面,比如首页的导航栏用html版本,下面网页中再用Flash。

3、注意页面的更新度和更新频率

    实际上,蜘蛛每次爬行网站的时候都会把这些页面的数据保存在数据库中,下次蜘蛛再次爬行此网站的时候则会与上次爬行的数据进行对比,如果页面与上次的页面是一样的,这就说明网页没有更新,这样的页面蜘蛛会减少抓取的频率,甚至不抓取。相反的,如果页面有更新,或者有新的链接的话,蜘蛛会根据新的链接爬向新的页面,这样就很容易增加收录量了。

4、避免各种跳转的蜘蛛陷阱

    只有301转向是搜索引擎最喜欢的,其他转向都是使搜索引擎警惕,比如302跳转、JavaScript跳转,Flash跳转等。尽量不要使用301之外的转向,当然比如基于地理位置的跳转还是可以的,但前提是你的网站在搜索引擎心目中权重比较高。

5、避免外链和友情链接陷阱

    很多所谓的SEO人员认为做网站优化就是不断的发外链,发大量的外链排名固然会好,我们可以肯定的是外链对网站的排名和收录是有好处的,但是并不是说SEO就是发外链,实际上真正的网站优化SEO,即使不发外链也是会有很好的排名的。

    所以,不管是发布外链和友情链接都要适可而止,在网站外链建设时要侧重友情链接建设,因为友情链接实际上比外链的效果更佳。

第三:什么情况下会造成百度蜘蛛抓取失败等异常情况?

1、IP封禁:IP封禁就是限制该IP,只有在特定情况下才会进行此操作,所以如果希望网站百度蜘蛛正常访问您的网站最好不要进行此操作。

2、服务器连接异常:出现异常有两种情况,一是网站不稳定,造成百度蜘蛛无法抓取,二是百度蜘蛛一直无法连接到服务器,这时候您就要仔细检查了。

3、网络运营商异常:目前国内网络运营商分电信和联通,如果百度蜘蛛通过其中一种无法访问您的网站,还是赶快联系网络运营商解决问题吧。

4、死链:表示页面无效,无法提供有效的信息,这个时候可以通过百度站长平台提交死链。

5、无法解析IP造成dns异常:当百度蜘蛛无法解析您网站IP时就会出现dns异常,可以使用WHOIS查询自己网站IP是否能被解析,如果不能需要联系域名注册商解决。

© 著作权归作者所有

共有 人打赏支持
朱军seo网站优化
粉丝 0
博文 205
码字总数 128494
作品 0
朝阳
前端工程师
移动互联网不单单只是用户体验度

  移动互联网不单单只是用户体验度,优化也很重要2014-05-19 18:55:04归档在 我的博文 | 浏览 2 次 | 评论 0 条 相信有很多做互联网行业的老板已经不单单的只想利用网上销售来盈利。网上的...

霍晓杰214
2014/05/19
0
0
如何使用robots.txt及其详解

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件...

yunwei001
06/27
0
0
谈谈以前端角度出发做好SEO需要考虑什么?

大家好,我是IT修真院北京总院第24期的学员,一枚正直纯洁善良的web程序员 今天给大家分享一下,修真院官网css任务15,深度思考中的知识点——谈谈以前端角度出发做好SEO需要考虑什么? 1.背...

我是一只北极熊啊
2017/11/10
0
0
前端SEO—详细讲解

前端SEO—详细讲解 Ronny 5小时前暂无评论 阅读 46 次 一、搜索引擎工作原理 当我们在输入框中输入关键词,点击搜索或查询时,然后得到结果。深究其背后的故事,搜索引擎做了很多事情。 在搜...

Ronny
01/01
0
0
用Scrapy抓取豆瓣小组数据(一)

最近在coursera.org(在线学习平台)上学SNA(Social Network Analysis,社交网络分析)。有兴趣的同学可以去看一眼:https://class.coursera.org/sna-002/,课程讲的很有意思,等回头我上完...

chengyao2
2013/04/21
0
3
网站建设最容易出现的误区?——强烈建议新手必看

误区一:贪图便宜,追求廉价域名和主机 有些新手站长,为了图一时便宜和省钱,选用一些二级或三级的域名代理商和廉价的虚拟主机及云主机等。岂不知,这样到最后会带来很多问题和麻烦。比如域...

致峰网络
02/05
0
0
推一把SEO的总结

2014-10-21 图片的代替属性:ALT 意义:是搜索引擎可以信任的参考点;图片无法显示时,可代替图片的描述性语句; 写法:<img src=”123.jpg” alt=”小狗在吃粮食”> 注意:ALT描述语禁止多样...

GZhiDao
2015/11/26
9
0
如何快速修改,网站优化常见的几个错误?

SEO优化是一项复杂的系统工程,它需要花费大量的时间,才能够完成一个阶段的小目标,但是对一些标准性的搜索引擎优化必备因素,却可以快速的调整,俗语说:万丈高楼平地起,打好坚实的基础才...

蝙蝠侠it
2017/12/23
0
0
2-3 搜索引擎工作原理简介

搜索引擎的工作过程大体上可以分成三个阶段: 1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。 (1)蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也...

SEO菲羽
2017/06/21
0
0
用DIV+CSS的网页布局对SEO的好处

DIV+CSS是网站标准(或称“WEB标准”)中常用术语之一,通常为了说明与HTML网页设计语言中的表格(table)定位方式的区别,因为XHTML网站设计标准中,不再使用表格定位技术,而是采用DIV+CSS...

oecp
2011/06/02
0
1

没有更多内容

加载失败,请刷新页面

加载更多

下一页

HashMap? ConcurrentHashMap? 相信看完这篇没人能难住你!

前言 Map 这样的 Key Value 在软件开发中是非常经典的结构,常用于在内存中存放数据。 本篇主要想讨论 ConcurrentHashMap 这样一个并发容器,在正式开始之前我觉得有必要谈谈 HashMap,没有它...

crossoverJie
8分钟前
2
0
OSChina 周一乱弹 —— 你的朋友圈有点生锈了

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @Devoes :分享Trademark的单曲《Only Love (电视剧《妙手仁心 II》插曲)》: 《Only Love (电视剧《妙手仁心 II》插曲)》- Trademark 手机党少...

小小编辑
今天
249
9
【面试题】盲人坐飞机

有100位乘客乘坐飞机,其中有一位是盲人,每位乘客都按自己的座位号就坐。由于盲人看不见自己的座位号,所以他可能会坐错位置,而自己的座位被占的乘客会随便找个座位就坐。问所有乘客都坐对...

garkey
今天
1
0
谈谈神秘的ES6——(二)ES6的变量

谈谈神秘的ES6——(二)ES6的变量 我们在《零基础入门JavaScript》的时候就说过,在ES5里,变量是有弊端的,我们先来回顾一下。 首先,在ES5中,我们所有的变量都是通过关键字var来定义的。...

JandenMa
今天
2
0
arts-week1

Algorithm 594. Longest Harmonious Subsequence - LeetCode 274. H-Index - LeetCode 219. Contains Duplicate II - LeetCode 217. Contains Duplicate - LeetCode 438. Find All Anagrams ......

yysue
今天
2
0
NNS拍卖合约

前言 关于NNS的介绍,这里就不多做描述,相关的信息可以查看NNS的白皮书http://doc.neons.name/zh_CN/latest/nns_background.html。 首先nns中使用的竞价货币是sgas,关于sgas介绍可以戳htt...

红烧飞鱼
今天
1
0
Java IO类库之管道流PipeInputStream与PipeOutputStream

一、java管道流介绍 在java多线程通信中管道通信是一种重要的通信方式,在java中我们通过配套使用管道输出流PipedOutputStream和管道输入流PipedInputStream完成线程间通信。多线程管道通信的...

老韭菜
今天
1
0
AB 压力测试

Ubuntu 安装AB apapt-get install apache2-utils 使用AB 压力测试 -c 并发数 -n请求总数 ab -c 3000 -n 10000 http://localhost/test/index.php AB只能测试localhost 返回结果 This is Apac......

xiawet
今天
0
0
用Python绘制红楼梦词云图,竟然发现了这个!

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小...

猫咪编程
今天
1
0
Java中 发出请求获取别人的数据(阿里云 查询IP归属地)

1.效果 调用阿里云的接口 去定位IP地址 2. 代码 /** * 1. Java中远程调用方法 * http://localhost:8080/mavenssm20180519/invokingUrl.action * @Title: invokingUrl * @Description: * @ret......

Lucky_Me
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部