文档章节

论WordPress网站robots.txt的正确写法

luyong
 luyong
发布于 2014/05/20 22:07
字数 1007
阅读 192
收藏 0
robots.txt文件是一个应该存放在网站根目录里面的文本文件,该文件是用来正确引导搜索引擎抓取和收录页面的,用来告诉搜索引擎哪些页面可以收录而哪些不可以,所以正确编写robots.txt文件显得尤为重要。 WordPress博客程序默认是有自动生成robots.txt文件,但是文件很简单,只有三行代码:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
很显然WordPress自动生成的robots.txt文件有点草率,明显是不适应网站搜索引擎优化的,因此,为WordPress网站手动编写robots.txt文件应该成为建站的重要工作。 编写robots.txt必须要谨慎,否则一不小心输入错误,就会导致整个网站收录情况受到影响,得不偿失! 所以特别写来此文来论述一下robots.txt的正确写法 robots.txt的基本语法 要编写就要先了解,robots.txt也是有自己的规则的。 文件头部规则: robots.txt文件的开头为User-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入
User-agent:Baiduspider
如果要对全体搜索引擎起作用,则输入
User-agent: *
Disallow规则: Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。 Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。 Allow规则: Allow规则同Disallow。 *和$的使用规则: *表示通配符 Disallow: /cgi-bin/*.htm 表示禁止收录cgi-bin文件夹下的所有htm后缀的文件。 Disallow: /*?replytocom= 表示禁止收录含有“replytocom=”字符的地址。 $用于通指禁止访问某后缀的文件 Disallow: /*.css$ 表示禁止收录以css后缀的文件。 Sitemap规则: Sitemap用来告诉搜索引擎网站地图的位置 Sitemap: http://www.uye8.com/sitemap.xml 针对WordPress网站的robots.txt的编写 WordPress的结构简单易懂,对WordPress的robots.txt编写还是比较简单的。 为了避免收录WordPress系统文件:
Disallow: /wp-admin/
Disallow: /wp-includes/ (这两条是WordPress自动生成的,一定要保留)
Disallow: /wp-content/plugins (禁止收录插件目录)
Disallow: /wp-content/themes  (禁止收录模板目录)
Disallow: /wp-content/uploads (看个人喜好,如果希望网站的图片被收录,则可以去掉这条)
为了避免收录重复的内容:
Disallow: /feed
Disallow: /articles/*/feed  (这两条用来禁止收录内容重复的feed源)
Disallow: /tag/  (用于禁止收录tag标签页)
Disallow: /category/  (用于禁止收录文章目录,因为此页面都是无意义的文章列表)
Disallow: /page/  (禁止收录翻页的页面)
Disallow: /*?replytocom= (禁止收录评论页面)
Disallow: /trackback (禁止收录trackback,如果关闭了此功能可以删掉)
Disallow: /*?* (禁止访问带?的页面,如果使用默认文章固定链接的千万不要添加这一句)
为了正确引导搜索引擎找到网址地图(如果有的话)
Sitemap: http://www.uye8.com/sitemap_baidu.xml
总结全部的robots.txt全文如下:
User-agent: * 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/themes 
Disallow: /wp-content/uploads 
Disallow: /feed 
Disallow: /articles/*/feed 
Disallow: /tag/ 
Disallow: /category/ 
Disallow: /page/ 
Disallow: /*?replytocom= 
Disallow: /trackback 
Disallow: /*?* 
Sitemap: http://www.uye8.com/sitemap_baidu.xml
将代码编写在记事本上,然后保存为robots.txt,直接上传到网站的根目录就可以生效了,千万不要搞错放在了主题文件夹里面,检查方式可以直接在地址栏上输入“域名+robots.txt”,如果能正确访问就可以。 建议上传之后,最好用百度站长平台中的“网站分析”→“robots”检查一下语法是否正确,确保万无一失。

本文转载自:http://www.sailingnet.net/sailingnet/3046

luyong
粉丝 4
博文 253
码字总数 2151
作品 0
孝感
私信 提问
利用robots.txt对wordpress博客进行优化

本站的配置很简单,因为刚建成哈。 User-agent: * Disallow: /wp- 一、先来普及下robots.txt的概念:   robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网...

ShareYkuaile
2014/12/18
55
0
WPScan使用完整攻略:如何对WordPress站点进行安全测试

  严正声明:本文仅限于技术探讨,严禁用于其他目的。   写在前面的话   在这篇文章中,我将告诉大家如何使用WPScan来对WordPress站点进行安全测试。      WPScan是Kali Linux默认...

FreeBuf
2018/06/19
0
0
芝麻HTTP:分析Robots协议

利用urllib的模块,我们可以实现网站Robots协议的分析。本节中,我们来简单了解一下该模块的用法。 1. Robots协议 Robots协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准(R...

芝麻软件
2018/02/08
57
0
robots.txt的详细写法

什么是robots.txt?   搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以...

freedonn
2014/10/06
776
0
PHP 开源 CMS 三剑客论剑 SXSW 展会 

COMSHARP CMS 写道 "今年的 SXSW (South by Southwest Interactive festival) 展会上,Joomla, WordPress 以及 Drupal 再次论剑,他们组织了一个 “CMS 终极 PK”(Ultimate Showdown of Con......

红薯
2009/03/18
216
0

没有更多内容

加载失败,请刷新页面

加载更多

Java注解合并,注解继承

spring中有时候一个类上面标记很多注解。 实际上Java注解可以进行继承(也就是把多个注解合并成1个) 比如说SpringMVC的注解 @RestController@RequestMapping("/person") 可以合并为一个 @P...

物种起源-达尔文
19分钟前
4
0
撤消Git中一个文件的工作副本修改?

在最后一次提交之后,我修改了工作副本中的一堆文件,但是我想撤消对这些文件之一的更改,例如将其重置为与最新提交相同的状态。 但是,我只想撤消仅一个文件的工作副本更改,而没有其他操作...

技术盛宴
54分钟前
4
0
Qt编写气体安全管理系统28-模拟工具

一、前言 模拟工具在一些涉及到硬件通信的程序中特别有用,也特别需要,回顾这十年来做过的项目,95%的项目都是软硬件交互的,貌似软硬件结合的项目更有生命力一些,纯软件的或者纯硬件的,并...

飞扬青云
今天
4
0
关于生活方式

生活就是生活,但难免和工作混在一起,所以要建立自己的生活方式,把工作稍微隔开点。 首先呢,每周放假的两天肯定会: 洗衣服,收拾屋子,列计划是必须要做的事情。 (这里可能还包含一些处...

T型人才追梦者
今天
6
0
JVM

一、JVM一些基本概念 1、JVM和普通虚拟机 JVM:Java Virtual Machine,程序自己独立的运行环境;堆栈、寄存器、字节码指令;可以运行多种语言:Java、Scala、Grovvy; 普通虚拟机:能完整提供...

请把小熊还给我_m
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部