文档章节

2019测试指南-web应用程序安全测试(二)查看Web服务器图元文件的信息泄漏

猪鼻子插葱
 猪鼻子插葱
发布于 03/04 09:53
字数 1251
阅读 16
收藏 2

本节介绍如何测试robots.txt文件以查找Web应用程序目录或文件夹路径的信息泄漏。此外,Spiders,Robots或Crawler要避免的目录列表也可以创建为应用程序的Map执行路径的依赖项(OTG-INFO-007)

 

测试目标

1. Web应用程序的目录或文件夹路径的信息泄漏。

2.创建Spiders,Robots或Crawlers要避免的目录列表。

 

如何测试

的robots.txt

Web Spider,Robots或Crawlers检索网页,然后递归遍历超链接以检索更多Web内容。他们接受的行为由web根目录[1]中robots.txt文件的机器人排除协议指定。 

例如,2013年8月11日http://www.google.com/robots.txt中抽取的robots.txt文件的开头引用如下:

用户代理: *
禁止:/搜索
禁止:/ sdch
禁止:/ groups
禁止:/ images
禁止:/目录
...


用户代理的指令是指特定的网络蜘蛛/机器人/爬虫。例如,User-Agent:Googlebot是指来自Google的蜘蛛,而“User-Agent:bingbot” [1]是指来自Microsoft / Yahoo!的爬虫。 上述示例中的User-Agent:*适用于以下引用的所有网络蜘蛛/机器人/抓取工具[2]:

用户代理: *


不允许指令指定哪些资源蜘蛛/机器人/爬虫禁止。在上面的示例中,禁止使用以下目录:

... 
禁止:/搜索
禁止:/ sdch
禁止:/ groups
禁止:/ images
禁止:/目录
...


网络蜘蛛/机器人/抓取工具可以故意忽略robots.txt文件[3]中指定的Disallow指令,例如来自社交网络[2]的指令,以确保共享链接仍然有效。因此,robots.txt不应被视为对第三方访问,存储或重新发布Web内容的方式实施限制的机制。 

webroot中的robots.txt - 带有“wget”或“curl”

从Web服务器的Web根目录检索robots.txt文件。例如,要使用“wget”或“curl”从www.google.com检索robots.txt:

cmlh $ wget http://www.google.com/robots.txt
--2013-08-11 14:40:36-- http://www.google.com/robots.txt
解析www.google.com ... 74.125.237.17,74.125.237.18,74.125.237.19,...
连接到www.google.com | 74.125.237.17 |:80 ...已连接。
发送HTTP请求,等待响应... 200 OK
长度:未指定[text / plain]
保存到:'robots.txt.1'

    [<=>] 7,074  -  .- K / s为0      

2013-08-11 14:40:37(59.7 MB / s) - 'robots.txt'已保存[7074]

cmlh $ head -n5 robots.txt
用户代理: *
禁止:/搜索
禁止:/ sdch
禁止:/ groups
禁止:/ images
cmlh $ 
cmlh $ curl -O http://www.google.com/robots.txt
  %总收到百分比%Xferd平均速度时间时间当前时间
                                 Dload上载总左转速度
101 7074 0 7074 0 0 9410 0  - : - : -   - : - : -   - : - : -  27312

cmlh $ head -n5 robots.txt
用户代理: *
禁止:/搜索
禁止:/ sdch
禁止:/ groups
禁止:/ images
cmlh $ 


webroot中的robots.txt - 使用rockspider
“rockspider” [3]自动创建Spiders / Robots / Crawler的网站文件和目录/文件夹的初始范围。


例如,要使用“rockspider” [4]从www.google.com创建基于Allowed:指令的初始范围:

cmlh $ ./rockspider.pl-www www.google.com

“Rockspider”Alpha v0.1_2

版权所有2013 Christian Heinrich
根据Apache许可证2.0版获得许可

1.下载http://www.google.com/robots.txt
2.“robots.txt”保存为“www.google.com-robots.txt”
3.发送允许:www.google.com的URI到Web代理,即127.0.0.1:8080
	 / catalogs / about sent
	 /目录/ P?发送
	 / news /目录已发送
	...
完成了。

cmlh $


使用Google网站管理员工具分析robots.txt
网站所有者可以使用Google“Analyze robots.txt”功能将网站分析为“Google网站管理员工具”(https://www.google.com/webmasters/tools)的一部分。该工具可以协助测试,程序如下:

1.使用Google帐户登录Google网站站长工具。
2.在仪表板上,写入要分析的站点的URL。
3.在可用方法之间进行选择,然后按照屏幕上的说明操作。

 

META标签

<META>标签位于每个HTML文档的HEAD部分内,并且在机器人/蜘蛛/爬虫起点不是从webroot以外的文档链接开始的情况下,应该在网站上保持一致,即“深度链接” “ [5]


如果没有“<META NAME =”ROBOTS“...>”条目,则“机器人排除协议”分别默认为“INDEX,FOLLOW”。因此,“机器人排除协议”定义的其他两个有效条目的前缀为“NO ...”,即“NOINDEX”和“NOFOLLOW”。


网络蜘蛛/机器人/爬虫可以故意忽略“<META NAME =”ROBOTS“”标签,因为首选robots.txt文件约定。因此,<META>标签不应被视为主要机制,而是robots.txt的补充控制

<META>标签 - 与Burp


根据webroot中robots.txt文件中列出的Disallow指令,在每个网页中搜索“<META NAME =”ROBOTS“”正则表达式,并将结果与​​webroot中的robots.txt文件进行比较。


例如,来自facebook.com的robots.txt文件有一个“Disallow:/ac.php”条目[6],结果搜索“<META NAME =”ROBOTS“”如下所示: 
CMLH-Meta Tag示例-Face-Aug 2013.png 

以上可能被视为失败,因为“INDEX,FOLLOW”是由“机器人排除协议”指定的默认<META>标签,但“disallow:/ac.php”列在robots.txt中。

 

© 著作权归作者所有

猪鼻子插葱
粉丝 1
博文 44
码字总数 172746
作品 0
崇明
高级程序员
私信 提问
2019测试指南-web应用程序安全测试(二)查看信息泄漏的网页注释和元数据

程序员在源代码中包含详细的注释和元数据是非常常见的,甚至是推荐的。但是,HTML代码中包含的注释和元数据可能会泄露潜在攻击者无法获得的内部信息。应该进行评论和元数据审查,以确定是否泄...

猪鼻子插葱
03/04
24
0
常见Web源码泄露总结

https://zhuanlan.zhihu.com/p/21296806 常见Web源码泄露总结 2017 /2/7 14:21 3,631 沙发 背景 本文主要是记录一下常见的源码泄漏问题,这些经常在web渗透测试以及CTF中出现。 源码泄漏分类...

xztelecomlcs
2017/08/31
0
0
2019测试指南-web应用程序安全测试(一)

什么是Web应用程序安全测试? 安全测试是通过有条不紊地验证和验证应用程序安全控制的有效性来评估计算机系统或网络的安全性的方法。Web应用程序安全性测试仅侧重于评估Web应用程序的安全性。...

猪鼻子插葱
03/04
52
0
2019测试指南-web应用程序安全测试(二)地图应用架构

互连和异构Web服务器基础架构的复杂性可包括数百个Web应用程序,并使配置管理和审查成为测试和部署每个应用程序的基本步骤。实际上,只需要一个漏洞就可以破坏整个基础架构的安全性,即使是一...

猪鼻子插葱
03/04
25
0
2019测试指南-web应用程序安全测试(二)进行搜索引擎发现和侦察信息泄露

搜索引擎发现和侦察有直接和间接的因素。直接方法涉及从缓存中搜索索引和相关内容。间接方法涉及通过搜索论坛,新闻组和招标网站来收集敏感的设计和配置信息。 一旦搜索引擎机器人完成了爬行...

猪鼻子插葱
03/04
9
0

没有更多内容

加载失败,请刷新页面

加载更多

关于AsyncTask的onPostExcute方法是否会在Activity重建过程中调用的问题

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/XG1057415595/article/details/86774575 假设下面一种情况...

shzwork
今天
7
0
object 类中有哪些方法?

getClass(): 获取运行时类的对象 equals():判断其他对象是否与此对象相等 hashcode():返回该对象的哈希码值 toString():返回该对象的字符串表示 clone(): 创建并返此对象的一个副本 wait...

happywe
今天
6
0
Docker容器实战(七) - 容器中进程视野下的文件系统

前两文中,讲了Linux容器最基础的两种技术 Namespace 作用是“隔离”,它让应用进程只能看到该Namespace内的“世界” Cgroups 作用是“限制”,它给这个“世界”围上了一圈看不见的墙 这么一...

JavaEdge
今天
8
0
文件访问和共享的方法介绍

在上一篇文章中,你了解到文件有三个不同的权限集。拥有该文件的用户有一个集合,拥有该文件的组的成员有一个集合,然后最终一个集合适用于其他所有人。在长列表(ls -l)中这些权限使用符号...

老孟的Linux私房菜
今天
7
0
面试套路题目

作者:抱紧超越小姐姐 链接:https://www.nowcoder.com/discuss/309292?type=3 来源:牛客网 面试时候的潜台词 抱紧超越小姐姐 编辑于 2019-10-15 16:14:56APP内打开赞 3 | 收藏 4 | 回复24 ...

MtrS
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部