English
 电子信箱
 加入收藏

  威盾防火墙 >> 新闻中心 >> 业界动态 >> 蜘蛛爬虫类程序抓取有防盗链的网站处理 php和wget命令简单破解防盗链网站的功能

 

蜘蛛爬虫类程序抓取有防盗链的网站处理 php和wget命令简单破解防盗链网站的功能

威盾防火墙 2015-01-22

 
一般防盗链措施都是判断访问来路,也就是referer,这种防盗链措施只对转载/转贴有效,对于采集程序来讲,referer很容易伪造。下面简单介绍一下使用wget和php脚本采集有防盗链措施网站的图片。
 
1、使用wget
wget是linux下非常好用的下载工具, --help可以看到提供了大量的参数,可以很方便自定义下载,伪造来路的参数是: -E --referer,如采集www.xxx.com/logo.gif文件,完整的命令行是:
wget -E --referer http://www.xxx.com/ http://www.xxx.com/logo.gif
第一个网址是referer的参数表示从xxx.com来路访问的,后面的网址表示要下载的文件
 
(注:--help和--referer前面是两个-,wp把两个-自动转换成一个-了)
 
2、使用PHP脚本,可以使用file_get_contents函数,启用第三个参数,具体代码如下:
PHP Code复制内容到剪贴板
  1. <?php  
  2. $context_options = array(  
  3. 'http' =>  
  4. array(  
  5. 'method' => "GET",  
  6. 'header' => "User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.21022; .NET CLR 3.0.04506; CIBA) Accept:*/* Referer:http://www.xxx.com/",  
  7. ));  
  8.   
  9. $context = stream_context_create($context_options);  
  10. $img = file_get_contents("http://www.xxx.com/logo.gif",FALSE,$context);  
  11. file_put_contents("1.jpg",$img);  
当然php还有很多方法可以破解,比如利用curl或snoopy类都是可以的。
1、php解决网站被爬虫采集的初步解决方案

相关内容: 最新内容:
apache rewrite防盗链三例[2015-01-22]
IIS防盗链 ISAPI Rewrite图片防盗链规则写法[2015-01-22]
Apache下MP3 防盗链的解决办法[2015-01-22]
Apache 防盗链的技术小结[2015-01-22]
web防盗链的作用[2015-01-22]
图片、文件防盗链程序[2015-01-19]
apache rewrite防盗链三例[2015-01-22]
ThinkPHP中自定义错误页面和提示页面实例[2015-01-22]
ThinkPHP控制器间实现相互调用的方法[2015-01-22]
基于php伪静态的实现详细介绍[2015-01-22]
php 伪静态之IIS篇[2015-01-22]
ISAPI Rewrite多站点破解版 完美实现IIS伪静态的方法[2015-01-22]