php专区

 首页 > php专区 > PHP应用 > 常用功能 > php模仿百度spider蜘蛛爬虫程序例子 - php高级应用

php模仿百度spider蜘蛛爬虫程序例子 - php高级应用

分享到:
【字体:
导读:
          下面来看一个php模仿百度spider蜘蛛爬虫程序例子,这个代码写得比较高级了我就不分析了,大家有需要的可以进入参考一下吧.自己用PHP写了个爬虫,基本功能已经实现,有兴趣的可以试试脚本...

php模仿百度spider蜘蛛爬虫程序例子

下面来看一个php模仿百度spider蜘蛛爬虫程序例子,这个代码写得比较高级了我就不分析了,大家有需要的可以进入参考一下吧.

自己用PHP写了个爬虫,基本功能已经实现,有兴趣的可以试试

脚本缺点:1.未对静态页面进行去重处理,2.未对页面内js操作后的结果进行处理

php模仿百度spider蜘蛛爬虫程序例子代码如下:

  1. #加载页面 
  2. function curl_get($url){ 
  3.         $ch=curl_init(); 
  4.         curl_setopt($ch,CURLOPT_URL,$url); 
  5.         curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
  6.         curl_setopt($ch,CURLOPT_HEADER,1); 
  7.         $result=curl_exec($ch); 
  8.         $code=curl_getinfo($ch,CURLINFO_HTTP_CODE); 
  9.  if($code!='404' && $result){ 
  10.   return $result
  11.  } 
  12.         curl_close($ch); 
  13. #获取页面url链接 
  14. function get_page_urls($spider_page_result,$base_url){ 
  15.   $get_url_result=preg_match_all("/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/",$spider_page_result,$out); 
  16.   if($get_url_result){ 
  17.    return $out[1]; 
  18.   }else
  19.    return
  20.   } 
  21. #相对路径转绝对路径 
  22. function xdtojd($base_url,$url_list){ 
  23.  if(is_array($url_list)){ 
  24.   foreach($url_list as $url_item){ 
  25.    if(preg_match("/^(http:\/\/|https:\/\/|javascript:)/",$url_item)){ 
  26.     $result_url_list[]=$url_item
  27.    }else { 
  28.     if(preg_match("/^\//",$url_item)){ 
  29.      $real_url = $base_url.$url_item
  30.     }else
  31.      $real_url = $base_url."/".$url_item
  32.     } 
  33.     #$real_url = 'http://www.sumpay.cn/'.$url_item;   
  34.                   $result_url_list[] = $real_url;   
  35.    } 
  36.   } 
  37.   return $result_url_list
  38.  }else
  39.   return
  40.  } 
  41. #删除其他站点url 
  42. function other_site_url_del($jd_url_list,$url_base){ 
  43.  
  44.  if(is_array($jd_url_list)){ 
  45.   foreach($jd_url_list as $all_url){ 
  46.    echo $all_url
  47.    if(strpos($all_url,$url_base)===0){ 
  48.     $all_url_list[]=$all_url
  49.    } 
  50.  
  51.   } 
  52.   return $all_url_list
  53.  }else
  54.   return
  55.  } 
  56. #删除相同URL 
  57. function url_same_del($array_url){ 
  58.  
  59.  if(is_array($array_url)){ 
  60.   $insert_url=array(); 
  61.   $pizza=file_get_contents("/tmp/url.txt"); 
  62.                 if($pizza){ 
  63.    $pizza=explode("\r\n",$pizza); 
  64.    foreach($array_url as $array_value_url){ 
  65.     if(!in_array($array_value_url,$pizza)){ 
  66.      $insert_url[]=$array_value_url;  
  67.     } 
  68.    } 
  69.    if($insert_url){ 
  70.                                 foreach($insert_url as $key => $insert_url_value){ 
  71.                                         #这里只做了参数相同去重处理 
  72.      $update_insert_url=preg_replace('/=[^&]*/','=leesec',$insert_url_value); 
  73.                                         foreach($pizza as $pizza_value){ 
  74.                                          $update_pizza_value=preg_replace('/=[^&]*/','=leesec',$pizza_value); 
  75.                                                 if($update_insert_url==$update_pizza_value){ 
  76.                                                  unset($insert_url[$key]); 
  77.                                                         continue
  78.                                                 } 
  79.                                         } 
  80.     } 
  81.    } 
  82.    
  83.   }else
  84.    $insert_url=array(); 
  85.    $insert_new_url=array(); 
  86.    $insert_url=$array_url
  87.    foreach($insert_url as $insert_url_value){ 
  88.     $update_insert_url=preg_replace('/=[^&]*/','=leesec',$insert_url_value); 
  89.     $insert_new_url[]=$update_insert_url;    
  90.    } 
  91.    $insert_new_url=array_unique($insert_new_url); 
  92.    foreach($insert_new_url as $key => $insert_new_url_val){ 
  93.     $insert_url_bf[]=$insert_url[$key]; 
  94.    }  
  95.    $insert_url=$insert_url_bf
  96.   } 
  97.   return $insert_url
  98.  }else
  99.   return;  
  100.  } 
  101. $current_url=$argv[1]; 
  102. $fp_puts = fopen("/tmp/url.txt","ab");//记录url列表   
  103. $fp_gets = fopen("/tmp/url.txt","r");//保存url列表   
  104. $url_base_url=parse_url($current_url); 
  105. if($url_base_url['scheme']==""){ 
  106.  $url_base="http://".$url_base_url['host']; 
  107. }else
  108.  $url_base=$url_base_url['scheme']."://".$url_base_url['host']; 
  109. do
  110.  $spider_page_result=curl_get($current_url); 
  111.  #var_dump($spider_page_result); 
  112.  $url_list=get_page_urls($spider_page_result,$url_base); 
  113.  #var_dump($url_list); 
  114.  if(!$url_list){ 
  115.   continue
  116.  } 
  117.  $jd_url_list=xdtojd($url_base,$url_list); 
  118.  #var_dump($jd_url_list); 
  119.  $result_url_arr=other_site_url_del($jd_url_list,$url_base); 
  120.  var_dump($result_url_arr); 
  121.  $result_url_arr=url_same_del($result_url_arr);  
  122.  #var_dump($result_url_arr);  
  123.  if(is_array($result_url_arr)){   
  124.      $result_url_arr=array_unique($result_url_arr); 
  125.             foreach($result_url_arr as $new_url) {   
  126.                 fputs($fp_puts,$new_url."\r\n");   
  127.             }//开源代码phpfensi.com 
  128.  }   
  129.  
  130. while ($current_url = fgets($fp_gets,1024));//不断获得url   
  131. preg_match_all("/]+href=[\"']([^\"']+)[\"'][^>]+>/",$spider_page_result,$out); 
  132. echo a href 
  133. #var_dump($out[1]); 
  134. ?> 
分享到:
php中nusoap调用java axis2发布的webserv...
php中nusoap调用java axis2发布的webservice 调用webservice:开发环境是:Eclipse3.6 (java IDE)+ JDK 1.6 + Tomcat 7.0 + Axis2 1.6 + php 5.2.14 (IDE为eclipse-php-helios-SR1-win32.zip)+ apache2.2.15,这些软件随时都在更新,请读者谷歌百度一下到官网下载。 一、在java端编写服务,并利...
隐藏PHP版本与apache版本方法总结 - php...
隐藏PHP版本与apache版本方法总结 今天发现使用站长工具或一些相关的工具可以直接查看到服务器所使用的php版本号与apache版本号了,这样对于网站来讲很不安全了,如果这些版本出现问题有些人就可以直接搞定了,下面我们看看隐藏版本的方法,可惜的是在windows下我暂时还没找到解决办法. 隐藏PHP...
  •         php迷,一个php技术的分享社区,专属您自己的技术摘抄本、收藏夹。
  • 在这里……