实例介绍
【实例简介】
【实例截图】
【实例截图】
【核心代码】
<!DOCTYPE html> <html> <body> <?php //这个是要抓取的url地址 把类似的网址填写进去就可以 $crlUrl="http://tieba.baidu.com/f/fdir?fd=%B9%A4%C5%A9%D2%B5%B2%FA%C6%B7&sd=%C4%DC%D4%B4%2F%D2%B1%BD%F0%2F%BD%A8%B2%C4"; //以上网址一共的页数 $page=18; function getPageLink($url){ set_time_limit(0); $html=file_get_contents($url); $html = iconv("gb2312", "utf-8//IGNORE",$html); preg_match_all("/<a(s*[^>] s*)href=([\"|']?)([^\"'>\s] )([\"|']?)/ies",$html,$out); $arrLink=$out[3]; $arrUrl=parse_url($url); $dir=''; if(isset($arrUrl['path'])&&!empty($arrUrl['path'])){ $dir=str_replace("\\","/",$dir=dirname($arrUrl['path'])); if($dir=="/"){ $dir=""; } } if(is_array($arrLink)&&count($arrLink)>0){ $arrLink=array_unique($arrLink); foreach($arrLink as $key=>$val){ $val=strtolower($val); if(preg_match('/^#*$/isU',$val)){ unset($arrLink[$key]); }elseif(preg_match('/^\//isU',$val)){ $arrLink[$key]='http://'.$arrUrl['host'].$val; }elseif(preg_match('/^javascript/isU',$val)){ unset($arrLink[$key]); }elseif(preg_match('/^mailto:/isU',$val)){ unset($arrLink[$key]); }elseif(!preg_match('/^\//isU',$val)&&strpos($val,'http://')===FALSE){ $arrLink[$key]='http://'.$arrUrl['host'].$dir.'/'.$val; } } } sort($arrLink); return $arrLink; } //遍历每一页的链接 $alllinks=array(); for($i=1;$i<$page;$i ){ $url = $crlUrl.'&pn='.$i; $pagelinks= getPageLink($url); $alllinks= array_merge($alllinks,$pagelinks); } //取得贴吧的链接 $links=array(); foreach($alllinks as $link) { if(strpos($link,"tieba.baidu.com/f?kw=")>0) array_push($links,$link); } //var_dump($links); //检测贴吧是否有吧主 if(true){ foreach($links as $url) { $barname=str_replace("http://tieba.baidu.com/f?kw=","",$url); $link="http://tieba.baidu.com/bawu2/platform/detailsInfo?word=".$barname."&ie=utf-8"; //$link="http://tieba.baidu.com/bawu2/platform/detailsInfo?word=%E5%9B%9E%E6%94%B6%E9%94%A1&ie=utf-8"; $html = file_get_contents($link); //<span class="card_menNum" >6</span><span class="card_numLabel">贴子:</span><span class="card_infoNum" >1,900</span> //"member_num":6,"post_num":1900,"first_class" $member_num=explode('member_num":',$html); $member_num=explode(',"post_num":',$member_num[1]); //var_dump($member_num[0]); $post_num=explode(',',$member_num[1]); //var_dump($post_num[0]); if(strpos($html,"本吧还没有吧主")>0) { echo urldecode($barname).">>关注".$member_num[0].">>帖子".$post_num[0].">>还没有吧主>>".$link.""; } else{ echo urldecode($barname).">>关注".$member_num[0].">>帖子".$post_num[0].">>有吧主>>".$link.""; } echo "<br/>"; } } echo "xxx"; $link="http://tieba.baidu.com/bawu2/platform/detailsInfo?word=%E5%9B%9E%E6%94%B6%E9%94%A1&ie=utf-8"; $html = file_get_contents($link); $member_num=explode('member_num":',$html); $member_num=explode(',"post_num":',$member_num[1]); //var_dump($member_num[0]); $post_num=explode(',',$member_num[1]); //var_dump($post_num[0]); //echo "$member_num".$member_num; //$html = iconv("gb2312", "utf-8//IGNORE",$html); //echo $html; //echo htmlspecialchars($html); ?> </body> </html>
好例子网口号:伸出你的我的手 — 分享!
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论