实例介绍
【实例简介】
【实例截图】
【实例截图】
【核心代码】
<!DOCTYPE html>
<html>
<body>
<?php
//这个是要抓取的url地址 把类似的网址填写进去就可以
$crlUrl="http://tieba.baidu.com/f/fdir?fd=%B9%A4%C5%A9%D2%B5%B2%FA%C6%B7&sd=%C4%DC%D4%B4%2F%D2%B1%BD%F0%2F%BD%A8%B2%C4";
//以上网址一共的页数
$page=18;
function getPageLink($url){
set_time_limit(0);
$html=file_get_contents($url);
$html = iconv("gb2312", "utf-8//IGNORE",$html);
preg_match_all("/<a(s*[^>] s*)href=([\"|']?)([^\"'>\s] )([\"|']?)/ies",$html,$out);
$arrLink=$out[3];
$arrUrl=parse_url($url);
$dir='';
if(isset($arrUrl['path'])&&!empty($arrUrl['path'])){
$dir=str_replace("\\","/",$dir=dirname($arrUrl['path']));
if($dir=="/"){
$dir="";
}
}
if(is_array($arrLink)&&count($arrLink)>0){
$arrLink=array_unique($arrLink);
foreach($arrLink as $key=>$val){
$val=strtolower($val);
if(preg_match('/^#*$/isU',$val)){
unset($arrLink[$key]);
}elseif(preg_match('/^\//isU',$val)){
$arrLink[$key]='http://'.$arrUrl['host'].$val;
}elseif(preg_match('/^javascript/isU',$val)){
unset($arrLink[$key]);
}elseif(preg_match('/^mailto:/isU',$val)){
unset($arrLink[$key]);
}elseif(!preg_match('/^\//isU',$val)&&strpos($val,'http://')===FALSE){
$arrLink[$key]='http://'.$arrUrl['host'].$dir.'/'.$val;
}
}
}
sort($arrLink);
return $arrLink;
}
//遍历每一页的链接
$alllinks=array();
for($i=1;$i<$page;$i ){
$url = $crlUrl.'&pn='.$i;
$pagelinks= getPageLink($url);
$alllinks= array_merge($alllinks,$pagelinks);
}
//取得贴吧的链接
$links=array();
foreach($alllinks as $link)
{
if(strpos($link,"tieba.baidu.com/f?kw=")>0)
array_push($links,$link);
}
//var_dump($links);
//检测贴吧是否有吧主
if(true){
foreach($links as $url)
{
$barname=str_replace("http://tieba.baidu.com/f?kw=","",$url);
$link="http://tieba.baidu.com/bawu2/platform/detailsInfo?word=".$barname."&ie=utf-8";
//$link="http://tieba.baidu.com/bawu2/platform/detailsInfo?word=%E5%9B%9E%E6%94%B6%E9%94%A1&ie=utf-8";
$html = file_get_contents($link);
//<span class="card_menNum" >6</span><span class="card_numLabel">贴子:</span><span class="card_infoNum" >1,900</span>
//"member_num":6,"post_num":1900,"first_class"
$member_num=explode('member_num":',$html);
$member_num=explode(',"post_num":',$member_num[1]);
//var_dump($member_num[0]);
$post_num=explode(',',$member_num[1]);
//var_dump($post_num[0]);
if(strpos($html,"本吧还没有吧主")>0)
{
echo urldecode($barname).">>关注".$member_num[0].">>帖子".$post_num[0].">>还没有吧主>>".$link."";
}
else{
echo urldecode($barname).">>关注".$member_num[0].">>帖子".$post_num[0].">>有吧主>>".$link."";
}
echo "<br/>";
}
}
echo "xxx";
$link="http://tieba.baidu.com/bawu2/platform/detailsInfo?word=%E5%9B%9E%E6%94%B6%E9%94%A1&ie=utf-8";
$html = file_get_contents($link);
$member_num=explode('member_num":',$html);
$member_num=explode(',"post_num":',$member_num[1]);
//var_dump($member_num[0]);
$post_num=explode(',',$member_num[1]);
//var_dump($post_num[0]);
//echo "$member_num".$member_num;
//$html = iconv("gb2312", "utf-8//IGNORE",$html);
//echo $html;
//echo htmlspecialchars($html);
?>
</body>
</html>
好例子网口号:伸出你的我的手 — 分享!
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明


网友评论
我要评论