在好例子网,分享、交流、成长!
您当前所在位置:首页Python 开发实例Python语言基础 → 获取上海二手房

获取上海二手房

Python语言基础

下载此实例
  • 开发语言:Python
  • 实例大小:3.03M
  • 下载次数:4
  • 浏览次数:47
  • 发布时间:2024-07-27
  • 实例类别:Python语言基础
  • 发 布 人:crazystarr
  • 文件格式:.csv
  • 所需积分:2
 相关标签: 二手 上海 获取

实例介绍

【实例简介】爬虫获取上海二手房
【实例截图】from clipboard
【核心代码】def ua():
    """随机获取一个浏览器用户信息"""
    
    user_agents = [
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
    'Opera/9.25 (Windows NT 5.1; U; en)',
    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
    'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7',
    'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0',
    ]

    agent = random.choice(user_agents)
    
    return {
        'User-Agent': agent
    }


def get(url):
    """
    获取网页源码
    url: 目标网页的地址
    return:网页源码
    """
    res = requests.get(url=url, headers = ua())
    return res.text

def get_url(res_text):
    """
    获取源码中每个二手房详情页的url
    res_text:网页源码
    return:列表形式的30个二手房详情页的url
    """
    re_f = '<a class="" href="(.*?)" target="_blank"'
    url_list = re.findall(re_f, res_text)
    return url_list

def get_data(res_text):
    """获取房屋的详细数据"""
    res_text = etree.HTML(res_text)
    
    # 获取房屋的标题
    title = res_text.xpath("//div[@class='sellDetailHeader']//h1/@title")
    # 获取房屋的总价
    total_price = res_text.xpath("//div[@class='overview']//div/span/text()")[2]
    # 获取房屋的单价
    price = res_text.xpath("//div[@class='overview']//div/span/text()")[3]
    # 获取房屋所在的小区
    neigh = res_text.xpath("/html/body/div[5]/div[2]/div[5]/div[1]/a[1]/text()")
    # 获取房屋的地段
    place = res_text.xpath("//div[@class='overview']//div/span/a/text()")
    
    ## 房屋基本信息获取
    # 获取房屋基本信息的标题
    lab = res_text.xpath("//div[@class='base']//span/text()")
    # 获取房屋基本信息的内容
    val = res_text.xpath("//div[@class='base']//li/text()")
    
    ## 获取房源交易信息
    # 获取房源交易标题
    key1 = res_text.xpath("//div[@class='transaction']//span[1]//text()")
    # 获取房源交易信息内容
    trans = res_text.xpath("//div[@class='transaction']//span[2]//text()")

    ## 获取房源特色信息
    # 获取房源特色标题
    key = res_text.xpath("//div[@class='baseattribute clear']/div[@class='name']/text()")
    # 获取房源特色内容
    val1 = res_text.xpath("//div[@class='baseattribute clear']/div[@class='content']/text()")
    
    # 返回包含上述信息的字典
    return dict(zip(['标题', '总价格', '单价', '小区', '地段'] lab key1 key,
                    [title, total_price, price, neigh, place] val trans val1))

def main(qu,start_pg=1, end_pg=100, download_times=1):
    """爬虫程序
    qu: 传入要爬取的qu的拼音的列表
    start_pg:开始的页码
    end_pg:结束的页码
    download_times:第几次下载
    """
    for q in qu:
        
        # 获取当前区的首页url
        url = 'https://qd.lianjia.com/ershoufang/' q '/'
        # 数据储存的列表
        data = []
        # 文件保存路径
        filename = '二手房-' q '第' str(download_times) '次下载.csv'
        
        print('二手房-' q '第' str(download_times) '次下载')
        mb=master_bar(range(start_pg, end_pg 1))
    
        for i in mb:
            
            # 获取每页的url
            new_url = url 'pg' str(i) '/'
            
            # 获取当前页面包含的30个房屋详情页的url
            url_list = get_url(get(new_url))

            for l in progress_bar(range(len(url_list)),parent=mb):
                
                # 反爬随机停止一段时间
                a = random.randint(2, 5)
                if l % a == 0:
                    time.sleep(2 * random.random())
                
                # 获取当前页面的源码
                text = get(url_list[l])
                # 获取当前页面的房屋信息
                data.append(get_data(text))
                
                # 反爬随机停止一段时间
                time.sleep(3 * random.random())
                mb.child.comment = '正在爬取第' str(l 1) '条数据!!'
            mb.main_bar.comment = '正在爬取第' str(i 1) '页数据!!'
            
            # 反爬随机停止一段时间
            time.sleep(5 * random.random())
            
            if i % 5 == 0:
                
                # 每5页保存一次数据
                pd.DataFrame(data).to_csv(filename, encoding='GB18030')
                mb.write('前' str(i) '页数据已保存')


标签: 二手 上海 获取

实例下载地址

获取上海二手房

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警