python租房爬虫实战

Python语言基础

下载此实例

开发语言：Python
实例大小：3.41KB
下载次数：75
浏览次数：553
发布时间：2020-05-11
实例类别：Python语言基础
发布人：hslwyxy
文件格式：.py
所需积分：2

实例介绍

【实例简介】租房爬虫实战

【实例截图】

from clipboard

【核心代码】def get_url(url, page):
html = requests.get(url '/pg%s' % str(page), headers=headers).text
table = BeautifulSoup(html, 'lxml').find('div', {'class': 'con-box'}).find_all('li', {'data-el': 'zufang'})
table_2 = BeautifulSoup(html, 'lxml')
pattern = re.compile('"totalPage":(.*?),".*?')
last_page = re.findall(pattern, str(table_2))
pattern_mianji = re.compile("(.*?)平米.*?")
pattern_updatetime = re.compile("(.*?)\s更新")
pattern_quyu = re.compile("(.*?)租房")
result = []
for li in table:
item = dict()
item[u'网站'] = li.find('a').get('href')
item[u'房屋描述'] = li.find('img').get('alt')
item[u'小区'] = li.find('div', {'class': 'where'}).find('a').get_text().replace('\xa0', '')
item[u'房型'] = li.find('div', {'class': 'where'}).find_all('span')[1].get_text().replace('\xa0', '')
item[u'面积'] = re.findall(pattern_mianji, li.find('div', {'class': 'where'}).find_all('span')[3].get_text())[0]
item[u'朝向'] = li.find('div', {'class': 'where'}).find_all('span')[4].get_text()
item[u'地区'] = re.findall(pattern_quyu, li.find('div', {'class': 'other'}).find('a').get_text())[0]
item[u'楼层'] = li.find('div', {'class': 'con'}).get_text().split('/')[1]
item[u'年限'] = li.find('div', {'class': 'con'}).get_text().split('/')[2]
item[u'价格'] = li.find('div', {'class': 'price'}).find('span', {'class': 'num'}).get_text()
item[u'更新时间'] = re.findall(pattern_updatetime, li.find('div', {'class': 'price-pre'}).get_text())[0]
item[u'看房人数'] = li.find('div', {'class': 'square'}).find('span', {'class': 'num'}).get_text()
result.append(item)
return result, last_page

标签： 实战爬虫

实例下载地址