python 爬取豌豆荚APP的爬虫源码下载

Python语言基础

下载此实例

开发语言：Python
实例大小：0.36M
下载次数：41
浏览次数：1191
发布时间：2017-04-09
实例类别：Python语言基础
发布人：pvop
文件格式：.rar
所需积分：10

相关标签： python 爬虫豌豆荚APP

网友评论举报投诉收藏该页

下载此实例

实例介绍

[下载地址]

【实例简介】爬取豌豆荚APP，将APP信息存储到数据库，APP以md5值命名，

【实例截图】

【核心代码】

#coding:utf-8
import database
import crawler
import download
import downjudge
import check_update
import context
success_num=0
fail_num=0
def is_unique(md5,db):
    return db.data_jud(md5)
def update(db):
    global success_num
    global fail_num
    success_num=0
    fail_num = 0
    print u'开始更新'
    past = open('log_file/urls.txt','r ')
    now = open('log_file/update.txt','r')
    past_list = past.readlines()
    now_list = now.readlines()
    exist_num = 0
    totle_num = len(now_list) - len(past_list)
    for url in now_list:
        if url not in now_list and url:
            
            print u'已下载:' '%d'%exist_num  '/'  '%d'%totle_num   u'  成功个数:' '%d'%success_num   u'  失败个数:'  '%d'%fail_num
            exist_num =1
            date = context.get_information(url[0:-1])
            if date[6]==0:
                fail_num =1
            else:
                success_num =1
                try:
                    print '\n' u'%s下载完成'%date[0].decode('utf-8')
                except Exception,e:
                    pass
                if not(is_unique(date[6],db)):
                    db.data_memory(date[0],date[1],date[2],date[3],date[4],date[5],date[6])
                past.write(url)
    past.close()
    now.close()
    print u'更新完成！'
        
def continue_downall(db):
    global success_num
    global fail_num
    success_num=0
    fail_num = 0
    downd = open('log_file/downed.txt','r ')
    urls = open('log_file/urls.txt','r')
    g_exist = downd.readlines()
    
    g_totle = urls.readlines()
    totle_num = len(g_totle)
    exist_num = len(g_exist)
    for url in g_totle:
        if url not in g_exist and url:
            
            print u'已下载:' '%d'%exist_num  '/'  '%d'%totle_num   u'  成功个数:' '%d'%success_num   u'  失败个数:'  '%d'%fail_num
            exist_num =1
            date = context.get_information(url[0:-1])
            if date[6]==0:
                fail_num =1
            else :
                success_num =1
                try:
                    print '\n' u'%s下载完成'%date[0].decode('utf-8')
                except Exception,e:
                    pass
                if not(is_unique(date[6],db)):
                    db.data_memory(date[0],date[1],date[2],date[3],date[4],date[5],date[6])
                downd.write(url)
    print u'所有应用下载完毕'
    downd.close()
    urls.close()
def downall(db):
    global success_num
    global fail_num
    success_num=0
    fail_num = 0
    
    downd = open('log_file/downed.txt','w')
    urls = open('log_file/urls.txt','r')
    
    g_totle = urls.readlines()
    totle_num = len(g_totle)
    exist_num = 0
    for url in g_totle:
        if url:
            
            print u'已下载:' '%d'%exist_num  '/'  '%d'%totle_num   u'  成功个数:' '%d'%success_num   u'  失败个数:'  '%d'%fail_num
            exist_num =1
            date = context.get_information(url[0:-1])
            if  date[6]==0:
                fail_num =1
            else:
                success_num =1
                try:
                    print '\n' u'%s下载完成'%date[0].decode('utf-8')
                except Exception,e:
                    pass
                if not(is_unique(date[6],db)):
                    db.data_memory(date[0],date[1],date[2],date[3],date[4],date[5],date[6])
                downd.write(url)
    print u'所有应用下载完毕'
    downd.close()
    urls.close()
                
db = database.db()               
db.create_db()
                
bool_check_update = crawler.start('log_file/urls.txt')
bool_continue_down = downjudge.judge_cont()
if bool_continue_down:
    continue_downall(db)
else:
    downall(db)
    
if bool_check_update:
    bool_update = check_update.ch_update()
    if bool_update:
        judge = raw_input('是否更新(y/n)：\n'.decode('utf-8').encode('gbk'))
        while True:
            judge.lower()
            if judge == 'y':
                update(db)
                break
            elif judge == 'n':
                break
            else:
                judge = raw_input('输入错误，请重新输入(y/n)：\n'.decode('utf-8').encode('gbk'))

标签： python 爬虫豌豆荚APP

实例下载地址

python 爬取豌豆荚APP的爬虫源码下载

点此下载实例

不能下载？内容有错？点击这里报错 + 投诉 + 提问

好例子网口号：伸出你的我的手 — 分享！

网友评论

我要评论

小贴士

感谢您为本站写下的评论，您的评论对其它用户来说具有重要的参考价值，所以请认真填写。

类似“顶”、“沙发”之类没有营养的文字，对勤劳贡献的楼主来说是令人沮丧的反馈信息。
相信您也不想看到一排文字/表情墙，所以请不要反馈意义不大的重复字符，也请尽量不要纯表情的回复。
提问之前请再仔细看一遍楼主的说明，或许是您遗漏了。
请勿到处挖坑绊人、招贴广告。既占空间让人厌烦，又没人会搭理，于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享，对搜索内容的合法性不具有预见性、识别性、控制性，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论平台是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定，若资源存在侵权或相关问题请联系本站客服人员，点此联系我们。关于更多版权及免责申明参见版权及免责申明

python 爬取豌豆荚APP的爬虫源码下载

同类人气实例

实例介绍

实例下载地址

python 爬取豌豆荚APP的爬虫源码下载

相关软件

相关文章

网友评论

小贴士

关于好例子网

下载周排行

下载总排行

python 爬取豌豆荚APP的爬虫 源码下载

同类人气实例

实例介绍

实例下载地址

python 爬取豌豆荚APP的爬虫 源码下载

相关软件

相关文章

网友评论

小贴士

关于好例子网

下载周排行

下载总排行

python 爬取豌豆荚APP的爬虫源码下载

python 爬取豌豆荚APP的爬虫源码下载