在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例一般编程问题 → scrapy

scrapy

一般编程问题

下载此实例
  • 开发语言:Others
  • 实例大小:1.25M
  • 下载次数:0
  • 浏览次数:104
  • 发布时间:2020-11-02
  • 实例类别:一般编程问题
  • 发 布 人:robot666
  • 文件格式:.zip
  • 所需积分:2
 

实例介绍

【实例简介】
scrapy附带安装指导
【实例截图】
【核心代码】
scrapy-1.4
└── scrapy-1.4
├── artwork
│   ├── qlassik.zip
│   ├── README.rst
│   ├── scrapy-blog-logo.xcf
│   └── scrapy-logo.jpg
├── AUTHORS
├── codecov.yml
├── CODE_OF_CONDUCT.md
├── conftest.py
├── CONTRIBUTING.md
├── debian
│   ├── changelog
│   ├── compat
│   ├── control
│   ├── copyright
│   ├── pyversions
│   ├── rules
│   ├── scrapy.docs
│   ├── scrapy.install
│   ├── scrapy.lintian-overrides
│   └── scrapy.manpages
├── docs
│   ├── conf.py
│   ├── contributing.rst
│   ├── _ext
│   │   └── scrapydocs.py
│   ├── faq.rst
│   ├── index.rst
│   ├── intro
│   │   ├── examples.rst
│   │   ├── install.rst
│   │   ├── overview.rst
│   │   └── tutorial.rst
│   ├── Makefile
│   ├── news.rst
│   ├── README.rst
│   ├── requirements.txt
│   ├── _static
│   │   └── selectors-sample1.html
│   ├── _templates
│   │   └── layout.html
│   ├── topics
│   │   ├── api.rst
│   │   ├── architecture.rst
│   │   ├── autothrottle.rst
│   │   ├── benchmarking.rst
│   │   ├── broad-crawls.rst
│   │   ├── commands.rst
│   │   ├── contracts.rst
│   │   ├── debug.rst
│   │   ├── deploy.rst
│   │   ├── djangoitem.rst
│   │   ├── downloader-middleware.rst
│   │   ├── email.rst
│   │   ├── exceptions.rst
│   │   ├── exporters.rst
│   │   ├── extensions.rst
│   │   ├── feed-exports.rst
│   │   ├── firebug.rst
│   │   ├── firefox.rst
│   │   ├── _images
│   │   │   ├── firebug1.png
│   │   │   ├── firebug2.png
│   │   │   ├── firebug3.png
│   │   │   ├── scrapy_architecture_02.png
│   │   │   ├── scrapy_architecture.odg
│   │   │   └── scrapy_architecture.png
│   │   ├── item-pipeline.rst
│   │   ├── items.rst
│   │   ├── jobs.rst
│   │   ├── leaks.rst
│   │   ├── link-extractors.rst
│   │   ├── loaders.rst
│   │   ├── logging.rst
│   │   ├── media-pipeline.rst
│   │   ├── practices.rst
│   │   ├── request-response.rst
│   │   ├── scrapyd.rst
│   │   ├── selectors.rst
│   │   ├── settings.rst
│   │   ├── shell.rst
│   │   ├── signals.rst
│   │   ├── spider-middleware.rst
│   │   ├── spiders.rst
│   │   ├── stats.rst
│   │   ├── telnetconsole.rst
│   │   ├── ubuntu.rst
│   │   └── webservice.rst
│   ├── utils
│   │   └── linkfix.py
│   └── versioning.rst
├── extras
│   ├── coverage-report.sh
│   ├── qps-bench-server.py
│   ├── qpsclient.py
│   ├── scrapy.1
│   ├── scrapy_bash_completion
│   └── scrapy_zsh_completion
├── INSTALL
├── LICENSE
├── Makefile.buildbot
├── MANIFEST.in
├── NEWS
├── pytest.ini
├── README.rst
├── requirements-py3.txt
├── requirements.txt
├── scrapy
│   ├── cmdline.py
│   ├── command.py
│   ├── commands
│   │   ├── bench.py
│   │   ├── check.py
│   │   ├── crawl.py
│   │   ├── edit.py
│   │   ├── fetch.py
│   │   ├── genspider.py
│   │   ├── __init__.py
│   │   ├── list.py
│   │   ├── parse.py
│   │   ├── runspider.py
│   │   ├── settings.py
│   │   ├── shell.py
│   │   ├── startproject.py
│   │   ├── version.py
│   │   └── view.py
│   ├── conf.py
│   ├── contracts
│   │   ├── default.py
│   │   └── __init__.py
│   ├── contrib
│   │   ├── closespider.py
│   │   ├── corestats.py
│   │   ├── debug.py
│   │   ├── downloadermiddleware
│   │   │   ├── ajaxcrawl.py
│   │   │   ├── chunked.py
│   │   │   ├── cookies.py
│   │   │   ├── decompression.py
│   │   │   ├── defaultheaders.py
│   │   │   ├── downloadtimeout.py
│   │   │   ├── httpauth.py
│   │   │   ├── httpcache.py
│   │   │   ├── httpcompression.py
│   │   │   ├── httpproxy.py
│   │   │   ├── __init__.py
│   │   │   ├── redirect.py
│   │   │   ├── retry.py
│   │   │   ├── robotstxt.py
│   │   │   ├── stats.py
│   │   │   └── useragent.py
│   │   ├── exporter
│   │   │   └── __init__.py
│   │   ├── feedexport.py
│   │   ├── httpcache.py
│   │   ├── __init__.py
│   │   ├── linkextractors
│   │   │   ├── htmlparser.py
│   │   │   ├── __init__.py
│   │   │   ├── lxmlhtml.py
│   │   │   ├── regex.py
│   │   │   └── sgml.py
│   │   ├── loader
│   │   │   ├── common.py
│   │   │   ├── __init__.py
│   │   │   └── processor.py
│   │   ├── logstats.py
│   │   ├── memdebug.py
│   │   ├── memusage.py
│   │   ├── pipeline
│   │   │   ├── files.py
│   │   │   ├── images.py
│   │   │   ├── __init__.py
│   │   │   └── media.py
│   │   ├── spidermiddleware
│   │   │   ├── depth.py
│   │   │   ├── httperror.py
│   │   │   ├── __init__.py
│   │   │   ├── offsite.py
│   │   │   ├── referer.py
│   │   │   └── urllength.py
│   │   ├── spiders
│   │   │   ├── crawl.py
│   │   │   ├── feed.py
│   │   │   ├── __init__.py
│   │   │   ├── init.py
│   │   │   └── sitemap.py
│   │   ├── spiderstate.py
│   │   ├── statsmailer.py
│   │   └── throttle.py
│   ├── contrib_exp
│   │   ├── downloadermiddleware
│   │   │   ├── decompression.py
│   │   │   └── __init__.py
│   │   ├── __init__.py
│   │   └── iterators.py
│   ├── core
│   │   ├── downloader
│   │   │   ├── contextfactory.py
│   │   │   ├── handlers
│   │   │   │   ├── datauri.py
│   │   │   │   ├── file.py
│   │   │   │   ├── ftp.py
│   │   │   │   ├── http10.py
│   │   │   │   ├── http11.py
│   │   │   │   ├── http.py
│   │   │   │   ├── __init__.py
│   │   │   │   └── s3.py
│   │   │   ├── __init__.py
│   │   │   ├── middleware.py
│   │   │   ├── tls.py
│   │   │   └── webclient.py
│   │   ├── engine.py
│   │   ├── __init__.py
│   │   ├── scheduler.py
│   │   ├── scraper.py
│   │   └── spidermw.py
│   ├── crawler.py
│   ├── downloadermiddlewares
│   │   ├── ajaxcrawl.py
│   │   ├── chunked.py
│   │   ├── cookies.py
│   │   ├── decompression.py
│   │   ├── defaultheaders.py
│   │   ├── downloadtimeout.py
│   │   ├── httpauth.py
│   │   ├── httpcache.py
│   │   ├── httpcompression.py
│   │   ├── httpproxy.py
│   │   ├── __init__.py
│   │   ├── redirect.py
│   │   ├── retry.py
│   │   ├── robotstxt.py
│   │   ├── stats.py
│   │   └── useragent.py
│   ├── dupefilter.py
│   ├── dupefilters.py
│   ├── exceptions.py
│   ├── exporters.py
│   ├── extension.py
│   ├── extensions
│   │   ├── closespider.py
│   │   ├── corestats.py
│   │   ├── debug.py
│   │   ├── feedexport.py
│   │   ├── httpcache.py
│   │   ├── __init__.py
│   │   ├── logstats.py
│   │   ├── memdebug.py
│   │   ├── memusage.py
│   │   ├── spiderstate.py
│   │   ├── statsmailer.py
│   │   ├── telnet.py
│   │   └── throttle.py
│   ├── http
│   │   ├── common.py
│   │   ├── cookies.py
│   │   ├── headers.py
│   │   ├── __init__.py
│   │   ├── request
│   │   │   ├── form.py
│   │   │   ├── __init__.py
│   │   │   └── rpc.py
│   │   └── response
│   │   ├── html.py
│   │   ├── __init__.py
│   │   ├── text.py
│   │   └── xml.py
│   ├── __init__.py
│   ├── interfaces.py
│   ├── item.py
│   ├── linkextractor.py
│   ├── linkextractors
│   │   ├── htmlparser.py
│   │   ├── __init__.py
│   │   ├── lxmlhtml.py
│   │   ├── regex.py
│   │   └── sgml.py
│   ├── link.py
│   ├── loader
│   │   ├── common.py
│   │   ├── __init__.py
│   │   └── processors.py
│   ├── logformatter.py
│   ├── log.py
│   ├── mail.py
│   ├── __main__.py
│   ├── middleware.py
│   ├── mime.types
│   ├── _monkeypatches.py
│   ├── pipelines
│   │   ├── files.py
│   │   ├── images.py
│   │   ├── __init__.py
│   │   └── media.py
│   ├── project.py
│   ├── resolver.py
│   ├── responsetypes.py
│   ├── selector
│   │   ├── csstranslator.py
│   │   ├── __init__.py
│   │   ├── lxmlsel.py
│   │   └── unified.py
│   ├── settings
│   │   ├── default_settings.py
│   │   ├── deprecated.py
│   │   └── __init__.py
│   ├── shell.py
│   ├── signalmanager.py
│   ├── signals.py
│   ├── spiderloader.py
│   ├── spidermanager.py
│   ├── spidermiddlewares
│   │   ├── depth.py
│   │   ├── httperror.py
│   │   ├── __init__.py
│   │   ├── offsite.py
│   │   ├── referer.py
│   │   └── urllength.py
│   ├── spider.py
│   ├── spiders
│   │   ├── crawl.py
│   │   ├── feed.py
│   │   ├── __init__.py
│   │   ├── init.py
│   │   └── sitemap.py
│   ├── squeue.py
│   ├── squeues.py
│   ├── statscollectors.py
│   ├── statscol.py
│   ├── stats.py
│   ├── telnet.py
│   ├── templates
│   │   ├── project
│   │   │   ├── module
│   │   │   │   ├── __init__.py
│   │   │   │   ├── items.py.tmpl
│   │   │   │   ├── middlewares.py.tmpl
│   │   │   │   ├── pipelines.py.tmpl
│   │   │   │   ├── settings.py.tmpl
│   │   │   │   └── spiders
│   │   │   │   └── __init__.py
│   │   │   └── scrapy.cfg
│   │   └── spiders
│   │   ├── basic.tmpl
│   │   ├── crawl.tmpl
│   │   ├── csvfeed.tmpl
│   │   └── xmlfeed.tmpl
│   ├── utils
│   │   ├── benchserver.py
│   │   ├── boto.py
│   │   ├── conf.py
│   │   ├── console.py
│   │   ├── datatypes.py
│   │   ├── decorator.py
│   │   ├── decorators.py
│   │   ├── defer.py
│   │   ├── deprecate.py
│   │   ├── display.py
│   │   ├── engine.py
│   │   ├── ftp.py
│   │   ├── gz.py
│   │   ├── httpobj.py
│   │   ├── http.py
│   │   ├── __init__.py
│   │   ├── iterators.py
│   │   ├── job.py
│   │   ├── log.py
│   │   ├── markup.py
│   │   ├── misc.py
│   │   ├── multipart.py
│   │   ├── ossignal.py
│   │   ├── project.py
│   │   ├── python.py
│   │   ├── reactor.py
│   │   ├── reqser.py
│   │   ├── request.py
│   │   ├── response.py
│   │   ├── serialize.py
│   │   ├── signal.py
│   │   ├── sitemap.py
│   │   ├── spider.py
│   │   ├── template.py
│   │   ├── testproc.py
│   │   ├── test.py
│   │   ├── testsite.py
│   │   ├── trackref.py
│   │   ├── url.py
│   │   └── versions.py
│   ├── VERSION
│   └── xlib
│   ├── __init__.py
│   ├── pydispatch.py
│   └── tx.py
├── sep
│   ├── README.rst
│   ├── sep-001.rst
│   ├── sep-002.rst
│   ├── sep-003.rst
│   ├── sep-004.rst
│   ├── sep-005.rst
│   ├── sep-006.rst
│   ├── sep-007.rst
│   ├── sep-008.rst
│   ├── sep-009.rst
│   ├── sep-010.rst
│   ├── sep-011.rst
│   ├── sep-012.rst
│   ├── sep-013.rst
│   ├── sep-014.rst
│   ├── sep-015.rst
│   ├── sep-016.rst
│   ├── sep-017.rst
│   ├── sep-018.rst
│   ├── sep-019.rst
│   ├── sep-020.rst
│   └── sep-021.rst
├── setup.cfg
├── setup.py
├── tests
│   ├── __init__.py
│   ├── keys
│   │   ├── example-com.cert.pem
│   │   ├── example-com.conf
│   │   ├── example-com.gen.README
│   │   ├── example-com.key.pem
│   │   ├── localhost.crt
│   │   ├── localhost.gen.README
│   │   ├── localhost.key
│   │   └── mitmproxy-ca.pem
│   ├── mocks
│   │   ├── dummydbm.py
│   │   └── __init__.py
│   ├── mockserver.py
│   ├── pipelines.py
│   ├── py3-ignores.txt
│   ├── requirements-py3.txt
│   ├── requirements.txt
│   ├── sample_data
│   │   ├── compressed
│   │   │   ├── feed-sample1.tar
│   │   │   ├── feed-sample1.xml
│   │   │   ├── feed-sample1.xml.bz2
│   │   │   ├── feed-sample1.xml.gz
│   │   │   ├── feed-sample1.zip
│   │   │   ├── html-br.bin
│   │   │   ├── html-gzip.bin
│   │   │   ├── html-rawdeflate.bin
│   │   │   ├── html-zlibdeflate.bin
│   │   │   ├── truncated-crc-error.gz
│   │   │   ├── truncated-crc-error-short.gz
│   │   │   ├── unexpected-eof.gz
│   │   │   └── unexpected-eof-output.txt
│   │   ├── feeds
│   │   │   ├── feed-sample1.xml
│   │   │   ├── feed-sample2.xml
│   │   │   ├── feed-sample3.csv
│   │   │   ├── feed-sample4.csv
│   │   │   ├── feed-sample5.csv
│   │   │   └── feed-sample6.csv
│   │   ├── link_extractor
│   │   │   ├── linkextractor_latin1.html
│   │   │   ├── linkextractor_noenc.html
│   │   │   └── sgml_linkextractor.html
│   │   └── test_site
│   │   ├── files
│   │   │   └── images
│   │   │   ├── python-logo-master-v3-TM-flattened.png
│   │   │   ├── python-powered-h-50x65.png
│   │   │   └── scrapy.png
│   │   ├── index.html
│   │   ├── item1.html
│   │   └── item2.html
│   ├── spiders.py
│   ├── test_closespider.py
│   ├── test_cmdline
│   │   ├── extensions.py
│   │   ├── __init__.py
│   │   └── settings.py
│   ├── test_command_fetch.py
│   ├── test_command_parse.py
│   ├── test_command_shell.py
│   ├── test_commands.py
│   ├── test_command_version.py
│   ├── test_contracts.py
│   ├── test_crawler.py
│   ├── test_crawl.py
│   ├── test_dependencies.py
│   ├── test_downloader_handlers.py
│   ├── test_downloadermiddleware_ajaxcrawlable.py
│   ├── test_downloadermiddleware_cookies.py
│   ├── test_downloadermiddleware_decompression.py
│   ├── test_downloadermiddleware_defaultheaders.py
│   ├── test_downloadermiddleware_downloadtimeout.py
│   ├── test_downloadermiddleware_httpauth.py
│   ├── test_downloadermiddleware_httpcache.py
│   ├── test_downloadermiddleware_httpcompression.py
│   ├── test_downloadermiddleware_httpproxy.py
│   ├── test_downloadermiddleware.py
│   ├── test_downloadermiddleware_redirect.py
│   ├── test_downloadermiddleware_retry.py
│   ├── test_downloadermiddleware_robotstxt.py
│   ├── test_downloadermiddleware_stats.py
│   ├── test_downloadermiddleware_useragent.py
│   ├── test_dupefilters.py
│   ├── test_engine.py
│   ├── test_exporters.py
│   ├── test_feedexport.py
│   ├── test_http_cookies.py
│   ├── test_http_headers.py
│   ├── test_http_request.py
│   ├── test_http_response.py
│   ├── test_item.py
│   ├── test_linkextractors_deprecated.py
│   ├── test_linkextractors.py
│   ├── test_link.py
│   ├── test_loader.py
│   ├── test_logformatter.py
│   ├── test_mail.py
│   ├── test_middleware.py
│   ├── test_pipeline_crawl.py
│   ├── test_pipeline_files.py
│   ├── test_pipeline_images.py
│   ├── test_pipeline_media.py
│   ├── test_proxy_connect.py
│   ├── test_pydispatch_deprecated.py
│   ├── test_responsetypes.py
│   ├── test_selector_csstranslator.py
│   ├── test_selector.py
│   ├── test_settings
│   │   ├── default_settings.py
│   │   └── __init__.py
│   ├── test_spiderloader
│   │   ├── __init__.py
│   │   └── test_spiders
│   │   ├── __init__.py
│   │   ├── nested
│   │   │   ├── __init__.py
│   │   │   └── spider4.py
│   │   ├── spider0.py
│   │   ├── spider1.py
│   │   ├── spider2.py
│   │   └── spider3.py
│   ├── test_spidermiddleware_depth.py
│   ├── test_spidermiddleware_httperror.py
│   ├── test_spidermiddleware_offsite.py
│   ├── test_spidermiddleware_referer.py
│   ├── test_spidermiddleware_urllength.py
│   ├── test_spider.py
│   ├── test_spiderstate.py
│   ├── test_squeues.py
│   ├── test_stats.py
│   ├── test_toplevel.py
│   ├── test_urlparse_monkeypatches.py
│   ├── test_utils_conf.py
│   ├── test_utils_console.py
│   ├── test_utils_datatypes.py
│   ├── test_utils_defer.py
│   ├── test_utils_deprecate.py
│   ├── test_utils_gz.py
│   ├── test_utils_httpobj.py
│   ├── test_utils_http.py
│   ├── test_utils_iterators.py
│   ├── test_utils_log.py
│   ├── test_utils_misc
│   │   ├── __init__.py
│   │   ├── test.egg
│   │   └── test_walk_modules
│   │   ├── __init__.py
│   │   ├── mod
│   │   │   ├── __init__.py
│   │   │   └── mod0.py
│   │   └── mod1.py
│   ├── test_utils_project.py
│   ├── test_utils_python.py
│   ├── test_utils_reqser.py
│   ├── test_utils_request.py
│   ├── test_utils_response.py
│   ├── test_utils_serialize.py
│   ├── test_utils_signal.py
│   ├── test_utils_sitemap.py
│   ├── test_utils_spider.py
│   ├── test_utils_template.py
│   ├── test_utils_trackref.py
│   ├── test_utils_url.py
│   └── test_webclient.py
└── tox.ini

66 directories, 522 files

标签:

实例下载地址

scrapy

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警