实例介绍
scrapy附带安装指导
【实例截图】
【核心代码】
scrapy-1.4
└── scrapy-1.4
├── artwork
│ ├── qlassik.zip
│ ├── README.rst
│ ├── scrapy-blog-logo.xcf
│ └── scrapy-logo.jpg
├── AUTHORS
├── codecov.yml
├── CODE_OF_CONDUCT.md
├── conftest.py
├── CONTRIBUTING.md
├── debian
│ ├── changelog
│ ├── compat
│ ├── control
│ ├── copyright
│ ├── pyversions
│ ├── rules
│ ├── scrapy.docs
│ ├── scrapy.install
│ ├── scrapy.lintian-overrides
│ └── scrapy.manpages
├── docs
│ ├── conf.py
│ ├── contributing.rst
│ ├── _ext
│ │ └── scrapydocs.py
│ ├── faq.rst
│ ├── index.rst
│ ├── intro
│ │ ├── examples.rst
│ │ ├── install.rst
│ │ ├── overview.rst
│ │ └── tutorial.rst
│ ├── Makefile
│ ├── news.rst
│ ├── README.rst
│ ├── requirements.txt
│ ├── _static
│ │ └── selectors-sample1.html
│ ├── _templates
│ │ └── layout.html
│ ├── topics
│ │ ├── api.rst
│ │ ├── architecture.rst
│ │ ├── autothrottle.rst
│ │ ├── benchmarking.rst
│ │ ├── broad-crawls.rst
│ │ ├── commands.rst
│ │ ├── contracts.rst
│ │ ├── debug.rst
│ │ ├── deploy.rst
│ │ ├── djangoitem.rst
│ │ ├── downloader-middleware.rst
│ │ ├── email.rst
│ │ ├── exceptions.rst
│ │ ├── exporters.rst
│ │ ├── extensions.rst
│ │ ├── feed-exports.rst
│ │ ├── firebug.rst
│ │ ├── firefox.rst
│ │ ├── _images
│ │ │ ├── firebug1.png
│ │ │ ├── firebug2.png
│ │ │ ├── firebug3.png
│ │ │ ├── scrapy_architecture_02.png
│ │ │ ├── scrapy_architecture.odg
│ │ │ └── scrapy_architecture.png
│ │ ├── item-pipeline.rst
│ │ ├── items.rst
│ │ ├── jobs.rst
│ │ ├── leaks.rst
│ │ ├── link-extractors.rst
│ │ ├── loaders.rst
│ │ ├── logging.rst
│ │ ├── media-pipeline.rst
│ │ ├── practices.rst
│ │ ├── request-response.rst
│ │ ├── scrapyd.rst
│ │ ├── selectors.rst
│ │ ├── settings.rst
│ │ ├── shell.rst
│ │ ├── signals.rst
│ │ ├── spider-middleware.rst
│ │ ├── spiders.rst
│ │ ├── stats.rst
│ │ ├── telnetconsole.rst
│ │ ├── ubuntu.rst
│ │ └── webservice.rst
│ ├── utils
│ │ └── linkfix.py
│ └── versioning.rst
├── extras
│ ├── coverage-report.sh
│ ├── qps-bench-server.py
│ ├── qpsclient.py
│ ├── scrapy.1
│ ├── scrapy_bash_completion
│ └── scrapy_zsh_completion
├── INSTALL
├── LICENSE
├── Makefile.buildbot
├── MANIFEST.in
├── NEWS
├── pytest.ini
├── README.rst
├── requirements-py3.txt
├── requirements.txt
├── scrapy
│ ├── cmdline.py
│ ├── command.py
│ ├── commands
│ │ ├── bench.py
│ │ ├── check.py
│ │ ├── crawl.py
│ │ ├── edit.py
│ │ ├── fetch.py
│ │ ├── genspider.py
│ │ ├── __init__.py
│ │ ├── list.py
│ │ ├── parse.py
│ │ ├── runspider.py
│ │ ├── settings.py
│ │ ├── shell.py
│ │ ├── startproject.py
│ │ ├── version.py
│ │ └── view.py
│ ├── conf.py
│ ├── contracts
│ │ ├── default.py
│ │ └── __init__.py
│ ├── contrib
│ │ ├── closespider.py
│ │ ├── corestats.py
│ │ ├── debug.py
│ │ ├── downloadermiddleware
│ │ │ ├── ajaxcrawl.py
│ │ │ ├── chunked.py
│ │ │ ├── cookies.py
│ │ │ ├── decompression.py
│ │ │ ├── defaultheaders.py
│ │ │ ├── downloadtimeout.py
│ │ │ ├── httpauth.py
│ │ │ ├── httpcache.py
│ │ │ ├── httpcompression.py
│ │ │ ├── httpproxy.py
│ │ │ ├── __init__.py
│ │ │ ├── redirect.py
│ │ │ ├── retry.py
│ │ │ ├── robotstxt.py
│ │ │ ├── stats.py
│ │ │ └── useragent.py
│ │ ├── exporter
│ │ │ └── __init__.py
│ │ ├── feedexport.py
│ │ ├── httpcache.py
│ │ ├── __init__.py
│ │ ├── linkextractors
│ │ │ ├── htmlparser.py
│ │ │ ├── __init__.py
│ │ │ ├── lxmlhtml.py
│ │ │ ├── regex.py
│ │ │ └── sgml.py
│ │ ├── loader
│ │ │ ├── common.py
│ │ │ ├── __init__.py
│ │ │ └── processor.py
│ │ ├── logstats.py
│ │ ├── memdebug.py
│ │ ├── memusage.py
│ │ ├── pipeline
│ │ │ ├── files.py
│ │ │ ├── images.py
│ │ │ ├── __init__.py
│ │ │ └── media.py
│ │ ├── spidermiddleware
│ │ │ ├── depth.py
│ │ │ ├── httperror.py
│ │ │ ├── __init__.py
│ │ │ ├── offsite.py
│ │ │ ├── referer.py
│ │ │ └── urllength.py
│ │ ├── spiders
│ │ │ ├── crawl.py
│ │ │ ├── feed.py
│ │ │ ├── __init__.py
│ │ │ ├── init.py
│ │ │ └── sitemap.py
│ │ ├── spiderstate.py
│ │ ├── statsmailer.py
│ │ └── throttle.py
│ ├── contrib_exp
│ │ ├── downloadermiddleware
│ │ │ ├── decompression.py
│ │ │ └── __init__.py
│ │ ├── __init__.py
│ │ └── iterators.py
│ ├── core
│ │ ├── downloader
│ │ │ ├── contextfactory.py
│ │ │ ├── handlers
│ │ │ │ ├── datauri.py
│ │ │ │ ├── file.py
│ │ │ │ ├── ftp.py
│ │ │ │ ├── http10.py
│ │ │ │ ├── http11.py
│ │ │ │ ├── http.py
│ │ │ │ ├── __init__.py
│ │ │ │ └── s3.py
│ │ │ ├── __init__.py
│ │ │ ├── middleware.py
│ │ │ ├── tls.py
│ │ │ └── webclient.py
│ │ ├── engine.py
│ │ ├── __init__.py
│ │ ├── scheduler.py
│ │ ├── scraper.py
│ │ └── spidermw.py
│ ├── crawler.py
│ ├── downloadermiddlewares
│ │ ├── ajaxcrawl.py
│ │ ├── chunked.py
│ │ ├── cookies.py
│ │ ├── decompression.py
│ │ ├── defaultheaders.py
│ │ ├── downloadtimeout.py
│ │ ├── httpauth.py
│ │ ├── httpcache.py
│ │ ├── httpcompression.py
│ │ ├── httpproxy.py
│ │ ├── __init__.py
│ │ ├── redirect.py
│ │ ├── retry.py
│ │ ├── robotstxt.py
│ │ ├── stats.py
│ │ └── useragent.py
│ ├── dupefilter.py
│ ├── dupefilters.py
│ ├── exceptions.py
│ ├── exporters.py
│ ├── extension.py
│ ├── extensions
│ │ ├── closespider.py
│ │ ├── corestats.py
│ │ ├── debug.py
│ │ ├── feedexport.py
│ │ ├── httpcache.py
│ │ ├── __init__.py
│ │ ├── logstats.py
│ │ ├── memdebug.py
│ │ ├── memusage.py
│ │ ├── spiderstate.py
│ │ ├── statsmailer.py
│ │ ├── telnet.py
│ │ └── throttle.py
│ ├── http
│ │ ├── common.py
│ │ ├── cookies.py
│ │ ├── headers.py
│ │ ├── __init__.py
│ │ ├── request
│ │ │ ├── form.py
│ │ │ ├── __init__.py
│ │ │ └── rpc.py
│ │ └── response
│ │ ├── html.py
│ │ ├── __init__.py
│ │ ├── text.py
│ │ └── xml.py
│ ├── __init__.py
│ ├── interfaces.py
│ ├── item.py
│ ├── linkextractor.py
│ ├── linkextractors
│ │ ├── htmlparser.py
│ │ ├── __init__.py
│ │ ├── lxmlhtml.py
│ │ ├── regex.py
│ │ └── sgml.py
│ ├── link.py
│ ├── loader
│ │ ├── common.py
│ │ ├── __init__.py
│ │ └── processors.py
│ ├── logformatter.py
│ ├── log.py
│ ├── mail.py
│ ├── __main__.py
│ ├── middleware.py
│ ├── mime.types
│ ├── _monkeypatches.py
│ ├── pipelines
│ │ ├── files.py
│ │ ├── images.py
│ │ ├── __init__.py
│ │ └── media.py
│ ├── project.py
│ ├── resolver.py
│ ├── responsetypes.py
│ ├── selector
│ │ ├── csstranslator.py
│ │ ├── __init__.py
│ │ ├── lxmlsel.py
│ │ └── unified.py
│ ├── settings
│ │ ├── default_settings.py
│ │ ├── deprecated.py
│ │ └── __init__.py
│ ├── shell.py
│ ├── signalmanager.py
│ ├── signals.py
│ ├── spiderloader.py
│ ├── spidermanager.py
│ ├── spidermiddlewares
│ │ ├── depth.py
│ │ ├── httperror.py
│ │ ├── __init__.py
│ │ ├── offsite.py
│ │ ├── referer.py
│ │ └── urllength.py
│ ├── spider.py
│ ├── spiders
│ │ ├── crawl.py
│ │ ├── feed.py
│ │ ├── __init__.py
│ │ ├── init.py
│ │ └── sitemap.py
│ ├── squeue.py
│ ├── squeues.py
│ ├── statscollectors.py
│ ├── statscol.py
│ ├── stats.py
│ ├── telnet.py
│ ├── templates
│ │ ├── project
│ │ │ ├── module
│ │ │ │ ├── __init__.py
│ │ │ │ ├── items.py.tmpl
│ │ │ │ ├── middlewares.py.tmpl
│ │ │ │ ├── pipelines.py.tmpl
│ │ │ │ ├── settings.py.tmpl
│ │ │ │ └── spiders
│ │ │ │ └── __init__.py
│ │ │ └── scrapy.cfg
│ │ └── spiders
│ │ ├── basic.tmpl
│ │ ├── crawl.tmpl
│ │ ├── csvfeed.tmpl
│ │ └── xmlfeed.tmpl
│ ├── utils
│ │ ├── benchserver.py
│ │ ├── boto.py
│ │ ├── conf.py
│ │ ├── console.py
│ │ ├── datatypes.py
│ │ ├── decorator.py
│ │ ├── decorators.py
│ │ ├── defer.py
│ │ ├── deprecate.py
│ │ ├── display.py
│ │ ├── engine.py
│ │ ├── ftp.py
│ │ ├── gz.py
│ │ ├── httpobj.py
│ │ ├── http.py
│ │ ├── __init__.py
│ │ ├── iterators.py
│ │ ├── job.py
│ │ ├── log.py
│ │ ├── markup.py
│ │ ├── misc.py
│ │ ├── multipart.py
│ │ ├── ossignal.py
│ │ ├── project.py
│ │ ├── python.py
│ │ ├── reactor.py
│ │ ├── reqser.py
│ │ ├── request.py
│ │ ├── response.py
│ │ ├── serialize.py
│ │ ├── signal.py
│ │ ├── sitemap.py
│ │ ├── spider.py
│ │ ├── template.py
│ │ ├── testproc.py
│ │ ├── test.py
│ │ ├── testsite.py
│ │ ├── trackref.py
│ │ ├── url.py
│ │ └── versions.py
│ ├── VERSION
│ └── xlib
│ ├── __init__.py
│ ├── pydispatch.py
│ └── tx.py
├── sep
│ ├── README.rst
│ ├── sep-001.rst
│ ├── sep-002.rst
│ ├── sep-003.rst
│ ├── sep-004.rst
│ ├── sep-005.rst
│ ├── sep-006.rst
│ ├── sep-007.rst
│ ├── sep-008.rst
│ ├── sep-009.rst
│ ├── sep-010.rst
│ ├── sep-011.rst
│ ├── sep-012.rst
│ ├── sep-013.rst
│ ├── sep-014.rst
│ ├── sep-015.rst
│ ├── sep-016.rst
│ ├── sep-017.rst
│ ├── sep-018.rst
│ ├── sep-019.rst
│ ├── sep-020.rst
│ └── sep-021.rst
├── setup.cfg
├── setup.py
├── tests
│ ├── __init__.py
│ ├── keys
│ │ ├── example-com.cert.pem
│ │ ├── example-com.conf
│ │ ├── example-com.gen.README
│ │ ├── example-com.key.pem
│ │ ├── localhost.crt
│ │ ├── localhost.gen.README
│ │ ├── localhost.key
│ │ └── mitmproxy-ca.pem
│ ├── mocks
│ │ ├── dummydbm.py
│ │ └── __init__.py
│ ├── mockserver.py
│ ├── pipelines.py
│ ├── py3-ignores.txt
│ ├── requirements-py3.txt
│ ├── requirements.txt
│ ├── sample_data
│ │ ├── compressed
│ │ │ ├── feed-sample1.tar
│ │ │ ├── feed-sample1.xml
│ │ │ ├── feed-sample1.xml.bz2
│ │ │ ├── feed-sample1.xml.gz
│ │ │ ├── feed-sample1.zip
│ │ │ ├── html-br.bin
│ │ │ ├── html-gzip.bin
│ │ │ ├── html-rawdeflate.bin
│ │ │ ├── html-zlibdeflate.bin
│ │ │ ├── truncated-crc-error.gz
│ │ │ ├── truncated-crc-error-short.gz
│ │ │ ├── unexpected-eof.gz
│ │ │ └── unexpected-eof-output.txt
│ │ ├── feeds
│ │ │ ├── feed-sample1.xml
│ │ │ ├── feed-sample2.xml
│ │ │ ├── feed-sample3.csv
│ │ │ ├── feed-sample4.csv
│ │ │ ├── feed-sample5.csv
│ │ │ └── feed-sample6.csv
│ │ ├── link_extractor
│ │ │ ├── linkextractor_latin1.html
│ │ │ ├── linkextractor_noenc.html
│ │ │ └── sgml_linkextractor.html
│ │ └── test_site
│ │ ├── files
│ │ │ └── images
│ │ │ ├── python-logo-master-v3-TM-flattened.png
│ │ │ ├── python-powered-h-50x65.png
│ │ │ └── scrapy.png
│ │ ├── index.html
│ │ ├── item1.html
│ │ └── item2.html
│ ├── spiders.py
│ ├── test_closespider.py
│ ├── test_cmdline
│ │ ├── extensions.py
│ │ ├── __init__.py
│ │ └── settings.py
│ ├── test_command_fetch.py
│ ├── test_command_parse.py
│ ├── test_command_shell.py
│ ├── test_commands.py
│ ├── test_command_version.py
│ ├── test_contracts.py
│ ├── test_crawler.py
│ ├── test_crawl.py
│ ├── test_dependencies.py
│ ├── test_downloader_handlers.py
│ ├── test_downloadermiddleware_ajaxcrawlable.py
│ ├── test_downloadermiddleware_cookies.py
│ ├── test_downloadermiddleware_decompression.py
│ ├── test_downloadermiddleware_defaultheaders.py
│ ├── test_downloadermiddleware_downloadtimeout.py
│ ├── test_downloadermiddleware_httpauth.py
│ ├── test_downloadermiddleware_httpcache.py
│ ├── test_downloadermiddleware_httpcompression.py
│ ├── test_downloadermiddleware_httpproxy.py
│ ├── test_downloadermiddleware.py
│ ├── test_downloadermiddleware_redirect.py
│ ├── test_downloadermiddleware_retry.py
│ ├── test_downloadermiddleware_robotstxt.py
│ ├── test_downloadermiddleware_stats.py
│ ├── test_downloadermiddleware_useragent.py
│ ├── test_dupefilters.py
│ ├── test_engine.py
│ ├── test_exporters.py
│ ├── test_feedexport.py
│ ├── test_http_cookies.py
│ ├── test_http_headers.py
│ ├── test_http_request.py
│ ├── test_http_response.py
│ ├── test_item.py
│ ├── test_linkextractors_deprecated.py
│ ├── test_linkextractors.py
│ ├── test_link.py
│ ├── test_loader.py
│ ├── test_logformatter.py
│ ├── test_mail.py
│ ├── test_middleware.py
│ ├── test_pipeline_crawl.py
│ ├── test_pipeline_files.py
│ ├── test_pipeline_images.py
│ ├── test_pipeline_media.py
│ ├── test_proxy_connect.py
│ ├── test_pydispatch_deprecated.py
│ ├── test_responsetypes.py
│ ├── test_selector_csstranslator.py
│ ├── test_selector.py
│ ├── test_settings
│ │ ├── default_settings.py
│ │ └── __init__.py
│ ├── test_spiderloader
│ │ ├── __init__.py
│ │ └── test_spiders
│ │ ├── __init__.py
│ │ ├── nested
│ │ │ ├── __init__.py
│ │ │ └── spider4.py
│ │ ├── spider0.py
│ │ ├── spider1.py
│ │ ├── spider2.py
│ │ └── spider3.py
│ ├── test_spidermiddleware_depth.py
│ ├── test_spidermiddleware_httperror.py
│ ├── test_spidermiddleware_offsite.py
│ ├── test_spidermiddleware_referer.py
│ ├── test_spidermiddleware_urllength.py
│ ├── test_spider.py
│ ├── test_spiderstate.py
│ ├── test_squeues.py
│ ├── test_stats.py
│ ├── test_toplevel.py
│ ├── test_urlparse_monkeypatches.py
│ ├── test_utils_conf.py
│ ├── test_utils_console.py
│ ├── test_utils_datatypes.py
│ ├── test_utils_defer.py
│ ├── test_utils_deprecate.py
│ ├── test_utils_gz.py
│ ├── test_utils_httpobj.py
│ ├── test_utils_http.py
│ ├── test_utils_iterators.py
│ ├── test_utils_log.py
│ ├── test_utils_misc
│ │ ├── __init__.py
│ │ ├── test.egg
│ │ └── test_walk_modules
│ │ ├── __init__.py
│ │ ├── mod
│ │ │ ├── __init__.py
│ │ │ └── mod0.py
│ │ └── mod1.py
│ ├── test_utils_project.py
│ ├── test_utils_python.py
│ ├── test_utils_reqser.py
│ ├── test_utils_request.py
│ ├── test_utils_response.py
│ ├── test_utils_serialize.py
│ ├── test_utils_signal.py
│ ├── test_utils_sitemap.py
│ ├── test_utils_spider.py
│ ├── test_utils_template.py
│ ├── test_utils_trackref.py
│ ├── test_utils_url.py
│ └── test_webclient.py
└── tox.ini
66 directories, 522 files
标签:
相关软件
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论