在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例一般编程问题 → webmagic全套资料(包含最新版 jar包,源代码,中文文档).zip

webmagic全套资料(包含最新版 jar包,源代码,中文文档).zip

一般编程问题

下载此实例
  • 开发语言:Others
  • 实例大小:7.03M
  • 下载次数:2
  • 浏览次数:171
  • 发布时间:2021-12-11
  • 实例类别:一般编程问题
  • 发 布 人:js2021
  • 文件格式:.zip
  • 所需积分:2
 

实例介绍

【实例简介】
是webmagic爬虫框架的最新全套资料,学习java爬虫必备资料。(包括jar包,源代码,源代码中有样例,中文文档说明等)
【实例截图】
【核心代码】
4744302543359570683.zip
├── webmagic
│   ├── LICENSE
│   ├── pom.xml
│   ├── README.md
│   ├── README-zh.md
│   ├── webmagic-core
│   │   ├── module_webmagic-core.xml
│   │   ├── pom.xml
│   │   ├── README.md
│   │   ├── src
│   │   │   ├── main
│   │   │   │   ├── java
│   │   │   │   │   └── us
│   │   │   │   │   └── codecraft
│   │   │   │   │   └── webmagic
│   │   │   │   │   ├── downloader
│   │   │   │   │   │   ├── AbstractDownloader.java
│   │   │   │   │   │   ├── CustomRedirectStrategy.java
│   │   │   │   │   │   ├── Downloader.java
│   │   │   │   │   │   ├── HttpClientDownloader.java
│   │   │   │   │   │   ├── HttpClientGenerator.java
│   │   │   │   │   │   ├── HttpClientRequestContext.java
│   │   │   │   │   │   ├── HttpUriRequestConverter.java
│   │   │   │   │   │   └── package.html
│   │   │   │   │   ├── model
│   │   │   │   │   │   └── HttpRequestBody.java
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── Page.java
│   │   │   │   │   ├── pipeline
│   │   │   │   │   │   ├── CollectorPipeline.java
│   │   │   │   │   │   ├── ConsolePipeline.java
│   │   │   │   │   │   ├── FilePipeline.java
│   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   ├── Pipeline.java
│   │   │   │   │   │   └── ResultItemsCollectorPipeline.java
│   │   │   │   │   ├── processor
│   │   │   │   │   │   ├── example
│   │   │   │   │   │   │   ├── BaiduBaikePageProcessor.java
│   │   │   │   │   │   │   ├── GithubRepoPageProcessor.java
│   │   │   │   │   │   │   └── ZhihuPageProcessor.java
│   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   ├── PageProcessor.java
│   │   │   │   │   │   └── SimplePageProcessor.java
│   │   │   │   │   ├── proxy
│   │   │   │   │   │   ├── Proxy.java
│   │   │   │   │   │   ├── ProxyProvider.java
│   │   │   │   │   │   └── SimpleProxyProvider.java
│   │   │   │   │   ├── Request.java
│   │   │   │   │   ├── ResultItems.java
│   │   │   │   │   ├── scheduler
│   │   │   │   │   │   ├── component
│   │   │   │   │   │   │   ├── DuplicateRemover.java
│   │   │   │   │   │   │   ├── HashSetDuplicateRemover.java
│   │   │   │   │   │   │   └── package.html
│   │   │   │   │   │   ├── DuplicateRemovedScheduler.java
│   │   │   │   │   │   ├── MonitorableScheduler.java
│   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   ├── PriorityScheduler.java
│   │   │   │   │   │   ├── QueueScheduler.java
│   │   │   │   │   │   └── Scheduler.java
│   │   │   │   │   ├── selector
│   │   │   │   │   │   ├── AbstractSelectable.java
│   │   │   │   │   │   ├── AndSelector.java
│   │   │   │   │   │   ├── BaseElementSelector.java
│   │   │   │   │   │   ├── CssSelector.java
│   │   │   │   │   │   ├── ElementSelector.java
│   │   │   │   │   │   ├── Html.java
│   │   │   │   │   │   ├── HtmlNode.java
│   │   │   │   │   │   ├── Json.java
│   │   │   │   │   │   ├── JsonPathSelector.java
│   │   │   │   │   │   ├── LinksSelector.java
│   │   │   │   │   │   ├── OrSelector.java
│   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   ├── PlainText.java
│   │   │   │   │   │   ├── RegexResult.java
│   │   │   │   │   │   ├── RegexSelector.java
│   │   │   │   │   │   ├── ReplaceSelector.java
│   │   │   │   │   │   ├── Selectable.java
│   │   │   │   │   │   ├── Selector.java
│   │   │   │   │   │   ├── Selectors.java
│   │   │   │   │   │   ├── SmartContentSelector.java
│   │   │   │   │   │   └── XpathSelector.java
│   │   │   │   │   ├── Site.java
│   │   │   │   │   ├── Spider.java
│   │   │   │   │   ├── SpiderListener.java
│   │   │   │   │   ├── Task.java
│   │   │   │   │   ├── thread
│   │   │   │   │   │   └── CountableThreadPool.java
│   │   │   │   │   └── utils
│   │   │   │   │   ├── CharsetUtils.java
│   │   │   │   │   ├── Experimental.java
│   │   │   │   │   ├── FilePersistentBase.java
│   │   │   │   │   ├── HttpClientUtils.java
│   │   │   │   │   ├── HttpConstant.java
│   │   │   │   │   ├── NumberUtils.java
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── ProxyUtils.java
│   │   │   │   │   ├── UrlUtils.java
│   │   │   │   │   └── WMCollections.java
│   │   │   │   └── resources
│   │   │   │   └── log4j.xml
│   │   │   └── test
│   │   │   ├── java
│   │   │   │   └── us
│   │   │   │   └── codecraft
│   │   │   │   └── webmagic
│   │   │   │   ├── downloader
│   │   │   │   │   ├── HttpClientDownloaderTest.java
│   │   │   │   │   └── MockGithubDownloader.java
│   │   │   │   ├── example
│   │   │   │   │   └── GithubRepoPageProcessorTest.java
│   │   │   │   ├── HtmlTest.java
│   │   │   │   ├── pipeline
│   │   │   │   │   └── FilePipelineTest.java
│   │   │   │   ├── proxy
│   │   │   │   │   ├── ProxyTest.java
│   │   │   │   │   └── SimpleProxyProviderTest.java
│   │   │   │   ├── RequestTest.java
│   │   │   │   ├── ResultItemsTest.java
│   │   │   │   ├── scheduler
│   │   │   │   │   ├── DuplicateRemovedSchedulerTest.java
│   │   │   │   │   └── PrioritySchedulerTest.java
│   │   │   │   ├── selector
│   │   │   │   │   ├── ExtractorsTest.java
│   │   │   │   │   ├── JsonPathSelectorTest.java
│   │   │   │   │   ├── JsonTest.java
│   │   │   │   │   ├── LinksSelectorTest.java
│   │   │   │   │   ├── RegexSelectorTest.java
│   │   │   │   │   └── SelectorTest.java
│   │   │   │   ├── SpiderTest.java
│   │   │   │   └── utils
│   │   │   │   └── UrlUtilsTest.java
│   │   │   └── resources
│   │   │   ├── html
│   │   │   │   └── mock-github.html
│   │   │   └── log4j.xml
│   │   └── target
│   ├── webmagic-extension
│   │   ├── pom.xml
│   │   ├── README.md
│   │   ├── src
│   │   │   ├── main
│   │   │   │   ├── java
│   │   │   │   │   └── us
│   │   │   │   │   └── codecraft
│   │   │   │   │   └── webmagic
│   │   │   │   │   ├── configurable
│   │   │   │   │   │   ├── ConfigurablePageProcessor.java
│   │   │   │   │   │   ├── ExpressionType.java
│   │   │   │   │   │   └── ExtractRule.java
│   │   │   │   │   ├── downloader
│   │   │   │   │   │   └── PhantomJSDownloader.java
│   │   │   │   │   ├── example
│   │   │   │   │   │   ├── AppStore.java
│   │   │   │   │   │   ├── BaiduBaike.java
│   │   │   │   │   │   ├── GithubRepoApi.java
│   │   │   │   │   │   ├── GithubRepo.java
│   │   │   │   │   │   ├── GithubRepoPageMapper.java
│   │   │   │   │   │   ├── MonitorExample.java
│   │   │   │   │   │   ├── OschinaBlog.java
│   │   │   │   │   │   └── PatternProcessorExample.java
│   │   │   │   │   ├── handler
│   │   │   │   │   │   ├── CompositePageProcessor.java
│   │   │   │   │   │   ├── CompositePipeline.java
│   │   │   │   │   │   ├── PatternProcessor.java
│   │   │   │   │   │   ├── PatternRequestMatcher.java
│   │   │   │   │   │   ├── RequestMatcher.java
│   │   │   │   │   │   ├── SubPageProcessor.java
│   │   │   │   │   │   └── SubPipeline.java
│   │   │   │   │   ├── model
│   │   │   │   │   │   ├── AfterExtractor.java
│   │   │   │   │   │   ├── annotation
│   │   │   │   │   │   │   ├── ComboExtract.java
│   │   │   │   │   │   │   ├── ExtractBy.java
│   │   │   │   │   │   │   ├── ExtractByUrl.java
│   │   │   │   │   │   │   ├── Formatter.java
│   │   │   │   │   │   │   ├── HelpUrl.java
│   │   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   │   └── TargetUrl.java
│   │   │   │   │   │   ├── ConsolePageModelPipeline.java
│   │   │   │   │   │   ├── Extractor.java
│   │   │   │   │   │   ├── FieldExtractor.java
│   │   │   │   │   │   ├── formatter
│   │   │   │   │   │   │   ├── BasicTypeFormatter.java
│   │   │   │   │   │   │   ├── DateFormatter.java
│   │   │   │   │   │   │   ├── ObjectFormatterBuilder.java
│   │   │   │   │   │   │   ├── ObjectFormatter.java
│   │   │   │   │   │   │   └── ObjectFormatters.java
│   │   │   │   │   │   ├── HasKey.java
│   │   │   │   │   │   ├── ModelPageProcessor.java
│   │   │   │   │   │   ├── ModelPipeline.java
│   │   │   │   │   │   ├── OOSpider.java
│   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   ├── PageMapper.java
│   │   │   │   │   │   ├── PageModelCollectorPipeline.java
│   │   │   │   │   │   └── PageModelExtractor.java
│   │   │   │   │   ├── monitor
│   │   │   │   │   │   ├── SpiderMonitor.java
│   │   │   │   │   │   ├── SpiderStatus.java
│   │   │   │   │   │   └── SpiderStatusMXBean.java
│   │   │   │   │   ├── MultiPageModel.java
│   │   │   │   │   ├── pipeline
│   │   │   │   │   │   ├── CollectorPageModelPipeline.java
│   │   │   │   │   │   ├── FilePageModelPipeline.java
│   │   │   │   │   │   ├── JsonFilePageModelPipeline.java
│   │   │   │   │   │   ├── JsonFilePipeline.java
│   │   │   │   │   │   ├── MultiPagePipeline.java
│   │   │   │   │   │   └── PageModelPipeline.java
│   │   │   │   │   ├── scheduler
│   │   │   │   │   │   ├── BloomFilterDuplicateRemover.java
│   │   │   │   │   │   ├── FileCacheQueueScheduler.java
│   │   │   │   │   │   ├── RedisPriorityScheduler.java
│   │   │   │   │   │   └── RedisScheduler.java
│   │   │   │   │   ├── SimpleHttpClient.java
│   │   │   │   │   └── utils
│   │   │   │   │   ├── ClassUtils.java
│   │   │   │   │   ├── DoubleKeyMap.java
│   │   │   │   │   ├── ExtractorUtils.java
│   │   │   │   │   ├── IPUtils.java
│   │   │   │   │   ├── MultiKeyMapBase.java
│   │   │   │   │   └── RequestUtils.java
│   │   │   │   └── resources
│   │   │   │   ├── crawl.js
│   │   │   │   ├── log4j.xml
│   │   │   │   └── spider-config-draft.xml
│   │   │   └── test
│   │   │   ├── java
│   │   │   │   └── us
│   │   │   │   └── codecraft
│   │   │   │   └── webmagic
│   │   │   │   ├── configurable
│   │   │   │   │   └── ConfigurablePageProcessorTest.java
│   │   │   │   ├── downloader
│   │   │   │   │   └── MockGithubDownloader.java
│   │   │   │   ├── formatter
│   │   │   │   │   └── DateFormatterTest.java
│   │   │   │   ├── MockPageModelPipeline.java
│   │   │   │   ├── MockPipeline.java
│   │   │   │   ├── model
│   │   │   │   │   ├── BaseRepo.java
│   │   │   │   │   ├── GithubRepoApi.java
│   │   │   │   │   ├── GithubRepo.java
│   │   │   │   │   ├── GithubRepoTest.java
│   │   │   │   │   ├── ModelPageProcessorTest.java
│   │   │   │   │   ├── PageMapperTest.java
│   │   │   │   │   ├── PageMocker.java
│   │   │   │   │   └── PageModelExtractorTest.java
│   │   │   │   ├── monitor
│   │   │   │   │   ├── CustomSpiderStatus.java
│   │   │   │   │   ├── CustomSpiderStatusMXBean.java
│   │   │   │   │   ├── SeedUrlWithPortTest.java
│   │   │   │   │   └── SpiderMonitorTest.java
│   │   │   │   ├── processor
│   │   │   │   │   └── GithubRepoProcessor.java
│   │   │   │   ├── scheduler
│   │   │   │   │   ├── BloomFilterDuplicateRemoverTest.java
│   │   │   │   │   ├── RedisPrioritySchedulerTest.java
│   │   │   │   │   └── RedisSchedulerTest.java
│   │   │   │   ├── SimpleHttpClientTest.java
│   │   │   │   └── utils
│   │   │   │   ├── IPUtilsTest.java
│   │   │   │   └── RequestUtilsTest.java
│   │   │   └── resources
│   │   │   ├── html
│   │   │   │   ├── mock-github.html
│   │   │   │   └── mock-webmagic.html
│   │   │   ├── json
│   │   │   │   └── mock-githubrepo.json
│   │   │   └── log4j.xml
│   │   └── target
│   ├── webmagic-samples
│   │   ├── pom.xml
│   │   ├── README.md
│   │   ├── src
│   │   │   ├── main
│   │   │   │   ├── java
│   │   │   │   │   └── us
│   │   │   │   │   └── codecraft
│   │   │   │   │   └── webmagic
│   │   │   │   │   ├── main
│   │   │   │   │   │   └── QuickStarter.java
│   │   │   │   │   ├── model
│   │   │   │   │   │   └── samples
│   │   │   │   │   │   ├── BaiduNews.java
│   │   │   │   │   │   ├── Blog.java
│   │   │   │   │   │   ├── DianpingFtlDataScanner.java
│   │   │   │   │   │   ├── GithubRepo.java
│   │   │   │   │   │   ├── IteyeBlog.java
│   │   │   │   │   │   ├── JokejiModel.java
│   │   │   │   │   │   ├── Kr36NewsModel.java
│   │   │   │   │   │   ├── News163.java
│   │   │   │   │   │   ├── OschinaAnswer.java
│   │   │   │   │   │   ├── OschinaBlog.java
│   │   │   │   │   │   └── QQMeishi.java
│   │   │   │   │   └── samples
│   │   │   │   │   ├── AlexanderMcqueenGoodsProcessor.java
│   │   │   │   │   ├── AmanzonPageProcessor.java
│   │   │   │   │   ├── AngularJSProcessor.java
│   │   │   │   │   ├── DiandianBlogProcessor.java
│   │   │   │   │   ├── DiaoyuwengProcessor.java
│   │   │   │   │   ├── F58PageProcesser.java
│   │   │   │   │   ├── formatter
│   │   │   │   │   │   └── StringTemplateFormatter.java
│   │   │   │   │   ├── GithubRepo.java
│   │   │   │   │   ├── GithubRepoPageProcessor.java
│   │   │   │   │   ├── HuxiuProcessor.java
│   │   │   │   │   ├── InfoQMiniBookProcessor.java
│   │   │   │   │   ├── IteyeBlogProcessor.java
│   │   │   │   │   ├── KaichibaProcessor.java
│   │   │   │   │   ├── MamacnPageProcessor.java
│   │   │   │   │   ├── MeicanProcessor.java
│   │   │   │   │   ├── NjuBBSProcessor.java
│   │   │   │   │   ├── PhantomJSPageProcessor.java
│   │   │   │   │   ├── pipeline
│   │   │   │   │   │   ├── OneFilePipeline.java
│   │   │   │   │   │   └── ReplacePipeline.java
│   │   │   │   │   ├── QzoneBlogProcessor.java
│   │   │   │   │   ├── scheduler
│   │   │   │   │   │   ├── DelayQueueScheduler.java
│   │   │   │   │   │   ├── LevelLimitScheduler.java
│   │   │   │   │   │   └── ZipCodePageProcessor.java
│   │   │   │   │   ├── SinaBlogProcessor.java
│   │   │   │   │   ├── TianyaPageProcesser.java
│   │   │   │   │   └── ZhihuPageProcessor.java
│   │   │   │   └── resources
│   │   │   │   ├── crawl.js
│   │   │   │   └── log4j.xml
│   │   │   └── test
│   │   │   └── java
│   │   │   └── us
│   │   │   └── codecraft
│   │   │   └── webmagic
│   │   │   ├── model
│   │   │   │   └── ProcessorBenchmark.java
│   │   │   ├── processor
│   │   │   │   └── SinablogProcessorTest.java
│   │   │   ├── samples
│   │   │   │   └── scheduler
│   │   │   │   └── DelayQueueSchedulerTest.java
│   │   │   └── SpiderTest.java
│   │   └── target
│   ├── webmagic-saxon
│   │   ├── pom.xml
│   │   ├── README.md
│   │   ├── src
│   │   │   ├── main
│   │   │   │   └── java
│   │   │   │   └── us
│   │   │   │   └── codecraft
│   │   │   │   └── webmagic
│   │   │   │   └── selector
│   │   │   │   └── Xpath2Selector.java
│   │   │   └── test
│   │   │   └── java
│   │   │   └── us
│   │   │   └── codecraft
│   │   │   └── webmagic
│   │   │   └── selector
│   │   │   └── XpathSelectorTest.java
│   │   └── target
│   ├── webmagic-scripts
│   │   ├── deploy.sh
│   │   ├── pom.xml
│   │   ├── README.md
│   │   ├── src
│   │   │   ├── main
│   │   │   │   ├── groovy
│   │   │   │   │   └── Github.groovy
│   │   │   │   ├── java
│   │   │   │   │   └── us
│   │   │   │   │   └── codecraft
│   │   │   │   │   └── webmagic
│   │   │   │   │   └── scripts
│   │   │   │   │   ├── Language.java
│   │   │   │   │   ├── ScriptConsole.java
│   │   │   │   │   ├── ScriptEnginePool.java
│   │   │   │   │   ├── ScriptProcessorBuilder.java
│   │   │   │   │   └── ScriptProcessor.java
│   │   │   │   ├── kotlin
│   │   │   │   │   └── Github.kt
│   │   │   │   └── resources
│   │   │   │   ├── js
│   │   │   │   │   ├── defines.js
│   │   │   │   │   ├── github.js
│   │   │   │   │   └── oschina.js
│   │   │   │   ├── log4j.xml
│   │   │   │   ├── python
│   │   │   │   │   ├── defines.py
│   │   │   │   │   └── oschina.py
│   │   │   │   └── ruby
│   │   │   │   ├── defines.rb
│   │   │   │   ├── github.rb
│   │   │   │   └── oschina.rb
│   │   │   └── test
│   │   │   ├── java
│   │   │   │   └── us
│   │   │   │   └── codecraft
│   │   │   │   └── webmagic
│   │   │   │   └── scripts
│   │   │   │   └── ScriptProcessorTest.java
│   │   │   └── resouces
│   │   │   └── log4j.xml
│   │   └── target
│   └── webmagic-selenium
│   ├── config.ini
│   ├── pom.xml
│   ├── README.md
│   ├── src
│   │   ├── main
│   │   │   └── java
│   │   │   └── us
│   │   │   └── codecraft
│   │   │   └── webmagic
│   │   │   └── downloader
│   │   │   └── selenium
│   │   │   ├── SeleniumDownloader.java
│   │   │   └── WebDriverPool.java
│   │   └── test
│   │   ├── java
│   │   │   └── us
│   │   │   └── codecraft
│   │   │   └── webmagic
│   │   │   ├── downloader
│   │   │   │   ├── selenium
│   │   │   │   │   ├── SeleniumDownloaderTest.java
│   │   │   │   │   └── WebDriverPoolTest.java
│   │   │   │   └── SeleniumTest.java
│   │   │   └── samples
│   │   │   ├── GooglePlayProcessor.java
│   │   │   └── HuabanProcessor.java
│   │   └── resources
│   │   └── config.ini
│   └── target
├── webmagic-0.7.3-all.tar.gz
└── webmagic中文文档.pdf

152 directories, 283 files

标签:

实例下载地址

webmagic全套资料(包含最新版 jar包,源代码,中文文档).zip

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警