实例介绍
【实例截图】
【核心代码】
.
├── goodcrawler-master
│ ├── README.md
│ ├── conf
│ │ ├── fetch.xml
│ │ ├── letv_conf_temp.xml
│ │ ├── template.xml
│ │ ├── test_youku_dm.xml
│ │ ├── wasu_conf.xml
│ │ ├── youku_conf.xml
│ │ └── youku_conf_temp.xml
│ ├── pom.xml
│ ├── setpath.bat
│ ├── src
│ │ ├── main
│ │ │ ├── java
│ │ │ │ └── org
│ │ │ │ └── sbs
│ │ │ │ ├── goodcrawler
│ │ │ │ │ ├── bootstrap
│ │ │ │ │ │ ├── BootStrap.java
│ │ │ │ │ │ ├── CrawlerStatus.java
│ │ │ │ │ │ ├── foreman
│ │ │ │ │ │ │ ├── ExtractForeman.java
│ │ │ │ │ │ │ ├── FetchForeman.java
│ │ │ │ │ │ │ ├── Foreman.java
│ │ │ │ │ │ │ ├── StoreForeman.java
│ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── conf
│ │ │ │ │ │ ├── Configurable.java
│ │ │ │ │ │ ├── Configuration.java
│ │ │ │ │ │ ├── GlobalConstants.java
│ │ │ │ │ │ ├── JobConfigurationManager.java
│ │ │ │ │ │ ├── PropertyConfigurationHelper.java
│ │ │ │ │ │ ├── Worker.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── exception
│ │ │ │ │ │ ├── ConfigurationException.java
│ │ │ │ │ │ ├── ExtractException.java
│ │ │ │ │ │ ├── QueueException.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── extractor
│ │ │ │ │ │ ├── DefaultExtractWorker.java
│ │ │ │ │ │ ├── DefaultExtractor.java
│ │ │ │ │ │ ├── ExtractResult.java
│ │ │ │ │ │ ├── ExtractWorker.java
│ │ │ │ │ │ ├── Extractor.java
│ │ │ │ │ │ ├── GCElement.java
│ │ │ │ │ │ ├── GCPage.java
│ │ │ │ │ │ ├── htmlelment
│ │ │ │ │ │ │ ├── AbstractHtmlElement.java
│ │ │ │ │ │ │ ├── CommonHtmlElement.java
│ │ │ │ │ │ │ ├── HtmlAnchorElementOfPage.java
│ │ │ │ │ │ │ ├── HtmlAnchorElementOfString.java
│ │ │ │ │ │ │ ├── HtmlElementExtractType.java
│ │ │ │ │ │ │ ├── HtmlElementType.java
│ │ │ │ │ │ │ ├── HtmlPageElement.java
│ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ ├── package-info.java
│ │ │ │ │ │ ├── selector
│ │ │ │ │ │ │ ├── AbstractElementCssSelector.java
│ │ │ │ │ │ │ ├── DateElementCssSelector.java
│ │ │ │ │ │ │ ├── FileElementCssSelector.java
│ │ │ │ │ │ │ ├── IFConditions.java
│ │ │ │ │ │ │ ├── IntegerElementCssSelector.java
│ │ │ │ │ │ │ ├── ListElementCssSelector.java
│ │ │ │ │ │ │ ├── NumericaElementCssSelector.java
│ │ │ │ │ │ │ ├── PageElementSelector.java
│ │ │ │ │ │ │ ├── SelectPageElement.java
│ │ │ │ │ │ │ ├── SelectorAttr.java
│ │ │ │ │ │ │ ├── SelectorType.java
│ │ │ │ │ │ │ ├── SetElementCssSelector.java
│ │ │ │ │ │ │ ├── StringElementCssSelector.java
│ │ │ │ │ │ │ ├── action
│ │ │ │ │ │ │ │ ├── EmptyAction.java
│ │ │ │ │ │ │ │ ├── FileSelectAction.java
│ │ │ │ │ │ │ │ ├── IntegerSelectorAction.java
│ │ │ │ │ │ │ │ ├── ListSelectorAction.java
│ │ │ │ │ │ │ │ ├── SelectorAction.java
│ │ │ │ │ │ │ │ ├── StringSelectorAction.java
│ │ │ │ │ │ │ │ ├── file
│ │ │ │ │ │ │ │ │ ├── DownLoadFileAction.java
│ │ │ │ │ │ │ │ │ ├── DownLoadImageResizeAction.java
│ │ │ │ │ │ │ │ │ └── FileActionType.java
│ │ │ │ │ │ │ │ ├── integer
│ │ │ │ │ │ │ │ │ ├── IntegerAbsAction.java
│ │ │ │ │ │ │ │ │ ├── IntegerActionType.java
│ │ │ │ │ │ │ │ │ ├── IntegerBetweenAction.java
│ │ │ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ │ │ ├── list
│ │ │ │ │ │ │ │ │ ├── ListFilterAction.java
│ │ │ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ │ │ ├── package-info.java
│ │ │ │ │ │ │ │ └── string
│ │ │ │ │ │ │ │ ├── ActionFactory.java
│ │ │ │ │ │ │ │ ├── StringActionType.java
│ │ │ │ │ │ │ │ ├── StringAfterAction.java
│ │ │ │ │ │ │ │ ├── StringAfterLastAction.java
│ │ │ │ │ │ │ │ ├── StringBeforeAction.java
│ │ │ │ │ │ │ │ ├── StringBeforeLastAction.java
│ │ │ │ │ │ │ │ ├── StringBetweenAction.java
│ │ │ │ │ │ │ │ ├── StringFilterAction.java
│ │ │ │ │ │ │ │ ├── StringPerfixAction.java
│ │ │ │ │ │ │ │ ├── StringReplaceAction.java
│ │ │ │ │ │ │ │ ├── StringSplitAction.java
│ │ │ │ │ │ │ │ ├── StringSubAction.java
│ │ │ │ │ │ │ │ ├── StringSuffixAction.java
│ │ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ │ ├── exception
│ │ │ │ │ │ │ │ ├── DownLoadException.java
│ │ │ │ │ │ │ │ ├── IntegerBetweenExpressionException.java
│ │ │ │ │ │ │ │ ├── SelectorConfigException.java
│ │ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ │ ├── expression
│ │ │ │ │ │ │ │ ├── GrExpression.java
│ │ │ │ │ │ │ │ ├── SimpleExpression.java
│ │ │ │ │ │ │ │ └── SimpleExpressionExtent.java
│ │ │ │ │ │ │ ├── factory
│ │ │ │ │ │ │ │ └── ElementCssSelectorFactory.java
│ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ └── template
│ │ │ │ │ │ ├── ExtractTemplate.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── fetcher
│ │ │ │ │ │ ├── AjaxCallFetcher.java
│ │ │ │ │ │ ├── CustomFetchStatus.java
│ │ │ │ │ │ ├── DefaultFetchWorker.java
│ │ │ │ │ │ ├── FailedPageBackup.java
│ │ │ │ │ │ ├── FetchStatus.java
│ │ │ │ │ │ ├── FetchWorker.java
│ │ │ │ │ │ ├── Fetcher.java
│ │ │ │ │ │ ├── FetcherInstance.java
│ │ │ │ │ │ ├── FetcherType.java
│ │ │ │ │ │ ├── IdleConnectionMonitorThread.java
│ │ │ │ │ │ ├── PageFetcher.java
│ │ │ │ │ │ ├── ResynchronizingAjaxController.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── jobconf
│ │ │ │ │ │ ├── ExtractConfig.java
│ │ │ │ │ │ ├── FetchConfig.java
│ │ │ │ │ │ ├── JobConfig.java
│ │ │ │ │ │ ├── StoreConfig.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── page
│ │ │ │ │ │ ├── BinaryParseData.java
│ │ │ │ │ │ ├── ExtractedPage.java
│ │ │ │ │ │ ├── ExtractedUrlAnchorPair.java
│ │ │ │ │ │ ├── HtmlContentHandler.java
│ │ │ │ │ │ ├── HtmlParseData.java
│ │ │ │ │ │ ├── Page.java
│ │ │ │ │ │ ├── PageFetchResult.java
│ │ │ │ │ │ ├── ParseData.java
│ │ │ │ │ │ ├── Parser.java
│ │ │ │ │ │ ├── TextParseData.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── plugin
│ │ │ │ │ │ ├── EsClient.java
│ │ │ │ │ │ ├── ExBulk.java
│ │ │ │ │ │ ├── IndexScanner.java
│ │ │ │ │ │ ├── ReIndex.java
│ │ │ │ │ │ ├── classloader
│ │ │ │ │ │ │ ├── CommonClassLoader.java
│ │ │ │ │ │ │ └── PluginClassLoader.java
│ │ │ │ │ │ ├── extract
│ │ │ │ │ │ │ ├── ExtractYouku.java
│ │ │ │ │ │ │ ├── Extractor66ys.java
│ │ │ │ │ │ │ ├── ExtractorDytt8.java
│ │ │ │ │ │ │ └── package-info.java
│ │ │ │ │ │ ├── package-info.java
│ │ │ │ │ │ └── storage
│ │ │ │ │ │ ├── ElasticSearchStorage.java
│ │ │ │ │ │ ├── Movie.java
│ │ │ │ │ │ ├── MovieSource.java
│ │ │ │ │ │ ├── Prepare.java
│ │ │ │ │ │ ├── p
│ │ │ │ │ │ │ ├── IESStoragePlugin.java
│ │ │ │ │ │ │ └── WasuEsStorePlugin.java
│ │ │ │ │ │ └── package-info.java
│ │ │ │ │ ├── schedule
│ │ │ │ │ │ ├── ReCraw.java
│ │ │ │ │ │ └── RecrawFetherWorkor.java
│ │ │ │ │ └── storage
│ │ │ │ │ ├── DefaultStoreWorker.java
│ │ │ │ │ ├── LocalFileStorage.java
│ │ │ │ │ ├── Storage.java
│ │ │ │ │ ├── StorageType.java
│ │ │ │ │ ├── StoreResult.java
│ │ │ │ │ ├── StoreWorker.java
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── jetty
│ │ │ │ │ ├── JettyFactory.java
│ │ │ │ │ └── StartServer.java
│ │ │ │ ├── pendingqueue
│ │ │ │ │ ├── AbsPendingQueue.java
│ │ │ │ │ ├── PendRecraw.java
│ │ │ │ │ ├── PendingManager.java
│ │ │ │ │ ├── PendingPages.java
│ │ │ │ │ ├── PendingStore.java
│ │ │ │ │ ├── PendingUrls.java
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── robotstxt
│ │ │ │ │ ├── HostDirectives.java
│ │ │ │ │ ├── RobotstxtConfig.java
│ │ │ │ │ ├── RobotstxtParser.java
│ │ │ │ │ ├── RobotstxtServer.java
│ │ │ │ │ └── RuleSet.java
│ │ │ │ ├── url
│ │ │ │ │ ├── TLDList.java
│ │ │ │ │ ├── URLCanonicalizer.java
│ │ │ │ │ ├── UlrFilters.java
│ │ │ │ │ ├── UrlResolver.java
│ │ │ │ │ ├── UrlSignatureSet.java
│ │ │ │ │ ├── WebURL.java
│ │ │ │ │ └── package-info.java
│ │ │ │ ├── util
│ │ │ │ │ ├── BinaryDateDwonLoader.java
│ │ │ │ │ ├── BloomFilter.java
│ │ │ │ │ ├── BloomfilterHelper.java
│ │ │ │ │ ├── CharUtil.java
│ │ │ │ │ ├── CheckIfUniqueUrl.java
│ │ │ │ │ ├── CheckIfUniqueUrlByBloomfilter.java
│ │ │ │ │ ├── CheckIfUniqueUrlByMd5.java
│ │ │ │ │ ├── ChineseSpelling.java
│ │ │ │ │ ├── DateTimeUtil.java
│ │ │ │ │ ├── EncryptUtils.java
│ │ │ │ │ ├── IO.java
│ │ │ │ │ ├── ImageCompress.java
│ │ │ │ │ ├── ImgUtil.java
│ │ │ │ │ ├── JsonUtil.java
│ │ │ │ │ ├── MD5Utils.java
│ │ │ │ │ ├── MapUtils.java
│ │ │ │ │ ├── MurmurHash.java
│ │ │ │ │ ├── PinyinUtil.java
│ │ │ │ │ ├── RegexList.java
│ │ │ │ │ ├── Simhash.java
│ │ │ │ │ ├── StringHelper.java
│ │ │ │ │ ├── StringUtil.java
│ │ │ │ │ ├── UrlUtils.java
│ │ │ │ │ ├── Util.java
│ │ │ │ │ ├── XmlConverUtil.java
│ │ │ │ │ ├── download
│ │ │ │ │ │ ├── DownLoadPool.java
│ │ │ │ │ │ ├── DownloadInfo.java
│ │ │ │ │ │ └── MultiThreadDownload.java
│ │ │ │ │ └── image
│ │ │ │ │ ├── ImageResize.java
│ │ │ │ │ └── ImageResizePool.java
│ │ │ │ └── web
│ │ │ │ ├── ContextListener.java
│ │ │ │ ├── CrawlerManager.java
│ │ │ │ ├── GoodServlet.java
│ │ │ │ ├── Start.java
│ │ │ │ ├── Status.java
│ │ │ │ ├── Stop.java
│ │ │ │ └── package-info.java
│ │ │ ├── resources
│ │ │ │ ├── conf.properties
│ │ │ │ ├── default_mapping.json
│ │ │ │ ├── job_conf.xml
│ │ │ │ ├── log4j.xml
│ │ │ │ ├── logback.xml
│ │ │ │ ├── mapping.json
│ │ │ │ ├── tld-names.txt
│ │ │ │ └── webdefault-windows.xml
│ │ │ └── webapp
│ │ │ ├── META-INF
│ │ │ │ └── MANIFEST.MF
│ │ │ ├── WEB-INF
│ │ │ │ └── web.xml
│ │ │ └── index.jsp
│ │ └── test
│ │ └── java
│ │ └── org
│ │ └── sbs
│ │ ├── AppTest.java
│ │ ├── ListLinks.java
│ │ ├── T.java
│ │ ├── extract
│ │ │ ├── TestWasu.java
│ │ │ ├── TestYouku.java
│ │ │ └── Tester.java
│ │ └── htmlunit
│ │ ├── HtmlUnitTest.java
│ │ ├── element
│ │ │ ├── GcElementTest.java
│ │ │ └── package-info.java
│ │ └── package-info.java
│ └── start.bat
└── 好例子网_JavaHtmlunit网络爬虫.zip
53 directories, 236 files
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论