在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例Clojure → JavaHtmlunit网络爬虫

JavaHtmlunit网络爬虫

Clojure

下载此实例
  • 开发语言:Others
  • 实例大小:0.36M
  • 下载次数:5
  • 浏览次数:38
  • 发布时间:2022-05-08
  • 实例类别:Clojure
  • 发 布 人:heha123
  • 文件格式:.zip
  • 所需积分:2
 相关标签: java 网络爬虫

实例介绍

【实例简介】JavaHtmlunit网络爬虫

【实例截图】

from clipboard

【核心代码】

.
├── goodcrawler-master
│   ├── README.md
│   ├── conf
│   │   ├── fetch.xml
│   │   ├── letv_conf_temp.xml
│   │   ├── template.xml
│   │   ├── test_youku_dm.xml
│   │   ├── wasu_conf.xml
│   │   ├── youku_conf.xml
│   │   └── youku_conf_temp.xml
│   ├── pom.xml
│   ├── setpath.bat
│   ├── src
│   │   ├── main
│   │   │   ├── java
│   │   │   │   └── org
│   │   │   │       └── sbs
│   │   │   │           ├── goodcrawler
│   │   │   │           │   ├── bootstrap
│   │   │   │           │   │   ├── BootStrap.java
│   │   │   │           │   │   ├── CrawlerStatus.java
│   │   │   │           │   │   ├── foreman
│   │   │   │           │   │   │   ├── ExtractForeman.java
│   │   │   │           │   │   │   ├── FetchForeman.java
│   │   │   │           │   │   │   ├── Foreman.java
│   │   │   │           │   │   │   ├── StoreForeman.java
│   │   │   │           │   │   │   └── package-info.java
│   │   │   │           │   │   └── package-info.java
│   │   │   │           │   ├── conf
│   │   │   │           │   │   ├── Configurable.java
│   │   │   │           │   │   ├── Configuration.java
│   │   │   │           │   │   ├── GlobalConstants.java
│   │   │   │           │   │   ├── JobConfigurationManager.java
│   │   │   │           │   │   ├── PropertyConfigurationHelper.java
│   │   │   │           │   │   ├── Worker.java
│   │   │   │           │   │   └── package-info.java
│   │   │   │           │   ├── exception
│   │   │   │           │   │   ├── ConfigurationException.java
│   │   │   │           │   │   ├── ExtractException.java
│   │   │   │           │   │   ├── QueueException.java
│   │   │   │           │   │   └── package-info.java
│   │   │   │           │   ├── extractor
│   │   │   │           │   │   ├── DefaultExtractWorker.java
│   │   │   │           │   │   ├── DefaultExtractor.java
│   │   │   │           │   │   ├── ExtractResult.java
│   │   │   │           │   │   ├── ExtractWorker.java
│   │   │   │           │   │   ├── Extractor.java
│   │   │   │           │   │   ├── GCElement.java
│   │   │   │           │   │   ├── GCPage.java
│   │   │   │           │   │   ├── htmlelment
│   │   │   │           │   │   │   ├── AbstractHtmlElement.java
│   │   │   │           │   │   │   ├── CommonHtmlElement.java
│   │   │   │           │   │   │   ├── HtmlAnchorElementOfPage.java
│   │   │   │           │   │   │   ├── HtmlAnchorElementOfString.java
│   │   │   │           │   │   │   ├── HtmlElementExtractType.java
│   │   │   │           │   │   │   ├── HtmlElementType.java
│   │   │   │           │   │   │   ├── HtmlPageElement.java
│   │   │   │           │   │   │   └── package-info.java
│   │   │   │           │   │   ├── package-info.java
│   │   │   │           │   │   ├── selector
│   │   │   │           │   │   │   ├── AbstractElementCssSelector.java
│   │   │   │           │   │   │   ├── DateElementCssSelector.java
│   │   │   │           │   │   │   ├── FileElementCssSelector.java
│   │   │   │           │   │   │   ├── IFConditions.java
│   │   │   │           │   │   │   ├── IntegerElementCssSelector.java
│   │   │   │           │   │   │   ├── ListElementCssSelector.java
│   │   │   │           │   │   │   ├── NumericaElementCssSelector.java
│   │   │   │           │   │   │   ├── PageElementSelector.java
│   │   │   │           │   │   │   ├── SelectPageElement.java
│   │   │   │           │   │   │   ├── SelectorAttr.java
│   │   │   │           │   │   │   ├── SelectorType.java
│   │   │   │           │   │   │   ├── SetElementCssSelector.java
│   │   │   │           │   │   │   ├── StringElementCssSelector.java
│   │   │   │           │   │   │   ├── action
│   │   │   │           │   │   │   │   ├── EmptyAction.java
│   │   │   │           │   │   │   │   ├── FileSelectAction.java
│   │   │   │           │   │   │   │   ├── IntegerSelectorAction.java
│   │   │   │           │   │   │   │   ├── ListSelectorAction.java
│   │   │   │           │   │   │   │   ├── SelectorAction.java
│   │   │   │           │   │   │   │   ├── StringSelectorAction.java
│   │   │   │           │   │   │   │   ├── file
│   │   │   │           │   │   │   │   │   ├── DownLoadFileAction.java
│   │   │   │           │   │   │   │   │   ├── DownLoadImageResizeAction.java
│   │   │   │           │   │   │   │   │   └── FileActionType.java
│   │   │   │           │   │   │   │   ├── integer
│   │   │   │           │   │   │   │   │   ├── IntegerAbsAction.java
│   │   │   │           │   │   │   │   │   ├── IntegerActionType.java
│   │   │   │           │   │   │   │   │   ├── IntegerBetweenAction.java
│   │   │   │           │   │   │   │   │   └── package-info.java
│   │   │   │           │   │   │   │   ├── list
│   │   │   │           │   │   │   │   │   ├── ListFilterAction.java
│   │   │   │           │   │   │   │   │   └── package-info.java
│   │   │   │           │   │   │   │   ├── package-info.java
│   │   │   │           │   │   │   │   └── string
│   │   │   │           │   │   │   │       ├── ActionFactory.java
│   │   │   │           │   │   │   │       ├── StringActionType.java
│   │   │   │           │   │   │   │       ├── StringAfterAction.java
│   │   │   │           │   │   │   │       ├── StringAfterLastAction.java
│   │   │   │           │   │   │   │       ├── StringBeforeAction.java
│   │   │   │           │   │   │   │       ├── StringBeforeLastAction.java
│   │   │   │           │   │   │   │       ├── StringBetweenAction.java
│   │   │   │           │   │   │   │       ├── StringFilterAction.java
│   │   │   │           │   │   │   │       ├── StringPerfixAction.java
│   │   │   │           │   │   │   │       ├── StringReplaceAction.java
│   │   │   │           │   │   │   │       ├── StringSplitAction.java
│   │   │   │           │   │   │   │       ├── StringSubAction.java
│   │   │   │           │   │   │   │       ├── StringSuffixAction.java
│   │   │   │           │   │   │   │       └── package-info.java
│   │   │   │           │   │   │   ├── exception
│   │   │   │           │   │   │   │   ├── DownLoadException.java
│   │   │   │           │   │   │   │   ├── IntegerBetweenExpressionException.java
│   │   │   │           │   │   │   │   ├── SelectorConfigException.java
│   │   │   │           │   │   │   │   └── package-info.java
│   │   │   │           │   │   │   ├── expression
│   │   │   │           │   │   │   │   ├── GrExpression.java
│   │   │   │           │   │   │   │   ├── SimpleExpression.java
│   │   │   │           │   │   │   │   └── SimpleExpressionExtent.java
│   │   │   │           │   │   │   ├── factory
│   │   │   │           │   │   │   │   └── ElementCssSelectorFactory.java
│   │   │   │           │   │   │   └── package-info.java
│   │   │   │           │   │   └── template
│   │   │   │           │   │       ├── ExtractTemplate.java
│   │   │   │           │   │       └── package-info.java
│   │   │   │           │   ├── fetcher
│   │   │   │           │   │   ├── AjaxCallFetcher.java
│   │   │   │           │   │   ├── CustomFetchStatus.java
│   │   │   │           │   │   ├── DefaultFetchWorker.java
│   │   │   │           │   │   ├── FailedPageBackup.java
│   │   │   │           │   │   ├── FetchStatus.java
│   │   │   │           │   │   ├── FetchWorker.java
│   │   │   │           │   │   ├── Fetcher.java
│   │   │   │           │   │   ├── FetcherInstance.java
│   │   │   │           │   │   ├── FetcherType.java
│   │   │   │           │   │   ├── IdleConnectionMonitorThread.java
│   │   │   │           │   │   ├── PageFetcher.java
│   │   │   │           │   │   ├── ResynchronizingAjaxController.java
│   │   │   │           │   │   └── package-info.java
│   │   │   │           │   ├── jobconf
│   │   │   │           │   │   ├── ExtractConfig.java
│   │   │   │           │   │   ├── FetchConfig.java
│   │   │   │           │   │   ├── JobConfig.java
│   │   │   │           │   │   ├── StoreConfig.java
│   │   │   │           │   │   └── package-info.java
│   │   │   │           │   ├── page
│   │   │   │           │   │   ├── BinaryParseData.java
│   │   │   │           │   │   ├── ExtractedPage.java
│   │   │   │           │   │   ├── ExtractedUrlAnchorPair.java
│   │   │   │           │   │   ├── HtmlContentHandler.java
│   │   │   │           │   │   ├── HtmlParseData.java
│   │   │   │           │   │   ├── Page.java
│   │   │   │           │   │   ├── PageFetchResult.java
│   │   │   │           │   │   ├── ParseData.java
│   │   │   │           │   │   ├── Parser.java
│   │   │   │           │   │   ├── TextParseData.java
│   │   │   │           │   │   └── package-info.java
│   │   │   │           │   ├── plugin
│   │   │   │           │   │   ├── EsClient.java
│   │   │   │           │   │   ├── ExBulk.java
│   │   │   │           │   │   ├── IndexScanner.java
│   │   │   │           │   │   ├── ReIndex.java
│   │   │   │           │   │   ├── classloader
│   │   │   │           │   │   │   ├── CommonClassLoader.java
│   │   │   │           │   │   │   └── PluginClassLoader.java
│   │   │   │           │   │   ├── extract
│   │   │   │           │   │   │   ├── ExtractYouku.java
│   │   │   │           │   │   │   ├── Extractor66ys.java
│   │   │   │           │   │   │   ├── ExtractorDytt8.java
│   │   │   │           │   │   │   └── package-info.java
│   │   │   │           │   │   ├── package-info.java
│   │   │   │           │   │   └── storage
│   │   │   │           │   │       ├── ElasticSearchStorage.java
│   │   │   │           │   │       ├── Movie.java
│   │   │   │           │   │       ├── MovieSource.java
│   │   │   │           │   │       ├── Prepare.java
│   │   │   │           │   │       ├── p
│   │   │   │           │   │       │   ├── IESStoragePlugin.java
│   │   │   │           │   │       │   └── WasuEsStorePlugin.java
│   │   │   │           │   │       └── package-info.java
│   │   │   │           │   ├── schedule
│   │   │   │           │   │   ├── ReCraw.java
│   │   │   │           │   │   └── RecrawFetherWorkor.java
│   │   │   │           │   └── storage
│   │   │   │           │       ├── DefaultStoreWorker.java
│   │   │   │           │       ├── LocalFileStorage.java
│   │   │   │           │       ├── Storage.java
│   │   │   │           │       ├── StorageType.java
│   │   │   │           │       ├── StoreResult.java
│   │   │   │           │       ├── StoreWorker.java
│   │   │   │           │       └── package-info.java
│   │   │   │           ├── jetty
│   │   │   │           │   ├── JettyFactory.java
│   │   │   │           │   └── StartServer.java
│   │   │   │           ├── pendingqueue
│   │   │   │           │   ├── AbsPendingQueue.java
│   │   │   │           │   ├── PendRecraw.java
│   │   │   │           │   ├── PendingManager.java
│   │   │   │           │   ├── PendingPages.java
│   │   │   │           │   ├── PendingStore.java
│   │   │   │           │   ├── PendingUrls.java
│   │   │   │           │   └── package-info.java
│   │   │   │           ├── robotstxt
│   │   │   │           │   ├── HostDirectives.java
│   │   │   │           │   ├── RobotstxtConfig.java
│   │   │   │           │   ├── RobotstxtParser.java
│   │   │   │           │   ├── RobotstxtServer.java
│   │   │   │           │   └── RuleSet.java
│   │   │   │           ├── url
│   │   │   │           │   ├── TLDList.java
│   │   │   │           │   ├── URLCanonicalizer.java
│   │   │   │           │   ├── UlrFilters.java
│   │   │   │           │   ├── UrlResolver.java
│   │   │   │           │   ├── UrlSignatureSet.java
│   │   │   │           │   ├── WebURL.java
│   │   │   │           │   └── package-info.java
│   │   │   │           ├── util
│   │   │   │           │   ├── BinaryDateDwonLoader.java
│   │   │   │           │   ├── BloomFilter.java
│   │   │   │           │   ├── BloomfilterHelper.java
│   │   │   │           │   ├── CharUtil.java
│   │   │   │           │   ├── CheckIfUniqueUrl.java
│   │   │   │           │   ├── CheckIfUniqueUrlByBloomfilter.java
│   │   │   │           │   ├── CheckIfUniqueUrlByMd5.java
│   │   │   │           │   ├── ChineseSpelling.java
│   │   │   │           │   ├── DateTimeUtil.java
│   │   │   │           │   ├── EncryptUtils.java
│   │   │   │           │   ├── IO.java
│   │   │   │           │   ├── ImageCompress.java
│   │   │   │           │   ├── ImgUtil.java
│   │   │   │           │   ├── JsonUtil.java
│   │   │   │           │   ├── MD5Utils.java
│   │   │   │           │   ├── MapUtils.java
│   │   │   │           │   ├── MurmurHash.java
│   │   │   │           │   ├── PinyinUtil.java
│   │   │   │           │   ├── RegexList.java
│   │   │   │           │   ├── Simhash.java
│   │   │   │           │   ├── StringHelper.java
│   │   │   │           │   ├── StringUtil.java
│   │   │   │           │   ├── UrlUtils.java
│   │   │   │           │   ├── Util.java
│   │   │   │           │   ├── XmlConverUtil.java
│   │   │   │           │   ├── download
│   │   │   │           │   │   ├── DownLoadPool.java
│   │   │   │           │   │   ├── DownloadInfo.java
│   │   │   │           │   │   └── MultiThreadDownload.java
│   │   │   │           │   └── image
│   │   │   │           │       ├── ImageResize.java
│   │   │   │           │       └── ImageResizePool.java
│   │   │   │           └── web
│   │   │   │               ├── ContextListener.java
│   │   │   │               ├── CrawlerManager.java
│   │   │   │               ├── GoodServlet.java
│   │   │   │               ├── Start.java
│   │   │   │               ├── Status.java
│   │   │   │               ├── Stop.java
│   │   │   │               └── package-info.java
│   │   │   ├── resources
│   │   │   │   ├── conf.properties
│   │   │   │   ├── default_mapping.json
│   │   │   │   ├── job_conf.xml
│   │   │   │   ├── log4j.xml
│   │   │   │   ├── logback.xml
│   │   │   │   ├── mapping.json
│   │   │   │   ├── tld-names.txt
│   │   │   │   └── webdefault-windows.xml
│   │   │   └── webapp
│   │   │       ├── META-INF
│   │   │       │   └── MANIFEST.MF
│   │   │       ├── WEB-INF
│   │   │       │   └── web.xml
│   │   │       └── index.jsp
│   │   └── test
│   │       └── java
│   │           └── org
│   │               └── sbs
│   │                   ├── AppTest.java
│   │                   ├── ListLinks.java
│   │                   ├── T.java
│   │                   ├── extract
│   │                   │   ├── TestWasu.java
│   │                   │   ├── TestYouku.java
│   │                   │   └── Tester.java
│   │                   └── htmlunit
│   │                       ├── HtmlUnitTest.java
│   │                       ├── element
│   │                       │   ├── GcElementTest.java
│   │                       │   └── package-info.java
│   │                       └── package-info.java
│   └── start.bat
└── 好例子网_JavaHtmlunit网络爬虫.zip

53 directories, 236 files


标签: java 网络爬虫

实例下载地址

JavaHtmlunit网络爬虫

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警