实例介绍
开发自己的搜索引擎,Heritrix是一种网页抓取的有效工具
【实例截图】
【核心代码】
4744302543288656593.rar
└── Heritrix 1[1].4
└── heritrix-1.14.0
├── build.xml
├── lib
│ ├── ant-1.6.2.jar
│ ├── bsh-2.0b4.jar
│ ├── commons-cli-1.0.jar
│ ├── commons-codec-1.3.jar
│ ├── commons-collections-3.1.jar
│ ├── commons-httpclient-3.1.jar
│ ├── commons-io-1.3.1.jar
│ ├── commons-lang-2.3.jar
│ ├── commons-logging-1.0.4.jar
│ ├── commons-net-1.4.1.jar
│ ├── commons-pool-1.3.jar
│ ├── dnsjava-2.0.3.jar
│ ├── fastutil-5.0.3-heritrix-subset-1.0.jar
│ ├── itext-1.2.0.jar
│ ├── jasper-compiler-tomcat-4.1.30.jar
│ ├── jasper-runtime-tomcat-4.1.30.jar
│ ├── javaswf-CVS-SNAPSHOT-1.jar
│ ├── je-3.2.74.jar
│ ├── jericho-html-2.3.jar
│ ├── jets3t-0.5.0.jar
│ ├── jetty-4.2.23.jar
│ ├── junit-3.8.2.jar
│ ├── libidn-0.5.9.jar
│ ├── mg4j-1.0.1.jar
│ ├── poi-2.0-RC1-20031102.jar
│ ├── poi-scratchpad-2.0-RC1-20031102.jar
│ └── servlet-tomcat-4.1.30.jar
├── LICENSE.txt
├── maven.xml
├── project.properties
├── project.xml
├── README.txt
├── src
│ ├── articles
│ │ ├── crawler_overview1.dia
│ │ ├── crawler_overview1.png
│ │ ├── developer_manual.xml
│ │ ├── docbook.css
│ │ ├── frontier1.dia
│ │ ├── frontier1.png
│ │ ├── processing_steps.dia
│ │ ├── processing_steps.png
│ │ ├── README.txt
│ │ ├── releasenotes.xml
│ │ ├── settings1.dia
│ │ ├── settings1.png
│ │ ├── settings2.dia
│ │ ├── settings2.png
│ │ └── user_manual.xml
│ ├── conf
│ │ ├── effective_tld_names.dat
│ │ ├── heritrix.cacerts
│ │ ├── heritrix.properties
│ │ ├── jmxremote.password.template
│ │ ├── jndi.properties
│ │ ├── modules
│ │ │ ├── BaseRule.options
│ │ │ ├── CrawlScope.options
│ │ │ ├── Credential.options
│ │ │ ├── DecideRule.options
│ │ │ ├── Filter.options
│ │ │ ├── Frontier.options
│ │ │ ├── Processor.options
│ │ │ └── StatisticTracking.options
│ │ ├── profiles
│ │ │ └── default
│ │ │ ├── order.xml
│ │ │ └── seeds.txt
│ │ └── selftest
│ │ └── order.xml
│ ├── design
│ │ ├── credentials.gif
│ │ └── credentials.zargo
│ ├── java
│ │ ├── com
│ │ │ └── sleepycat
│ │ │ └── collections
│ │ ├── META-INF
│ │ │ └── MANIFEST-MF
│ │ ├── org
│ │ │ ├── apache
│ │ │ │ └── commons
│ │ │ │ ├── httpclient
│ │ │ │ │ ├── cookie
│ │ │ │ │ │ ├── CookieSpecBase.java
│ │ │ │ │ │ ├── CookieSpec.java
│ │ │ │ │ │ └── IgnoreCookiesSpec.java
│ │ │ │ │ ├── Cookie.java
│ │ │ │ │ ├── HttpConnection.java
│ │ │ │ │ ├── HttpMethodBase.java
│ │ │ │ │ ├── HttpParser.java
│ │ │ │ │ └── HttpState.java
│ │ │ │ └── pool
│ │ │ │ └── impl
│ │ │ │ ├── FairGenericObjectPool.java
│ │ │ │ ├── FairGenericObjectPoolTest.java
│ │ │ │ └── GenericObjectPool.java
│ │ │ └── archive
│ │ │ ├── crawler
│ │ │ │ ├── admin
│ │ │ │ │ ├── CrawlJobErrorHandler.java
│ │ │ │ │ ├── CrawlJobHandler.java
│ │ │ │ │ ├── CrawlJob.java
│ │ │ │ │ ├── InvalidJobFileException.java
│ │ │ │ │ ├── package.html
│ │ │ │ │ ├── SeedRecord.java
│ │ │ │ │ ├── StatisticsSummary.java
│ │ │ │ │ ├── StatisticsTracker.java
│ │ │ │ │ └── ui
│ │ │ │ │ ├── CookieUtils.java
│ │ │ │ │ ├── JobConfigureUtils.java
│ │ │ │ │ └── RootFilter.java
│ │ │ │ ├── CommandLineParser.java
│ │ │ │ ├── datamodel
│ │ │ │ │ ├── CandidateURI.java
│ │ │ │ │ ├── CandidateURITest.java
│ │ │ │ │ ├── Checkpoint.java
│ │ │ │ │ ├── CoreAttributeConstants.java
│ │ │ │ │ ├── CrawlHost.java
│ │ │ │ │ ├── CrawlOrder.java
│ │ │ │ │ ├── CrawlServer.java
│ │ │ │ │ ├── CrawlSubstats.java
│ │ │ │ │ ├── CrawlURI.java
│ │ │ │ │ ├── CrawlURITest.java
│ │ │ │ │ ├── credential
│ │ │ │ │ │ ├── CredentialAvatar.java
│ │ │ │ │ │ ├── Credential.java
│ │ │ │ │ │ ├── HtmlFormCredential.java
│ │ │ │ │ │ ├── package.html
│ │ │ │ │ │ └── Rfc2617Credential.java
│ │ │ │ │ ├── CredentialStore.java
│ │ │ │ │ ├── CredentialStoreTest.java
│ │ │ │ │ ├── FetchStatusCodes.java
│ │ │ │ │ ├── InstancePerThread.java
│ │ │ │ │ ├── LocalizedError.java
│ │ │ │ │ ├── RobotsExclusionPolicy.java
│ │ │ │ │ ├── RobotsHonoringPolicy.java
│ │ │ │ │ ├── Robotstxt.java
│ │ │ │ │ ├── RobotstxtTest.java
│ │ │ │ │ ├── ServerCache.java
│ │ │ │ │ ├── ServerCacheTest.java
│ │ │ │ │ └── UriUniqFilter.java
│ │ │ │ ├── deciderules
│ │ │ │ │ ├── AcceptDecideRule.java
│ │ │ │ │ ├── AddRedirectFromRootServerToScope.java
│ │ │ │ │ ├── BeanShellDecideRule.java
│ │ │ │ │ ├── ClassKeyMatchesRegExpDecideRule.java
│ │ │ │ │ ├── ConfiguredDecideRule.java
│ │ │ │ │ ├── ConfiguredDecideRuleTest.java
│ │ │ │ │ ├── ContentTypeMatchesRegExpDecideRule.java
│ │ │ │ │ ├── ContentTypeNotMatchesRegExpDecideRule.java
│ │ │ │ │ ├── DecideRule.java
│ │ │ │ │ ├── DecideRuleSequence.java
│ │ │ │ │ ├── DecideRuleSequenceTest.java
│ │ │ │ │ ├── DecidingFilter.java
│ │ │ │ │ ├── DecidingScope.java
│ │ │ │ │ ├── ExceedsDocumentLengthTresholdDecideRule.java
│ │ │ │ │ ├── ExternalGeoLocationDecideRule.java
│ │ │ │ │ ├── ExternalGeoLookupInterface.java
│ │ │ │ │ ├── ExternalImplDecideRule.java
│ │ │ │ │ ├── ExternalImplInterface.java
│ │ │ │ │ ├── FetchStatusDecideRule.java
│ │ │ │ │ ├── FetchStatusMatchesRegExpDecideRule.java
│ │ │ │ │ ├── FetchStatusNotMatchesRegExpDecideRule.java
│ │ │ │ │ ├── FilterDecideRule.java
│ │ │ │ │ ├── HasViaDecideRule.java
│ │ │ │ │ ├── HopsPathMatchesRegExpDecideRule.java
│ │ │ │ │ ├── MatchesFilePatternDecideRule.java
│ │ │ │ │ ├── MatchesListRegExpDecideRule.java
│ │ │ │ │ ├── MatchesRegExpDecideRule.java
│ │ │ │ │ ├── NotExceedsDocumentLengthTresholdDecideRule.java
│ │ │ │ │ ├── NotMatchesFilePatternDecideRule.java
│ │ │ │ │ ├── NotMatchesListRegExpDecideRule.java
│ │ │ │ │ ├── NotMatchesRegExpDecideRule.java
│ │ │ │ │ ├── NotOnDomainsDecideRule.java
│ │ │ │ │ ├── NotOnHostsDecideRule.java
│ │ │ │ │ ├── NotSurtPrefixedDecideRule.java
│ │ │ │ │ ├── OnDomainsDecideRule.java
│ │ │ │ │ ├── OnHostsDecideRule.java
│ │ │ │ │ ├── package.html
│ │ │ │ │ ├── PathologicalPathDecideRule.java
│ │ │ │ │ ├── PredicatedDecideRule.java
│ │ │ │ │ ├── PrerequisiteAcceptDecideRule.java
│ │ │ │ │ ├── recrawl
│ │ │ │ │ │ └── IdenticalDigestDecideRule.java
│ │ │ │ │ ├── RejectDecideRule.java
│ │ │ │ │ ├── ScopePlusOneDecideRule.java
│ │ │ │ │ ├── SeedAcceptDecideRule.java
│ │ │ │ │ ├── SurtPrefixedDecideRule.java
│ │ │ │ │ ├── TooManyHopsDecideRule.java
│ │ │ │ │ ├── TooManyPathSegmentsDecideRule.java
│ │ │ │ │ └── TransclusionDecideRule.java
│ │ │ │ ├── doc-files
│ │ │ │ │ ├── processing_steps.dia
│ │ │ │ │ └── processing_steps.png
│ │ │ │ ├── event
│ │ │ │ │ ├── CrawlStatusListener.java
│ │ │ │ │ └── CrawlURIDispositionListener.java
│ │ │ │ ├── extractor
│ │ │ │ │ ├── AggressiveExtractorHTML.java
│ │ │ │ │ ├── ChangeEvaluator.java
│ │ │ │ │ ├── CrawlUriSWFAction.java
│ │ │ │ │ ├── CustomSWFTags.java
│ │ │ │ │ ├── ExtractorCSS.java
│ │ │ │ │ ├── ExtractorDOC.java
│ │ │ │ │ ├── ExtractorHTML.java
│ │ │ │ │ ├── ExtractorHTMLTest.java
│ │ │ │ │ ├── ExtractorHTTP.java
│ │ │ │ │ ├── ExtractorImpliedURI.java
│ │ │ │ │ ├── ExtractorImpliedURITest.java
│ │ │ │ │ ├── Extractor.java
│ │ │ │ │ ├── ExtractorJS.java
│ │ │ │ │ ├── ExtractorPDF.java
│ │ │ │ │ ├── ExtractorSWF.java
│ │ │ │ │ ├── ExtractorTool.java
│ │ │ │ │ ├── ExtractorUniversal.java
│ │ │ │ │ ├── ExtractorURI.java
│ │ │ │ │ ├── ExtractorURITest.java
│ │ │ │ │ ├── ExtractorXML.java
│ │ │ │ │ ├── HTTPContentDigest.java
│ │ │ │ │ ├── JerichoExtractorHTML.java
│ │ │ │ │ ├── JerichoExtractorHTMLTest.java
│ │ │ │ │ ├── Link.java
│ │ │ │ │ ├── PDFParser.java
│ │ │ │ │ └── TrapSuppressExtractor.java
│ │ │ │ ├── fetcher
│ │ │ │ │ ├── FetchDNS.java
│ │ │ │ │ ├── FetchFTP.java
│ │ │ │ │ ├── FetchHTTP.java
│ │ │ │ │ ├── HeritrixHttpMethodRetryHandler.java
│ │ │ │ │ ├── HeritrixProtocolSocketFactory.java
│ │ │ │ │ └── HeritrixSSLProtocolSocketFactory.java
│ │ │ │ ├── filter
│ │ │ │ │ ├── ContentTypeRegExpFilter.java
│ │ │ │ │ ├── FilePatternFilter.java
│ │ │ │ │ ├── FilePatternFilterTest.java
│ │ │ │ │ ├── HopsFilter.java
│ │ │ │ │ ├── HTTPMidFetchUnchangedFilter.java
│ │ │ │ │ ├── OrFilter.java
│ │ │ │ │ ├── PathDepthFilter.java
│ │ │ │ │ ├── PathologicalPathFilter.java
│ │ │ │ │ ├── PathologicalPathFilterTest.java
│ │ │ │ │ ├── SurtPrefixFilter.java
│ │ │ │ │ ├── TransclusionFilter.java
│ │ │ │ │ ├── URIListRegExpFilter.java
│ │ │ │ │ └── URIRegExpFilter.java
│ │ │ │ ├── framework
│ │ │ │ │ ├── AbstractTracker.java
│ │ │ │ │ ├── AlertManager.java
│ │ │ │ │ ├── Checkpointer.java
│ │ │ │ │ ├── CrawlController.java
│ │ │ │ │ ├── CrawlScope.java
│ │ │ │ │ ├── exceptions
│ │ │ │ │ │ ├── ConfigurationException.java
│ │ │ │ │ │ ├── EndedException.java
│ │ │ │ │ │ ├── FatalConfigurationException.java
│ │ │ │ │ │ ├── InitializationException.java
│ │ │ │ │ │ └── InvalidFrontierMarkerException.java
│ │ │ │ │ ├── Filter.java
│ │ │ │ │ ├── FrontierHostStatistics.java
│ │ │ │ │ ├── Frontier.java
│ │ │ │ │ ├── FrontierMarker.java
│ │ │ │ │ ├── ProcessorChain.java
│ │ │ │ │ ├── ProcessorChainList.java
│ │ │ │ │ ├── Processor.java
│ │ │ │ │ ├── Scoper.java
│ │ │ │ │ ├── StatisticsTracking.java
│ │ │ │ │ ├── ToePool.java
│ │ │ │ │ ├── ToeThread.java
│ │ │ │ │ └── WriterPoolProcessor.java
│ │ │ │ ├── frontier
│ │ │ │ │ ├── AbstractFrontier.java
│ │ │ │ │ ├── AdaptiveRevisitAttributeConstants.java
│ │ │ │ │ ├── AdaptiveRevisitFrontier.java
│ │ │ │ │ ├── AdaptiveRevisitHostQueue.java
│ │ │ │ │ ├── AdaptiveRevisitHostQueueTest.java
│ │ │ │ │ ├── AdaptiveRevisitQueueList.java
│ │ │ │ │ ├── AntiCalendarCostAssignmentPolicy.java
│ │ │ │ │ ├── BdbFrontier.java
│ │ │ │ │ ├── BdbMultipleWorkQueues.java
│ │ │ │ │ ├── BdbMultipleWorkQueuesTest.java
│ │ │ │ │ ├── BdbWorkQueue.java
│ │ │ │ │ ├── BucketQueueAssignmentPolicy.java
│ │ │ │ │ ├── CostAssignmentPolicy.java
│ │ │ │ │ ├── DomainSensitiveFrontier.java
│ │ │ │ │ ├── FrontierJournal.java
│ │ │ │ │ ├── HostnameQueueAssignmentPolicy.java
│ │ │ │ │ ├── IPQueueAssignmentPolicy.java
│ │ │ │ │ ├── QueueAssignmentPolicy.java
│ │ │ │ │ ├── RecoveryJournal.java
│ │ │ │ │ ├── RecoveryJournalTest.java
│ │ │ │ │ ├── RecyclingSerialBinding.java
│ │ │ │ │ ├── SurtAuthorityQueueAssignmentPolicy.java
│ │ │ │ │ ├── TopmostAssignedSurtQueueAssignmentPolicy.java
│ │ │ │ │ ├── UnitCostAssignmentPolicy.java
│ │ │ │ │ ├── WagCostAssignmentPolicy.java
│ │ │ │ │ ├── WorkQueueFrontier.java
│ │ │ │ │ ├── WorkQueue.java
│ │ │ │ │ └── ZeroCostAssignmentPolicy.java
│ │ │ │ ├── Heritrix.java
│ │ │ │ ├── io
│ │ │ │ │ ├── CrawlerJournal.java
│ │ │ │ │ ├── LocalErrorFormatter.java
│ │ │ │ │ ├── RuntimeErrorFormatter.java
│ │ │ │ │ ├── StatisticsLogFormatter.java
│ │ │ │ │ ├── UriErrorFormatter.java
│ │ │ │ │ └── UriProcessingFormatter.java
│ │ │ │ ├── package.html
│ │ │ │ ├── postprocessor
│ │ │ │ │ ├── AcceptRevisitProcessor.java
│ │ │ │ │ ├── ContentBasedWaitEvaluator.java
│ │ │ │ │ ├── CrawlStateUpdater.java
│ │ │ │ │ ├── FrontierScheduler.java
│ │ │ │ │ ├── ImageWaitEvaluator.java
│ │ │ │ │ ├── LinksScoper.java
│ │ │ │ │ ├── LowDiskPauseProcessor.java
│ │ │ │ │ ├── RejectRevisitProcessor.java
│ │ │ │ │ ├── SupplementaryLinksScoper.java
│ │ │ │ │ ├── TextWaitEvaluator.java
│ │ │ │ │ └── WaitEvaluator.java
│ │ │ │ ├── prefetch
│ │ │ │ │ ├── PreconditionEnforcer.java
│ │ │ │ │ ├── Preselector.java
│ │ │ │ │ ├── QuotaEnforcer.java
│ │ │ │ │ └── RuntimeLimitEnforcer.java
│ │ │ │ ├── processor
│ │ │ │ │ ├── BeanShellProcessor.java
│ │ │ │ │ ├── CrawlMapper.java
│ │ │ │ │ ├── HashCrawlMapper.java
│ │ │ │ │ ├── LexicalCrawlMapper.java
│ │ │ │ │ └── recrawl
│ │ │ │ │ ├── FetchHistoryProcessor.java
│ │ │ │ │ ├── PersistLoadProcessor.java
│ │ │ │ │ ├── PersistLogProcessor.java
│ │ │ │ │ ├── PersistOnlineProcessor.java
│ │ │ │ │ ├── PersistProcessor.java
│ │ │ │ │ └── PersistStoreProcessor.java
│ │ │ │ ├── scope
│ │ │ │ │ ├── BroadScope.java
│ │ │ │ │ ├── ClassicScope.java
│ │ │ │ │ ├── DomainScope.java
│ │ │ │ │ ├── DomainScopeTest.java
│ │ │ │ │ ├── HostScope.java
│ │ │ │ │ ├── PathScope.java
│ │ │ │ │ ├── RefinedScope.java
│ │ │ │ │ ├── SeedCachingScope.java
│ │ │ │ │ ├── SeedCachingScopeTest.java
│ │ │ │ │ ├── SeedFileIterator.java
│ │ │ │ │ ├── SeedFileIteratorTest.java
│ │ │ │ │ ├── SeedListener.java
│ │ │ │ │ └── SurtPrefixScope.java
│ │ │ │ ├── selftest
│ │ │ │ │ ├── AllSelfTestCases.java
│ │ │ │ │ ├── AltTestSuite.java
│ │ │ │ │ ├── AuthSelfTest.java
│ │ │ │ │ ├── BackgroundImageExtractionSelfTestCase.java
│ │ │ │ │ ├── BadURIsStopPageParsingSelfTest.java
│ │ │ │ │ ├── CharsetSelfTest.java
│ │ │ │ │ ├── CheckpointSelfTest.java
│ │ │ │ │ ├── FlashParseSelfTest.java
│ │ │ │ │ ├── FramesSelfTestCase.java
│ │ │ │ │ ├── MaxLinkHopsSelfTest.java
│ │ │ │ │ ├── package.html
│ │ │ │ │ ├── SelfTestCase.java
│ │ │ │ │ └── SelfTestCrawlJobHandler.java
│ │ │ │ ├── settings
│ │ │ │ │ ├── ComplexType.java
│ │ │ │ │ ├── Constraint.java
│ │ │ │ │ ├── CrawlerSettings.java
│ │ │ │ │ ├── CrawlerSettingsTest.java
│ │ │ │ │ ├── CrawlSettingsSAXHandler.java
│ │ │ │ │ ├── CrawlSettingsSAXSource.java
│ │ │ │ │ ├── DataContainer.java
│ │ │ │ │ ├── doc-files
│ │ │ │ │ │ ├── settings1.dia
│ │ │ │ │ │ ├── settings1.png
│ │ │ │ │ │ ├── settings2.dia
│ │ │ │ │ │ └── settings2.png
│ │ │ │ │ ├── DoubleList.java
│ │ │ │ │ ├── FloatList.java
│ │ │ │ │ ├── IntegerList.java
│ │ │ │ │ ├── LegalValueListConstraint.java
│ │ │ │ │ ├── LegalValueTypeConstraint.java
│ │ │ │ │ ├── ListType.java
│ │ │ │ │ ├── LongList.java
│ │ │ │ │ ├── MapType.java
│ │ │ │ │ ├── MapTypeTest.java
│ │ │ │ │ ├── ModuleAttributeInfo.java
│ │ │ │ │ ├── ModuleType.java
│ │ │ │ │ ├── OverrideTest.java
│ │ │ │ │ ├── package.html
│ │ │ │ │ ├── refinements
│ │ │ │ │ │ ├── Criteria.java
│ │ │ │ │ │ ├── PortnumberCriteria.java
│ │ │ │ │ │ ├── Refinement.java
│ │ │ │ │ │ ├── RegularExpressionCriteria.java
│ │ │ │ │ │ ├── TimespanCriteria.java
│ │ │ │ │ │ └── TimespanCriteriaTest.java
│ │ │ │ │ ├── RegularExpressionConstraint.java
│ │ │ │ │ ├── SettingsCache.java
│ │ │ │ │ ├── SettingsFrameworkTestCase.java
│ │ │ │ │ ├── SettingsHandler.java
│ │ │ │ │ ├── SimpleType.java
│ │ │ │ │ ├── SimpleTypeTest.java
│ │ │ │ │ ├── SoftSettingsHash.java
│ │ │ │ │ ├── StringList.java
│ │ │ │ │ ├── TextField.java
│ │ │ │ │ ├── Type.java
│ │ │ │ │ ├── ValueErrorHandler.java
│ │ │ │ │ ├── XMLSettingsHandler.java
│ │ │ │ │ └── XMLSettingsHandlerTest.java
│ │ │ │ ├── SimpleHttpServer.java
│ │ │ │ ├── url
│ │ │ │ │ ├── CanonicalizationRule.java
│ │ │ │ │ ├── canonicalize
│ │ │ │ │ │ ├── BaseRule.java
│ │ │ │ │ │ ├── FixupQueryStr.java
│ │ │ │ │ │ ├── FixupQueryStrTest.java
│ │ │ │ │ │ ├── LowercaseRule.java
│ │ │ │ │ │ ├── LowercaseRuleTest.java
│ │ │ │ │ │ ├── RegexRule.java
│ │ │ │ │ │ ├── RegexRuleTest.java
│ │ │ │ │ │ ├── StripExtraSlashes.java
│ │ │ │ │ │ ├── StripSessionCFIDs.java
│ │ │ │ │ │ ├── StripSessionCFIDsTest.java
│ │ │ │ │ │ ├── StripSessionIDs.java
│ │ │ │ │ │ ├── StripSessionIDsTest.java
│ │ │ │ │ │ ├── StripUserinfoRule.java
│ │ │ │ │ │ ├── StripUserinfoRuleTest.java
│ │ │ │ │ │ ├── StripWWWNRule.java
│ │ │ │ │ │ ├── StripWWWNRuleTest.java
│ │ │ │ │ │ ├── StripWWWRule.java
│ │ │ │ │ │ └── StripWWWRuleTest.java
│ │ │ │ │ ├── Canonicalizer.java
│ │ │ │ │ └── CanonicalizerTest.java
│ │ │ │ ├── util
│ │ │ │ │ ├── BdbUriUniqFilter.java
│ │ │ │ │ ├── BdbUriUniqFilterTest.java
│ │ │ │ │ ├── BenchmarkUriUniqFilters.java
│ │ │ │ │ ├── BloomUriUniqFilter.java
│ │ │ │ │ ├── BloomUriUniqFilterTest.java
│ │ │ │ │ ├── CheckpointUtils.java
│ │ │ │ │ ├── CrawledBytesHistotable.java
│ │ │ │ │ ├── DiskFPMergeUriUniqFilter.java
│ │ │ │ │ ├── FPMergeUriUniqFilter.java
│ │ │ │ │ ├── FPUriUniqFilter.java
│ │ │ │ │ ├── FPUriUniqFilterTest.java
│ │ │ │ │ ├── IoUtils.java
│ │ │ │ │ ├── IoUtilsTest.java
│ │ │ │ │ ├── LogReader.java
│ │ │ │ │ ├── LogUtils.java
│ │ │ │ │ ├── MemFPMergeUriUniqFilter.java
│ │ │ │ │ ├── MemUriUniqFilter.java
│ │ │ │ │ ├── NoopUriUniqFilter.java
│ │ │ │ │ ├── RecoveryLogMapper.java
│ │ │ │ │ ├── SeedUrlNotFoundException.java
│ │ │ │ │ ├── SetBasedUriUniqFilter.java
│ │ │ │ │ ├── Sorts.java
│ │ │ │ │ ├── StringIntPairComparator.java
│ │ │ │ │ ├── StringIntPair.java
│ │ │ │ │ ├── Transformer.java
│ │ │ │ │ ├── Transform.java
│ │ │ │ │ └── TransformTest.java
│ │ │ │ ├── WebappLifecycle.java
│ │ │ │ └── writer
│ │ │ │ ├── ARCWriterProcessor.java
│ │ │ │ ├── Kw3Constants.java
│ │ │ │ ├── Kw3WriterProcessor.java
│ │ │ │ ├── MirrorWriterProcessor.java
│ │ │ │ └── WARCWriterProcessor.java
│ │ │ ├── extractor
│ │ │ │ ├── CharSequenceLinkExtractor.java
│ │ │ │ ├── CharSequenceProvider.java
│ │ │ │ ├── ExtractErrorListener.java
│ │ │ │ ├── LinkExtractor.java
│ │ │ │ ├── overview.html
│ │ │ │ ├── RegexpCSSLinkExtractor.java
│ │ │ │ ├── RegexpHTMLLinkExtractor.java
│ │ │ │ └── RegexpJSLinkExtractor.java
│ │ │ ├── httpclient
│ │ │ │ ├── ConfigurableX509TrustManager.java
│ │ │ │ ├── HttpRecorderGetMethod.java
│ │ │ │ ├── HttpRecorderMethod.java
│ │ │ │ ├── HttpRecorderPostMethod.java
│ │ │ │ ├── package.html
│ │ │ │ ├── SingleHttpConnectionManager.java
│ │ │ │ └── ThreadLocalHttpConnectionManager.java
│ │ │ ├── io
│ │ │ │ ├── arc
│ │ │ │ │ ├── ARC2WCDX.java
│ │ │ │ │ ├── ARCConstants.java
│ │ │ │ │ ├── ARCLocation.java
│ │ │ │ │ ├── ARCReaderFactory.java
│ │ │ │ │ ├── ARCReaderFactoryTest.java
│ │ │ │ │ ├── ARCReader.java
│ │ │ │ │ ├── ARCRecord.java
│ │ │ │ │ ├── ARCRecordMetaData.java
│ │ │ │ │ ├── ARCUtils.java
│ │ │ │ │ ├── ARCWriter.java
│ │ │ │ │ ├── ARCWriterPool.java
│ │ │ │ │ ├── ARCWriterPoolTest.java
│ │ │ │ │ ├── ARCWriterTest.java
│ │ │ │ │ └── package.html
│ │ │ │ ├── Arc2Warc.java
│ │ │ │ ├── ArchiveFileConstants.java
│ │ │ │ ├── ArchiveReaderFactory.java
│ │ │ │ ├── ArchiveReader.java
│ │ │ │ ├── ArchiveRecordHeader.java
│ │ │ │ ├── ArchiveRecord.java
│ │ │ │ ├── ArraySeekInputStream.java
│ │ │ │ ├── BufferedSeekInputStream.java
│ │ │ │ ├── BufferedSeekInputStreamTest.java
│ │ │ │ ├── ByteReplayCharSequence.java
│ │ │ │ ├── CharSubSequence.java
│ │ │ │ ├── CompositeFileInputStream.java
│ │ │ │ ├── CompositeFileReader.java
│ │ │ │ ├── Endian.java
│ │ │ │ ├── GenerationFileHandler.java
│ │ │ │ ├── GzipHeader.java
│ │ │ │ ├── GzippedInputStream.java
│ │ │ │ ├── GzippedInputStreamTest.java
│ │ │ │ ├── MultiByteReplayCharSequence.java
│ │ │ │ ├── NoGzipMagicException.java
│ │ │ │ ├── ObjectPlusFilesInputStream.java
│ │ │ │ ├── ObjectPlusFilesOutputStream.java
│ │ │ │ ├── OriginSeekInputStream.java
│ │ │ │ ├── RandomAccessInputStream.java
│ │ │ │ ├── RandomAccessOutputStream.java
│ │ │ │ ├── RecorderIOException.java
│ │ │ │ ├── RecorderLengthExceededException.java
│ │ │ │ ├── RecorderTimeoutException.java
│ │ │ │ ├── RecorderTooMuchHeaderException.java
│ │ │ │ ├── RecordingInputStream.java
│ │ │ │ ├── RecordingInputStreamTest.java
│ │ │ │ ├── RecordingOutputStream.java
│ │ │ │ ├── RecordingOutputStreamTest.java
│ │ │ │ ├── RecoverableIOException.java
│ │ │ │ ├── RecyclingFastBufferedOutputStream.java
│ │ │ │ ├── ReplayCharSequence.java
│ │ │ │ ├── ReplayCharSequenceTest.java
│ │ │ │ ├── ReplayInputStream.java
│ │ │ │ ├── RepositionableInputStream.java
│ │ │ │ ├── RepositionableInputStreamTest.java
│ │ │ │ ├── SafeSeekInputStream.java
│ │ │ │ ├── SeekInputStream.java
│ │ │ │ ├── SeekReaderCharSequence.java
│ │ │ │ ├── SeekReader.java
│ │ │ │ ├── SinkHandler.java
│ │ │ │ ├── SinkHandlerLogRecord.java
│ │ │ │ ├── SinkHandlerTest.java
│ │ │ │ ├── UTF8Bytes.java
│ │ │ │ ├── warc
│ │ │ │ │ ├── package.html
│ │ │ │ │ ├── WARCConstants.java
│ │ │ │ │ ├── WARCReaderFactory.java
│ │ │ │ │ ├── WARCReader.java
│ │ │ │ │ ├── WARCRecord.java
│ │ │ │ │ ├── WARCWriter.java
│ │ │ │ │ ├── WARCWriterPool.java
│ │ │ │ │ └── WARCWriterTest.java
│ │ │ │ ├── Warc2Arc.java
│ │ │ │ ├── WriterPool.java
│ │ │ │ ├── WriterPoolMember.java
│ │ │ │ └── WriterPoolSettings.java
│ │ │ ├── net
│ │ │ │ ├── ClientFTP.java
│ │ │ │ ├── DownloadURLConnection.java
│ │ │ │ ├── FTPException.java
│ │ │ │ ├── LaxURI.java
│ │ │ │ ├── LaxURLCodec.java
│ │ │ │ ├── md5
│ │ │ │ │ ├── Handler.java
│ │ │ │ │ └── Md5URLConnection.java
│ │ │ │ ├── PublicSuffixes.java
│ │ │ │ ├── PublicSuffixesTest.java
│ │ │ │ ├── rsync
│ │ │ │ │ ├── Handler.java
│ │ │ │ │ └── RsyncURLConnection.java
│ │ │ │ ├── s3
│ │ │ │ │ └── Handler.java
│ │ │ │ ├── UURIFactory.java
│ │ │ │ ├── UURIFactoryTest.java
│ │ │ │ ├── UURI.java
│ │ │ │ └── UURITest.java
│ │ │ ├── overview.html
│ │ │ ├── queue
│ │ │ │ ├── Deque.java
│ │ │ │ ├── MemQueue.java
│ │ │ │ ├── MemQueueTest.java
│ │ │ │ ├── QueueCat.java
│ │ │ │ ├── Queue.java
│ │ │ │ ├── QueueTestBase.java
│ │ │ │ ├── Stack.java
│ │ │ │ ├── StoredQueue.java
│ │ │ │ └── StoredQueueTest.java
│ │ │ ├── uid
│ │ │ │ ├── GeneratorFactory.java
│ │ │ │ ├── Generator.java
│ │ │ │ ├── package.html
│ │ │ │ ├── UUIDGenerator.java
│ │ │ │ └── UUIDGeneratorTest.java
│ │ │ └── util
│ │ │ ├── AbstractLongFPSet.java
│ │ │ ├── Accumulator.java
│ │ │ ├── anvl
│ │ │ │ ├── ANVLRecord.java
│ │ │ │ ├── ANVLRecords.java
│ │ │ │ ├── ANVLRecordTest.java
│ │ │ │ ├── Element.java
│ │ │ │ ├── Label.java
│ │ │ │ ├── package.html
│ │ │ │ ├── SubElement.java
│ │ │ │ └── Value.java
│ │ │ ├── ArchiveUtils.java
│ │ │ ├── ArchiveUtilsTest.java
│ │ │ ├── Base32.java
│ │ │ ├── bdbje
│ │ │ │ └── EnhancedEnvironment.java
│ │ │ ├── BenchmarkBlooms.java
│ │ │ ├── BloomFilter32bit.java
│ │ │ ├── BloomFilter32bitSplit.java
│ │ │ ├── BloomFilter32bp2.java
│ │ │ ├── BloomFilter32bp2Split.java
│ │ │ ├── BloomFilter64bit.java
│ │ │ ├── BloomFilter.java
│ │ │ ├── CachedBdbMap.java
│ │ │ ├── CachedBdbMapTest.java
│ │ │ ├── DevUtils.java
│ │ │ ├── DNSJavaUtil.java
│ │ │ ├── FileUtils.java
│ │ │ ├── FileUtilsTest.java
│ │ │ ├── fingerprint
│ │ │ │ ├── ArrayLongFPCache.java
│ │ │ │ ├── ArrayLongFPCacheTest.java
│ │ │ │ ├── LongFPSetCache.java
│ │ │ │ ├── LongFPSetCacheTest.java
│ │ │ │ ├── LongFPSet.java
│ │ │ │ ├── LongFPSetTestCase.java
│ │ │ │ ├── MemLongFPSet.java
│ │ │ │ └── MemLongFPSetTest.java
│ │ │ ├── Histotable.java
│ │ │ ├── HttpRecorder.java
│ │ │ ├── HttpRecorderMarker.java
│ │ │ ├── InetAddressUtil.java
│ │ │ ├── InterruptibleCharSequence.java
│ │ │ ├── InterruptibleCharSequenceTest.java
│ │ │ ├── Inverter.java
│ │ │ ├── IoUtils.java
│ │ │ ├── IoUtilsTest.java
│ │ │ ├── iterator
│ │ │ │ ├── CompositeIterator.java
│ │ │ │ ├── LineReadingIterator.java
│ │ │ │ ├── LookaheadIterator.java
│ │ │ │ ├── RegexpLineIterator.java
│ │ │ │ └── TransformingIteratorWrapper.java
│ │ │ ├── JavaLiterals.java
│ │ │ ├── JEApplicationMBean.java
│ │ │ ├── JEMBeanHelper.java
│ │ │ ├── JmxUtils.java
│ │ │ ├── JmxUtilsTest.java
│ │ │ ├── JndiUtils.java
│ │ │ ├── LongWrapper.java
│ │ │ ├── LRU.java
│ │ │ ├── MimetypeUtils.java
│ │ │ ├── MimetypeUtilsTest.java
│ │ │ ├── ms
│ │ │ │ ├── BlockFileSystem.java
│ │ │ │ ├── BlockInputStream.java
│ │ │ │ ├── Cp1252.java
│ │ │ │ ├── DefaultBlockFileSystem.java
│ │ │ │ ├── DefaultEntry.java
│ │ │ │ ├── Doc.java
│ │ │ │ ├── DocTest.java
│ │ │ │ ├── Entry.java
│ │ │ │ ├── HeaderBlock.java
│ │ │ │ ├── package.html
│ │ │ │ ├── Piece.java
│ │ │ │ ├── PieceReader.java
│ │ │ │ ├── PieceReaderTest.java
│ │ │ │ └── PieceTable.java
│ │ │ ├── OneLineSimpleLogger.java
│ │ │ ├── PaddingStringBuffer.java
│ │ │ ├── PaddingStringBufferTest.java
│ │ │ ├── PatternMatcherRecycler.java
│ │ │ ├── PreJ15Utils.java
│ │ │ ├── ProcessUtils.java
│ │ │ ├── ProgressStatisticsReporter.java
│ │ │ ├── PropertyUtils.java
│ │ │ ├── Reporter.java
│ │ │ ├── SubList.java
│ │ │ ├── SURT.java
│ │ │ ├── SurtPrefixSet.java
│ │ │ ├── SurtPrefixSetTest.java
│ │ │ ├── SURTTest.java
│ │ │ ├── TestUtils.java
│ │ │ ├── TextUtils.java
│ │ │ ├── TextUtilsTest.java
│ │ │ ├── TimestampSerialno.java
│ │ │ ├── TmpDirTestCase.java
│ │ │ └── XmlUtils.java
│ │ ├── overview.html
│ │ └── st
│ │ └── ata
│ │ └── util
│ │ ├── AList.java
│ │ ├── FPGenerator.java
│ │ ├── HashtableAList.java
│ │ ├── MutableAList.java
│ │ └── X.java
│ ├── resources
│ │ ├── arcMetaheaderBody.xsl
│ │ └── README.txt
│ ├── scripts
│ │ ├── arcreader
│ │ ├── arcreader.cmd
│ │ ├── cmdline-jmxclient-0.10.5.jar
│ │ ├── dependencies.xsl
│ │ ├── extractor
│ │ ├── extractor.cmd
│ │ ├── foreground_heritrix
│ │ ├── foreground_heritrix.cmd
│ │ ├── heritrix
│ │ ├── heritrix.cmd
│ │ ├── hoppath.pl
│ │ ├── htmlextractor
│ │ ├── htmlextractor.cmd
│ │ ├── make_reports.pl
│ │ ├── manifest_bundle.pl
│ │ └── xdocToTxt.xsl
│ ├── webapps
│ │ ├── admin
│ │ │ ├── about.jsp
│ │ │ ├── console
│ │ │ │ ├── action.jsp
│ │ │ │ ├── alerts.jsp
│ │ │ │ ├── frontier.jsp
│ │ │ │ ├── readalert.jsp
│ │ │ │ └── shutdown.jsp
│ │ │ ├── css
│ │ │ │ └── heritrix.css
│ │ │ ├── error.jsp
│ │ │ ├── help
│ │ │ │ ├── codes.jsp
│ │ │ │ ├── regexpr.jsp
│ │ │ │ └── webui-prefs.jsp
│ │ │ ├── help.jsp
│ │ │ ├── heritrix_settings.html
│ │ │ ├── heritrix_settings.xsd
│ │ │ ├── iframes
│ │ │ │ └── xml.jsp
│ │ │ ├── images
│ │ │ │ ├── blue.jpg
│ │ │ │ ├── h-blue.ico
│ │ │ │ ├── h-green.ico
│ │ │ │ ├── h.ico
│ │ │ │ ├── h-orange.ico
│ │ │ │ ├── h-purple.ico
│ │ │ │ ├── h-red.ico
│ │ │ │ ├── h-teal.ico
│ │ │ │ ├── h-yellow.ico
│ │ │ │ ├── logo.gif
│ │ │ │ └── small-logo.gif
│ │ │ ├── include
│ │ │ │ ├── filters_js.jsp
│ │ │ │ ├── foot.jsp
│ │ │ │ ├── handler.jsp
│ │ │ │ ├── head.jsp
│ │ │ │ ├── jobconfigure.jsp
│ │ │ │ ├── jobcredentials.jsp
│ │ │ │ ├── jobnav.jsp
│ │ │ │ ├── jobpernav.jsp
│ │ │ │ ├── jobrefinementnav.jsp
│ │ │ │ ├── modules.jsp
│ │ │ │ ├── nocache.jsp
│ │ │ │ └── stats.jsp
│ │ │ ├── index.jsp
│ │ │ ├── jobs
│ │ │ │ ├── basedon.jsp
│ │ │ │ ├── clearperhost.jsp
│ │ │ │ ├── configure.jsp
│ │ │ │ ├── journal.jsp
│ │ │ │ ├── modules.jsp
│ │ │ │ ├── new.jsp
│ │ │ │ ├── per
│ │ │ │ │ ├── configure.jsp
│ │ │ │ │ ├── overview.jsp
│ │ │ │ │ └── submodules.jsp
│ │ │ │ ├── recovery.jsp
│ │ │ │ ├── refinements
│ │ │ │ │ ├── configure.jsp
│ │ │ │ │ ├── criteria.jsp
│ │ │ │ │ ├── overview.jsp
│ │ │ │ │ └── submodules.jsp
│ │ │ │ ├── resumefromjob.jsp
│ │ │ │ ├── submodules.jsp
│ │ │ │ ├── vieworder.jsp
│ │ │ │ └── viewseeds.jsp
│ │ │ ├── jobs.jsp
│ │ │ ├── js
│ │ │ │ └── util.js
│ │ │ ├── local-instances.jsp
│ │ │ ├── login.jsp
│ │ │ ├── logs.jsp
│ │ │ ├── profiles.jsp
│ │ │ ├── reports
│ │ │ │ ├── crawljob.jsp
│ │ │ │ ├── frontier.jsp
│ │ │ │ ├── processors.jsp
│ │ │ │ ├── seeds.jsp
│ │ │ │ └── threads.jsp
│ │ │ ├── reports.jsp
│ │ │ ├── setup.jsp
│ │ │ └── WEB-INF
│ │ │ ├── jetty-web.xml
│ │ │ └── web.xml
│ │ └── selftest
│ │ ├── Auth
│ │ │ ├── basic
│ │ │ │ ├── basic-loggedin.html
│ │ │ │ └── index.html
│ │ │ ├── form
│ │ │ │ ├── get
│ │ │ │ │ ├── error.html
│ │ │ │ │ ├── get-loggedin.html
│ │ │ │ │ ├── index.html
│ │ │ │ │ └── success.jsp
│ │ │ │ ├── index.html
│ │ │ │ └── post
│ │ │ │ ├── error.html
│ │ │ │ ├── index.html
│ │ │ │ ├── post-loggedin.html
│ │ │ │ └── success.jsp
│ │ │ └── index.html
│ │ ├── BackgroundImageExtraction
│ │ │ ├── example-background-image.jpeg
│ │ │ └── index.html
│ │ ├── BadURIsStopPageParsing
│ │ │ ├── goodone.html
│ │ │ ├── goodthree.html
│ │ │ ├── goodtwo.html
│ │ │ ├── index.html
│ │ │ ├── one.html
│ │ │ ├── three.html
│ │ │ └── two.html
│ │ ├── Charset
│ │ │ ├── charsetselftest_end.html
│ │ │ ├── index.html
│ │ │ ├── shiftjis.jsp
│ │ │ └── utf8.jsp
│ │ ├── Checkpoint
│ │ │ └── index.html
│ │ ├── FlashParse
│ │ │ ├── index.html
│ │ │ ├── pirates.swf
│ │ │ └── success.html
│ │ ├── FormTagExtraction
│ │ │ ├── index.html
│ │ │ ├── inputtag.html
│ │ │ └── optiontag.html
│ │ ├── Frames
│ │ │ ├── index.html
│ │ │ ├── leftframe.html
│ │ │ ├── noframe.html
│ │ │ ├── rightframe.html
│ │ │ └── topframe.html
│ │ ├── index.jsp
│ │ ├── MaxLinkHops
│ │ │ ├── 1.html
│ │ │ ├── 2.html
│ │ │ ├── 3.html
│ │ │ ├── 4.html
│ │ │ ├── 5.html
│ │ │ ├── 6.html
│ │ │ └── index.html
│ │ ├── Refresh
│ │ │ ├── index.html
│ │ │ ├── refresh2.html
│ │ │ └── refresh.html
│ │ ├── RobotsExclusion
│ │ │ ├── excluded
│ │ │ │ └── level2
│ │ │ │ └── level3
│ │ │ │ └── excluded.html
│ │ │ ├── excluded.html
│ │ │ ├── included.html
│ │ │ ├── index.html
│ │ │ └── README.txt
│ │ ├── robots.txt
│ │ ├── SimpleDocumentTypes
│ │ │ ├── binaries
│ │ │ │ ├── avi.avi
│ │ │ │ ├── doc.doc
│ │ │ │ ├── jpg.jpg
│ │ │ │ ├── mp3.mp3
│ │ │ │ ├── pdf.pdf
│ │ │ │ ├── ppt.ppt
│ │ │ │ ├── ps.ps
│ │ │ │ ├── rtf.rtf
│ │ │ │ ├── wav.wav
│ │ │ │ ├── wpd.wpd
│ │ │ │ └── xls.xls
│ │ │ ├── html.html
│ │ │ ├── index.html
│ │ │ └── txt.txt
│ │ ├── SimpleJavascriptExtraction
│ │ │ ├── index.html
│ │ │ ├── jscriptOpenWindowArg.html
│ │ │ └── jscriptOpenWindow.html
│ │ ├── SpacesInHrefPath
│ │ │ ├── index.html
│ │ │ └── spaces in path.html
│ │ ├── TrickyRelativeURIs
│ │ │ ├── anothersub
│ │ │ │ └── reluptarget.html
│ │ │ ├── index.html
│ │ │ └── reluptricky.html
│ │ └── WEB-INF
│ │ └── web.xml
│ └── xsd
│ └── arc
│ └── 1.0
│ ├── arc.html
│ ├── arc.xsd
│ └── example.xml
└── testdata
└── ms
├── 15336-doc-preface.doc
├── 15336-doc-preface.txt
├── X.doc
└── X.txt
120 directories, 814 files
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论