在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例一般编程问题 → Heritrix—开发自己的搜索引擎.rar

Heritrix—开发自己的搜索引擎.rar

一般编程问题

下载此实例
  • 开发语言:Others
  • 实例大小:9.71M
  • 下载次数:1
  • 浏览次数:74
  • 发布时间:2021-12-12
  • 实例类别:一般编程问题
  • 发 布 人:js2021
  • 文件格式:.rar
  • 所需积分:2
 

实例介绍

【实例简介】
开发自己的搜索引擎,Heritrix是一种网页抓取的有效工具
【实例截图】
【核心代码】
4744302543288656593.rar
└── Heritrix 1[1].4
└── heritrix-1.14.0
├── build.xml
├── lib
│   ├── ant-1.6.2.jar
│   ├── bsh-2.0b4.jar
│   ├── commons-cli-1.0.jar
│   ├── commons-codec-1.3.jar
│   ├── commons-collections-3.1.jar
│   ├── commons-httpclient-3.1.jar
│   ├── commons-io-1.3.1.jar
│   ├── commons-lang-2.3.jar
│   ├── commons-logging-1.0.4.jar
│   ├── commons-net-1.4.1.jar
│   ├── commons-pool-1.3.jar
│   ├── dnsjava-2.0.3.jar
│   ├── fastutil-5.0.3-heritrix-subset-1.0.jar
│   ├── itext-1.2.0.jar
│   ├── jasper-compiler-tomcat-4.1.30.jar
│   ├── jasper-runtime-tomcat-4.1.30.jar
│   ├── javaswf-CVS-SNAPSHOT-1.jar
│   ├── je-3.2.74.jar
│   ├── jericho-html-2.3.jar
│   ├── jets3t-0.5.0.jar
│   ├── jetty-4.2.23.jar
│   ├── junit-3.8.2.jar
│   ├── libidn-0.5.9.jar
│   ├── mg4j-1.0.1.jar
│   ├── poi-2.0-RC1-20031102.jar
│   ├── poi-scratchpad-2.0-RC1-20031102.jar
│   └── servlet-tomcat-4.1.30.jar
├── LICENSE.txt
├── maven.xml
├── project.properties
├── project.xml
├── README.txt
├── src
│   ├── articles
│   │   ├── crawler_overview1.dia
│   │   ├── crawler_overview1.png
│   │   ├── developer_manual.xml
│   │   ├── docbook.css
│   │   ├── frontier1.dia
│   │   ├── frontier1.png
│   │   ├── processing_steps.dia
│   │   ├── processing_steps.png
│   │   ├── README.txt
│   │   ├── releasenotes.xml
│   │   ├── settings1.dia
│   │   ├── settings1.png
│   │   ├── settings2.dia
│   │   ├── settings2.png
│   │   └── user_manual.xml
│   ├── conf
│   │   ├── effective_tld_names.dat
│   │   ├── heritrix.cacerts
│   │   ├── heritrix.properties
│   │   ├── jmxremote.password.template
│   │   ├── jndi.properties
│   │   ├── modules
│   │   │   ├── BaseRule.options
│   │   │   ├── CrawlScope.options
│   │   │   ├── Credential.options
│   │   │   ├── DecideRule.options
│   │   │   ├── Filter.options
│   │   │   ├── Frontier.options
│   │   │   ├── Processor.options
│   │   │   └── StatisticTracking.options
│   │   ├── profiles
│   │   │   └── default
│   │   │   ├── order.xml
│   │   │   └── seeds.txt
│   │   └── selftest
│   │   └── order.xml
│   ├── design
│   │   ├── credentials.gif
│   │   └── credentials.zargo
│   ├── java
│   │   ├── com
│   │   │   └── sleepycat
│   │   │   └── collections
│   │   ├── META-INF
│   │   │   └── MANIFEST-MF
│   │   ├── org
│   │   │   ├── apache
│   │   │   │   └── commons
│   │   │   │   ├── httpclient
│   │   │   │   │   ├── cookie
│   │   │   │   │   │   ├── CookieSpecBase.java
│   │   │   │   │   │   ├── CookieSpec.java
│   │   │   │   │   │   └── IgnoreCookiesSpec.java
│   │   │   │   │   ├── Cookie.java
│   │   │   │   │   ├── HttpConnection.java
│   │   │   │   │   ├── HttpMethodBase.java
│   │   │   │   │   ├── HttpParser.java
│   │   │   │   │   └── HttpState.java
│   │   │   │   └── pool
│   │   │   │   └── impl
│   │   │   │   ├── FairGenericObjectPool.java
│   │   │   │   ├── FairGenericObjectPoolTest.java
│   │   │   │   └── GenericObjectPool.java
│   │   │   └── archive
│   │   │   ├── crawler
│   │   │   │   ├── admin
│   │   │   │   │   ├── CrawlJobErrorHandler.java
│   │   │   │   │   ├── CrawlJobHandler.java
│   │   │   │   │   ├── CrawlJob.java
│   │   │   │   │   ├── InvalidJobFileException.java
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── SeedRecord.java
│   │   │   │   │   ├── StatisticsSummary.java
│   │   │   │   │   ├── StatisticsTracker.java
│   │   │   │   │   └── ui
│   │   │   │   │   ├── CookieUtils.java
│   │   │   │   │   ├── JobConfigureUtils.java
│   │   │   │   │   └── RootFilter.java
│   │   │   │   ├── CommandLineParser.java
│   │   │   │   ├── datamodel
│   │   │   │   │   ├── CandidateURI.java
│   │   │   │   │   ├── CandidateURITest.java
│   │   │   │   │   ├── Checkpoint.java
│   │   │   │   │   ├── CoreAttributeConstants.java
│   │   │   │   │   ├── CrawlHost.java
│   │   │   │   │   ├── CrawlOrder.java
│   │   │   │   │   ├── CrawlServer.java
│   │   │   │   │   ├── CrawlSubstats.java
│   │   │   │   │   ├── CrawlURI.java
│   │   │   │   │   ├── CrawlURITest.java
│   │   │   │   │   ├── credential
│   │   │   │   │   │   ├── CredentialAvatar.java
│   │   │   │   │   │   ├── Credential.java
│   │   │   │   │   │   ├── HtmlFormCredential.java
│   │   │   │   │   │   ├── package.html
│   │   │   │   │   │   └── Rfc2617Credential.java
│   │   │   │   │   ├── CredentialStore.java
│   │   │   │   │   ├── CredentialStoreTest.java
│   │   │   │   │   ├── FetchStatusCodes.java
│   │   │   │   │   ├── InstancePerThread.java
│   │   │   │   │   ├── LocalizedError.java
│   │   │   │   │   ├── RobotsExclusionPolicy.java
│   │   │   │   │   ├── RobotsHonoringPolicy.java
│   │   │   │   │   ├── Robotstxt.java
│   │   │   │   │   ├── RobotstxtTest.java
│   │   │   │   │   ├── ServerCache.java
│   │   │   │   │   ├── ServerCacheTest.java
│   │   │   │   │   └── UriUniqFilter.java
│   │   │   │   ├── deciderules
│   │   │   │   │   ├── AcceptDecideRule.java
│   │   │   │   │   ├── AddRedirectFromRootServerToScope.java
│   │   │   │   │   ├── BeanShellDecideRule.java
│   │   │   │   │   ├── ClassKeyMatchesRegExpDecideRule.java
│   │   │   │   │   ├── ConfiguredDecideRule.java
│   │   │   │   │   ├── ConfiguredDecideRuleTest.java
│   │   │   │   │   ├── ContentTypeMatchesRegExpDecideRule.java
│   │   │   │   │   ├── ContentTypeNotMatchesRegExpDecideRule.java
│   │   │   │   │   ├── DecideRule.java
│   │   │   │   │   ├── DecideRuleSequence.java
│   │   │   │   │   ├── DecideRuleSequenceTest.java
│   │   │   │   │   ├── DecidingFilter.java
│   │   │   │   │   ├── DecidingScope.java
│   │   │   │   │   ├── ExceedsDocumentLengthTresholdDecideRule.java
│   │   │   │   │   ├── ExternalGeoLocationDecideRule.java
│   │   │   │   │   ├── ExternalGeoLookupInterface.java
│   │   │   │   │   ├── ExternalImplDecideRule.java
│   │   │   │   │   ├── ExternalImplInterface.java
│   │   │   │   │   ├── FetchStatusDecideRule.java
│   │   │   │   │   ├── FetchStatusMatchesRegExpDecideRule.java
│   │   │   │   │   ├── FetchStatusNotMatchesRegExpDecideRule.java
│   │   │   │   │   ├── FilterDecideRule.java
│   │   │   │   │   ├── HasViaDecideRule.java
│   │   │   │   │   ├── HopsPathMatchesRegExpDecideRule.java
│   │   │   │   │   ├── MatchesFilePatternDecideRule.java
│   │   │   │   │   ├── MatchesListRegExpDecideRule.java
│   │   │   │   │   ├── MatchesRegExpDecideRule.java
│   │   │   │   │   ├── NotExceedsDocumentLengthTresholdDecideRule.java
│   │   │   │   │   ├── NotMatchesFilePatternDecideRule.java
│   │   │   │   │   ├── NotMatchesListRegExpDecideRule.java
│   │   │   │   │   ├── NotMatchesRegExpDecideRule.java
│   │   │   │   │   ├── NotOnDomainsDecideRule.java
│   │   │   │   │   ├── NotOnHostsDecideRule.java
│   │   │   │   │   ├── NotSurtPrefixedDecideRule.java
│   │   │   │   │   ├── OnDomainsDecideRule.java
│   │   │   │   │   ├── OnHostsDecideRule.java
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── PathologicalPathDecideRule.java
│   │   │   │   │   ├── PredicatedDecideRule.java
│   │   │   │   │   ├── PrerequisiteAcceptDecideRule.java
│   │   │   │   │   ├── recrawl
│   │   │   │   │   │   └── IdenticalDigestDecideRule.java
│   │   │   │   │   ├── RejectDecideRule.java
│   │   │   │   │   ├── ScopePlusOneDecideRule.java
│   │   │   │   │   ├── SeedAcceptDecideRule.java
│   │   │   │   │   ├── SurtPrefixedDecideRule.java
│   │   │   │   │   ├── TooManyHopsDecideRule.java
│   │   │   │   │   ├── TooManyPathSegmentsDecideRule.java
│   │   │   │   │   └── TransclusionDecideRule.java
│   │   │   │   ├── doc-files
│   │   │   │   │   ├── processing_steps.dia
│   │   │   │   │   └── processing_steps.png
│   │   │   │   ├── event
│   │   │   │   │   ├── CrawlStatusListener.java
│   │   │   │   │   └── CrawlURIDispositionListener.java
│   │   │   │   ├── extractor
│   │   │   │   │   ├── AggressiveExtractorHTML.java
│   │   │   │   │   ├── ChangeEvaluator.java
│   │   │   │   │   ├── CrawlUriSWFAction.java
│   │   │   │   │   ├── CustomSWFTags.java
│   │   │   │   │   ├── ExtractorCSS.java
│   │   │   │   │   ├── ExtractorDOC.java
│   │   │   │   │   ├── ExtractorHTML.java
│   │   │   │   │   ├── ExtractorHTMLTest.java
│   │   │   │   │   ├── ExtractorHTTP.java
│   │   │   │   │   ├── ExtractorImpliedURI.java
│   │   │   │   │   ├── ExtractorImpliedURITest.java
│   │   │   │   │   ├── Extractor.java
│   │   │   │   │   ├── ExtractorJS.java
│   │   │   │   │   ├── ExtractorPDF.java
│   │   │   │   │   ├── ExtractorSWF.java
│   │   │   │   │   ├── ExtractorTool.java
│   │   │   │   │   ├── ExtractorUniversal.java
│   │   │   │   │   ├── ExtractorURI.java
│   │   │   │   │   ├── ExtractorURITest.java
│   │   │   │   │   ├── ExtractorXML.java
│   │   │   │   │   ├── HTTPContentDigest.java
│   │   │   │   │   ├── JerichoExtractorHTML.java
│   │   │   │   │   ├── JerichoExtractorHTMLTest.java
│   │   │   │   │   ├── Link.java
│   │   │   │   │   ├── PDFParser.java
│   │   │   │   │   └── TrapSuppressExtractor.java
│   │   │   │   ├── fetcher
│   │   │   │   │   ├── FetchDNS.java
│   │   │   │   │   ├── FetchFTP.java
│   │   │   │   │   ├── FetchHTTP.java
│   │   │   │   │   ├── HeritrixHttpMethodRetryHandler.java
│   │   │   │   │   ├── HeritrixProtocolSocketFactory.java
│   │   │   │   │   └── HeritrixSSLProtocolSocketFactory.java
│   │   │   │   ├── filter
│   │   │   │   │   ├── ContentTypeRegExpFilter.java
│   │   │   │   │   ├── FilePatternFilter.java
│   │   │   │   │   ├── FilePatternFilterTest.java
│   │   │   │   │   ├── HopsFilter.java
│   │   │   │   │   ├── HTTPMidFetchUnchangedFilter.java
│   │   │   │   │   ├── OrFilter.java
│   │   │   │   │   ├── PathDepthFilter.java
│   │   │   │   │   ├── PathologicalPathFilter.java
│   │   │   │   │   ├── PathologicalPathFilterTest.java
│   │   │   │   │   ├── SurtPrefixFilter.java
│   │   │   │   │   ├── TransclusionFilter.java
│   │   │   │   │   ├── URIListRegExpFilter.java
│   │   │   │   │   └── URIRegExpFilter.java
│   │   │   │   ├── framework
│   │   │   │   │   ├── AbstractTracker.java
│   │   │   │   │   ├── AlertManager.java
│   │   │   │   │   ├── Checkpointer.java
│   │   │   │   │   ├── CrawlController.java
│   │   │   │   │   ├── CrawlScope.java
│   │   │   │   │   ├── exceptions
│   │   │   │   │   │   ├── ConfigurationException.java
│   │   │   │   │   │   ├── EndedException.java
│   │   │   │   │   │   ├── FatalConfigurationException.java
│   │   │   │   │   │   ├── InitializationException.java
│   │   │   │   │   │   └── InvalidFrontierMarkerException.java
│   │   │   │   │   ├── Filter.java
│   │   │   │   │   ├── FrontierHostStatistics.java
│   │   │   │   │   ├── Frontier.java
│   │   │   │   │   ├── FrontierMarker.java
│   │   │   │   │   ├── ProcessorChain.java
│   │   │   │   │   ├── ProcessorChainList.java
│   │   │   │   │   ├── Processor.java
│   │   │   │   │   ├── Scoper.java
│   │   │   │   │   ├── StatisticsTracking.java
│   │   │   │   │   ├── ToePool.java
│   │   │   │   │   ├── ToeThread.java
│   │   │   │   │   └── WriterPoolProcessor.java
│   │   │   │   ├── frontier
│   │   │   │   │   ├── AbstractFrontier.java
│   │   │   │   │   ├── AdaptiveRevisitAttributeConstants.java
│   │   │   │   │   ├── AdaptiveRevisitFrontier.java
│   │   │   │   │   ├── AdaptiveRevisitHostQueue.java
│   │   │   │   │   ├── AdaptiveRevisitHostQueueTest.java
│   │   │   │   │   ├── AdaptiveRevisitQueueList.java
│   │   │   │   │   ├── AntiCalendarCostAssignmentPolicy.java
│   │   │   │   │   ├── BdbFrontier.java
│   │   │   │   │   ├── BdbMultipleWorkQueues.java
│   │   │   │   │   ├── BdbMultipleWorkQueuesTest.java
│   │   │   │   │   ├── BdbWorkQueue.java
│   │   │   │   │   ├── BucketQueueAssignmentPolicy.java
│   │   │   │   │   ├── CostAssignmentPolicy.java
│   │   │   │   │   ├── DomainSensitiveFrontier.java
│   │   │   │   │   ├── FrontierJournal.java
│   │   │   │   │   ├── HostnameQueueAssignmentPolicy.java
│   │   │   │   │   ├── IPQueueAssignmentPolicy.java
│   │   │   │   │   ├── QueueAssignmentPolicy.java
│   │   │   │   │   ├── RecoveryJournal.java
│   │   │   │   │   ├── RecoveryJournalTest.java
│   │   │   │   │   ├── RecyclingSerialBinding.java
│   │   │   │   │   ├── SurtAuthorityQueueAssignmentPolicy.java
│   │   │   │   │   ├── TopmostAssignedSurtQueueAssignmentPolicy.java
│   │   │   │   │   ├── UnitCostAssignmentPolicy.java
│   │   │   │   │   ├── WagCostAssignmentPolicy.java
│   │   │   │   │   ├── WorkQueueFrontier.java
│   │   │   │   │   ├── WorkQueue.java
│   │   │   │   │   └── ZeroCostAssignmentPolicy.java
│   │   │   │   ├── Heritrix.java
│   │   │   │   ├── io
│   │   │   │   │   ├── CrawlerJournal.java
│   │   │   │   │   ├── LocalErrorFormatter.java
│   │   │   │   │   ├── RuntimeErrorFormatter.java
│   │   │   │   │   ├── StatisticsLogFormatter.java
│   │   │   │   │   ├── UriErrorFormatter.java
│   │   │   │   │   └── UriProcessingFormatter.java
│   │   │   │   ├── package.html
│   │   │   │   ├── postprocessor
│   │   │   │   │   ├── AcceptRevisitProcessor.java
│   │   │   │   │   ├── ContentBasedWaitEvaluator.java
│   │   │   │   │   ├── CrawlStateUpdater.java
│   │   │   │   │   ├── FrontierScheduler.java
│   │   │   │   │   ├── ImageWaitEvaluator.java
│   │   │   │   │   ├── LinksScoper.java
│   │   │   │   │   ├── LowDiskPauseProcessor.java
│   │   │   │   │   ├── RejectRevisitProcessor.java
│   │   │   │   │   ├── SupplementaryLinksScoper.java
│   │   │   │   │   ├── TextWaitEvaluator.java
│   │   │   │   │   └── WaitEvaluator.java
│   │   │   │   ├── prefetch
│   │   │   │   │   ├── PreconditionEnforcer.java
│   │   │   │   │   ├── Preselector.java
│   │   │   │   │   ├── QuotaEnforcer.java
│   │   │   │   │   └── RuntimeLimitEnforcer.java
│   │   │   │   ├── processor
│   │   │   │   │   ├── BeanShellProcessor.java
│   │   │   │   │   ├── CrawlMapper.java
│   │   │   │   │   ├── HashCrawlMapper.java
│   │   │   │   │   ├── LexicalCrawlMapper.java
│   │   │   │   │   └── recrawl
│   │   │   │   │   ├── FetchHistoryProcessor.java
│   │   │   │   │   ├── PersistLoadProcessor.java
│   │   │   │   │   ├── PersistLogProcessor.java
│   │   │   │   │   ├── PersistOnlineProcessor.java
│   │   │   │   │   ├── PersistProcessor.java
│   │   │   │   │   └── PersistStoreProcessor.java
│   │   │   │   ├── scope
│   │   │   │   │   ├── BroadScope.java
│   │   │   │   │   ├── ClassicScope.java
│   │   │   │   │   ├── DomainScope.java
│   │   │   │   │   ├── DomainScopeTest.java
│   │   │   │   │   ├── HostScope.java
│   │   │   │   │   ├── PathScope.java
│   │   │   │   │   ├── RefinedScope.java
│   │   │   │   │   ├── SeedCachingScope.java
│   │   │   │   │   ├── SeedCachingScopeTest.java
│   │   │   │   │   ├── SeedFileIterator.java
│   │   │   │   │   ├── SeedFileIteratorTest.java
│   │   │   │   │   ├── SeedListener.java
│   │   │   │   │   └── SurtPrefixScope.java
│   │   │   │   ├── selftest
│   │   │   │   │   ├── AllSelfTestCases.java
│   │   │   │   │   ├── AltTestSuite.java
│   │   │   │   │   ├── AuthSelfTest.java
│   │   │   │   │   ├── BackgroundImageExtractionSelfTestCase.java
│   │   │   │   │   ├── BadURIsStopPageParsingSelfTest.java
│   │   │   │   │   ├── CharsetSelfTest.java
│   │   │   │   │   ├── CheckpointSelfTest.java
│   │   │   │   │   ├── FlashParseSelfTest.java
│   │   │   │   │   ├── FramesSelfTestCase.java
│   │   │   │   │   ├── MaxLinkHopsSelfTest.java
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── SelfTestCase.java
│   │   │   │   │   └── SelfTestCrawlJobHandler.java
│   │   │   │   ├── settings
│   │   │   │   │   ├── ComplexType.java
│   │   │   │   │   ├── Constraint.java
│   │   │   │   │   ├── CrawlerSettings.java
│   │   │   │   │   ├── CrawlerSettingsTest.java
│   │   │   │   │   ├── CrawlSettingsSAXHandler.java
│   │   │   │   │   ├── CrawlSettingsSAXSource.java
│   │   │   │   │   ├── DataContainer.java
│   │   │   │   │   ├── doc-files
│   │   │   │   │   │   ├── settings1.dia
│   │   │   │   │   │   ├── settings1.png
│   │   │   │   │   │   ├── settings2.dia
│   │   │   │   │   │   └── settings2.png
│   │   │   │   │   ├── DoubleList.java
│   │   │   │   │   ├── FloatList.java
│   │   │   │   │   ├── IntegerList.java
│   │   │   │   │   ├── LegalValueListConstraint.java
│   │   │   │   │   ├── LegalValueTypeConstraint.java
│   │   │   │   │   ├── ListType.java
│   │   │   │   │   ├── LongList.java
│   │   │   │   │   ├── MapType.java
│   │   │   │   │   ├── MapTypeTest.java
│   │   │   │   │   ├── ModuleAttributeInfo.java
│   │   │   │   │   ├── ModuleType.java
│   │   │   │   │   ├── OverrideTest.java
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── refinements
│   │   │   │   │   │   ├── Criteria.java
│   │   │   │   │   │   ├── PortnumberCriteria.java
│   │   │   │   │   │   ├── Refinement.java
│   │   │   │   │   │   ├── RegularExpressionCriteria.java
│   │   │   │   │   │   ├── TimespanCriteria.java
│   │   │   │   │   │   └── TimespanCriteriaTest.java
│   │   │   │   │   ├── RegularExpressionConstraint.java
│   │   │   │   │   ├── SettingsCache.java
│   │   │   │   │   ├── SettingsFrameworkTestCase.java
│   │   │   │   │   ├── SettingsHandler.java
│   │   │   │   │   ├── SimpleType.java
│   │   │   │   │   ├── SimpleTypeTest.java
│   │   │   │   │   ├── SoftSettingsHash.java
│   │   │   │   │   ├── StringList.java
│   │   │   │   │   ├── TextField.java
│   │   │   │   │   ├── Type.java
│   │   │   │   │   ├── ValueErrorHandler.java
│   │   │   │   │   ├── XMLSettingsHandler.java
│   │   │   │   │   └── XMLSettingsHandlerTest.java
│   │   │   │   ├── SimpleHttpServer.java
│   │   │   │   ├── url
│   │   │   │   │   ├── CanonicalizationRule.java
│   │   │   │   │   ├── canonicalize
│   │   │   │   │   │   ├── BaseRule.java
│   │   │   │   │   │   ├── FixupQueryStr.java
│   │   │   │   │   │   ├── FixupQueryStrTest.java
│   │   │   │   │   │   ├── LowercaseRule.java
│   │   │   │   │   │   ├── LowercaseRuleTest.java
│   │   │   │   │   │   ├── RegexRule.java
│   │   │   │   │   │   ├── RegexRuleTest.java
│   │   │   │   │   │   ├── StripExtraSlashes.java
│   │   │   │   │   │   ├── StripSessionCFIDs.java
│   │   │   │   │   │   ├── StripSessionCFIDsTest.java
│   │   │   │   │   │   ├── StripSessionIDs.java
│   │   │   │   │   │   ├── StripSessionIDsTest.java
│   │   │   │   │   │   ├── StripUserinfoRule.java
│   │   │   │   │   │   ├── StripUserinfoRuleTest.java
│   │   │   │   │   │   ├── StripWWWNRule.java
│   │   │   │   │   │   ├── StripWWWNRuleTest.java
│   │   │   │   │   │   ├── StripWWWRule.java
│   │   │   │   │   │   └── StripWWWRuleTest.java
│   │   │   │   │   ├── Canonicalizer.java
│   │   │   │   │   └── CanonicalizerTest.java
│   │   │   │   ├── util
│   │   │   │   │   ├── BdbUriUniqFilter.java
│   │   │   │   │   ├── BdbUriUniqFilterTest.java
│   │   │   │   │   ├── BenchmarkUriUniqFilters.java
│   │   │   │   │   ├── BloomUriUniqFilter.java
│   │   │   │   │   ├── BloomUriUniqFilterTest.java
│   │   │   │   │   ├── CheckpointUtils.java
│   │   │   │   │   ├── CrawledBytesHistotable.java
│   │   │   │   │   ├── DiskFPMergeUriUniqFilter.java
│   │   │   │   │   ├── FPMergeUriUniqFilter.java
│   │   │   │   │   ├── FPUriUniqFilter.java
│   │   │   │   │   ├── FPUriUniqFilterTest.java
│   │   │   │   │   ├── IoUtils.java
│   │   │   │   │   ├── IoUtilsTest.java
│   │   │   │   │   ├── LogReader.java
│   │   │   │   │   ├── LogUtils.java
│   │   │   │   │   ├── MemFPMergeUriUniqFilter.java
│   │   │   │   │   ├── MemUriUniqFilter.java
│   │   │   │   │   ├── NoopUriUniqFilter.java
│   │   │   │   │   ├── RecoveryLogMapper.java
│   │   │   │   │   ├── SeedUrlNotFoundException.java
│   │   │   │   │   ├── SetBasedUriUniqFilter.java
│   │   │   │   │   ├── Sorts.java
│   │   │   │   │   ├── StringIntPairComparator.java
│   │   │   │   │   ├── StringIntPair.java
│   │   │   │   │   ├── Transformer.java
│   │   │   │   │   ├── Transform.java
│   │   │   │   │   └── TransformTest.java
│   │   │   │   ├── WebappLifecycle.java
│   │   │   │   └── writer
│   │   │   │   ├── ARCWriterProcessor.java
│   │   │   │   ├── Kw3Constants.java
│   │   │   │   ├── Kw3WriterProcessor.java
│   │   │   │   ├── MirrorWriterProcessor.java
│   │   │   │   └── WARCWriterProcessor.java
│   │   │   ├── extractor
│   │   │   │   ├── CharSequenceLinkExtractor.java
│   │   │   │   ├── CharSequenceProvider.java
│   │   │   │   ├── ExtractErrorListener.java
│   │   │   │   ├── LinkExtractor.java
│   │   │   │   ├── overview.html
│   │   │   │   ├── RegexpCSSLinkExtractor.java
│   │   │   │   ├── RegexpHTMLLinkExtractor.java
│   │   │   │   └── RegexpJSLinkExtractor.java
│   │   │   ├── httpclient
│   │   │   │   ├── ConfigurableX509TrustManager.java
│   │   │   │   ├── HttpRecorderGetMethod.java
│   │   │   │   ├── HttpRecorderMethod.java
│   │   │   │   ├── HttpRecorderPostMethod.java
│   │   │   │   ├── package.html
│   │   │   │   ├── SingleHttpConnectionManager.java
│   │   │   │   └── ThreadLocalHttpConnectionManager.java
│   │   │   ├── io
│   │   │   │   ├── arc
│   │   │   │   │   ├── ARC2WCDX.java
│   │   │   │   │   ├── ARCConstants.java
│   │   │   │   │   ├── ARCLocation.java
│   │   │   │   │   ├── ARCReaderFactory.java
│   │   │   │   │   ├── ARCReaderFactoryTest.java
│   │   │   │   │   ├── ARCReader.java
│   │   │   │   │   ├── ARCRecord.java
│   │   │   │   │   ├── ARCRecordMetaData.java
│   │   │   │   │   ├── ARCUtils.java
│   │   │   │   │   ├── ARCWriter.java
│   │   │   │   │   ├── ARCWriterPool.java
│   │   │   │   │   ├── ARCWriterPoolTest.java
│   │   │   │   │   ├── ARCWriterTest.java
│   │   │   │   │   └── package.html
│   │   │   │   ├── Arc2Warc.java
│   │   │   │   ├── ArchiveFileConstants.java
│   │   │   │   ├── ArchiveReaderFactory.java
│   │   │   │   ├── ArchiveReader.java
│   │   │   │   ├── ArchiveRecordHeader.java
│   │   │   │   ├── ArchiveRecord.java
│   │   │   │   ├── ArraySeekInputStream.java
│   │   │   │   ├── BufferedSeekInputStream.java
│   │   │   │   ├── BufferedSeekInputStreamTest.java
│   │   │   │   ├── ByteReplayCharSequence.java
│   │   │   │   ├── CharSubSequence.java
│   │   │   │   ├── CompositeFileInputStream.java
│   │   │   │   ├── CompositeFileReader.java
│   │   │   │   ├── Endian.java
│   │   │   │   ├── GenerationFileHandler.java
│   │   │   │   ├── GzipHeader.java
│   │   │   │   ├── GzippedInputStream.java
│   │   │   │   ├── GzippedInputStreamTest.java
│   │   │   │   ├── MultiByteReplayCharSequence.java
│   │   │   │   ├── NoGzipMagicException.java
│   │   │   │   ├── ObjectPlusFilesInputStream.java
│   │   │   │   ├── ObjectPlusFilesOutputStream.java
│   │   │   │   ├── OriginSeekInputStream.java
│   │   │   │   ├── RandomAccessInputStream.java
│   │   │   │   ├── RandomAccessOutputStream.java
│   │   │   │   ├── RecorderIOException.java
│   │   │   │   ├── RecorderLengthExceededException.java
│   │   │   │   ├── RecorderTimeoutException.java
│   │   │   │   ├── RecorderTooMuchHeaderException.java
│   │   │   │   ├── RecordingInputStream.java
│   │   │   │   ├── RecordingInputStreamTest.java
│   │   │   │   ├── RecordingOutputStream.java
│   │   │   │   ├── RecordingOutputStreamTest.java
│   │   │   │   ├── RecoverableIOException.java
│   │   │   │   ├── RecyclingFastBufferedOutputStream.java
│   │   │   │   ├── ReplayCharSequence.java
│   │   │   │   ├── ReplayCharSequenceTest.java
│   │   │   │   ├── ReplayInputStream.java
│   │   │   │   ├── RepositionableInputStream.java
│   │   │   │   ├── RepositionableInputStreamTest.java
│   │   │   │   ├── SafeSeekInputStream.java
│   │   │   │   ├── SeekInputStream.java
│   │   │   │   ├── SeekReaderCharSequence.java
│   │   │   │   ├── SeekReader.java
│   │   │   │   ├── SinkHandler.java
│   │   │   │   ├── SinkHandlerLogRecord.java
│   │   │   │   ├── SinkHandlerTest.java
│   │   │   │   ├── UTF8Bytes.java
│   │   │   │   ├── warc
│   │   │   │   │   ├── package.html
│   │   │   │   │   ├── WARCConstants.java
│   │   │   │   │   ├── WARCReaderFactory.java
│   │   │   │   │   ├── WARCReader.java
│   │   │   │   │   ├── WARCRecord.java
│   │   │   │   │   ├── WARCWriter.java
│   │   │   │   │   ├── WARCWriterPool.java
│   │   │   │   │   └── WARCWriterTest.java
│   │   │   │   ├── Warc2Arc.java
│   │   │   │   ├── WriterPool.java
│   │   │   │   ├── WriterPoolMember.java
│   │   │   │   └── WriterPoolSettings.java
│   │   │   ├── net
│   │   │   │   ├── ClientFTP.java
│   │   │   │   ├── DownloadURLConnection.java
│   │   │   │   ├── FTPException.java
│   │   │   │   ├── LaxURI.java
│   │   │   │   ├── LaxURLCodec.java
│   │   │   │   ├── md5
│   │   │   │   │   ├── Handler.java
│   │   │   │   │   └── Md5URLConnection.java
│   │   │   │   ├── PublicSuffixes.java
│   │   │   │   ├── PublicSuffixesTest.java
│   │   │   │   ├── rsync
│   │   │   │   │   ├── Handler.java
│   │   │   │   │   └── RsyncURLConnection.java
│   │   │   │   ├── s3
│   │   │   │   │   └── Handler.java
│   │   │   │   ├── UURIFactory.java
│   │   │   │   ├── UURIFactoryTest.java
│   │   │   │   ├── UURI.java
│   │   │   │   └── UURITest.java
│   │   │   ├── overview.html
│   │   │   ├── queue
│   │   │   │   ├── Deque.java
│   │   │   │   ├── MemQueue.java
│   │   │   │   ├── MemQueueTest.java
│   │   │   │   ├── QueueCat.java
│   │   │   │   ├── Queue.java
│   │   │   │   ├── QueueTestBase.java
│   │   │   │   ├── Stack.java
│   │   │   │   ├── StoredQueue.java
│   │   │   │   └── StoredQueueTest.java
│   │   │   ├── uid
│   │   │   │   ├── GeneratorFactory.java
│   │   │   │   ├── Generator.java
│   │   │   │   ├── package.html
│   │   │   │   ├── UUIDGenerator.java
│   │   │   │   └── UUIDGeneratorTest.java
│   │   │   └── util
│   │   │   ├── AbstractLongFPSet.java
│   │   │   ├── Accumulator.java
│   │   │   ├── anvl
│   │   │   │   ├── ANVLRecord.java
│   │   │   │   ├── ANVLRecords.java
│   │   │   │   ├── ANVLRecordTest.java
│   │   │   │   ├── Element.java
│   │   │   │   ├── Label.java
│   │   │   │   ├── package.html
│   │   │   │   ├── SubElement.java
│   │   │   │   └── Value.java
│   │   │   ├── ArchiveUtils.java
│   │   │   ├── ArchiveUtilsTest.java
│   │   │   ├── Base32.java
│   │   │   ├── bdbje
│   │   │   │   └── EnhancedEnvironment.java
│   │   │   ├── BenchmarkBlooms.java
│   │   │   ├── BloomFilter32bit.java
│   │   │   ├── BloomFilter32bitSplit.java
│   │   │   ├── BloomFilter32bp2.java
│   │   │   ├── BloomFilter32bp2Split.java
│   │   │   ├── BloomFilter64bit.java
│   │   │   ├── BloomFilter.java
│   │   │   ├── CachedBdbMap.java
│   │   │   ├── CachedBdbMapTest.java
│   │   │   ├── DevUtils.java
│   │   │   ├── DNSJavaUtil.java
│   │   │   ├── FileUtils.java
│   │   │   ├── FileUtilsTest.java
│   │   │   ├── fingerprint
│   │   │   │   ├── ArrayLongFPCache.java
│   │   │   │   ├── ArrayLongFPCacheTest.java
│   │   │   │   ├── LongFPSetCache.java
│   │   │   │   ├── LongFPSetCacheTest.java
│   │   │   │   ├── LongFPSet.java
│   │   │   │   ├── LongFPSetTestCase.java
│   │   │   │   ├── MemLongFPSet.java
│   │   │   │   └── MemLongFPSetTest.java
│   │   │   ├── Histotable.java
│   │   │   ├── HttpRecorder.java
│   │   │   ├── HttpRecorderMarker.java
│   │   │   ├── InetAddressUtil.java
│   │   │   ├── InterruptibleCharSequence.java
│   │   │   ├── InterruptibleCharSequenceTest.java
│   │   │   ├── Inverter.java
│   │   │   ├── IoUtils.java
│   │   │   ├── IoUtilsTest.java
│   │   │   ├── iterator
│   │   │   │   ├── CompositeIterator.java
│   │   │   │   ├── LineReadingIterator.java
│   │   │   │   ├── LookaheadIterator.java
│   │   │   │   ├── RegexpLineIterator.java
│   │   │   │   └── TransformingIteratorWrapper.java
│   │   │   ├── JavaLiterals.java
│   │   │   ├── JEApplicationMBean.java
│   │   │   ├── JEMBeanHelper.java
│   │   │   ├── JmxUtils.java
│   │   │   ├── JmxUtilsTest.java
│   │   │   ├── JndiUtils.java
│   │   │   ├── LongWrapper.java
│   │   │   ├── LRU.java
│   │   │   ├── MimetypeUtils.java
│   │   │   ├── MimetypeUtilsTest.java
│   │   │   ├── ms
│   │   │   │   ├── BlockFileSystem.java
│   │   │   │   ├── BlockInputStream.java
│   │   │   │   ├── Cp1252.java
│   │   │   │   ├── DefaultBlockFileSystem.java
│   │   │   │   ├── DefaultEntry.java
│   │   │   │   ├── Doc.java
│   │   │   │   ├── DocTest.java
│   │   │   │   ├── Entry.java
│   │   │   │   ├── HeaderBlock.java
│   │   │   │   ├── package.html
│   │   │   │   ├── Piece.java
│   │   │   │   ├── PieceReader.java
│   │   │   │   ├── PieceReaderTest.java
│   │   │   │   └── PieceTable.java
│   │   │   ├── OneLineSimpleLogger.java
│   │   │   ├── PaddingStringBuffer.java
│   │   │   ├── PaddingStringBufferTest.java
│   │   │   ├── PatternMatcherRecycler.java
│   │   │   ├── PreJ15Utils.java
│   │   │   ├── ProcessUtils.java
│   │   │   ├── ProgressStatisticsReporter.java
│   │   │   ├── PropertyUtils.java
│   │   │   ├── Reporter.java
│   │   │   ├── SubList.java
│   │   │   ├── SURT.java
│   │   │   ├── SurtPrefixSet.java
│   │   │   ├── SurtPrefixSetTest.java
│   │   │   ├── SURTTest.java
│   │   │   ├── TestUtils.java
│   │   │   ├── TextUtils.java
│   │   │   ├── TextUtilsTest.java
│   │   │   ├── TimestampSerialno.java
│   │   │   ├── TmpDirTestCase.java
│   │   │   └── XmlUtils.java
│   │   ├── overview.html
│   │   └── st
│   │   └── ata
│   │   └── util
│   │   ├── AList.java
│   │   ├── FPGenerator.java
│   │   ├── HashtableAList.java
│   │   ├── MutableAList.java
│   │   └── X.java
│   ├── resources
│   │   ├── arcMetaheaderBody.xsl
│   │   └── README.txt
│   ├── scripts
│   │   ├── arcreader
│   │   ├── arcreader.cmd
│   │   ├── cmdline-jmxclient-0.10.5.jar
│   │   ├── dependencies.xsl
│   │   ├── extractor
│   │   ├── extractor.cmd
│   │   ├── foreground_heritrix
│   │   ├── foreground_heritrix.cmd
│   │   ├── heritrix
│   │   ├── heritrix.cmd
│   │   ├── hoppath.pl
│   │   ├── htmlextractor
│   │   ├── htmlextractor.cmd
│   │   ├── make_reports.pl
│   │   ├── manifest_bundle.pl
│   │   └── xdocToTxt.xsl
│   ├── webapps
│   │   ├── admin
│   │   │   ├── about.jsp
│   │   │   ├── console
│   │   │   │   ├── action.jsp
│   │   │   │   ├── alerts.jsp
│   │   │   │   ├── frontier.jsp
│   │   │   │   ├── readalert.jsp
│   │   │   │   └── shutdown.jsp
│   │   │   ├── css
│   │   │   │   └── heritrix.css
│   │   │   ├── error.jsp
│   │   │   ├── help
│   │   │   │   ├── codes.jsp
│   │   │   │   ├── regexpr.jsp
│   │   │   │   └── webui-prefs.jsp
│   │   │   ├── help.jsp
│   │   │   ├── heritrix_settings.html
│   │   │   ├── heritrix_settings.xsd
│   │   │   ├── iframes
│   │   │   │   └── xml.jsp
│   │   │   ├── images
│   │   │   │   ├── blue.jpg
│   │   │   │   ├── h-blue.ico
│   │   │   │   ├── h-green.ico
│   │   │   │   ├── h.ico
│   │   │   │   ├── h-orange.ico
│   │   │   │   ├── h-purple.ico
│   │   │   │   ├── h-red.ico
│   │   │   │   ├── h-teal.ico
│   │   │   │   ├── h-yellow.ico
│   │   │   │   ├── logo.gif
│   │   │   │   └── small-logo.gif
│   │   │   ├── include
│   │   │   │   ├── filters_js.jsp
│   │   │   │   ├── foot.jsp
│   │   │   │   ├── handler.jsp
│   │   │   │   ├── head.jsp
│   │   │   │   ├── jobconfigure.jsp
│   │   │   │   ├── jobcredentials.jsp
│   │   │   │   ├── jobnav.jsp
│   │   │   │   ├── jobpernav.jsp
│   │   │   │   ├── jobrefinementnav.jsp
│   │   │   │   ├── modules.jsp
│   │   │   │   ├── nocache.jsp
│   │   │   │   └── stats.jsp
│   │   │   ├── index.jsp
│   │   │   ├── jobs
│   │   │   │   ├── basedon.jsp
│   │   │   │   ├── clearperhost.jsp
│   │   │   │   ├── configure.jsp
│   │   │   │   ├── journal.jsp
│   │   │   │   ├── modules.jsp
│   │   │   │   ├── new.jsp
│   │   │   │   ├── per
│   │   │   │   │   ├── configure.jsp
│   │   │   │   │   ├── overview.jsp
│   │   │   │   │   └── submodules.jsp
│   │   │   │   ├── recovery.jsp
│   │   │   │   ├── refinements
│   │   │   │   │   ├── configure.jsp
│   │   │   │   │   ├── criteria.jsp
│   │   │   │   │   ├── overview.jsp
│   │   │   │   │   └── submodules.jsp
│   │   │   │   ├── resumefromjob.jsp
│   │   │   │   ├── submodules.jsp
│   │   │   │   ├── vieworder.jsp
│   │   │   │   └── viewseeds.jsp
│   │   │   ├── jobs.jsp
│   │   │   ├── js
│   │   │   │   └── util.js
│   │   │   ├── local-instances.jsp
│   │   │   ├── login.jsp
│   │   │   ├── logs.jsp
│   │   │   ├── profiles.jsp
│   │   │   ├── reports
│   │   │   │   ├── crawljob.jsp
│   │   │   │   ├── frontier.jsp
│   │   │   │   ├── processors.jsp
│   │   │   │   ├── seeds.jsp
│   │   │   │   └── threads.jsp
│   │   │   ├── reports.jsp
│   │   │   ├── setup.jsp
│   │   │   └── WEB-INF
│   │   │   ├── jetty-web.xml
│   │   │   └── web.xml
│   │   └── selftest
│   │   ├── Auth
│   │   │   ├── basic
│   │   │   │   ├── basic-loggedin.html
│   │   │   │   └── index.html
│   │   │   ├── form
│   │   │   │   ├── get
│   │   │   │   │   ├── error.html
│   │   │   │   │   ├── get-loggedin.html
│   │   │   │   │   ├── index.html
│   │   │   │   │   └── success.jsp
│   │   │   │   ├── index.html
│   │   │   │   └── post
│   │   │   │   ├── error.html
│   │   │   │   ├── index.html
│   │   │   │   ├── post-loggedin.html
│   │   │   │   └── success.jsp
│   │   │   └── index.html
│   │   ├── BackgroundImageExtraction
│   │   │   ├── example-background-image.jpeg
│   │   │   └── index.html
│   │   ├── BadURIsStopPageParsing
│   │   │   ├── goodone.html
│   │   │   ├── goodthree.html
│   │   │   ├── goodtwo.html
│   │   │   ├── index.html
│   │   │   ├── one.html
│   │   │   ├── three.html
│   │   │   └── two.html
│   │   ├── Charset
│   │   │   ├── charsetselftest_end.html
│   │   │   ├── index.html
│   │   │   ├── shiftjis.jsp
│   │   │   └── utf8.jsp
│   │   ├── Checkpoint
│   │   │   └── index.html
│   │   ├── FlashParse
│   │   │   ├── index.html
│   │   │   ├── pirates.swf
│   │   │   └── success.html
│   │   ├── FormTagExtraction
│   │   │   ├── index.html
│   │   │   ├── inputtag.html
│   │   │   └── optiontag.html
│   │   ├── Frames
│   │   │   ├── index.html
│   │   │   ├── leftframe.html
│   │   │   ├── noframe.html
│   │   │   ├── rightframe.html
│   │   │   └── topframe.html
│   │   ├── index.jsp
│   │   ├── MaxLinkHops
│   │   │   ├── 1.html
│   │   │   ├── 2.html
│   │   │   ├── 3.html
│   │   │   ├── 4.html
│   │   │   ├── 5.html
│   │   │   ├── 6.html
│   │   │   └── index.html
│   │   ├── Refresh
│   │   │   ├── index.html
│   │   │   ├── refresh2.html
│   │   │   └── refresh.html
│   │   ├── RobotsExclusion
│   │   │   ├── excluded
│   │   │   │   └── level2
│   │   │   │   └── level3
│   │   │   │   └── excluded.html
│   │   │   ├── excluded.html
│   │   │   ├── included.html
│   │   │   ├── index.html
│   │   │   └── README.txt
│   │   ├── robots.txt
│   │   ├── SimpleDocumentTypes
│   │   │   ├── binaries
│   │   │   │   ├── avi.avi
│   │   │   │   ├── doc.doc
│   │   │   │   ├── jpg.jpg
│   │   │   │   ├── mp3.mp3
│   │   │   │   ├── pdf.pdf
│   │   │   │   ├── ppt.ppt
│   │   │   │   ├── ps.ps
│   │   │   │   ├── rtf.rtf
│   │   │   │   ├── wav.wav
│   │   │   │   ├── wpd.wpd
│   │   │   │   └── xls.xls
│   │   │   ├── html.html
│   │   │   ├── index.html
│   │   │   └── txt.txt
│   │   ├── SimpleJavascriptExtraction
│   │   │   ├── index.html
│   │   │   ├── jscriptOpenWindowArg.html
│   │   │   └── jscriptOpenWindow.html
│   │   ├── SpacesInHrefPath
│   │   │   ├── index.html
│   │   │   └── spaces in path.html
│   │   ├── TrickyRelativeURIs
│   │   │   ├── anothersub
│   │   │   │   └── reluptarget.html
│   │   │   ├── index.html
│   │   │   └── reluptricky.html
│   │   └── WEB-INF
│   │   └── web.xml
│   └── xsd
│   └── arc
│   └── 1.0
│   ├── arc.html
│   ├── arc.xsd
│   └── example.xml
└── testdata
└── ms
├── 15336-doc-preface.doc
├── 15336-doc-preface.txt
├── X.doc
└── X.txt

120 directories, 814 files

标签:

实例下载地址

Heritrix—开发自己的搜索引擎.rar

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警