java网络爬虫小程序.rar

一般编程问题

下载此实例

开发语言：Others
实例大小：0.28M
下载次数：6
浏览次数：74
发布时间：2021-12-03
实例类别：一般编程问题
发布人：js2021
文件格式：.rar
所需积分：2

网友评论举报投诉收藏该页

下载此实例

实例介绍

【实例简介】
设计并实现crawler 程序对 crawler 的功能要求如下，但不限于此：（1）能够搜集本站内的所有网页，能提取出其中的URL 并加入到待搜集的URL 队列中，对非本网站域名的URL，只允许搜集首页，记录发现的URL 即可；对搜集的结果，产生2 个URL 列表：站内搜集URL、非站内（站外）发现URL；（2）使用User-agent 向服务器表明自己的身份；（3）能对HTML 网页进行解析，提取出链接URL，能判别提取的URL 是否已处理过，不重复下载和解析已搜集过的网页；（4）能够对crawler 的一些基本参数进行设置，包括：搜集深度（depth）、文件类型、文件大小等。（5）对搜集的过程生成日志文本文件，格式为三元组：时间戳(timestamp) Action URL Action 可表示当前的处理动作，例如processing（处理），parsing（解析），downloading （下载）等。对Action 的定义，请在实验报告中详细说明。（6）遵循礼貌规则。必须分析robots.txt 文件和meta tag 有无限制；一个线程抓完一个网页后要适当停顿（sleep）；最多允许与被搜集站点同时建立2 个连接（本地做网页解析的线程数则不限）。（7）采用多线程并行编程技术，提高搜集速度。
【实例截图】
【核心代码】
4744302542982090682.rar
└── crawler
└── 实验1
├── crawler
│   ├── CallBack.java
│   ├── Crawler.java
│   ├── Fetcher.java
│   ├── Parser.java
│   └── URLList.java
└── Crawler实验报告.doc

3 directories, 6 files

标签：

实例下载地址