主题网络爬虫

一般编程问题

下载此实例

开发语言：Others
实例大小：0.03M
下载次数：5
浏览次数：152
发布时间：2020-09-06
实例类别：一般编程问题
发布人：robot666
文件格式：.zip
所需积分：2

网友评论举报投诉收藏该页

下载此实例

实例介绍

【实例简介】
网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器，而且可以用于特定信息的采集，根据某些特定的要求采集网站中的信息，如就业，租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索，对url进行解析、去重等。并应用Java多线程，使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略，本文实现了三个常用的相关度评价算法分别是基于网页内容的相关度算法、基于网页内容和标题的相关度算法、基于网页内容和链接结构的相关度算
【实例截图】
【核心代码】
theme
└── theme
├── bin
│   └── theme
│   ├── Crawler$1.class
│   ├── Crawler$2.class
│   ├── Crawler$3.class
│   ├── Crawler$Task.class
│   ├── Crawler.class
│   ├── CrawlerFrame.class
│   ├── Download.class
│   ├── HtmlParserTool$1.class
│   ├── HtmlParserTool.class
│   ├── HttpConstants.class
│   ├── LinkFilter.class
│   └── PriorityURL.class
├── result
└── src
└── theme
├── CrawlerFrame.java
├── Crawler.java
├── Download.java
├── HtmlParserTool.java
├── HttpConstants.java
├── LinkFilter.java
└── PriorityURL.java

5 directories, 20 files

标签：

实例下载地址