实例介绍
本系统主要是对在淘宝网、京东网和亚马逊网三大购物网站中的相同产品的信息进行抽取。本系统的重点是实现使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,最后以Web页面形式呈现出来。本系统的难点是使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,结构化抽取的数据和信息。 使用到的技术:JSP技术,网络爬虫技术,HTML解析技术Jsoup等。 本系统是使用JAVA编写的B/S模式系统,没有用到数据库,开发工具用的是IntelliJ IDEA 13,你也可以使用其它工具(像MyEclipse等),但需要手动将类复制到你创建的项目中。内部包含源码和系统文档。其中代
【实例截图】
【核心代码】
_在线产品即时比价系统
├── 1001110730_张水荣_在线产品即时比价系统.doc
└── OPPCS
├── OPPCS.iml
├── out
│ ├── artifacts
│ │ └── OPPCS_war_exploded
│ │ ├── css
│ │ │ ├── bdindex_min_2ba8ff57.css
│ │ │ ├── bdsupercube_b515faf4.css
│ │ │ ├── detailPage.css
│ │ │ ├── header.css
│ │ │ ├── index.css
│ │ │ ├── jdbase.css
│ │ │ ├── jdpop_compare.css
│ │ │ ├── jdpsearch20130409.css
│ │ │ ├── main.css
│ │ │ └── page.css
│ │ ├── index.html
│ │ ├── js
│ │ │ ├── include.js
│ │ │ ├── jquery-1.8.2.js
│ │ │ ├── search.js
│ │ │ └── sellerFilter.js
│ │ ├── search.jsp
│ │ └── WEB-INF
│ │ ├── classes
│ │ │ ├── infoData
│ │ │ │ ├── ItemInfo.class
│ │ │ │ ├── PageInfoData.class
│ │ │ │ ├── ProdInfo.class
│ │ │ │ └── RequestData.class
│ │ │ ├── myFilter
│ │ │ │ ├── MyFilter2StrEND_1times.class
│ │ │ │ ├── MyFilterEND_1times.class
│ │ │ │ ├── MyFilterEND.class
│ │ │ │ ├── MyFilterSTART_1times.class
│ │ │ │ └── MyFilterSTART.class
│ │ │ ├── myParser
│ │ │ │ ├── MyParser.class
│ │ │ │ └── StrongTag.class
│ │ │ ├── mytest
│ │ │ │ ├── HttpClientDemo.class
│ │ │ │ ├── JsoupDemo.class
│ │ │ │ ├── MyTest.class
│ │ │ │ └── SimilarityClac.class
│ │ │ ├── myUtils
│ │ │ │ ├── CommonUtil.class
│ │ │ │ └── SimilarityUtil.class
│ │ │ └── myWebSpider
│ │ │ ├── amazonSpider
│ │ │ │ └── AZItemInfoList.class
│ │ │ ├── GetItemFromWeb.class
│ │ │ ├── InfoGetRunnable.class
│ │ │ ├── ItemInfoListInterface.class
│ │ │ ├── jdSpider
│ │ │ │ └── JDItemInfoList.class
│ │ │ ├── MyHtmlParser.class
│ │ │ └── taobaoSpider
│ │ │ └── TaobaoItemInfoList.class
│ │ ├── lib
│ │ │ ├── commons-codec-1.6.jar
│ │ │ ├── commons-logging-1.1.3.jar
│ │ │ ├── filterbuilder.jar
│ │ │ ├── fluent-hc-4.3.2.jar
│ │ │ ├── htmllexer.jar
│ │ │ ├── htmlparser.jar
│ │ │ ├── httpclient-4.3.2.jar
│ │ │ ├── httpclient-cache-4.3.2.jar
│ │ │ ├── httpcore-4.3.1.jar
│ │ │ ├── httpmime-4.3.2.jar
│ │ │ ├── json.jar
│ │ │ ├── jsoup-1.7.3.jar
│ │ │ ├── junit.jar
│ │ │ ├── sax2.jar
│ │ │ ├── sitecapturer.jar
│ │ │ └── thumbelina.jar
│ │ └── web.xml
│ └── production
│ └── OPPCS
│ ├── infoData
│ │ ├── ItemInfo.class
│ │ ├── PageInfoData.class
│ │ ├── ProdInfo.class
│ │ └── RequestData.class
│ ├── myFilter
│ │ ├── MyFilter2StrEND_1times.class
│ │ ├── MyFilterEND_1times.class
│ │ ├── MyFilterEND.class
│ │ ├── MyFilterSTART_1times.class
│ │ └── MyFilterSTART.class
│ ├── myParser
│ │ ├── MyParser.class
│ │ └── StrongTag.class
│ ├── mytest
│ │ ├── HttpClientDemo.class
│ │ ├── JsoupDemo.class
│ │ ├── MyTest.class
│ │ └── SimilarityClac.class
│ ├── myUtils
│ │ ├── CommonUtil.class
│ │ └── SimilarityUtil.class
│ └── myWebSpider
│ ├── amazonSpider
│ │ └── AZItemInfoList.class
│ ├── GetItemFromWeb.class
│ ├── InfoGetRunnable.class
│ ├── ItemInfoListInterface.class
│ ├── jdSpider
│ │ └── JDItemInfoList.class
│ ├── MyHtmlParser.class
│ └── taobaoSpider
│ └── TaobaoItemInfoList.class
├── src
│ ├── infoData
│ │ ├── ItemInfo.java
│ │ ├── PageInfoData.java
│ │ └── RequestData.java
│ ├── mytest
│ │ ├── JsoupDemo.java
│ │ └── SimilarityClac.java
│ ├── myUtils
│ │ ├── CommonUtil.java
│ │ └── SimilarityUtil.java
│ └── myWebSpider
│ ├── amazonSpider
│ │ └── AZItemInfoList.java
│ ├── GetItemFromWeb.java
│ ├── InfoGetRunnable.java
│ ├── ItemInfoListInterface.java
│ ├── jdSpider
│ │ └── JDItemInfoList.java
│ └── taobaoSpider
│ └── TaobaoItemInfoList.java
└── web
├── css
│ ├── bdindex_min_2ba8ff57.css
│ ├── bdsupercube_b515faf4.css
│ ├── detailPage.css
│ ├── header.css
│ ├── index.css
│ ├── jdbase.css
│ ├── jdpop_compare.css
│ ├── jdpsearch20130409.css
│ ├── main.css
│ └── page.css
├── index.html
├── js
│ ├── include.js
│ ├── jquery-1.8.2.js
│ └── search.js
├── search.jsp
└── WEB-INF
├── lib
│ ├── json.jar
│ └── jsoup-1.7.3.jar
└── web.xml
42 directories, 114 files
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论