在好例子网,分享、交流、成长!
您当前所在位置:首页C# 开发实例C#语言基础 → c# 抓取网页html源代码 示例下载

c# 抓取网页html源代码 示例下载

C#语言基础

下载此实例
  • 开发语言:C#
  • 实例大小:7.21KB
  • 下载次数:70
  • 浏览次数:931
  • 发布时间:2014-03-07
  • 实例类别:C#语言基础
  • 发 布 人:wnjnln
  • 文件格式:.cs
  • 所需积分:2
 相关标签: HTML

实例介绍

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using System.Net;

namespace PacksModels
{
    public class HtmlAgilityPackHelper
    {
        public static string getHtml(string url, string charSet)
        {
            string html = QueryHtml(url, charSet);
            while (html == "isExp"||html==null)
            {
                html = QueryHtml(url, charSet);
            }

            return html;
        }

        //获取网页源码
        public static string QueryHtml(string url, string charSet)
        {
            bool isExp = false;

            Byte[] pageData = null;
            XWebClient wc = new XWebClient();
            try
            {
                if (url == null || url.Trim() == "")
                    return null;
                //XWebClient wc = new XWebClient();
                wc.Credentials = CredentialCache.DefaultCredentials;
                wc.Headers["User-Agent"] = "blah";

                //Helpers.WriteLog("下载html资源开始:" url, "Log\\error.log");
                pageData = wc.DownloadData(url);
                //Helpers.WriteLog("下载html资源结束:" url, "Log\\error.log");

            }
            catch (WebException ex)
            {             
                isExp = true;
                if (ex.ToString().Contains("未能解析此远程名称"))
                {
                    Helpers.WriteLog("未能解析此远程名称,请检查网络,正在重试下载此资源...:" DateTime.Now.ToString() ":" url, "Log\\error.log");
                }
                else if (ex.ToString().Contains("操作超时") || ex.ToString().Contains("操作已超时"))
                {
                    Helpers.WriteLog("操作超时,请检查资源请求频率,正在重试下载此资源...:" DateTime.Now.ToString() ":" url, "Log\\error.log");
                }
                else
                {
                    Helpers.WriteLog("发送请求期间异常,请检查网络:" DateTime.Now.ToString() ":" ex.ToString(), "Log\\error.log");
                }
                //释放资源
                wc.Dispose();
                Helpers.WriteLog("释放资源等1分钟重试:" DateTime.Now.ToString() ":" url, "Log\\error.log");//
                System.Threading.Thread.Sleep(60000); //延时30秒
                Helpers.WriteLog("开始重试:" DateTime.Now.ToString() ":" url, "Log\\error.log");//
            }
            if (pageData == null)
            {
                return null;
            }
            else if (isExp)
            {
                return "isExp";
            }

            string charset = "";
            var r_utf8 = new System.IO.StreamReader(new System.IO.MemoryStream(pageData), Encoding.UTF8); //将html放到utf8编码的StreamReader内
            var r_gbk = new System.IO.StreamReader(new System.IO.MemoryStream(pageData), Encoding.Default); //将html放到gbk编码的StreamReader内
            var t_utf8 = r_utf8.ReadToEnd(); //读出html内容
            var t_gbk = r_gbk.ReadToEnd(); //读出html内容

            bool aa = isLuan(t_utf8);
            bool bb = isLuan(t_gbk);

            bool aa1 = isLuan1(t_utf8);
            bool bb1 = isLuan1(t_gbk);

            if (!isLuan(t_utf8)) //判断utf8是否有乱码
            {
                charset = "utf-8";
            }
            else
            {
                charset = "gbk";
            }

            //System.Threading.Thread.Sleep(60000); //延时1分钟

            return Encoding.GetEncoding(charset).GetString(pageData);
        }


        /// <summary>
        /// 判断是否有乱码
        /// </summary>
        /// <param name="txt">需判断的文本</param>
        /// <returns></returns>
        private static bool isLuan(string txt)
        {
            var bytes = Encoding.UTF8.GetBytes(txt);
            //239 191 189
            for (var i = 0; i < bytes.Length; i )
            {
                if (i < bytes.Length - 3)
                    if (bytes[i] == 239 && bytes[i 1] == 191 && bytes[i 2] == 189)
                    {
                        return true;
                    }
            }
            return false;
        }


        private static bool isLuan1 (string txt)
        {
            var bytes = Encoding.ASCII.GetBytes(txt);
            //239 191 189
            for (var i = 0; i < bytes.Length; i )
            {
                //if (i < bytes.Length - 3)
                //    if (bytes[i] == 239 && bytes[i 1] == 191 && bytes[i 2] == 189)
                //    {
                //        return true;
                //    }

                if (bytes[i]>255)
                {
                    return true;
                }
            }
            return false;
        }


        /**///// <summary>
        /// 判断句子中是否含有中文
        /// </summary>
        /// <param >字符串</param>
        private static bool WordsIScn(string words)
        {
            string TmmP;
            for (int i = 0; i < words.Length; i )
            {
                TmmP = words.Substring(i, 1);
                byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetBytes(TmmP);
                if (sarr.Length == 2)
                {
                    return true;
                }
            }
            return false;
        }



        /// <summary>
        /// 获得html代码块的节点集合
        /// </summary>
        /// <param name="url"></param>
        /// <param name="xpath"></param>
        /// <returns></returns>
        public static HtmlNodeCollection GetHtmlNodes(string url, string xpath)
        {
            HtmlNodeCollection navNodes = null;
            try
            {
                //获取html源码
                string htmlStr = getHtml(url.Trim(), "");
                //实例化HtmlAgilityPack.HtmlDocument对象
                HtmlDocument doc = new HtmlDocument();
                //载入HTML
                doc.LoadHtml(htmlStr);

                //根据Xpath节点NODE的ID获取节点集
                navNodes = doc.DocumentNode.SelectNodes(xpath);
            }
            catch (Exception ex)
            {
                Helpers.WriteLog("获取节点集异常:" ex.ToString() ":" url, "Log\\error.log");
            }
            return navNodes;
        }

        /// <summary>
        /// 获得html代码的节点
        /// </summary>
        /// <param name="url"></param>
        /// <param name="xpath"></param>
        /// <returns></returns>
        public static HtmlNode GetNode(HtmlDocument doc, string xpath)
        {
            //根据节点
            HtmlNode navNode = null;
            try
            {
                navNode = doc.DocumentNode.SelectSingleNode(xpath);
            }
            catch (Exception ex)
            {
                Helpers.WriteLog("获取单节点异常:" ex.ToString(), "Log\\error.log");
            }
            return navNode;
        }








    }
}


标签: HTML

实例下载地址

c# 抓取网页html源代码 示例下载

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警