实例介绍
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using HtmlAgilityPack;
using System.Net;
namespace PacksModels
{
public class HtmlAgilityPackHelper
{
public static string getHtml(string url, string charSet)
{
string html = QueryHtml(url, charSet);
while (html == "isExp"||html==null)
{
html = QueryHtml(url, charSet);
}
return html;
}
//获取网页源码
public static string QueryHtml(string url, string charSet)
{
bool isExp = false;
Byte[] pageData = null;
XWebClient wc = new XWebClient();
try
{
if (url == null || url.Trim() == "")
return null;
//XWebClient wc = new XWebClient();
wc.Credentials = CredentialCache.DefaultCredentials;
wc.Headers["User-Agent"] = "blah";
//Helpers.WriteLog("下载html资源开始:" url, "Log\\error.log");
pageData = wc.DownloadData(url);
//Helpers.WriteLog("下载html资源结束:" url, "Log\\error.log");
}
catch (WebException ex)
{
isExp = true;
if (ex.ToString().Contains("未能解析此远程名称"))
{
Helpers.WriteLog("未能解析此远程名称,请检查网络,正在重试下载此资源...:" DateTime.Now.ToString() ":" url, "Log\\error.log");
}
else if (ex.ToString().Contains("操作超时") || ex.ToString().Contains("操作已超时"))
{
Helpers.WriteLog("操作超时,请检查资源请求频率,正在重试下载此资源...:" DateTime.Now.ToString() ":" url, "Log\\error.log");
}
else
{
Helpers.WriteLog("发送请求期间异常,请检查网络:" DateTime.Now.ToString() ":" ex.ToString(), "Log\\error.log");
}
//释放资源
wc.Dispose();
Helpers.WriteLog("释放资源等1分钟重试:" DateTime.Now.ToString() ":" url, "Log\\error.log");//
System.Threading.Thread.Sleep(60000); //延时30秒
Helpers.WriteLog("开始重试:" DateTime.Now.ToString() ":" url, "Log\\error.log");//
}
if (pageData == null)
{
return null;
}
else if (isExp)
{
return "isExp";
}
string charset = "";
var r_utf8 = new System.IO.StreamReader(new System.IO.MemoryStream(pageData), Encoding.UTF8); //将html放到utf8编码的StreamReader内
var r_gbk = new System.IO.StreamReader(new System.IO.MemoryStream(pageData), Encoding.Default); //将html放到gbk编码的StreamReader内
var t_utf8 = r_utf8.ReadToEnd(); //读出html内容
var t_gbk = r_gbk.ReadToEnd(); //读出html内容
bool aa = isLuan(t_utf8);
bool bb = isLuan(t_gbk);
bool aa1 = isLuan1(t_utf8);
bool bb1 = isLuan1(t_gbk);
if (!isLuan(t_utf8)) //判断utf8是否有乱码
{
charset = "utf-8";
}
else
{
charset = "gbk";
}
//System.Threading.Thread.Sleep(60000); //延时1分钟
return Encoding.GetEncoding(charset).GetString(pageData);
}
/// <summary>
/// 判断是否有乱码
/// </summary>
/// <param name="txt">需判断的文本</param>
/// <returns></returns>
private static bool isLuan(string txt)
{
var bytes = Encoding.UTF8.GetBytes(txt);
//239 191 189
for (var i = 0; i < bytes.Length; i )
{
if (i < bytes.Length - 3)
if (bytes[i] == 239 && bytes[i 1] == 191 && bytes[i 2] == 189)
{
return true;
}
}
return false;
}
private static bool isLuan1 (string txt)
{
var bytes = Encoding.ASCII.GetBytes(txt);
//239 191 189
for (var i = 0; i < bytes.Length; i )
{
//if (i < bytes.Length - 3)
// if (bytes[i] == 239 && bytes[i 1] == 191 && bytes[i 2] == 189)
// {
// return true;
// }
if (bytes[i]>255)
{
return true;
}
}
return false;
}
/**///// <summary>
/// 判断句子中是否含有中文
/// </summary>
/// <param >字符串</param>
private static bool WordsIScn(string words)
{
string TmmP;
for (int i = 0; i < words.Length; i )
{
TmmP = words.Substring(i, 1);
byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetBytes(TmmP);
if (sarr.Length == 2)
{
return true;
}
}
return false;
}
/// <summary>
/// 获得html代码块的节点集合
/// </summary>
/// <param name="url"></param>
/// <param name="xpath"></param>
/// <returns></returns>
public static HtmlNodeCollection GetHtmlNodes(string url, string xpath)
{
HtmlNodeCollection navNodes = null;
try
{
//获取html源码
string htmlStr = getHtml(url.Trim(), "");
//实例化HtmlAgilityPack.HtmlDocument对象
HtmlDocument doc = new HtmlDocument();
//载入HTML
doc.LoadHtml(htmlStr);
//根据Xpath节点NODE的ID获取节点集
navNodes = doc.DocumentNode.SelectNodes(xpath);
}
catch (Exception ex)
{
Helpers.WriteLog("获取节点集异常:" ex.ToString() ":" url, "Log\\error.log");
}
return navNodes;
}
/// <summary>
/// 获得html代码的节点
/// </summary>
/// <param name="url"></param>
/// <param name="xpath"></param>
/// <returns></returns>
public static HtmlNode GetNode(HtmlDocument doc, string xpath)
{
//根据节点
HtmlNode navNode = null;
try
{
navNode = doc.DocumentNode.SelectSingleNode(xpath);
}
catch (Exception ex)
{
Helpers.WriteLog("获取单节点异常:" ex.ToString(), "Log\\error.log");
}
return navNode;
}
}
}
标签: HTML
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论