实例介绍
本程序中实现用C#语言获取站点HTML源码,进而生成相应的DOM树 ,为进一步的网页解析提供方便
【实例截图】
【核心代码】
.
├── HTMLParser
│ ├── HTMLParser
│ │ ├── Form1.Designer.cs
│ │ ├── Form1.cs
│ │ ├── Form1.resx
│ │ ├── HTMLParser.csproj
│ │ ├── Program.cs
│ │ ├── Properties
│ │ │ ├── AssemblyInfo.cs
│ │ │ ├── Resources.Designer.cs
│ │ │ ├── Resources.resx
│ │ │ ├── Settings.Designer.cs
│ │ │ └── Settings.settings
│ │ ├── bin
│ │ │ └── Debug
│ │ │ ├── HTMLParser.exe
│ │ │ ├── HTMLParser.pdb
│ │ │ ├── HTMLParser.vshost.exe
│ │ │ ├── Winista.HtmlParser.dll
│ │ │ └── Winista.HtmlParser.pdb
│ │ └── obj
│ │ ├── Debug
│ │ │ ├── HTMLParser.Form1.resources
│ │ │ ├── HTMLParser.Properties.Resources.resources
│ │ │ ├── HTMLParser.csproj.GenerateResource.Cache
│ │ │ ├── HTMLParser.exe
│ │ │ ├── HTMLParser.pdb
│ │ │ ├── Refactor
│ │ │ ├── ResolveAssemblyReference.cache
│ │ │ └── TempPE
│ │ └── HTMLParser.csproj.FileList.txt
│ ├── HTMLParser.sln
│ ├── HTMLParser.suo
│ └── Winista.Htmlparser
│ ├── HtmlParser2003
│ │ ├── AssemblyInfo.cs
│ │ ├── Data
│ │ │ ├── AbstractData.cs
│ │ │ ├── ColumnData.cs
│ │ │ ├── ColumnDataCollection.cs
│ │ │ ├── HeadData.cs
│ │ │ ├── ImageData.cs
│ │ │ ├── ImageDataCollection.cs
│ │ │ ├── LinkData.cs
│ │ │ ├── LinkDataCollection.cs
│ │ │ ├── MetaTagData.cs
│ │ │ ├── MetaTagDataCollection.cs
│ │ │ ├── PageData.cs
│ │ │ ├── RowData.cs
│ │ │ ├── RowDataCollection.cs
│ │ │ ├── TableData.cs
│ │ │ ├── TableDataCollection.cs
│ │ │ └── ~vssc
│ │ ├── Extractors
│ │ │ ├── AbstractExtractor.cs
│ │ │ ├── EmailAddressExtractor.cs
│ │ │ ├── ImageExtractor.cs
│ │ │ ├── ImageLinkExtractor.cs
│ │ │ ├── LinkExtractor.cs
│ │ │ ├── PageExtractor.cs
│ │ │ ├── StringExtractor.cs
│ │ │ ├── TableExtractor.cs
│ │ │ └── ~vssc
│ │ ├── Filters
│ │ │ ├── AndFilter.cs
│ │ │ ├── AttributeRegexFilter.cs
│ │ │ ├── HasAttributeFilter.cs
│ │ │ ├── HasChildFilter.cs
│ │ │ ├── HasParentFilter.cs
│ │ │ ├── HasSiblingFilter.cs
│ │ │ ├── IsEqualFilter.cs
│ │ │ ├── LinkRegexFilter.cs
│ │ │ ├── LinkStringFilter.cs
│ │ │ ├── MailLinkFilter.cs
│ │ │ ├── NodeClassFilter.cs
│ │ │ ├── NotFilter.cs
│ │ │ ├── OrFilter.cs
│ │ │ ├── RegexFilter.cs
│ │ │ ├── StringFilter.cs
│ │ │ ├── TagNameFilter.cs
│ │ │ ├── XorFilter.cs
│ │ │ └── ~vssc
│ │ ├── HtmlParser2003.csproj
│ │ ├── HtmlParser2003.csproj.user
│ │ ├── HtmlParser2003.sln
│ │ ├── HtmlParser2003.suo
│ │ ├── Http
│ │ │ ├── HttpError.cs
│ │ │ ├── HttpProtocol.cs
│ │ │ ├── HttpProtocolContent.cs
│ │ │ ├── HttpProtocolOutput.cs
│ │ │ ├── HttpProtocolStatus.cs
│ │ │ ├── HttpResponseMgr.cs
│ │ │ ├── HttpUtil.cs
│ │ │ ├── ResourceGoneException.cs
│ │ │ ├── RetryLaterException.cs
│ │ │ ├── RobotBlockedException.cs
│ │ │ ├── RobotRulesParser.cs
│ │ │ └── ~vssc
│ │ ├── INode.cs
│ │ ├── INodeFactory.cs
│ │ ├── INodeFilter.cs
│ │ ├── IRemark.cs
│ │ ├── ITag.cs
│ │ ├── IText.cs
│ │ ├── Lex
│ │ │ ├── Cursor.cs
│ │ │ ├── InputStreamSource.cs
│ │ │ ├── Lexer.cs
│ │ │ ├── Page.cs
│ │ │ ├── PageAttribute.cs
│ │ │ ├── PageIndex.cs
│ │ │ ├── ParserStream.cs
│ │ │ ├── Source.cs
│ │ │ ├── StringSource.cs
│ │ │ └── ~vssc
│ │ ├── Lib
│ │ │ └── ICSharpCode.SharpZipLib.dll
│ │ ├── Nodes
│ │ │ ├── AbstractNode.cs
│ │ │ ├── RemarkNode.cs
│ │ │ ├── TagNode.cs
│ │ │ ├── TextNode.cs
│ │ │ └── ~vssc
│ │ ├── Parser.cs
│ │ ├── PrototypicalNodeFactory.cs
│ │ ├── Scanners
│ │ │ ├── CompositeTagScanner.cs
│ │ │ ├── IScanner.cs
│ │ │ ├── JspScanner.cs
│ │ │ ├── ScriptDecoder.cs
│ │ │ ├── ScriptScanner.cs
│ │ │ ├── StyleScanner.cs
│ │ │ ├── TagScanner.cs
│ │ │ └── ~vssc
│ │ ├── Support
│ │ │ ├── HashSetSupport.cs
│ │ │ ├── ICollectionSupport.cs
│ │ │ ├── ISetSupport.cs
│ │ │ ├── SupportMisc.cs
│ │ │ ├── Tokenizer.cs
│ │ │ └── ~vssc
│ │ ├── TagAttribute.cs
│ │ ├── Tags
│ │ │ ├── ATag.cs
│ │ │ ├── AppletTag.cs
│ │ │ ├── BaseHrefTag.cs
│ │ │ ├── BodyTag.cs
│ │ │ ├── Bullet.cs
│ │ │ ├── BulletList.cs
│ │ │ ├── CodeTag.cs
│ │ │ ├── CompositeTag.cs
│ │ │ ├── DefinitionList.cs
│ │ │ ├── DefinitionListBullet.cs
│ │ │ ├── Div.cs
│ │ │ ├── DoctypeTag.cs
│ │ │ ├── FormTag.cs
│ │ │ ├── FrameSetTag.cs
│ │ │ ├── FrameTag.cs
│ │ │ ├── HeadTag.cs
│ │ │ ├── HeadingTag.cs
│ │ │ ├── Html.cs
│ │ │ ├── IFrameTag.cs
│ │ │ ├── ImageTag.cs
│ │ │ ├── InputTag.cs
│ │ │ ├── JspTag.cs
│ │ │ ├── LabelTag.cs
│ │ │ ├── LinkTag.cs
│ │ │ ├── MetaTag.cs
│ │ │ ├── ObjectTag.cs
│ │ │ ├── OptionTag.cs
│ │ │ ├── ParagraphTag.cs
│ │ │ ├── ScriptTag.cs
│ │ │ ├── SelectTag.cs
│ │ │ ├── Span.cs
│ │ │ ├── StyleTag.cs
│ │ │ ├── TableColumn.cs
│ │ │ ├── TableHeader.cs
│ │ │ ├── TableRow.cs
│ │ │ ├── TableTag.cs
│ │ │ ├── TextareaTag.cs
│ │ │ ├── TitleTag.cs
│ │ │ └── ~vssc
│ │ ├── UpgradeLog.XML
│ │ ├── UpgradeLog2.XML
│ │ ├── UpgradeLog3.XML
│ │ ├── Util
│ │ │ ├── ChainedException.cs
│ │ │ ├── CharacterReference.cs
│ │ │ ├── CharacterReferenceEx.cs
│ │ │ ├── ContentProperties.cs
│ │ │ ├── DefaultParserFeedback.cs
│ │ │ ├── EncodingChangeException.cs
│ │ │ ├── FeedbackManager.cs
│ │ │ ├── GZIPUtils.cs
│ │ │ ├── INodeIterator.cs
│ │ │ ├── IParserFeedBack.cs
│ │ │ ├── ISimpleNodeIterator.cs
│ │ │ ├── IteratorImpl.cs
│ │ │ ├── NodeList.cs
│ │ │ ├── ParserConf.cs
│ │ │ ├── ParserException.cs
│ │ │ ├── ParserUtils.cs
│ │ │ ├── Sort
│ │ │ │ ├── IOrdered.cs
│ │ │ │ ├── ISortable.cs
│ │ │ │ ├── SortImpl.cs
│ │ │ │ └── ~vssc
│ │ │ ├── SpecialHashtable.cs
│ │ │ ├── StringUtil.cs
│ │ │ ├── Translate.cs
│ │ │ └── ~vssc
│ │ ├── Visitors
│ │ │ ├── HtmlPage.cs
│ │ │ ├── LinkFindingVisitor.cs
│ │ │ ├── NodeVisitor.cs
│ │ │ ├── TagFindingVisitor.cs
│ │ │ ├── TextExtractingVisitor.cs
│ │ │ ├── UrlModifyingVisitor.cs
│ │ │ └── ~vssc
│ │ ├── _ReSharper.HtmlParser2003
│ │ │ ├── 9b78c89b-1de6-47a6-8f62-4cd7d63089fa.Metadata
│ │ │ └── ReflectionCache.xml
│ │ ├── htmlparser-conf.xsl
│ │ ├── htmlparser-default.xml
│ │ ├── htmlparser-site.xml
│ │ ├── obj
│ │ │ ├── Debug
│ │ │ │ ├── HtmlParser2003.csproj.FileListAbsolute.txt
│ │ │ │ ├── ResolveAssemblyReference.cache
│ │ │ │ ├── TempPE
│ │ │ │ ├── Winista.HtmlParser.dll
│ │ │ │ └── Winista.HtmlParser.pdb
│ │ │ └── HtmlParser2003.csproj.FileList.txt
│ │ └── ~vssc
│ ├── Htmlparser.chm
│ └── bin
└── 好C#获取HTML源码及生成DOM树_HTMLParser.rar
42 directories, 196 files
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论