HTML解析器对比
维基媒体列表条目 / 维基百科,自由的 encyclopedia
解析HTML是一项自动化工作,由(所谓的)HTML解析器执行。它们有两个主要目的:
More information 解析器, 许可证 ...
Close
- * (有重要更新的)最新版本日期。
- ** 规范(生成标准兼容的网页,减少垃圾信息,等)和清理(剥离过剩的表达标签,移除XSS代码,等)HTML代码。
- *** 将HTML4.X升级到XHTML或HTML5,将废弃的标签(如CENTER)转换为有效的标签(如带有style="text-align:center;"的DIV)。
参考资料
- 12.2 解析HTML文档——HTML标准 (页面存档备份,存于互联网档案馆)(英文)
- 基于lxml和html5lib,http://www.crummy.com/software/BeautifulSoup/(英文) (页面存档备份,存于互联网档案馆)
- Windows的HTML Tidy (页面存档备份,存于互联网档案馆)(英文)
- Tidy解析器举例:PHP的class.tidynode (页面存档备份,存于互联网档案馆)(英文)
- HtmlCleaner以BSD许可证分发 (页面存档备份,存于互联网档案馆)(英文)
- jsoup Java HTML Parser, with best of DOM, CSS, and jquery. jsoup.org. [2019-09-22]. (原始内容存档于2019-09-27).
- NekoHTML | 变更历史 (页面存档备份,存于互联网档案馆)(英文)
此条目或章节需要时常更新。有关事物或许会随著时间而有所变化。 |