爬虫教程
Last updated
Was this helpful?
Last updated
Was this helpful?
[TOC]
解析器
使用方法
优势
劣势
Python标准库
BeautifulSoup(markup, "html.parser")
Python的内置标准库 执行速度适中 文档容错能力强
Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器
BeautifulSoup(markup, "lxml")
速度快 文档容错能力强
需要安装C语言库
lxml XML 解析器
BeautifulSoup(markup, ["lxml", "xml"]);BeautifulSoup(markup, "xml")
速度快 唯一支持XML的解析器
需要安装C语言库
html5lib
BeautifulSoup(markup, "html5lib")
最好的容错性;以浏览器的方式解析文档;生成HTML5格式的文档
速度慢;不依赖外部扩展